このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240916となっている論文です。

PDF登録状況(公開日: 20240916)

TitleAuthorsAbstract論文公表日・翻訳日
# ソーシャルネットワークにおける共有効果の簡易推定モデル

A Simple Model to Estimate Sharing Effects in Social Networks ( http://arxiv.org/abs/2409.12203v1 )

ライセンス: Link先を確認
Olivier Jeunen, (参考訳) ランダム化比較試験(Randomized Controlled Trials、RCT)は、多くの科学分野における治療効果を推定するための金の標準である。 技術系企業は現代のRCTの手法としてA/Bテスト手法を採用しており、エンドユーザーをランダムに様々なシステムに割り当て、ユーザの振る舞いを継続的に追跡している。 その目的は、治療の変種がビジネスに対する特定の関心の指標に持つ因果効果を見積もることである。 この場合、ランダム化ユニット(この場合のエンドユーザー)の結果が統計的に独立していない場合、これは治療効果の識別可能性を曖昧にし、意思決定者のシステム観測可能性を傷つける。 ソーシャルネットワークは、ユーザ間のインタラクションを促進するように設計されているため、これを実証している。 この設計による干渉は、例えば共有の効果の測定を複雑にすることで知られる。 本研究では,シンプルなマルコフ決定プロセス(MDP)に基づくソーシャルネットワークにおけるユーザ共有行動を記述するモデルを提案する。 本モデルでは, 治療効果の偏りのない推定器を導出し, 再現性のある合成実験により, 既存の方法よりも有意差で優れることを示した。

Randomised Controlled Trials (RCTs) are the gold standard for estimating treatment effects across many fields of science. Technology companies have adopted A/B-testing methods as a modern RCT counterpart, where end-users are randomly assigned various system variants and user behaviour is tracked continuously. The objective is then to estimate the causal effect that the treatment variant would have on certain metrics of interest to the business. When the outcomes for randomisation units -- end-users in this case -- are not statistically independent, this obfuscates identifiability of treatment effects, and harms decision-makers' observability of the system. Social networks exemplify this, as they are designed to promote inter-user interactions. This interference by design notoriously complicates measurement of, e.g., the effects of sharing. In this work, we propose a simple Markov Decision Process (MDP)-based model describing user sharing behaviour in social networks. We derive an unbiased estimator for treatment effects under this model, and demonstrate through reproducible synthetic experiments that it outperforms existing methods by a significant margin.
翻訳日:2024-11-07 15:49:40 公開日:2024-09-16
# シミュラシオン・デ・ラ・ディストリブシオン・デ・アリメント(Simulación de la Distribución de Alimento en el cultivo de camarón)

Simulación de la distribución de alimento en el cultivo de camarón ( http://arxiv.org/abs/2409.13759v1 )

ライセンス: Link先を確認
Renato L. Conforme Rosado, Francisco C. Calderon Bocanegra, (参考訳) 本報告では,エビ養殖用食品の分布実験について述べる。 配信は自動給餌機の位置に基づいて行われる。 実際に適用された3例と、作物に同時に均一に食品を灌水する4例である。 第1段階では,エビ成長曲線の傾向が履歴データ曲線と相関する3つの分布ケースのシミュレーションを現実に合わせることに成功している。 食品の量、バイオマスの密度、食品の分布に基づく16の構成で実験する第2段階。 シミュレーションでは、シミュレーション環境における物理化学的パラメータの品質に対する意思決定のためのエージェント評価手法として、遺伝的アルゴリズムの概念を採用し、人口とファジィ論理を改善した。 これらの相互作用の結果,22週から14週間の模擬培養時間短縮効果が認められた。

This document presents the experimentation of 4 cases of food distribution for shrimp farming. The distributions are based on the location of the automatic feeders. Three cases applied in reality and a fourth case where the food is irrigated on the crop simultaneously and uniformly. In a first stage, the simulation of the three distribution cases is successfully adjusted to reality, where the trend of the shrimp growth curve is correlated with the historical data curve. A second stage where you experiment in 16 configurations that are based on the amount of food, the density of biomass and the distribution of the food. The simulation adopts the concepts of genetic algorithms to improve the population and fuzzy logic as an agent evaluation technique for decision-making against the quality of physical-chemical parameters in the simulated environment. The results of these interactions reveal a reduction in the simulated total culture time from 22 weeks to 14 weeks.
翻訳日:2024-11-07 05:24:17 公開日:2024-09-16
# 人間の意図と嗜好を考慮したロボットナビゲーション行動の調整

Aligning Robot Navigation Behaviors with Human Intentions and Preferences ( http://arxiv.org/abs/2409.18982v1 )

ライセンス: Link先を確認
Haresh Karnan, (参考訳) 機械学習の分野での最近の進歩は、移動ロボットが高度なナビゲーション能力を獲得する新しい方法につながっている。 しかし、これらの学習に基づく手法は、学習したナビゲーション行動が人々の意図や嗜好と一致しない可能性を高める。 このリスクを軽減するために、この論文は「自律移動ロボットのナビゲーション行動と人間の意図と嗜好を協調させるために、どのように機械学習手法を使えるのか? まず,本論文では,意図したナビゲーションタスクの人間による実演を模倣することで,ナビゲーション行動の学習に新たなアプローチを導入することで,この問題に対処する。 この貢献により、移動ロボットは、人間のナビゲーション目標と整合し、不適応を罰する新しい客観的機能を使用して、模倣を通じて自律的な視覚ナビゲーション能力を取得することができる。 第二に、この論文は、視覚的な地形認識を自己監督的に学習することで、移動ロボットの地形認識オフロードナビゲーションを強化する2つのアルゴリズムを導入している。 この貢献により、移動ロボットは、都市屋外環境における異なる地形をナビゲートする人間の好みを尊重し、マルチモーダル表現を活用することで、視覚的に新しい地形にこれらの嗜好を外挿することができる。 最後に、人間占領環境におけるロボットナビゲーションの文脈において、この論文は、屋内環境と屋外環境の両方において、社会に適合した方法でロボットナビゲーションのためのデータセットとアルゴリズムを導入する。 要約すると、この論文のコントリビューションは、自律ナビゲーションにおける価値アライメントの問題に対処するための重要なステップを踏襲している。

Recent advances in the field of machine learning have led to new ways for mobile robots to acquire advanced navigational capabilities. However, these learning-based methods raise the possibility that learned navigation behaviors may not align with the intentions and preferences of people, a problem known as value misalignment. To mitigate this risk, this dissertation aims to answer the question: "How can we use machine learning methods to align the navigational behaviors of autonomous mobile robots with human intentions and preferences?" First, this dissertation addresses this question by introducing a new approach to learning navigation behaviors by imitating human-provided demonstrations of the intended navigation task. This contribution allows mobile robots to acquire autonomous visual navigation capabilities through imitation, using a novel objective function that encourages the agent to align with the human's navigation objectives and penalizes misalignment. Second, this dissertation introduces two algorithms to enhance terrain-aware off-road navigation for mobile robots by learning visual terrain awareness in a self-supervised manner. This contribution enables mobile robots to respect a human operator's preferences for navigating different terrains in urban outdoor environments, while extrapolating these preferences to visually novel terrains by leveraging multi-modal representations. Finally, in the context of robot navigation in human-occupied environments, this dissertation introduces a dataset and an algorithm for robot navigation in a socially compliant manner in both indoor and outdoor environments. In summary, the contributions in this dissertation take significant steps toward addressing the value alignment problem in autonomous navigation, enabling mobile robots to navigate autonomously with objectives that align with human intentions and preferences.
翻訳日:2024-11-06 05:10:43 公開日:2024-09-16
# 大規模言語モデルのハーネス化:自然言語におけるカオス的リーダーシップ戦術検出のための細調整BERT

Harnessing Large Language Models: Fine-tuned BERT for Detecting Charismatic Leadership Tactics in Natural Language ( http://arxiv.org/abs/2409.18984v1 )

ライセンス: Link先を確認
Yasser Saeid, Felix Neubürger, Stefanie Krügl, Helena Hüster, Thomas Kopinski, Ralf Lanwehr, (参考訳) 本研究では,変換器(BERT)モデルを用いた微調整双方向エンコーダ表現を用いて,自然言語におけるCLT(Charismatic Leadership Tactics)の同定について検討する。 このタスクのために作成、キュレートされた独自のCLTのコーパスに基づいて、自然言語におけるこれらの戦術の存在を正確に識別できる機械学習モデルを訓練する。 CLTの検出におけるモデルの有効性を評価するため,性能評価を行った。 CLTの総検出精度は98.96 %であることが判明した。本研究の結果は心理学とマネジメントの研究に重大な影響を及ぼし、現在テキスト中のカリスマの精巧な評価を単純化するための潜在的方法を提供する。

This work investigates the identification of Charismatic Leadership Tactics (CLTs) in natural language using a fine-tuned Bidirectional Encoder Representations from Transformers (BERT) model. Based on an own extensive corpus of CLTs generated and curated for this task, our methodology entails training a machine learning model that is capable of accurately identifying the presence of these tactics in natural language. A performance evaluation is conducted to assess the effectiveness of our model in detecting CLTs. We find that the total accuracy over the detection of all CLTs is 98.96\% The results of this study have significant implications for research in psychology and management, offering potential methods to simplify the currently elaborate assessment of charisma in texts.
翻訳日:2024-11-06 05:10:43 公開日:2024-09-16
# Lab-AI -- 臨床医学におけるパーソナライズされたラボテスト解釈のための検索言語モデル

Lab-AI -- Retrieval-Augmented Language Model for Personalized Lab Test Interpretation in Clinical Medicine ( http://arxiv.org/abs/2409.18986v1 )

ライセンス: Link先を確認
Xiaoyu Wang, Haoyong Ouyang, Balu Bhasuran, Xiao Luo, Karim Hanna, Mia Liza A. Lustria, Zhe He, (参考訳) 検査結果の正確な解釈は臨床医学において重要であるが、ほとんどの患者ポータルは、年齢や性別などの要因を無視し、普遍的な正常な範囲を使用している。 本研究では,レトリーバル拡張世代(RAG)を信頼度の高い健康源から利用して,パーソナライズされた正常範囲を提供する対話型システムであるLab-AIを紹介する。 Lab-AIには2つのモジュールがある。 条件因子が68例, 条件因子が38例であった。 因子による検査では、正常な範囲は患者固有の情報に依存する。 GPT-4-turbo with RAGが0.95F1スコア, 0.993精度を達成した。 GPT-4-turboはRAGよりも29.1%向上し、正常範囲検索では60.9%と52.9%の改善が見られた。 これらの結果から, 検査結果の理解を深めるLab-AIの可能性が示唆された。

Accurate interpretation of lab results is crucial in clinical medicine, yet most patient portals use universal normal ranges, ignoring factors like age and gender. This study introduces Lab-AI, an interactive system that offers personalized normal ranges using Retrieval-Augmented Generation (RAG) from credible health sources. Lab-AI has two modules: factor retrieval and normal range retrieval. We tested these on 68 lab tests-30 with conditional factors and 38 without. For tests with factors, normal ranges depend on patient-specific information. Our results show that GPT-4-turbo with RAG achieved a 0.95 F1 score for factor retrieval and 0.993 accuracy for normal range retrieval. GPT-4-turbo with RAG outperformed the best non-RAG system by 29.1% in factor retrieval and showed 60.9% and 52.9% improvements in question-level and lab-level performance, respectively, for normal range retrieval. These findings highlight Lab-AI's potential to enhance patient understanding of lab results.
翻訳日:2024-11-06 05:10:43 公開日:2024-09-16
# TREB: BERT による表型データ計算の試み

TREB: a BERT attempt for imputing tabular data imputation ( http://arxiv.org/abs/2410.00022v1 )

ライセンス: Link先を確認
Shuyue Wang, Wenjun Zhou, Han drk-m-s Jiang, Shuo Wang, Ren Zheng, (参考訳) BERTを利用した新しい表計算フレームワークであるTREBは、表データの欠落値を扱うための画期的なアプローチを導入している。 特定の計算要求を無視する伝統的な手法とは異なり、TREBはBERTの堅牢な能力を活用して、この重要な課題に対処する。 多くのBERTベースのグラフデータに対するアプローチが出現しているが、言語モデルの潜在能力を過小評価することが多い。 これを修正するため、TREBはBERTベースのモデルを採用し、表付きデータセットで実数値の連続数を計算するためのタスクに特化している。 この論文は、コンテキストベースの相互接続の重要性を強調し、表形式のデータ計算によって引き起こされるユニークな課題を包括的に解決する。 TREBの有効性は、カリフォルニア・ハウジング・データセットを用いて厳密な評価によって検証される。 その結果,特徴相互関係を保ち,欠落した値を正確に解釈する能力を示した。 さらに, TREBの計算効率と環境影響に光を当て, トレーニングおよび展開に伴う浮動小数点演算(FLOP)と炭素フットプリントの定量化を行った。

TREB, a novel tabular imputation framework utilizing BERT, introduces a groundbreaking approach for handling missing values in tabular data. Unlike traditional methods that often overlook the specific demands of imputation, TREB leverages the robust capabilities of BERT to address this critical task. While many BERT-based approaches for tabular data have emerged, they frequently under-utilize the language model's full potential. To rectify this, TREB employs a BERT-based model fine-tuned specifically for the task of imputing real-valued continuous numbers in tabular datasets. The paper comprehensively addresses the unique challenges posed by tabular data imputation, emphasizing the importance of context-based interconnections. The effectiveness of TREB is validated through rigorous evaluation using the California Housing dataset. The results demonstrate its ability to preserve feature interrelationships and accurately impute missing values. Moreover, the authors shed light on the computational efficiency and environmental impact of TREB, quantifying the floating-point operations (FLOPs) and carbon footprint associated with its training and deployment.
翻訳日:2024-11-05 15:29:12 公開日:2024-09-16
# 話者ダイアリゼーションのためのセルフチューニングスペクトルクラスタリング

Self-Tuning Spectral Clustering for Speaker Diarization ( http://arxiv.org/abs/2410.00023v1 )

ライセンス: Link先を確認
Nikhil Raghav, Avisek Gupta, Md Sahidullah, Swagatam Das, (参考訳) スペクトルクラスタリングは話者ダイアリゼーションタスクの音声表現をグループ化するのに有効であることが証明されている。 本研究では,p近傍の親和性マトリクス(SC-pNA)上に,疎親和性マトリクス(emph{spectral clustering)と呼ばれる疎親和性マトリクス(sparse affinity matrix)を作成する新しいプルーニングアルゴリズムを提案する。 提案手法は,隣接変数の可変数を許容し,親和性行列から直接プルーニングパラメータを導出する外部チューニングデータを不要にすることで,ノード固有の固定近傍選択を改善する。 SC-pNAは初期親和性行列の各行に2つのクラスタを識別し、より大きな類似性を含むクラスタの上位$p\%$類似性スコアのみを保持する。 その後、スペクトルクラスタリングが行われ、最大固有ギャップとして決定されるクラスタの数が決定される。 挑戦的なDIHARD-IIIデータセットの実験結果は、既存の自動チューニング手法よりも計算効率が高いSC-pNAの優位性を強調している。

Spectral clustering has proven effective in grouping speech representations for speaker diarization tasks, although post-processing the affinity matrix remains difficult due to the need for careful tuning before constructing the Laplacian. In this study, we present a novel pruning algorithm to create a sparse affinity matrix called \emph{spectral clustering on p-neighborhood retained affinity matrix} (SC-pNA). Our method improves on node-specific fixed neighbor selection by allowing a variable number of neighbors, eliminating the need for external tuning data as the pruning parameters are derived directly from the affinity matrix. SC-pNA does so by identifying two clusters in every row of the initial affinity matrix, and retains only the top $p\%$ similarity scores from the cluster containing larger similarities. Spectral clustering is performed subsequently, with the number of clusters determined as the maximum eigengap. Experimental results on the challenging DIHARD-III dataset highlight the superiority of SC-pNA, which is also computationally more efficient than existing auto-tuning approaches.
翻訳日:2024-11-05 15:29:12 公開日:2024-09-16
# 株式市場トレンド予測のための言語間ニュースイベント相関

Cross-Lingual News Event Correlation for Stock Market Trend Prediction ( http://arxiv.org/abs/2410.00024v1 )

ライセンス: Link先を確認
Sahar Arshad, Nikhar Azhar, Sana Sajid, Seemab Latif, Rabia Latif, (参考訳) 現代経済の状況では、金融サービスと金融技術(FinTech)の統合は、特に株価動向分析において欠かせないものとなっている。 本研究は、構造化された金融データセットを作成し、総合的な金融分析のための自然言語に基づく金融予測(NLFF)パイプラインを提案することにより、多様なグローバル経済における金融動態の理解のギャップを解消するものである。 本研究では、感情分析、名前付きエンティティ認識(NER)、意味的テキスト類似性を利用して、ニュース記事の分析を行い、財務事象の時系列を抽出、地図化、可視化し、ニュースイベントと株式市場の動向の相関関係を明らかにする。 本手法は,パキスタン証券取引所の2つの主要分野の2年間にわたる横断的なニュースデータを処理し,株価変動と言語間ニュース感情との間に有意な相関関係を示した。 この研究は、重要な出来事に関する重要な洞察を提供し、効果的な視覚化と最適な投資機会を提供することにより、投資家にとって実質的な意思決定マージンを確保する。

In the modern economic landscape, integrating financial services with Financial Technology (FinTech) has become essential, particularly in stock trend analysis. This study addresses the gap in comprehending financial dynamics across diverse global economies by creating a structured financial dataset and proposing a cross-lingual Natural Language-based Financial Forecasting (NLFF) pipeline for comprehensive financial analysis. Utilizing sentiment analysis, Named Entity Recognition (NER), and semantic textual similarity, we conducted an analytical examination of news articles to extract, map, and visualize financial event timelines, uncovering the correlation between news events and stock market trends. Our method demonstrated a meaningful correlation between stock price movements and cross-linguistic news sentiments, validated by processing two-year cross-lingual news data on two prominent sectors of the Pakistan Stock Exchange. This study offers significant insights into key events, ensuring a substantial decision margin for investors through effective visualization and providing optimal investment opportunities.
翻訳日:2024-11-05 15:29:12 公開日:2024-09-16
# 臭気球の極付近に緩やかに収束する配向ミキサーを有する温暖化QAOA

Warm-Started QAOA with Aligned Mixers Converges Slowly Near the Poles of the Bloch Sphere ( http://arxiv.org/abs/2410.00027v1 )

ライセンス: Link先を確認
Reuben Tate, Stephan Eidenbenz, (参考訳) 組合せ最適化の問題を解決するために量子近似最適化アルゴリズム(QAOA)の性能を高めるために、研究者は古典的なアルゴリズムから返された解を利用して、良い」解に偏ったQAOAの温かい開始量子初期状態を生成する。 Cain et al は、古典的に観測された解がブロッホ球面の極に写像されると、標準ミキサーを持つバニラ QAOA が「立ち往生している」ことを示した。 古典的に観測された解が、ブロッホ球の極からある角度$\theta$ にマッピングされ、初期積状態が生成されると、最適変動パラメータを持つ QAOA は、ミキサーがウォームスタート初期状態と「整合」するように修正された場合、回路深さが増大する最適解に収束することが知られている。 近年のBenchasattabuseらによる研究を参考に、この形態のウォームスタートQAOAに必要な回路深さの理論的下限を所望の変化$\Delta \lambda$を近似比で達成し、特に、小さな$\theta$の場合、回路深さの下限は$\Delta \lambda/\theta$とほぼ比例することを示した。

In order to boost the performance of the Quantum Approximate Optimization Algorithm (QAOA) to solve problems in combinatorial optimization, researchers have leveraged the solutions returned from classical algorithms in order to create a warm-started quantum initial state for QAOA that is biased towards "good" solutions. Cain et al. showed that if the classically-obtained solutions are mapped to the poles of the Bloch sphere, then vanilla QAOA with the standard mixer "gets stuck". If the classically-obtained solution is instead mapped to within some angle $\theta$ from the poles of the Bloch sphere, creating an initial product state, then QAOA with optimal variational parameters is known to converge to the optimal solution with increased circuit depth if the mixer is modified to be "aligned" with the warm-start initial state. Leveraging recent work of Benchasattabuse et al., we provide theoretical lower bounds on the circuit depth necessary for this form of warm-started QAOA to achieve a desired change $\Delta \lambda$ in approximation ratio; in particular, we show that for small $\theta$, the lower bound on the circuit depth roughly scales proportionally with $\Delta \lambda/\theta$.
翻訳日:2024-11-05 15:29:12 公開日:2024-09-16
# 誤り関連負性信号と脳波信号から不安障害を検出する機械学習

Machine Learning to Detect Anxiety Disorders from Error-Related Negativity and EEG Signals ( http://arxiv.org/abs/2410.00028v1 )

ライセンス: Link先を確認
Ramya Chandrasekar, Md Rakibul Hasan, Shreya Ghosh, Tom Gedeon, Md Zakir Hossain, (参考訳) 不安は、日常の状況に対する過度の心配、恐怖、理解によって特徴づけられる一般的な精神状態である。 過去数年間の著しい進歩にもかかわらず、脳波(EEG)信号からの不安、特にエラー関連陰性度(ERN)の予測は依然として困難である。 PRISMAプロトコルに従って,過去10年(2013年~2023年)に発行された不安検出のための脳波マーカーとERNマーカーの使用に関する54の論文を体系的にレビューした。 我々の分析では、サポートベクターマシンやランダムフォレストといった従来の機械学習や、畳み込みニューラルネットワークやさまざまなデータタイプにわたるリカレントニューラルネットワークといったディープラーニングモデルの利用が強調されている。 分析の結果,タスク固有の設定や特徴選択,計算モデルといった現実的な課題に,頑健で汎用的な不安予測手法の開発が依然として対応する必要があることが明らかとなった。 本研究は, 多様な集団および不安サブタイプに展開する非侵襲的, 客観的な不安診断のための潜在的方向性を提供することで, 本研究を結論づける。

Anxiety is a common mental health condition characterised by excessive worry, fear and apprehension about everyday situations. Even with significant progress over the past few years, predicting anxiety from electroencephalographic (EEG) signals, specifically using error-related negativity (ERN), still remains challenging. Following the PRISMA protocol, this paper systematically reviews 54 research papers on using EEG and ERN markers for anxiety detection published in the last 10 years (2013 -- 2023). Our analysis highlights the wide usage of traditional machine learning, such as support vector machines and random forests, as well as deep learning models, such as convolutional neural networks and recurrent neural networks across different data types. Our analysis reveals that the development of a robust and generic anxiety prediction method still needs to address real-world challenges, such as task-specific setup, feature selection and computational modelling. We conclude this review by offering potential future direction for non-invasive, objective anxiety diagnostics, deployed across diverse populations and anxiety sub-types.
翻訳日:2024-11-05 15:29:12 公開日:2024-09-16
# 戦略的AIガバナンス - 先進国からの洞察

Strategic AI Governance: Insights from Leading Nations ( http://arxiv.org/abs/2410.01819v1 )

ライセンス: Link先を確認
Dian W. Tjondronegoro, (参考訳) 人工知能(AI)は、さまざまな分野に革命をもたらす可能性があるが、その採用は、データプライバシ、セキュリティ、AI能力の理解に関する懸念によって妨げられることが多い。 本稿では、先進国のAI戦略をレビューすることで、AIガバナンスのアプローチ、戦略的テーマ、AI導入に向けたイネーブラーと課題を合成する。 主要なコントリビューションはEPIC(Education, Partnership, Infrastructure, Community)フレームワークの開発である。これはAIの実装要件をマッピングして、社会的な影響を完全に実現し、成功し持続的なAIデプロイメントから公共の利益を享受するものだ。 本稿では、最新のAI戦略文書の多視点コンテンツ分析を通じて、各国におけるAIガバナンス戦略の構造化比較を行う。 この発見は、政府、学術、産業、そしてコミュニティにとって、責任ある信頼できるAIデプロイメントを可能にする貴重な洞察を提供する。 今後は、開発途上国の具体的な要件を取り入れ、特定のAIアプリケーション、産業、公共セクターに戦略を適用することに注力する必要がある。

Artificial Intelligence (AI) has the potential to revolutionize various sectors, yet its adoption is often hindered by concerns about data privacy, security, and the understanding of AI capabilities. This paper synthesizes AI governance approaches, strategic themes, and enablers and challenges for AI adoption by reviewing national AI strategies from leading nations. The key contribution is the development of an EPIC (Education, Partnership, Infrastructure, Community) framework, which maps AI implementation requirements to fully realize social impacts and public good from successful and sustained AI deployment. Through a multi-perspective content analysis of the latest AI strategy documents, this paper provides a structured comparison of AI governance strategies across nations. The findings offer valuable insights for governments, academics, industries, and communities to enable responsible and trustworthy AI deployments. Future work should focus on incorporating specific requirements for developing countries and applying the strategies to specific AI applications, industries, and the public sector.
翻訳日:2024-11-04 14:54:47 公開日:2024-09-16
# NFDIcore 2.0: マルチドメイン研究インフラのためのBFO互換オントロジー

NFDIcore 2.0: A BFO-Compliant Ontology for Multi-Domain Research Infrastructures ( http://arxiv.org/abs/2410.01821v1 )

ライセンス: Link先を確認
Oleksandra Bruns, Tabea Tietz, Joerg Waitelonis, Etienne Posthumus, Harald Sack, (参考訳) 本稿では,ドイツ国立研究データ基盤(NFDI)の多様な研究コミュニティを表現するために設計された,基本形式オントロジー(BFO)に準拠したオントロジーであるNFDIcore 2.0について述べる。 NFDIcoreは、様々な研究分野の相互運用性を確保し、ドメイン間の研究を容易にする。 各ドメインの個々の要件は、特定のオントロジーモジュールを通して対処される。 本稿では,オントロジー開発とマッピングの過程で学んだ教訓について論じる。 NFDIcoreの独創性は、BFOへの固執、効率的な知識発見のためのSWRLルールの使用、および異種研究領域のニーズを満たすように調整されたモジュラーで拡張可能な設計にある。

This paper presents NFDIcore 2.0, an ontology compliant with the Basic Formal Ontology (BFO) designed to represent the diverse research communities of the National Research Data Infrastructure (NFDI) in Germany. NFDIcore ensures the interoperability across various research disciplines, thereby facilitating cross-domain research. Each domain's individual requirements are addressed through specific ontology modules. This paper discusses lessons learned during the ontology development and mapping process, supported by practical validation through use cases in diverse research domains. The originality of NFDIcore lies in its adherence to BFO, the use of SWRL rules for efficient knowledge discovery, and its modular, extensible design tailored to meet the needs of heterogeneous research domains.
翻訳日:2024-11-04 14:54:47 公開日:2024-09-16
# 意思決定における因果性の重要性:レコメンダシステムの観点から

The Importance of Causality in Decision Making: A Perspective on Recommender Systems ( http://arxiv.org/abs/2410.01822v1 )

ライセンス: Link先を確認
Emanuele Cavenaghi, Alessio Zanga, Fabio Stella, Markus Zanker, (参考訳) 因果関係はレコメンデーションシステム(Recommendation Systems, RS)コミュニティで注目を集めており、RSは因果関係から大きな恩恵を受け、正確な予測を効果的かつ説明可能な決定に変換することができると認識している。 実際、RSの文献は、現実のシナリオでは、不偏性を保証する仮定が満たされないため、レコメンデーションアルゴリズムは多くの種類のバイアスを被っていると繰り返し強調している。 本稿では,潜在的な結果と構造因果モデルを用いて因果関係の問題を定式化し,推定する因果関係量の形式的定義と,今後の研究・発展の促進への参考となる一般的な因果関係グラフを与える。

Causality is receiving increasing attention in the Recommendation Systems (RSs) community, which has realised that RSs could greatly benefit from causality to transform accurate predictions into effective and explainable decisions. Indeed, the RS literature has repeatedly highlighted that, in real-world scenarios, recommendation algorithms suffer many types of biases since assumptions ensuring unbiasedness are likely not met. In this discussion paper, we formulate the RS problem in terms of causality, using potential outcomes and structural causal models, by giving formal definitions of the causal quantities to be estimated and a general causal graph to serve as a reference to foster future research and development.
翻訳日:2024-11-04 14:54:47 公開日:2024-09-16
# AI会話インタビュー - 適応的なインタビュアーとしてのLLMによる調査の転換

AI Conversational Interviewing: Transforming Surveys with LLMs as Adaptive Interviewers ( http://arxiv.org/abs/2410.01824v1 )

ライセンス: Link先を確認
Alexander Wuttke, Matthias Aßenmacher, Christopher Klamm, Max M. Lang, Quirin Würschinger, Frauke Kreuter, (参考訳) 構造化された調査は大規模なデータ収集を可能にするが、回答者が予想外の考えを自身の言葉で表現する能力を制限する。 本研究では,人間のインタビュアーを大規模言語モデル (LLM) に置き換えて,スケーラブルな対話型インタビュアーを実現する可能性について検討する。 我々のゴールは、AI会話インタビューのパフォーマンスを評価し、制御された環境における改善の機会を特定することである。 質問紙調査では, 質問紙調査や質問紙調査, 質問紙調査, 質問紙調査, 質問紙調査, 質問紙調査, 質問紙調査, 質問紙調査, 質問紙調査, 質問紙調査, 質問紙調査, 質問紙調査, 質問紙調査を行った。 様々な量的・質的な尺度は, インタビュアーのガイドライン, 応答品質, 参加者参加率, 総合的な面接効果に順応した。 この結果から,従来の手法に匹敵する品質データの生成において,AI Conversational Interviewingが実現可能であることが示唆された。 本経験に基づき,効果的な実装のための具体的な推奨事項を提示する。

Traditional methods for eliciting people's opinions face a trade-off between depth and scale: structured surveys enable large-scale data collection but limit respondents' ability to express unanticipated thoughts in their own words, while conversational interviews provide deeper insights but are resource-intensive. This study explores the potential of replacing human interviewers with large language models (LLMs) to conduct scalable conversational interviews. Our goal is to assess the performance of AI Conversational Interviewing and to identify opportunities for improvement in a controlled environment. We conducted a small-scale, in-depth study with university students who were randomly assigned to be interviewed by either AI or human interviewers, both employing identical questionnaires on political topics. Various quantitative and qualitative measures assessed interviewer adherence to guidelines, response quality, participant engagement, and overall interview efficacy. The findings indicate the viability of AI Conversational Interviewing in producing quality data comparable to traditional methods, with the added benefit of scalability. Based on our experiences, we present specific recommendations for effective implementation.
翻訳日:2024-11-04 14:54:47 公開日:2024-09-16
# コンテキスト認識型予測符号化 - WiFiセンシングのための表現学習フレームワーク

Context-Aware Predictive Coding: A Representation Learning Framework for WiFi Sensing ( http://arxiv.org/abs/2410.01825v1 )

ライセンス: Link先を確認
B. Barahimi, H. Tabassum, M. Omer, O. Waqar, (参考訳) WiFiセンサーは、様々なセンサーアプリケーションに無線信号を利用する新興技術である。 しかし、教師あり学習への依存、ラベル付きデータの不足、理解不能なチャネル状態情報(CSI)が大きな課題となっている。 これらの問題は、ディープラーニングモデルのパフォーマンスと、異なる環境における一般化に影響を及ぼす。 その結果、ラベル付きサンプルに頼らずに意味のあるデータ表現を抽出するための有望な戦略として、自己教師付き学習(SSL)が出現している。 本稿では,非競合データから効果的に学習し,多様な環境に適応する,コンテキスト認識予測符号化(CAPC)と呼ばれる新しいSSLフレームワークを提案する。 CAPCは、Contrastive Predictive Coding(CPC)と拡張ベースのSSLメソッドBarlow Twinsを統合し、データ表現における時間的および文脈的一貫性を促進する。 このハイブリッドアプローチは、人間の活動認識(HAR)のようなタスクに不可欠なCSIの本質的な時間情報をキャプチャし、データの歪みに対して堅牢性を確保する。 さらに、アップリンクとダウンリンクCSIの両方を用いて、自由空間伝搬効果を分離し、トランシーバの電子歪みの影響を最小限に抑える独自の拡張を提案する。 評価の結果、CAPCは他のSSLメソッドや教師付きアプローチよりも優れているだけでなく、優れた一般化能力も達成できることがわかった。 具体的には、CAPCはラベル付きサンプルを少なくし、教師付き学習を著しく上回り、SSLベースラインを超えている。 さらに、HARタスクと環境が異なる未確認データセットに関するトランスファー学習研究は、他のSSLベースラインよりも1.8パーセント、教師付き学習より24.7%の精度向上を示し、その例外的なクロスドメイン適応性を強調した。

WiFi sensing is an emerging technology that utilizes wireless signals for various sensing applications. However, the reliance on supervised learning, the scarcity of labelled data, and the incomprehensible channel state information (CSI) pose significant challenges. These issues affect deep learning models' performance and generalization across different environments. Consequently, self-supervised learning (SSL) is emerging as a promising strategy to extract meaningful data representations with minimal reliance on labelled samples. In this paper, we introduce a novel SSL framework called Context-Aware Predictive Coding (CAPC), which effectively learns from unlabelled data and adapts to diverse environments. CAPC integrates elements of Contrastive Predictive Coding (CPC) and the augmentation-based SSL method, Barlow Twins, promoting temporal and contextual consistency in data representations. This hybrid approach captures essential temporal information in CSI, crucial for tasks like human activity recognition (HAR), and ensures robustness against data distortions. Additionally, we propose a unique augmentation, employing both uplink and downlink CSI to isolate free space propagation effects and minimize the impact of electronic distortions of the transceiver. Our evaluations demonstrate that CAPC not only outperforms other SSL methods and supervised approaches, but also achieves superior generalization capabilities. Specifically, CAPC requires fewer labelled samples while significantly outperforming supervised learning and surpassing SSL baselines. Furthermore, our transfer learning studies on an unseen dataset with a different HAR task and environment showcase an accuracy improvement of 1.8 percent over other SSL baselines and 24.7 percent over supervised learning, emphasizing its exceptional cross-domain adaptability.
翻訳日:2024-11-04 14:45:01 公開日:2024-09-16
# リアルタイム機械学習アプリケーションのためのスケーラブルな微分プライバシー機構

Scalable Differential Privacy Mechanisms for Real-Time Machine Learning Applications ( http://arxiv.org/abs/2410.02462v1 )

ライセンス: Link先を確認
Jessica Smith, David Williams, Emily Brown, (参考訳) 大規模言語モデル(LLM)は、ユーザのプライバシ保護が最重要であるリアルタイム機械学習アプリケーションに、ますます統合されている。 従来の差分プライバシーメカニズムは、プライバシーと精度のバランスをとるのに苦労することが多い。 これらの問題に対処するために、我々は、堅牢なプライバシ保証とモデルパフォーマンスの向上の両方を強調するリアルタイム機械学習に適したフレームワークであるScalable Differential Privacy (SDP)を紹介します。 SDPは、様々な学習エージェント間の効率的なノイズアグリゲーションを容易にするために階層的アーキテクチャを採用している。 適応的なノイズスケジューリングと勾配圧縮を組み合わせることで,プライバシー保護を確保しつつ,性能劣化を最小限に抑えることができる。 多様なデータセットに対する大規模な実験により、SDPは高い精度を維持しつつ、差分プライバシーを効果的に適用していることが明らかになった。 この進歩は、機械学習ワークフローでプライバシ保護技術が広く採用される可能性を示している。

Large language models (LLMs) are increasingly integrated into real-time machine learning applications, where safeguarding user privacy is paramount. Traditional differential privacy mechanisms often struggle to balance privacy and accuracy, particularly in fast-changing environments with continuously flowing data. To address these issues, we introduce Scalable Differential Privacy (SDP), a framework tailored for real-time machine learning that emphasizes both robust privacy guarantees and enhanced model performance. SDP employs a hierarchical architecture to facilitate efficient noise aggregation across various learning agents. By integrating adaptive noise scheduling and gradient compression methods, our approach minimizes performance degradation while ensuring significant privacy protection. Extensive experiments on diverse datasets reveal that SDP maintains high accuracy levels while applying differential privacy effectively, showcasing its suitability for deployment in sensitive domains. This advancement points towards the potential for widespread adoption of privacy-preserving techniques in machine learning workflows.
翻訳日:2024-11-04 03:11:05 公開日:2024-09-16
# 大規模言語モデルを用いた多次元人間の活動認識:概念的枠組み

Multidimensional Human Activity Recognition With Large Language Model: A Conceptual Framework ( http://arxiv.org/abs/2410.03546v1 )

ライセンス: Link先を確認
Syed Mhamudul Hasan, (参考訳) 大規模言語モデル(LLM)の統合により、ヒューマンアクティビティ認識(HAR)システムにおけるリスクアセスメント、リソースアロケーション、緊急応答に革命をもたらす。 本稿では,HARシステム内の多次元学習を支援するために,様々なウェアラブルデバイスを1次元と見なす概念的枠組みを提案する。 これらの多様なソースからのデータの統合と処理により、LLMは複雑なセンサー入力を処理し、実行可能な洞察に変換することができる。 この統合は、それらに関連する固有の不確実性と複雑さを緩和し、救急サービスの応答性と有効性を高める。 本稿では, HAR システムにおける LLM の転換可能性を探究し, 危機的役割において遭遇する予測不能でリスクの高い環境を, 緊急作業員がナビゲートできるようにする段階を定めている。

In high-stake environments like emergency response or elder care, the integration of large language model (LLM), revolutionize risk assessment, resource allocation, and emergency responses in Human Activity Recognition (HAR) systems by leveraging data from various wearable sensors. We propose a conceptual framework that utilizes various wearable devices, each considered as a single dimension, to support a multidimensional learning approach within HAR systems. By integrating and processing data from these diverse sources, LLMs can process and translate complex sensor inputs into actionable insights. This integration mitigates the inherent uncertainties and complexities associated with them, and thus enhancing the responsiveness and effectiveness of emergency services. This paper sets the stage for exploring the transformative potential of LLMs within HAR systems in empowering emergency workers to navigate the unpredictable and risky environments they encounter in their critical roles.
翻訳日:2024-11-02 21:39:44 公開日:2024-09-16
# 太陽表面放射:AI衛星の探索はHeliosatを上回り、他の気候圏に適応する

Surface solar radiation: AI satellite retrieval can outperform Heliosat and generalizes well to other climate zones ( http://arxiv.org/abs/2409.16316v1 )

ライセンス: Link先を確認
K. R. Schuurman, A. Meyer, (参考訳) 表面太陽放射の正確な推定は、グリッド統合および建築制御への応用における太陽資源評価と太陽エネルギー予測に不可欠である。 空間的拡張領域のSSI推定は、Meteosatのような静止衛星から得ることができる。 ヘリオサットのような従来のSSI衛星の探索は物理放射移動モデルに依存している。 本稿では, 瞬時SSIのための機械学習による衛星検索を初めて導入し, ヨーロッパ全体での高精度で一般化可能なSSI推定能力を示す。 我々のディープラーニング検索は、Heliosatのデータ駆動エミュレーションとピラノメーターネットワークの微調整に基づいて、ほぼリアルタイムでSSI推定を提供する。 地上局からのSSIを含めることで,我々のSSI検索モデルはヘリオサットの精度を上回り,他の気候のある地域や,雲質(クラースキー指数<0.8。 また,ヘリオサットから抽出したSSIは山間部において大きなバイアスを示し,地上局からのSSIデータの学習と微調整により,これらのバイアスを強く低減し,ヘリオサットを上回っていることを示す。 さらに,異なる雲条件下での深層学習SSI検索モデルの精度向上のために,メテオサット流路と太陽日射角などの予測変数の相対的重要性を定量化する。 雲の多い条件下では、近赤外チャネルと赤外チャネルが性能を高めている。 この結果により、より正確な表面太陽放射の衛星探索モデルの開発が容易となる。

Accurate estimates of surface solar irradiance (SSI) are essential for solar resource assessments and solar energy forecasts in grid integration and building control applications. SSI estimates for spatially extended regions can be retrieved from geostationary satellites such as Meteosat. Traditional SSI satellite retrievals like Heliosat rely on physical radiative transfer modelling. We introduce the first machine-learning-based satellite retrieval for instantaneous SSI and demonstrate its capability to provide accurate and generalizable SSI estimates across Europe. Our deep learning retrieval provides near real-time SSI estimates based on data-driven emulation of Heliosat and fine-tuning on pyranometer networks. By including SSI from ground stations, our SSI retrieval model can outperform Heliosat accuracy and generalize well to regions with other climates and surface albedos in cloudy conditions (clear-sky index < 0.8). We also show that the SSI retrieved from Heliosat exhibits large biases in mountain regions, and that training and fine-tuning our retrieval models on SSI data from ground stations strongly reduces these biases, outperforming Heliosat. Furthermore, we quantify the relative importance of the Meteosat channels and other predictor variables like solar zenith angle for the accuracy of our deep learning SSI retrieval model in different cloud conditions. We find that in cloudy conditions multiple near-infrared and infrared channels enhance the performance. Our results can facilitate the development of more accurate satellite retrieval models of surface solar irradiance.
翻訳日:2024-09-27 09:03:58 公開日:2024-09-16
# ウルドゥー語におけるキーワードスポッティング技術に関する文献レビュー

A Literature Review of Keyword Spotting Technologies for Urdu ( http://arxiv.org/abs/2409.16317v1 )

ライセンス: Link先を確認
Syed Muhammad Aqdas Rizvi, (参考訳) 本稿では、パキスタンの低リソース言語(LRL)であるUrduを中心に、キーワードスポッティング(KWS)技術の進歩を概観する。 音声技術の世界的進歩にもかかわらず、Urduはよりカスタマイズされたソリューションを必要とする独特な課題を提示している。 このレビューは、基礎的なガウス混合モデルからディープニューラルネットワークやトランスフォーマーのような洗練されたニューラルネットワークへの進化を辿り、マルチタスク学習の統合やラベルなしデータを活用する自己教師型アプローチといった重要なマイルストーンを強調している。 マルチリンガルおよびリソース制約のある設定におけるKWSシステムの性能向上における新興技術の役割について検討し、Urduのような言語に適合するイノベーションの必要性を強調した。 そこで本研究では,ウルドゥー語と類似のURLの複雑さに対処する文脈特化研究の必要性と,そのような言語を介して通信する地域を包括的に音声技術にアプローチする手法の必要性を論じる。

This literature review surveys the advancements of keyword spotting (KWS) technologies, specifically focusing on Urdu, Pakistan's low-resource language (LRL), which has complex phonetics. Despite the global strides in speech technology, Urdu presents unique challenges requiring more tailored solutions. The review traces the evolution from foundational Gaussian Mixture Models to sophisticated neural architectures like deep neural networks and transformers, highlighting significant milestones such as integrating multi-task learning and self-supervised approaches that leverage unlabeled data. It examines emerging technologies' role in enhancing KWS systems' performance within multilingual and resource-constrained settings, emphasizing the need for innovations that cater to languages like Urdu. Thus, this review underscores the need for context-specific research addressing the inherent complexities of Urdu and similar URLs and the means of regions communicating through such languages for a more inclusive approach to speech technology.
翻訳日:2024-09-27 09:03:58 公開日:2024-09-16
# TCG CREST System Description for the Second DisPLACE Challenge

TCG CREST System Description for the Second DISPLACE Challenge ( http://arxiv.org/abs/2409.15356v1 )

ライセンス: Link先を確認
Nikhil Raghav, Subhajit Saha, Md Sahidullah, Swagatam Das, (参考訳) 本稿では,2024年の第2回DisPLACEチャレンジに向けて,我々のチームが開発した話者ダイアリゼーション(SD)と言語ダイアリゼーション(LD)システムについて述べる。 コントリビューションは,多言語および多話者シナリオにおいて,トラック1 for SDとトラック2 for LDに充てられた。 本研究では,音声強調技術,音声活動検出(VAD)技術,教師なし領域分類,ニューラルネットワーク抽出アーキテクチャについて検討した。 また,様々な埋め込み抽出モデルの融合を利用した。 我々はオープンソースのSpeechBrainツールキットでシステムを実装した。 最終的な提案では、話者ダイアリゼーションと言語ダイアリゼーションの両方にスペクトルクラスタリングを使用します。 トラックのチャレンジベースラインよりも約7\%の相対的な改善を実現しています 1.トラックにおけるチャレンジベースラインの改善は得られなかった。 2。

In this report, we describe the speaker diarization (SD) and language diarization (LD) systems developed by our team for the Second DISPLACE Challenge, 2024. Our contributions were dedicated to Track 1 for SD and Track 2 for LD in multilingual and multi-speaker scenarios. We investigated different speech enhancement techniques, voice activity detection (VAD) techniques, unsupervised domain categorization, and neural embedding extraction architectures. We also exploited the fusion of various embedding extraction models. We implemented our system with the open-source SpeechBrain toolkit. Our final submissions use spectral clustering for both the speaker and language diarization. We achieve about $7\%$ relative improvement over the challenge baseline in Track 1. We did not obtain improvement over the challenge baseline in Track 2.
翻訳日:2024-09-26 13:43:14 公開日:2024-09-16
# 新生児集中治療室における機械聴取

Machine listening in a neonatal intensive care unit ( http://arxiv.org/abs/2409.11439v1 )

ライセンス: Link先を確認
Modan Tailleur, Vincent Lostanlen, Jean-Philippe Rivière, Pierre Aumond, (参考訳) 酸素、警報装置、足音は、病院で最も一般的な音源である。 環境心理学には科学的価値があるが、プライバシー保護と限定ラベル付きデータという独自の課題が伴う。 本稿では,エッジコンピューティングとクラウドコンピューティングの組み合わせにより,これら2つの課題に対処する。 プライバシー保護のための音響センサを設計し,音声波形を録音する代わりに,3オクターブのスペクトルをリアルタイムで計算する。 サンプル効率のよい機械学習では、スペクトル変換とラベル空間適応により、事前訓練された音声ニューラルネットワーク(PANN)を再利用した。 NICU(nenenatological intensive care Unit)における小規模な研究は、検出された事象の時系列が別の測定のモダリティ、すなわち、親や医療専門家の電子的バッジと一致することを確認している。 そこで本研究では,病院病棟におけるポリフォニック・マシン・リスニングの実現可能性を示すとともに,設計によるプライバシの確保も図っている。

Oxygenators, alarm devices, and footsteps are some of the most common sound sources in a hospital. Detecting them has scientific value for environmental psychology but comes with challenges of its own: namely, privacy preservation and limited labeled data. In this paper, we address these two challenges via a combination of edge computing and cloud computing. For privacy preservation, we have designed an acoustic sensor which computes third-octave spectrograms on the fly instead of recording audio waveforms. For sample-efficient machine learning, we have repurposed a pretrained audio neural network (PANN) via spectral transcoding and label space adaptation. A small-scale study in a neonatological intensive care unit (NICU) confirms that the time series of detected events align with another modality of measurement: i.e., electronic badges for parents and healthcare professionals. Hence, this paper demonstrates the feasibility of polyphonic machine listening in a hospital ward while guaranteeing privacy by design.
翻訳日:2024-09-19 22:12:27 公開日:2024-09-16
# MARCA: 再構成可能なアーキテクチャを備えたMamba Accelerator

MARCA: Mamba Accelerator with ReConfigurable Architecture ( http://arxiv.org/abs/2409.11440v1 )

ライセンス: Link先を確認
Jinhao Li, Shan Huang, Jiaming Xu, Jun Liu, Li Ding, Ningyi Xu, Guohao Dai, (参考訳) 本稿では,再構成可能なアーキテクチャを持つMambaアクセラレータ MARCAを提案する。 1) 線形および素子単位の操作のための代替PEアレイアーキテクチャの削減。 線形演算では、PEアレイに接続されたリダクションツリーを有効にし、リダクション操作を実行する。 要素演算では、リダクションツリーが無効になり、出力がバイパスされる。 2)再構成可能なPEに基づく再利用可能な非線形関数ユニット。 本研究では,指数関数を高速偏差指数関数による要素演算とシフト演算に分解し,アクティベーション関数(SiLU)をレンジ検出および要素演算に分割近似アルゴリズムで分割する。 これにより、再構成可能なPEを再利用して、無視可能な精度損失で非線形関数を実行する。 (3)操作内および操作間バッファ管理戦略 本稿では,操作中の線形演算に対する入力データ共有を最大化する操作内バッファ管理戦略と,操作間の要素操作に対する操作間通信戦略を提案する。 MARCAは最大463.22$\times$/11.66$\times$スピードアップ、最大9761.42$\times$/242.52$\times$エネルギ効率をIntel Xeon 8358P CPUとNVIDIA Tesla A100 GPU実装と比較する。

We propose a Mamba accelerator with reconfigurable architecture, MARCA.We propose three novel approaches in this paper. (1) Reduction alternative PE array architecture for both linear and element-wise operations. For linear operations, the reduction tree connected to PE arrays is enabled and executes the reduction operation. For element-wise operations, the reduction tree is disabled and the output bypasses. (2) Reusable nonlinear function unit based on the reconfigurable PE. We decompose the exponential function into element-wise operations and a shift operation by a fast biased exponential algorithm, and the activation function (SiLU) into a range detection and element-wise operations by a piecewise approximation algorithm. Thus, the reconfigurable PEs are reused to execute nonlinear functions with negligible accuracy loss.(3) Intra-operation and inter-operation buffer management strategy. We propose intra-operation buffer management strategy to maximize input data sharing for linear operations within operations, and inter-operation strategy for element-wise operations between operations. We conduct extensive experiments on Mamba model families with different sizes.MARCA achieves up to 463.22$\times$/11.66$\times$ speedup and up to 9761.42$\times$/242.52$\times$ energy efficiency compared to Intel Xeon 8358P CPU and NVIDIA Tesla A100 GPU implementations, respectively.
翻訳日:2024-09-19 22:12:27 公開日:2024-09-16
# 高次運動流による共役視覚表現の連続学習

Continual Learning of Conjugated Visual Representations through Higher-order Motion Flows ( http://arxiv.org/abs/2409.11441v1 )

ライセンス: Link先を確認
Simone Marullo, Matteo Tiezzi, Marco Gori, Stefano Melacci, (参考訳) 連続した視覚情報のストリームからニューラルネットワークで学習することは、データの非i.d.性に起因するいくつかの課題を提示する。 しかし、情報の流れに整合した表現を開発する新しい機会も提供する。 本稿では,複数の動きによる制約を受ける画素単位の特徴の教師なし連続学習の事例について考察する。 既存のアプローチとは違って、動きは与えられた信号ではなく、特徴階層の様々なレベルで発生する進歩的で自律的な学習プロセスの結果である。 複数の動きの流れはニューラルネットワークで推定され、従来の光学的流れから高次運動と呼ばれる高次特徴から派生した他の潜伏信号まで、様々なレベルの抽象化によって特徴づけられる。 連続的に一貫した多次フローと表現を学習することは、自監督的コントラスト損失、空間的認識、フロー誘起類似性に基づく、自監督的コントラスト損失を導入することで、自作のソリューションに対処する傾向がある。 我々は,光合成ストリームと実世界のビデオを用いて,事前訓練された最先端機能抽出器(トランスフォーマーにもとづく)と最近の教師なし学習モデルと比較し,これらの選択肢を著しく上回る結果を得た。

Learning with neural networks from a continuous stream of visual information presents several challenges due to the non-i.i.d. nature of the data. However, it also offers novel opportunities to develop representations that are consistent with the information flow. In this paper we investigate the case of unsupervised continual learning of pixel-wise features subject to multiple motion-induced constraints, therefore named motion-conjugated feature representations. Differently from existing approaches, motion is not a given signal (either ground-truth or estimated by external modules), but is the outcome of a progressive and autonomous learning process, occurring at various levels of the feature hierarchy. Multiple motion flows are estimated with neural networks and characterized by different levels of abstractions, spanning from traditional optical flow to other latent signals originating from higher-level features, hence called higher-order motions. Continuously learning to develop consistent multi-order flows and representations is prone to trivial solutions, which we counteract by introducing a self-supervised contrastive loss, spatially-aware and based on flow-induced similarity. We assess our model on photorealistic synthetic streams and real-world videos, comparing to pre-trained state-of-the art feature extractors (also based on Transformers) and to recent unsupervised learning models, significantly outperforming these alternatives.
翻訳日:2024-09-19 22:12:27 公開日:2024-09-16
# オーバー・ザ・エア・フェデレーション学習のための緑多属性クライアント選択:Grey-Wolf-Optimizerアプローチ

A Green Multi-Attribute Client Selection for Over-The-Air Federated Learning: A Grey-Wolf-Optimizer Approach ( http://arxiv.org/abs/2409.11442v1 )

ライセンス: Link先を確認
Maryam Ben Driss, Essaid Sabir, Halima Elbiaze, Abdoulaye Baniré Diallo, Mohamed Sadik, (参考訳) フェデレートラーニング(FL)は、センシティブなデータを集中化せずに機械学習モデルをトレーニングする能力のために、さまざまな業界で注目を集めている。 このアプローチは、プライバシ保護や通信オーバーヘッドの低減など、重要なメリットを提供するが、特に異種シナリオやリソース制約のある環境では、デプロイメントの複雑さや相互運用性の問題など、いくつかの課題がある。 OTA(Over-the-air)FLは、デバイス間直接接続や集中型サーバを必要とせず、モデル更新を広めることによってこれらの課題に対処するために導入された。 しかし、OTA-FLはエネルギー消費の増大とネットワーク遅延の制限を生じさせた。 本稿では,各ラウンドの参加者数を戦略的に制御し,OTA-FLプロセスの精度,エネルギー,遅延,信頼性,公正性の制約を考慮したマルチ属性クライアント選択フレームワークを提案する。 モデル損失最小化,収束時間短縮,エネルギー効率の観点から,マルチ属性クライアント選択手法の性能評価を行った。 実験では,既存の最先端手法と比較して,提案手法の性能を評価・比較した。 提案したGWOベースのクライアント選択は,様々な指標において,これらのベースラインよりも優れていることを示す。 具体的には、モデル損失の顕著な低減を実現し、収束時間を加速し、高い公正性と信頼性の指標を維持しながらエネルギー効率を向上させる。

Federated Learning (FL) has gained attention across various industries for its capability to train machine learning models without centralizing sensitive data. While this approach offers significant benefits such as privacy preservation and decreased communication overhead, it presents several challenges, including deployment complexity and interoperability issues, particularly in heterogeneous scenarios or resource-constrained environments. Over-the-air (OTA) FL was introduced to tackle these challenges by disseminating model updates without necessitating direct device-to-device connections or centralized servers. However, OTA-FL brought forth limitations associated with heightened energy consumption and network latency. In this paper, we propose a multi-attribute client selection framework employing the grey wolf optimizer (GWO) to strategically control the number of participants in each round and optimize the OTA-FL process while considering accuracy, energy, delay, reliability, and fairness constraints of participating devices. We evaluate the performance of our multi-attribute client selection approach in terms of model loss minimization, convergence time reduction, and energy efficiency. In our experimental evaluation, we assessed and compared the performance of our approach against the existing state-of-the-art methods. Our results demonstrate that the proposed GWO-based client selection outperforms these baselines across various metrics. Specifically, our approach achieves a notable reduction in model loss, accelerates convergence time, and enhances energy efficiency while maintaining high fairness and reliability indicators.
翻訳日:2024-09-19 22:12:27 公開日:2024-09-16
# Zero-Knowledge Proof-of-Identity:Sybil-Resistant, Anonymous Authentication on Permissionless Blockchains and Incentive Compatible, Strictly Dominant Cryptocurrencies

Zero-Knowledge Proof-of-Identity: Sybil-Resistant, Anonymous Authentication on Permissionless Blockchains and Incentive Compatible, Strictly Dominant Cryptocurrencies ( http://arxiv.org/abs/1905.09093v3 )

ライセンス: Link先を確認
David Cerezo Sánchez, (参考訳) 信頼された公証(例えば、ナショナルIDカードやePassports、eSIM)からのゼロ知識証明は、Proof-of-Work(高エネルギー・環境コスト)やProof-of-Stake(資本調達・取引量)などのSybil耐性メカニズムの非効率性を取り除くために、無許可ブロックチェーンに導入される。 提案したソリューションは、暗号化ランダム選択に基づくコンセンサスプロトコルでブロックチェーン上にインスタンス化されると、メンバシップを全員にオープンにしつつ、単一の個人が実行できるマイニングノード数を効果的に制限し、完全な分散化とブロックチェーンスケーラビリティのトリレンマを回避する。 また、共謀に対する抵抗も考慮されている。 ユニークなナッシュ均衡に基づく暗号報酬発行のためのインセンティブ互換プロトコル - 他のすべてのPoW/PoS暗号通貨を厳格にマイニングすること - マイニングによって好まれる選択肢となるzk-PoI暗号は、ナッシュ均衡であり、進化的安定戦略 - PoW/PoS暗号通貨は、その社会的最適性 - zk-PoI暗号通貨の循環が他のPoW/PoS暗号通貨を支配している - 固有のソーシャルネットワークからのネットワークのアイデンティティーから、そのネットワークのアイデンティティーへの影響 - 特定のインフラストラクチャーの価格を損なうことによって、そのインフラストラクチャーの存在を損なう、と非難される。

Zero-Knowledge Proof-of-Identity from trusted public certificates (e.g., national identity cards and/or ePassports; eSIM) is introduced here to permissionless blockchains in order to remove the inefficiencies of Sybil-resistant mechanisms such as Proof-of-Work (i.e., high energy and environmental costs) and Proof-of-Stake (i.e., capital hoarding and lower transaction volume). The proposed solution effectively limits the number of mining nodes a single individual would be able to run while keeping membership open to everyone, circumventing the impossibility of full decentralization and the blockchain scalability trilemma when instantiated on a blockchain with a consensus protocol based on the cryptographic random selection of nodes. Resistance to collusion is also considered. Solving one of the most pressing problems in blockchains, a zk-PoI cryptocurrency is proved to have the following advantageous properties: - an incentive-compatible protocol for the issuing of cryptocurrency rewards based on a unique Nash equilibrium - strict domination of mining over all other PoW/PoS cryptocurrencies, thus the zk-PoI cryptocurrency becoming the preferred choice by miners is proved to be a Nash equilibrium and the Evolutionarily Stable Strategy - PoW/PoS cryptocurrencies are condemned to pay the Price of Crypto-Anarchy, redeemed by the optimal efficiency of zk-PoI as it implements the social optimum - the circulation of a zk-PoI cryptocurrency Pareto dominates other PoW/PoS cryptocurrencies - the network effects arising from the social networks inherent to national identity cards and ePassports dominate PoW/PoS cryptocurrencies - the lower costs of its infrastructure imply the existence of a unique equilibrium where it dominates other forms of payment
翻訳日:2024-09-18 23:07:58 公開日:2024-09-16
# ゼロ知識ゲーム

Zero Knowledge Games ( http://arxiv.org/abs/2009.13521v6 )

ライセンス: Link先を確認
Ian Malloy, (参考訳) 本稿では,不完全なリコールと不完全な情報によって,全ての戦略が不完全であるようなゲームをモデル化する。 また、リニアトランスフォーメーションとして修正されたスライディングブロックコードを導入し、プレイヤーがいかに情報を持っているかの共通知識を生成する。 最終的に、両プレイヤーが情報を得るゼロ知識ゲームにおける2人のプレイヤーの間では、信頼の効用が混合戦略ナッシュ均衡に確立されていることが分かる。 ゼロ知識ゲームは信頼と健全性の1つである。 非インフォームドの選手の場合、そのようなプレイヤーは非インフォームドであることを明らかにする。

In this paper we model a game such that all strategies are non-revealing, with imperfect recall and incomplete information. We also introduce a modified sliding-block code as a linear transformation which generates common knowledge of how informed a player is. Ultimately, we see that between two players in a zero-knowledge game where both players are informed, the utility of trust is established in the mixed strategy Nash equilibrium. A zero-knowledge game is one of trust and soundness, placing utility in being informed. For any player who may be uninformed, such players reveal they are uninformed.
翻訳日:2024-09-18 23:07:58 公開日:2024-09-16
# 地球観測を推し進める人工知能 : モデル、最近のトレンド、今後の道筋について

Artificial intelligence to advance Earth observation: : A review of models, recent trends, and pathways forward ( http://arxiv.org/abs/2305.08413v2 )

ライセンス: Link先を確認
Devis Tuia, Konrad Schindler, Begüm Demir, Xiao Xiang Zhu, Mrinalini Kochupillai, Sašo Džeroski, Jan N. van Rijn, Holger H. Hoos, Fabio Del Frate, Mihai Datcu, Volker Markl, Bertrand Le Saux, Rochelle Schneider, Gustau Camps-Valls, (参考訳) 地球観測(EO)は、陸と海洋の過程を監視し、作業中の力学を研究し、地球の脈波を観測する主要な手段である。 本稿では、生のEOデータから使用可能なEOベースの情報への移行を通知し、支援する、重要な科学的ツールとアプローチについて、鳥の視点で説明する。 これらの開発における現在の課題と同様に、約束は専用のセクションで強調される。 具体的には その影響を (i)コンピュータビジョン (ii)機械学習 三 高度な処理及び計算 (四)知識ベースAI 五 説明可能なAI及び因果推論 (vi)物理対応モデル (vii)ユーザ中心のアプローチ、そして (viii)EOにおけるML技術の大量活用に関連する倫理的・社会的問題に関する議論。

Earth observation (EO) is a prime instrument for monitoring land and ocean processes, studying the dynamics at work, and taking the pulse of our planet. This article gives a bird's eye view of the essential scientific tools and approaches informing and supporting the transition from raw EO data to usable EO-based information. The promises, as well as the current challenges of these developments, are highlighted under dedicated sections. Specifically, we cover the impact of (i) Computer vision; (ii) Machine learning; (iii) Advanced processing and computing; (iv) Knowledge-based AI; (v) Explainable AI and causal inference; (vi) Physics-aware models; (vii) User-centric approaches; and (viii) the much-needed discussion of ethical and societal issues related to the massive use of ML technologies in EO.
翻訳日:2024-09-18 23:00:28 公開日:2024-09-16
# 継続的学習における安定性のギャップを克服する

Overcoming the Stability Gap in Continual Learning ( http://arxiv.org/abs/2306.01904v4 )

ライセンス: Link先を確認
Md Yousuf Harun, Christopher Kanan, (参考訳) 事前トレーニングされたディープニューラルネットワーク(DNN)は、ビジネス上の意思決定とユーザへのサービス提供のために、業界によって広くデプロイされているが、大きな問題はモデル崩壊である。 モデル崩壊を軽減するため、DNNは古いデータと新しいデータを使ってゼロから再訓練される。 これは計算コストがかかるため、再トレーニングはパフォーマンスが大幅に低下した時にのみ行われる。 そこで本研究では,大規模訓練済みDNNにおいて,連続学習(CL)がモデル減衰を克服し,DNNを最新に保つための計算コストを大幅に削減する可能性について検討する。 私たちは「安定性のギャップ」を設定の大きな障害と捉えています。 安定性のギャップは、CL緩和法が最終的にこの低下を補う前に、新しいデータを学習することで過去のタスクのパフォーマンスが大幅に低下する現象を指す。 2つの仮説を検証し、安定性のギャップに影響を与える要因を調査し、このギャップを大幅に減少させる方法を特定する。 簡単なCL分布と難解なCL分布(例:クラスインクリメンタルラーニング)の大規模実験において,本手法が安定性のギャップを減らし,計算効率を大幅に向上させることを示した。 当社の作業は、CLが多くのアプリケーションで必要となる本番環境の目標と整合しています。

Pre-trained deep neural networks (DNNs) are being widely deployed by industry for making business decisions and to serve users; however, a major problem is model decay, where the DNN's predictions become more erroneous over time, resulting in revenue loss or unhappy users. To mitigate model decay, DNNs are retrained from scratch using old and new data. This is computationally expensive, so retraining happens only once performance significantly decreases. Here, we study how continual learning (CL) could potentially overcome model decay in large pre-trained DNNs and greatly reduce computational costs for keeping DNNs up-to-date. We identify the "stability gap" as a major obstacle in our setting. The stability gap refers to a phenomenon where learning new data causes large drops in performance for past tasks before CL mitigation methods eventually compensate for this drop. We test two hypotheses to investigate the factors influencing the stability gap and identify a method that vastly reduces this gap. In large-scale experiments for both easy and hard CL distributions (e.g., class incremental learning), we demonstrate that our method reduces the stability gap and greatly increases computational efficiency. Our work aligns CL with the goals of the production setting, where CL is needed for many applications.
翻訳日:2024-09-18 23:00:28 公開日:2024-09-16
# 技術相互依存の新しいマッピング

A new mapping of technological interdependence ( http://arxiv.org/abs/2308.00014v3 )

ライセンス: Link先を確認
A. Fronzetti Colladon, B. Guardabascio, F. Venturini, (参考訳) 技術的相互依存はイノベーションにどのように影響するか? 本稿では,近隣のイノベーティブ性とイノベーターネットワークの構造が,新技術開発におけるセクターの能力に与える影響を検討することで,この問題に対処する。 1976年から2021年にかけて、米国特許商標庁(USPTO)が付与した650万件の特許の文書に、テキストマイニングとネットワーク分析の新しい手法を適用して、これらの技術相互依存の2つの側面について検討した。 長い目で見れば、ネットワークリンクの影響は、近隣の革新的なものと同じくらい重要である。 しかし、短期的には、近隣の革新性に対する肯定的な衝撃は比較的速い効果をもたらす一方、ネットワークリンクを強化する衝撃の影響は、長続きしても遅延とともに現れる。 私たちの分析では、特許テキストには、特許引用のような従来のイノベーション指標によって捉えられていない豊富な情報が含まれていることも強調しています。

How does technological interdependence affect innovation? We address this question by examining the influence of neighbors' innovativeness and the structure of the innovators' network on a sector's capacity to develop new technologies. We study these two dimensions of technological interdependence by applying novel methods of text mining and network analysis to the documents of 6.5 million patents granted by the United States Patent and Trademark Office (USPTO) between 1976 and 2021. We find that, in the long run, the influence of network linkages is as important as that of neighbor innovativeness. In the short run, however, positive shocks to neighbor innovativeness yield relatively rapid effects, while the impact of shocks strengthening network linkages manifests with delay, even though lasts longer. Our analysis also highlights that patent text contains a wealth of information often not captured by traditional innovation metrics, such as patent citations.
翻訳日:2024-09-18 23:00:28 公開日:2024-09-16
# Bengali Document Layout Analysis -- YOLOV8ベースの実装アプローチ

Bengali Document Layout Analysis -- A YOLOV8 Based Ensembling Approach ( http://arxiv.org/abs/2309.00848v4 )

ライセンス: Link先を確認
Nazmus Sakib Ahmed, Saad Sakib Noor, Ashraful Islam Shanto Sikder, Abhijit Paul, (参考訳) 本稿では, YOLOv8モデルと革新的な後処理技術を用いて, Bengali Document Layout Analysis (DLA) の強化に着目する。 我々は、モデルロバストネスにデータ拡張を採用することで、複雑なBengaliスクリプトに特有の課題に取り組む。 厳密な検証セットの評価の後、我々は完全なデータセットにアプローチを微調整し、正確な要素セグメンテーションのための2段階の予測戦略を導いた。 我々のアンサンブルモデルと後処理の組み合わせは、BaDLADデータセットで特定された問題に対処しながら、個々のベースアーキテクチャよりも優れています。 このアプローチを活用することで,ベンガルの文書分析を推進し,OCRの改善と文書理解に寄与することを目指しており,BaDLADはこの取り組みの基盤として機能し,今後の研究を支援する。 さらに、我々の実験は、新しい戦略を確立されたソリューションに組み込む上で重要な洞察を与えました。

This paper focuses on enhancing Bengali Document Layout Analysis (DLA) using the YOLOv8 model and innovative post-processing techniques. We tackle challenges unique to the complex Bengali script by employing data augmentation for model robustness. After meticulous validation set evaluation, we fine-tune our approach on the complete dataset, leading to a two-stage prediction strategy for accurate element segmentation. Our ensemble model, combined with post-processing, outperforms individual base architectures, addressing issues identified in the BaDLAD dataset. By leveraging this approach, we aim to advance Bengali document analysis, contributing to improved OCR and document comprehension and BaDLAD serves as a foundational resource for this endeavor, aiding future research in the field. Furthermore, our experiments provided key insights to incorporate new strategies into the established solution.
翻訳日:2024-09-18 23:00:28 公開日:2024-09-16
# オブジェクト検出のための平均-AP誘導強化能動学習

Mean-AP Guided Reinforced Active Learning for Object Detection ( http://arxiv.org/abs/2310.08387v2 )

ライセンス: Link先を確認
Zhixuan Liang, Xingyu Zeng, Rui Zhao, Ping Luo, (参考訳) アクティブラーニング戦略は、ラベル付けの最も有用なインスタンスを選択することで、最小限のラベル付きデータで高性能モデルを訓練することを目的としている。 しかし、データインフォマティクスを評価する既存の手法は、オブジェクト検出における平均平均精度(mAP)など、タスクモデルのパフォーマンス指標と直接一致しないことが多い。 本稿では,mAP を用いたサンプリング戦略を直接最適化し,予測モデル出力変化の概念を深層検出ネットワークのインフォマティクスとして活用する手法である Mean-AP Guided Reinforced Active Learning for Object Detection (MGRAL) を提案する。 MGRALは、LSTMアーキテクチャに基づく強化学習エージェントを用いて、バッチサンプル選択の組合せ課題と、パフォーマンスと選択されたバッチの区別不能な性質を効率的にナビゲートする。 エージェントは、報酬信号としてmAPの改善とともにポリシー勾配を用いた選択を最適化する。 ラベルのないサンプルを用いてmAP推定の計算強度に対処するため,高速なルックアップテーブルを実装し,実世界の実現可能性を保証する。 各種バックボーンアーキテクチャにおけるPASCAL VOCおよびMS COCOベンチマークにおけるMGRALの評価を行った。 提案手法は,物体検出のための強化学習に基づく能動学習における新たなパラダイムを確立し,高い性能を示す。

Active learning strategies aim to train high-performance models with minimal labeled data by selecting the most informative instances for labeling. However, existing methods for assessing data informativeness often fail to align directly with task model performance metrics, such as mean average precision (mAP) in object detection. This paper introduces Mean-AP Guided Reinforced Active Learning for Object Detection (MGRAL), a novel approach that leverages the concept of expected model output changes as informativeness for deep detection networks, directly optimizing the sampling strategy using mAP. MGRAL employs a reinforcement learning agent based on LSTM architecture to efficiently navigate the combinatorial challenge of batch sample selection and the non-differentiable nature between performance and selected batches. The agent optimizes selection using policy gradient with mAP improvement as the reward signal. To address the computational intensity of mAP estimation with unlabeled samples, we implement fast look-up tables, ensuring real-world feasibility. We evaluate MGRAL on PASCAL VOC and MS COCO benchmarks across various backbone architectures. Our approach demonstrates strong performance, establishing a new paradigm in reinforcement learning-based active learning for object detection.
翻訳日:2024-09-18 22:50:44 公開日:2024-09-16
# インタラクティブAIアライメント: 仕様、プロセス、評価アライメント

Interactive AI Alignment: Specification, Process, and Evaluation Alignment ( http://arxiv.org/abs/2311.00710v2 )

ライセンス: Link先を確認
Michael Terry, Chinmay Kulkarni, Martin Wattenberg, Lucas Dixon, Meredith Ringel Morris, (参考訳) ユーザは、AIが生成したいと思う結果を記述するが、実際には結果自体を生成しない。 対照的に、従来のユーザーインターフェイスでは、ユーザーは特定の操作を呼び出し、望ましい結果を生み出す。 本稿では、この宣言型インタラクションのスタイルを考慮して、基本的な入出力インタラクションサイクルを再考し、AIアライメントの概念を結合して、AIの対話的アライメントのための3つの目標、すなわち、仕様アライメント(何をすべきかの調整)、プロセスアライメント(どのように行うべきかの調整)、評価アライメント(何が作られたのかの検証と理解を支援する)を定義する。 既存のシステムを例として、AIアライメントのユーザ中心のビューが、記述的、規範的、評価的補助としてどのように使用できるかを示す。

Modern AI enables a high-level, declarative form of interaction: Users describe the intended outcome they wish an AI to produce, but do not actually create the outcome themselves. In contrast, in traditional user interfaces, users invoke specific operations to create the desired outcome. This paper revisits the basic input-output interaction cycle in light of this declarative style of interaction, and connects concepts in AI alignment to define three objectives for interactive alignment of AI: specification alignment (aligning on what to do), process alignment (aligning on how to do it), and evaluation alignment (assisting users in verifying and understanding what was produced). Using existing systems as examples, we show how these user-centered views of AI alignment can be used descriptively, prescriptively, and as an evaluative aid.
翻訳日:2024-09-18 22:50:44 公開日:2024-09-16
# 量子限界に近づくスクイーズ真空による適応位相推定

Adaptive Phase Estimation with Squeezed Vacuum Approaching the Quantum Limit ( http://arxiv.org/abs/2312.07686v2 )

ライセンス: Link先を確認
M. A. Rodríguez-García, F. E. Becerra, (参考訳) 位相推定はコミュニケーション、センシング、情報処理において中心的な役割を果たす。 圧縮状態のような量子相関状態は、ショットノイズ限界を超える位相推定を可能にし、原理的には最適な量子測定と組み合わせることで、精度の究極的な量子限界にアプローチする。 しかし、量子関連状態を用いた光位相推定のための最適量子測定の物理的実現は未だ分かっていない。 ここでは, 真空圧縮状態を用いた光位相推定のための適応型ガウス計測手法を導入することにより, 高精度に量子限界にアプローチする。 この戦略は、回転とホモダイン測定による局所最適POVMの包括的集合から構築され、適応量子状態推定フレームワークを用いて、一定の規則性条件下で、この量子パラメータ推定問題に対する漸近最適性を保証する適応量子状態推定プロセスの最適化を行う。 その結果、局所最適ホモダイン測定に基づく適応位相推定戦略は、[0, \pi/2)$の位相間隔内での量子限界を達成する。 さらに、この戦略をヘテロダイン測定を含むことで一般化し、圧縮真空により不明瞭な位相符号化が可能となる$[0, \pi)$から全位相の位相推定を可能にする。 注目すべきは、この位相間隔は、圧縮真空でエンコードできる位相の最大範囲であり、この推定戦略は漸近的な量子最適化性能を維持しており、量子メトロジーの大幅な進歩を示していることである。

Phase estimation plays a central role in communications, sensing, and information processing. Quantum correlated states, such as squeezed states, enable phase estimation beyond the shot-noise limit, and in principle approach the ultimate quantum limit in precision, when paired with optimal quantum measurements. However, physical realizations of optimal quantum measurements for optical phase estimation with quantum-correlated states are still unknown. Here we address this problem by introducing an adaptive Gaussian measurement strategy for optical phase estimation with squeezed vacuum states that, by construction, approaches the quantum limit in precision. This strategy builds from a comprehensive set of locally optimal POVMs through rotations and homodyne measurements and uses the Adaptive Quantum State Estimation framework for optimizing the adaptive measurement process, which, under certain regularity conditions, guarantees asymptotic optimality for this quantum parameter estimation problem. As a result, the adaptive phase estimation strategy based on locally-optimal homodyne measurements achieves the quantum limit within the phase interval of $[0, \pi/2)$. Furthermore, we generalize this strategy by including heterodyne measurements, enabling phase estimation across the full range of phases from $[0, \pi)$, where squeezed vacuum allows for unambiguous phase encoding. Remarkably, for this phase interval, which is the maximum range of phases that can be encoded in squeezed vacuum, this estimation strategy maintains an asymptotic quantum-optimal performance, representing a significant advancement in quantum metrology.
翻訳日:2024-09-18 22:41:00 公開日:2024-09-16
# エピデミック・スプレッドのモデリング:ガウス的プロセス回帰アプローチ

Modeling Epidemic Spread: A Gaussian Process Regression Approach ( http://arxiv.org/abs/2312.09384v2 )

ライセンス: Link先を確認
Baike She, Lei Xin, Philip E. Paré, Matthew Hale, (参考訳) 流行のモデル化は、緩和を目的とした政策決定を通知するために重要である。 そこで本研究では,ガウス過程回帰(GPR)に基づく新しいデータ駆動手法を提案する。 GPRによる予測のばらつきは,提案モデルに対する流行データの影響を定量化する。 次に, トレーニング点と試験点の距離, 後方分散, 拡散過程の変化レベルから予測誤差に縛られた高確率誤差を導出し, 流行の伝播特性と感染データがこの誤差にどのように影響するかを評価する。 本稿では、GPRを用いて、イギリスで新型コロナウイルス流行時に収集された実世界感染データを用いて、感染拡大をモデル化し、予測する例を示す。 これらの例は、典型的な条件下では、次の20日間の予測は95%の信頼区間内にあるノイズデータの94.29%を占め、これらの予測を検証していることを示している。

Modeling epidemic spread is critical for informing policy decisions aimed at mitigation. Accordingly, in this work we present a new data-driven method based on Gaussian process regression (GPR) to model epidemic spread. We bound the variance of the predictions made by GPR, which quantifies the impact of epidemic data on the proposed model. Next, we derive a high-probability error bound on the prediction error in terms of the distance between the training points and a testing point, the posterior variance, and the level of change in the spreading process, and we assess how the characteristics of the epidemic spread and infection data influence this error bound. We present examples that use GPR to model and predict epidemic spread by using real-world infection data gathered in the UK during the COVID-19 epidemic. These examples illustrate that, under typical conditions, the prediction for the next twenty days has 94.29% of the noisy data located within the 95% confidence interval, validating these predictions.
翻訳日:2024-09-18 22:41:00 公開日:2024-09-16
# RNA: 楽しいニューラルアセット

RNA: Relightable Neural Assets ( http://arxiv.org/abs/2312.09398v2 )

ライセンス: Link先を確認
Krishna Mullia, Fujun Luan, Xin Sun, Miloš Hašan, (参考訳) 繊維(毛髪を含む)、複雑な層状材料シェーダー、または微細散乱幾何学からなる高忠実な3Dアセットは、ハイエンドのリアルなレンダリングアプリケーションにおいてユビキタスである。 このようなモデルのレンダリングは、重いシェーダーと長い散乱経路のために計算的に高価である。 さらに、シェーディングと散乱モデルの実装は簡単ではなく、3Dコンテンツオーサリングソフトウェア(必然的に複雑である)だけでなく、すべての下流レンダリングソリューションで行う必要がある。 例えば、複雑な3Dアセットに対するWebとモバイルのビューアは望ましいが、オーサリングアプリケーションによって許されるシェーディングの複雑さを完全にサポートできないことが多い。 私たちのゴールは、3Dアセットのための神経表現を設計し、複雑なシェーディングにより、完全な照らしやすさと既存のレンダラーへの完全な統合をサポートすることです。 我々は、線と基礎となる幾何学との交点において、エンド・ツー・エンドのシェーディング解を提供する。 すべてのシェーディングと散乱は前もって計算され、ニューラルアセットに含まれる。複数の散乱経路をトレースする必要はなく、単一のニューラルアーキテクチャを超えて、私たちのアセットをレンダリングするために複雑なシェーディングモデルを実装する必要もない。 MLPデコーダと機能グリッドを組み合わせる。 シェーディングは特徴ベクトルを問合せし、次に最後の反射率値を生成するMPP評価を行う。 本手法は, クローズアップビューにおいても, グランドトラストモンテカルロ推定値に近い高忠実なシェーディングを提供する。 私たちのニューラルアセットは、実用的なレンダラで使用することができ、大幅なスピードアップと、レンダラの実装を簡素化できると考えています。

High-fidelity 3D assets with materials composed of fibers (including hair), complex layered material shaders, or fine scattering geometry are ubiquitous in high-end realistic rendering applications. Rendering such models is computationally expensive due to heavy shaders and long scattering paths. Moreover, implementing the shading and scattering models is non-trivial and has to be done not only in the 3D content authoring software (which is necessarily complex), but also in all downstream rendering solutions. For example, web and mobile viewers for complex 3D assets are desirable, but frequently cannot support the full shading complexity allowed by the authoring application. Our goal is to design a neural representation for 3D assets with complex shading that supports full relightability and full integration into existing renderers. We provide an end-to-end shading solution at the first intersection of a ray with the underlying geometry. All shading and scattering is precomputed and included in the neural asset; no multiple scattering paths need to be traced, and no complex shading models need to be implemented to render our assets, beyond a single neural architecture. We combine an MLP decoder with a feature grid. Shading consists of querying a feature vector, followed by an MLP evaluation producing the final reflectance value. Our method provides high-fidelity shading, close to the ground-truth Monte Carlo estimate even at close-up views. We believe our neural assets could be used in practical renderers, providing significant speed-ups and simplifying renderer implementations.
翻訳日:2024-09-18 22:41:00 公開日:2024-09-16
# 光チャネル上の被覆量子通信

Covert Quantum Communication Over Optical Channels ( http://arxiv.org/abs/2401.06764v3 )

ライセンス: Link先を確認
Evan J. D. Anderson, Christopher K. Eyre, Isabel M. Dailey, Filip Rozpędek, Boulat A. Bash, (参考訳) 我々は、光を含む多くの実用的なチャネルの量子力学モデルである、損失のある熱ノイズボソニックチャネル上の量子ビットの秘密通信を探索する。 カバー通信は、チャネルノイズに隠れた送信の存在を敵が検出できないことを保証します。 量子被覆通信のための 'emph{square root law} (SRL) は、古典的な場合と同様である: $\propto\sqrt{n}$ qubits は、光学チャネルの$n$の使用に対して、隠蔽的かつ確実に伝達可能である。 我々の達成性証明は、長距離リピータに基づく量子通信と絡み合い分布のために提案されたフォトニックデュアルレール量子ビット符号化を用いている。 提案手法は,光チャネルの上限量子容量によく知られた手法を適応させる。 最後に、量子誤り訂正符号と量子チャネル容量境界を改善することにより、信頼された秘密量子ビット数に対する下限と上限のギャップを緩和できると信じている。

We explore covert communication of qubits over the lossy thermal-noise bosonic channel, which is a quantum-mechanical model of many practical channels, including optical. Covert communication ensures that an adversary is unable to detect the presence of transmissions, which are concealed in channel noise. We show a \emph{square root law} (SRL) for quantum covert communication similar to that for classical: $\propto\sqrt{n}$ qubits can be transmitted covertly and reliably over $n$ uses of an optical channel. Our achievability proof uses photonic dual-rail qubit encoding, which has been proposed for long-range repeater-based quantum communication and entanglement distribution. Our converse employs prior covert signal power limit results and adapts well-known methods to upper bound quantum capacity of optical channels. Finally, we believe that the gap between our lower and upper bounds for the number of reliable covert qubits can be mitigated by improving the quantum error correction codes and quantum channel capacity bounds.
翻訳日:2024-09-18 22:41:00 公開日:2024-09-16
# 数学的推論のための大規模言語モデル:進展と課題

Large Language Models for Mathematical Reasoning: Progresses and Challenges ( http://arxiv.org/abs/2402.00157v4 )

ライセンス: Link先を確認
Janice Ahn, Rishu Verma, Renze Lou, Di Liu, Rui Zhang, Wenpeng Yin, (参考訳) 数学的推論は、人間の知能の基本的な認知能力を評価するための基礎となる。 近年,数学問題の自動解法を目的とした大規模言語モデル(LLM)の開発が顕著に進んでいる。 しかし、数学的な問題の種類は様々であり、LLM指向の手法は様々なデータセットや設定で評価されている。 この多様性は、この急成長する分野における真の進歩と障害を識別することを困難にしている。 この調査は4つの重要な次元に対処する試みである。 一 調査した各種数学上の問題及びそれに対応するデータセットを総合的に調査すること。 二 数学的問題解決のために提案されたLLM指向技術のスペクトルの検討 三 数学の解法における LLM に影響する要因及び問題の概要 四 この領域内の持続的課題の解明 我々の知る限りでは、この調査は数学の領域におけるLLMの展望に関する最初の広範な調査の1つであり、この急速に発展する分野における現在の状況、成果、今後の課題に関する総合的な視点を提供するものである。

Mathematical reasoning serves as a cornerstone for assessing the fundamental cognitive capabilities of human intelligence. In recent times, there has been a notable surge in the development of Large Language Models (LLMs) geared towards the automated resolution of mathematical problems. However, the landscape of mathematical problem types is vast and varied, with LLM-oriented techniques undergoing evaluation across diverse datasets and settings. This diversity makes it challenging to discern the true advancements and obstacles within this burgeoning field. This survey endeavors to address four pivotal dimensions: i) a comprehensive exploration of the various mathematical problems and their corresponding datasets that have been investigated; ii) an examination of the spectrum of LLM-oriented techniques that have been proposed for mathematical problem-solving; iii) an overview of factors and concerns affecting LLMs in solving math; and iv) an elucidation of the persisting challenges within this domain. To the best of our knowledge, this survey stands as one of the first extensive examinations of the landscape of LLMs in the realm of mathematics, providing a holistic perspective on the current state, accomplishments, and future challenges in this rapidly evolving field.
翻訳日:2024-09-18 22:31:03 公開日:2024-09-16
# 分散2モードスクイーズによる振動子とクイディットの保護

Safeguarding Oscillators and Qudits with Distributed Two-Mode Squeezing ( http://arxiv.org/abs/2402.05888v2 )

ライセンス: Link先を確認
Anthony J. Brady, Jing Wu, Quntao Zhuang, (参考訳) マルチモード Gottesman-Kitaev-Preskill (GKP) 符号の最近の進歩は、離散およびアナログ量子情報の保護を強化することに大きな期待を示している。 この幅広い保護は、多くの量子メトロジープロトコルにおいて必須のリソースであるスクイーズ(squeezing)を保護することによって、量子センシングの恩恵を受けるために、量子コンピューティングを超えた機会をもたらす。 しかし、量子センサが量子誤差補正に役立てる可能性については、あまり研究されていない。 本研究では,マルチモードGKPコードを改善するために,量子センシングの技術を適用したユニークな例を示す。 分散量子センシングに着想を得て,最小限の能動符号化操作で誤り訂正を行う分散2モードスクイーズ(dtms)GKP符号を提案する。 実際、提案符号は、連続変数分散量子センシングと同様に、連続変数の相関を多くのGKPアンシラに効果的に分散する単一の(アクティブな)2モードのスクイーズ素子とビームスプリッターの配列に依存している。 この単純な構成にもかかわらず、dtms-GKP量子ビット符号で達成可能な符号距離は、ブルートフォース数値探索(PRX Quantum 4, 040334 (2023))による以前の結果に匹敵する。 さらに、これらの符号は、既知の2モード符号(Phys. Rev. 125, 080503 (2020))以外のアナログノイズ抑制を可能にする。 また,提案符号の2段階デコーダも提供し,2モードの場合,ほぼ最適に見え,解析的評価が可能である。

Recent advancements in multi-mode Gottesman-Kitaev-Preskill (GKP) codes have shown great promise in enhancing the protection of both discrete and analog quantum information. This broadened range of protection brings opportunities beyond quantum computing to benefit quantum sensing by safeguarding squeezing -- the essential resource in many quantum metrology protocols. However, the potential for quantum sensing to benefit quantum error correction has been less explored. In this work, we provide a unique example where techniques from quantum sensing can be applied to improve multi-mode GKP codes. Inspired by distributed quantum sensing, we propose the distributed two-mode squeezing (dtms) GKP codes that offer benefits in error correction with minimal active encoding operations. Indeed, the proposed codes rely on a single (active) two-mode squeezing element and an array of beamsplitters that effectively distributes continuous-variable correlations to many GKP ancillae, similar to continuous-variable distributed quantum sensing. Despite this simple construction, the code distance achievable with dtms-GKP qubit codes is comparable to previous results obtained through brute-force numerical search [PRX Quantum 4, 040334 (2023)]. Moreover, these codes enable analog noise suppression beyond that of the best-known two-mode codes [Phys. Rev. Lett. 125, 080503 (2020)] without requiring an additional squeezer. We also provide a simple two-stage decoder for the proposed codes, which appears near-optimal for the case of two modes and permits analytical evaluation.
翻訳日:2024-09-18 22:31:03 公開日:2024-09-16
# 壊滅的埋立を克服するためのベイズパラメーター効率の良い微調整

Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic Forgetting ( http://arxiv.org/abs/2402.12220v2 )

ライセンス: Link先を確認
Haolin Chen, Philip N. Garner, (参考訳) 我々は、主にテキスト音声合成モデルの適応を動機としているが、より汎用的なパラメータ効率の微調整(PEFT)は、そのような適応を行うのに適したフレームワークであると主張する。 それでも、PEFTでは破滅的な忘れ込みが問題であり、事前訓練されたモデル固有の能力を損なう。 本研究では,既存のベイズ学習手法をPEFTに適用することで,微調整層のパラメータシフトを微分的に計算できる限り,破滅的な忘れ込みを防止することができることを示す。 言語モデリングと音声合成タスクに関する一連の実験では、対角線とクロネッカーによるアプローチを含む確立されたラプラス近似を用いて、PEFTをローランク適応(LoRA)で正規化し、学習前の知識保存におけるそれらの性能を比較する。 以上の結果から, 微調整性能を低下させることなく, 破滅的な忘れ込みを克服できることが示され, クロネッカーによる近似を用いることで, 対角線よりも学習前の知識の保存性が向上することが示唆された。

We are motivated primarily by the adaptation of text-to-speech synthesis models; however we argue that more generic parameter-efficient fine-tuning (PEFT) is an appropriate framework to do such adaptation. Nevertheless, catastrophic forgetting remains an issue with PEFT, damaging the pre-trained model's inherent capabilities. We demonstrate that existing Bayesian learning techniques can be applied to PEFT to prevent catastrophic forgetting as long as the parameter shift of the fine-tuned layers can be calculated differentiably. In a principled series of experiments on language modeling and speech synthesis tasks, we utilize established Laplace approximations, including diagonal and Kronecker-factored approaches, to regularize PEFT with the low-rank adaptation (LoRA) and compare their performance in pre-training knowledge preservation. Our results demonstrate that catastrophic forgetting can be overcome by our methods without degrading the fine-tuning performance, and using the Kronecker-factored approximation produces a better preservation of the pre-training knowledge than the diagonal ones.
翻訳日:2024-09-18 22:31:03 公開日:2024-09-16
# 交換性を利用した高純度PAC学習

High-arity PAC learning via exchangeability ( http://arxiv.org/abs/2402.14294v3 )

ライセンス: Link先を確認
Leonardo N. Coregliano, Maryanthe Malliaris, (参考訳) 本研究では,「構造化相関」の存在下での統計的学習である高純度PAC学習の理論を開発する。 この理論では、仮説はグラフ、ハイパーグラフ、あるいはより一般に有限リレーショナル言語の構造であり、サンプリングは誘導された部分構造をサンプリングすることによって置き換えられ、交換可能な分布を生成する。 我々の主要な定理は、統計学習の基本的な定理の高次性(不可知性)バージョンを確立する。

We develop a theory of high-arity PAC learning, which is statistical learning in the presence of "structured correlation". In this theory, hypotheses are either graphs, hypergraphs or, more generally, structures in finite relational languages, and i.i.d. sampling is replaced by sampling an induced substructure, producing an exchangeable distribution. Our main theorems establish a high-arity (agnostic) version of the fundamental theorem of statistical learning.
翻訳日:2024-09-18 22:31:03 公開日:2024-09-16
# 限られたデータシナリオにおけるデータ拡張のための評価プロトコルについて

On Evaluation Protocols for Data Augmentation in a Limited Data Scenario ( http://arxiv.org/abs/2402.14895v2 )

ライセンス: Link先を確認
Frédéric Piedboeuf, Philippe Langlais, (参考訳) テキストデータ拡張(英語: Textual Data Augmentation, DA)は、人工データを作成する新しい技術が定期的に提案される多分野の研究分野であり、少なくともテキスト分類タスクにおいて、小さなデータ設定において非常に効率が良いことを証明している。 本稿では、従来のデータ拡張(文を修飾する)は、単にファインチューニングの方法であり、データ拡張を適用する前により多くの時間を費やすことが、その効果を否定することを示し、これらの結果に挑戦する。 DAテクニックがどれがベストか(トレーニングセットに十分近いデータを生成できる限り、トレーニングを損なわない)、なぜDAが肯定的な結果を示したのか(ネットワークのトレーニングを円滑化する)。 さらに,ChatGPT や LLama2 のような対話エージェントによるゼロショットDAは,従来の手法よりもデータ拡張が望ましいことを示す。

Textual data augmentation (DA) is a prolific field of study where novel techniques to create artificial data are regularly proposed, and that has demonstrated great efficiency on small data settings, at least for text classification tasks. In this paper, we challenge those results, showing that classical data augmentation (which modify sentences) is simply a way of performing better fine-tuning, and that spending more time doing so before applying data augmentation negates its effect. This is a significant contribution as it answers several questions that were left open in recent years, namely~: which DA technique performs best (all of them as long as they generate data close enough to the training set, as to not impair training) and why did DA show positive results (facilitates training of network). We further show that zero- and few-shot DA via conversational agents such as ChatGPT or LLama2 can increase performances, confirming that this form of data augmentation is preferable to classical methods.
翻訳日:2024-09-18 22:31:03 公開日:2024-09-16
# ニューロモルフィックハードウェアを用いた高速運動物体の検出

Detection of Fast-Moving Objects with Neuromorphic Hardware ( http://arxiv.org/abs/2403.10677v2 )

ライセンス: Link先を確認
Andreas Ziegler, Karl Vetter, Thomas Gossard, Jonas Tebbe, Sebastian Otte, Andreas Zell, (参考訳) 特にニューロモルフィック・コンピューティング(NC)とスパイキング・ニューラル・ニューラルネットワーク(SNN)は、次世代のニューラル・ニューラルネットワーク(NN)と見なされることが多い。 NCはエネルギー効率のよい神経計算のための新しいバイオインスパイアされたパラダイムであり、ニューロンがスパースでイベントベースの方法でスパイクを介して通信するSNNに依存していることが多い。 このスパイクによる通信は、ニューロモルフィックなハードウェア実装によって非常に効果的に利用することができ、通常のGPUベースのNNとは対照的に、消費電力と遅延を大幅に削減する。 近年、ニューロモルフィックハードウェアはよりアクセスしやすくなり、学習フレームワークのサポートも改善されている。 しかし、利用可能なハードウェアは、部分的にはまだ実験段階であり、これらのソリューションが効果的にできること、実際のロボットアプリケーションへの統合方法、エネルギー効率と遅延の現実的なメリットについて、透明性がない。 本研究では,ロボット研究コミュニティに対して,リアルタイム処理に着目したニューロモルフィックハードウェア上でのSNNの可能性について概説する。 イベントベースオブジェクト検出のための3つの一般的なニューロモルフィックハードウェアデバイスのベンチマークを紹介する。 さらに、ニューロモルフィックハードウェア上のSNNは、テーブルテニスロボットのセットアップにおいて、リアルタイムに実行可能であることを示す。

Neuromorphic Computing (NC) and Spiking Neural Networks (SNNs) in particular are often viewed as the next generation of Neural Networks (NNs). NC is a novel bio-inspired paradigm for energy efficient neural computation, often relying on SNNs in which neurons communicate via spikes in a sparse, event-based manner. This communication via spikes can be exploited by neuromorphic hardware implementations very effectively and results in a drastic reductions of power consumption and latency in contrast to regular GPU-based NNs. In recent years, neuromorphic hardware has become more accessible, and the support of learning frameworks has improved. However, available hardware is partially still experimental, and it is not transparent what these solutions are effectively capable of, how they integrate into real-world robotics applications, and how they realistically benefit energy efficiency and latency. In this work, we provide the robotics research community with an overview of what is possible with SNNs on neuromorphic hardware focusing on real-time processing. We introduce a benchmark of three popular neuromorphic hardware devices for the task of event-based object detection. Moreover, we show that an SNN on a neuromorphic hardware is able to run in a challenging table tennis robot setup in real-time.
翻訳日:2024-09-18 22:20:44 公開日:2024-09-16
# AIの意識は必然的:理論的コンピュータ科学の視点

AI Consciousness is Inevitable: A Theoretical Computer Science Perspective ( http://arxiv.org/abs/2403.17101v7 )

ライセンス: Link先を確認
Lenore Blum, Manuel Blum, (参考訳) 我々は,資源制限下での計算を研究する数学の分野である理論計算機科学のレンズを通して,意識を考察する。 この観点から、意識のための正式な機械モデルを開発する。 このモデルはアラン・チューリングの単純だが強力な計算モデルとバーナード・ベアーズの意識の劇場モデルにインスパイアされている。 非常に単純ではあるが、このモデルは人間と動物の意識に関する主要な科学的理論の多くと高いレベルで一致しており、機械の意識は避けられないという我々の主張を支持している。

We look at consciousness through the lens of Theoretical Computer Science, a branch of mathematics that studies computation under resource limitations. From this perspective, we develop a formal machine model for consciousness. The model is inspired by Alan Turing's simple yet powerful model of computation and Bernard Baars' theater model of consciousness. Though extremely simple, the model aligns at a high level with many of the major scientific theories of human and animal consciousness, supporting our claim that machine consciousness is inevitable.
翻訳日:2024-09-18 22:20:44 公開日:2024-09-16
# 救助のための基礎モデル:連結型マルチロボットシステムにおけるデッドロック分解能

Foundation Models to the Rescue: Deadlock Resolution in Connected Multi-Robot Systems ( http://arxiv.org/abs/2404.06413v2 )

ライセンス: Link先を確認
Kunal Garg, Songyuan Zhang, Jacob Arkin, Chuchu Fan, (参考訳) 接続型マルチエージェントロボットシステム(MRS)は、スムーズな低レベル制御ポリシーの下で、ロボットが所望の場所から遠ざかる障害環境でデッドロックする傾向がある。 外部の介入がなければ、しばしばハイレベルなコマンドによって、低レベルな制御ポリシーはそのようなデッドロックを解決できない。 本稿では,基礎モデルの一般化可能性と低データ要求を利用して,大規模言語モデル(LLM)やテキスト・画像モデル(VLM)をデッドロック解像度の高レベルプランナとして用いる可能性を検討する。 本稿では,基礎モデルに基づくハイレベルプランナが,MSSのリーダーをMSSのリーダーに割り当てることでデッドロックの解決を支援する階層的制御フレームワークを提案する。 そして、グラフニューラルネットワークに基づく低レベルの分散制御ポリシーを実行し、これらの経路ポイントを安全に追従し、デッドロックを回避する。 我々は,様々なMSS環境において,最高の学習済みLLMとVLMを用いた広範囲な実験を行った。 MRSが目標地点や計算時間に到達するのに有効なグラフベースのプランナと比較する。 筆者らは, グリッド型プランナと比較して, 複雑な環境における目標達成率と計算時間の観点から, 基礎モデルは, デッドロックを効率的に解決するために, 複雑な障害物処理環境におけるMSSの動作を支援することができると結論づけた。

Connected multi-agent robotic systems (MRS) are prone to deadlocks in an obstacle environment where the robots can get stuck away from their desired locations under a smooth low-level control policy. Without an external intervention, often in terms of a high-level command, a low-level control policy cannot resolve such deadlocks. Utilizing the generalizability and low data requirements of foundation models, this paper explores the possibility of using text-based models, i.e., large language models (LLMs), and text-and-image-based models, i.e., vision-language models (VLMs), as high-level planners for deadlock resolution. We propose a hierarchical control framework where a foundation model-based high-level planner helps to resolve deadlocks by assigning a leader to the MRS along with a set of waypoints for the MRS leader. Then, a low-level distributed control policy based on graph neural networks is executed to safely follow these waypoints, thereby evading the deadlock. We conduct extensive experiments on various MRS environments using the best available pre-trained LLMs and VLMs. We compare their performance with a graph-based planner in terms of effectiveness in helping the MRS reach their target locations and computational time. Our results illustrate that, compared to grid-based planners, the foundation models perform better in terms of the goal-reaching rate and computational time for complex environments, which helps us conclude that foundation models can assist MRS operating in complex obstacle-cluttered environments to resolve deadlocks efficiently.
翻訳日:2024-09-18 22:20:44 公開日:2024-09-16
# 近隣住民への支払い:訓練不要なオープンボキャブラリセマンティックセマンティックセグメンテーション

Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2404.08181v2 )

ライセンス: Link先を確認
Sina Hajimiri, Ismail Ben Ayed, Jose Dolz, (参考訳) セマンティックセグメンテーションのような濃密な視覚認識問題に対するディープラーニングの進歩にもかかわらず、従来の手法は固定クラスセットによって制約される。 一方、CLIPのような視覚言語基盤モデルは、その堅牢な一般化性のため、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。 近年,オープン語彙セマンティックセマンティックセグメンテーション(OVSS)におけるこれらのモデルの利用について研究が行われている。 しかし、既存のアプローチは、しばしば非現実的な事前訓練や、追加の事前訓練されたネットワークへのアクセスに依存している。 本研究では,Nighbour-Aware CLIP (NACLIP, Neighbour-Aware CLIP) と呼ばれる,トレーニング不要なOVSSのための強力なベースラインを提案する。 OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。 セグメンテーションを優先する設計選択を組み込むことで、付加データ、補助訓練ネットワーク、広範ハイパーパラメータチューニングを必要とせず、性能を著しく向上させ、現実のアプリケーションに非常に実用的である。 8つの一般的なセマンティックセグメンテーションベンチマークで実験が行われ、ほとんどのシナリオで最先端のパフォーマンスが得られる。 私たちのコードはhttps://github.com/sinahmr/NACLIPで公開されています。

Despite the significant progress in deep learning for dense visual recognition problems, such as semantic segmentation, traditional methods are constrained by fixed class sets. Meanwhile, vision-language foundation models, such as CLIP, have showcased remarkable effectiveness in numerous zero-shot image-level tasks, owing to their robust generalizability. Recently, a body of work has investigated utilizing these models in open-vocabulary semantic segmentation (OVSS). However, existing approaches often rely on impractical supervised pre-training or access to additional pre-trained networks. In this work, we propose a strong baseline for training-free OVSS, termed Neighbour-Aware CLIP (NACLIP), representing a straightforward adaptation of CLIP tailored for this scenario. Our method enforces localization of patches in the self-attention of CLIP's vision transformer which, despite being crucial for dense prediction tasks, has been overlooked in the OVSS literature. By incorporating design choices favouring segmentation, our approach significantly improves performance without requiring additional data, auxiliary pre-trained networks, or extensive hyperparameter tuning, making it highly practical for real-world applications. Experiments are performed on 8 popular semantic segmentation benchmarks, yielding state-of-the-art performance on most scenarios. Our code is publicly available at https://github.com/sinahmr/NACLIP.
翻訳日:2024-09-18 22:10:43 公開日:2024-09-16
# 大きな言語モデルは間違いから進化し続けることができる

Large Language Model Can Continue Evolving From Mistakes ( http://arxiv.org/abs/2404.08707v5 )

ライセンス: Link先を確認
Haokun Zhao, Haixia Han, Jie Shi, Chengyu Du, Jiaqing Liang, Yanghua Xiao, (参考訳) 世界の知識が進化し、新しいタスクスキーマが出現するにつれて、継続的な学習(CL)は、大きな言語モデル(LLM)を最新に保つ上で不可欠であり、その欠点に対処する。 LLMは、通常、新しいタスクに適応し、本質的な知識を得るために、連続的命令チューニング(CIT)と連続的事前訓練(CPT)を必要とする。 しかし、知識ギャップに対処しながら十分なCPTデータを集めることは依然として困難であり、このデータを利用する効率を最適化する。 そこで我々は,CPTデータを収集し,誤り関連知識による反復的評価と補足によってLCMの性能を継続的に向上することを目的とした,データ効率のよい手法であるCEM(Continuue Evolving from Mistakes)手法を提案する。 そこで本研究では,CITとCPTデータを組み合わせた新たなトレーニングパラダイムを提案する。 実験により、CEMはモデル性能と連続進化を著しく向上させることが示された。 コードとデータセットはGitHubで入手できる。

As world knowledge evolves and new task schemas emerge, Continual Learning (CL) is crucial for keeping Large Language Models (LLMs) up-to-date and addressing their shortcomings. LLMs typically require continual instruction tuning (CIT) and continual pre-training (CPT) to adapt to new tasks and acquire essential knowledge. However, collecting sufficient CPT data while addressing knowledge gaps remains challenging, as does optimizing the efficiency of utilizing this data. Inspired by the 'summarizing mistakes' strategy, we propose the Continue Evolving from Mistakes (CEM) method, a data-efficient approach aiming to collect CPT data and continually improve LLMs' performance through iterative evaluation and supplementation with mistake-relevant knowledge. To enhance data utilization and mitigate forgetting, we introduce a novel training paradigm that combines CIT and CPT data. Experiments demonstrate that CEM significantly enhances model performance and continual evolution. The code and dataset are available in the GitHub.
翻訳日:2024-09-18 22:10:43 公開日:2024-09-16
# 対応Dream: クロスビュー対応を用いたテキスト・ツー・3Dの3次元忠実度向上

CorrespondentDream: Enhancing 3D Fidelity of Text-to-3D using Cross-View Correspondences ( http://arxiv.org/abs/2404.10603v2 )

ライセンス: Link先を確認
Seungwook Kim, Kejie Li, Xueqing Deng, Yichun Shi, Minsu Cho, Peng Wang, (参考訳) マルチビュー拡散モデルを3次元最適化の先行として活用することで、ゼロショットテキスト・ツー・3Dモデルにおける3次元整合性の問題、例えばヤヌス面問題やコンテンツドリフト問題を軽減することができる。 しかし、出力の3次元幾何学的忠実度は未解決の問題であり、レンダリングされた2次元ビューは現実的であるが、基礎となる幾何学は不合理な凹凸のような誤りを含むかもしれない。 本研究では,NeRF最適化プロセスに先立って,拡散U-Netから得られるアノテーションのないクロスビュー対応を活用するための効果的な手法であるCor correspondingentDreamを提案する。 これらの対応は人間の知覚と強く一致しており、損失設計に採用することにより、一般的な感覚、例えば、より滑らかな物体表面とのコヒーレントなジオメトリーを持つNeRFモデルを作成でき、より高い3次元忠実度が得られる。 提案手法の有効性を,様々な定性的な結果とユーザスタディを通じて実証する。

Leveraging multi-view diffusion models as priors for 3D optimization have alleviated the problem of 3D consistency, e.g., the Janus face problem or the content drift problem, in zero-shot text-to-3D models. However, the 3D geometric fidelity of the output remains an unresolved issue; albeit the rendered 2D views are realistic, the underlying geometry may contain errors such as unreasonable concavities. In this work, we propose CorrespondentDream, an effective method to leverage annotation-free, cross-view correspondences yielded from the diffusion U-Net to provide additional 3D prior to the NeRF optimization process. We find that these correspondences are strongly consistent with human perception, and by adopting it in our loss design, we are able to produce NeRF models with geometries that are more coherent with common sense, e.g., more smoothed object surface, yielding higher 3D fidelity. We demonstrate the efficacy of our approach through various comparative qualitative results and a solid user study.
翻訳日:2024-09-18 22:10:43 公開日:2024-09-16
# GISR:シングルビューロボットマップのための幾何学的初期化とシルエットに基づくリファインメントと構成推定

GISR: Geometric Initialization and Silhouette-based Refinement for Single-View Robot Pose and Configuration Estimation ( http://arxiv.org/abs/2405.04890v3 )

ライセンス: Link先を確認
Ivan Bilić, Filip Marić, Fabio Bonsignorio, Ivan Petrović, (参考訳) 自律ロボット工学では、ロボットの内部状態の測定と、協調ロボットのような他のエージェントとの相互作用を含む環境の認識が不可欠である。 ロボットアームのポーズを単一の視点から推定することは、古典的な視線と手動のキャリブレーションのアプローチを置き換える可能性があり、特にオンライン推定や動的環境において魅力的である。 そのポーズに加えて、ロボット構成の復元は、高度なロボティクスのユースケースにおける他のエージェントの行動を予測するために使用できる観察されたロボットの完全な空間的理解を提供する。 さらに、この追加冗長性により、センサ障害や外部障害の場合に、リカバリプロトコルの計画と実行が可能になる。 本稿では,リアルタイムに実行を優先する深層構成とロボット対カメラのポーズ推定手法GISRを紹介する。 GISRは2つのモジュールから構成される。 一 近似ロボットのポーズ及び構成を効率的に計算する幾何学的初期化モジュール (ii) 数回のイテレーションで最終解に到達したディープイテレーティブなシルエットベースのリファインメントモジュール。 我々は、GISRを公開データ上で評価し、速度と精度の両面で、同一クラスの既存手法よりも優れており、地道な受容に依存してポーズのみを復元するアプローチと競合できることを示す。

In autonomous robotics, measurement of the robot's internal state and perception of its environment, including interaction with other agents such as collaborative robots, are essential. Estimating the pose of the robot arm from a single view has the potential to replace classical eye-to-hand calibration approaches and is particularly attractive for online estimation and dynamic environments. In addition to its pose, recovering the robot configuration provides a complete spatial understanding of the observed robot that can be used to anticipate the actions of other agents in advanced robotics use cases. Furthermore, this additional redundancy enables the planning and execution of recovery protocols in case of sensor failures or external disturbances. We introduce GISR - a deep configuration and robot-to-camera pose estimation method that prioritizes execution in real-time. GISR consists of two modules: (i) a geometric initialization module that efficiently computes an approximate robot pose and configuration, and (ii) a deep iterative silhouette-based refinement module that arrives at a final solution in just a few iterations. We evaluate GISR on publicly available data and show that it outperforms existing methods of the same class in terms of both speed and accuracy, and can compete with approaches that rely on ground-truth proprioception and recover only the pose.
翻訳日:2024-09-18 22:10:43 公開日:2024-09-16
# 逐次分離可能なデータを用いた深部ReLUニューラルネットワークの解釈可能な大域最小化

Interpretable global minima of deep ReLU neural networks on sequentially separable data ( http://arxiv.org/abs/2405.07098v2 )

ライセンス: Link先を確認
Thomas Chen, Patricia Muñoz Ewald, (参考訳) ゼロ損失ニューラルネットワーク分類器を明示的に構築する。 重み行列とバイアスベクトルを累積パラメータで記述し、入力空間上で再帰的に作用するトランケーション写像を決定する。 検討されたトレーニングデータの構成は、 (i)各クラスに対応する十分に小さく、十分に分離されたクラスタ、及び (ii) 逐次線形分離可能な同値類。 最良の場合、$\mathbb{R}^M$のデータの$Q$クラスの場合、大域最小化子は$Q(M+2)$パラメータで記述できる。

We explicitly construct zero loss neural network classifiers. We write the weight matrices and bias vectors in terms of cumulative parameters, which determine truncation maps acting recursively on input space. The configurations for the training data considered are (i) sufficiently small, well separated clusters corresponding to each class, and (ii) equivalence classes which are sequentially linearly separable. In the best case, for $Q$ classes of data in $\mathbb{R}^M$, global minimizers can be described with $Q(M+2)$ parameters.
翻訳日:2024-09-18 22:10:43 公開日:2024-09-16
# Give and Take: Giveaway Scam Conversion Ratesのエンドツーエンド調査

Give and Take: An End-To-End Investigation of Giveaway Scam Conversion Rates ( http://arxiv.org/abs/2405.09757v2 )

ライセンス: Link先を確認
Enze Liu, George Kappos, Eric Mugnier, Luca Invernizzi, Stefan Savage, David Tao, Kurt Thomas, Geoffrey M. Voelker, Sarah Meiklejohn, (参考訳) 被害者からお金を流す詐欺は、記録に残る限り存在してきた。 しかし、インターネットの低通信コスト、グローバルリーチ、機能匿名の組み合わせにより、詐欺のボリュームは新たな高さに達することができた。 効果的な介入を設計するには、最初にコンテキストを理解する必要がある。 本稿では、暗号通貨の配当詐欺の文脈において、これらの疑問に焦点を合わせ、被害者は、さらに大きなリターンを迫られた詐欺師に、不可逆的に資金を振りかざすように騙される。 Twitter、YouTube、Twitchのライブストリーム、ランディングページ、およびブロックチェーンからのデータを組み合わせることで、大規模な盗難詐欺がどのように動作するかを測定する。 1000件の詐欺ツイートが1件、ライブストリームビューが10万件、ネットが1件、詐欺師がたった数百人の被害者から4億6200万ドル(約460億円)近くを抽出したことがわかりました。

Scams -- fraudulent schemes designed to swindle money from victims -- have existed for as long as recorded history. However, the Internet's combination of low communication cost, global reach, and functional anonymity has allowed scam volumes to reach new heights. Designing effective interventions requires first understanding the context: how scammers reach potential victims, the earnings they make, and any potential bottlenecks for durable interventions. In this short paper, we focus on these questions in the context of cryptocurrency giveaway scams, where victims are tricked into irreversibly transferring funds to scammers under the pretense of even greater returns. Combining data from Twitter, YouTube and Twitch livestreams, landing pages, and cryptocurrency blockchains, we measure how giveaway scams operate at scale. We find that 1 in 1000 scam tweets, and 4 in 100,000 livestream views, net a victim, and that scammers managed to extract nearly \$4.62 million from just hundreds of victims during our measurement window.
翻訳日:2024-09-18 22:10:43 公開日:2024-09-16
# RuleFuser: 模擬プランナーとロバスト性予測器におけるルール注入のエビデンシャルベイズアプローチ

RuleFuser: An Evidential Bayes Approach for Rule Injection in Imitation Learned Planners and Predictors for Robustness under Distribution Shifts ( http://arxiv.org/abs/2405.11139v3 )

ライセンス: Link先を確認
Jay Patrikar, Sushant Veer, Apoorva Sharma, Marco Pavone, Sebastian Scherer, (参考訳) 自律運転のための現代の運動プランナーは、専門家の運転ログから引き出すために、しばしば模倣学習(IL)を使用する。 ILは、大規模なデータセットからニュアンスとマルチモーダルな人間の運転行動を引き出す能力から恩恵を受けるが、結果として生じるプランナーは、アウト・オブ・ディストリビューション(OOD)のシナリオとトラフィックルールのコンプライアンスに苦慮することが多い。 一方、古典的なルールベースのプランナーは、OODシナリオに頑健でありながら、安全なトラフィックルールに準拠した行動を生成することができるが、エージェントとエージェントのインタラクションや人間のドライバーの意図によるニュアンスを捉えることはできない。 RuleFuserは明白なフレームワークで、ILプランナーと古典的なルールベースのプランナーを組み合わせることで、両方の相補的な利点を生かし、模倣と安全性のバランスを取る。 我々のアプローチは、現実世界のnuPlanデータセットでテストされ、ILプランナーのin-distriion(ID)シナリオにおけるハイパフォーマンスと、ルールベースプランナーのout-of-distriion(OOD)シナリオにおける強化された安全性を組み合わせ、OODシナリオにおける模倣メトリクスへの負担を伴わずに、ILプランナーの安全性指標に対する平均38.43%の改善を達成する。

Modern motion planners for autonomous driving frequently use imitation learning (IL) to draw from expert driving logs. Although IL benefits from its ability to glean nuanced and multi-modal human driving behaviors from large datasets, the resulting planners often struggle with out-of-distribution (OOD) scenarios and with traffic rule compliance. On the other hand, classical rule-based planners, by design, can generate safe traffic rule compliant behaviors while being robust to OOD scenarios, but these planners fail to capture nuances in agent-to-agent interactions and human drivers' intent. RuleFuser, an evidential framework, combines IL planners with classical rule-based planners to draw on the complementary benefits of both, thereby striking a balance between imitation and safety. Our approach, tested on the real-world nuPlan dataset, combines the IL planner's high performance in in-distribution (ID) scenarios with the rule-based planners' enhanced safety in out-of-distribution (OOD) scenarios, achieving a 38.43% average improvement on safety metrics over the IL planner without much detriment to imitation metrics in OOD scenarios.
翻訳日:2024-09-18 22:10:43 公開日:2024-09-16
# PoseGravity: 軸を優先した点と線からのPoseの推定

PoseGravity: Pose Estimation from Points and Lines with Axis Prior ( http://arxiv.org/abs/2405.12646v2 )

ライセンス: Link先を確認
Akshay Chandrasekhar, (参考訳) 本稿では,カメラの回転行列の軸が与えられた絶対的なカメラポーズを推定するアルゴリズムを提案する。 現在のアルゴリズムは、限られた入力領域上の代数的解によって問題を解く。 本稿では,ハイパーボラと単位円の交点を求めることで,問題を効率的に解けることを示す。 このソリューションは、最小限と過剰に制約された構成で、点と線の特徴の組み合わせを柔軟に適合させることができる。 さらに、平面と極小の構成の2つの特別なケースが同定され、より単純な閉形式解が得られる。 大規模な実験でそのアプローチが検証される。

This paper presents a new algorithm to estimate absolute camera pose given an axis of the camera's rotation matrix. Current algorithms solve the problem via algebraic solutions on limited input domains. This paper shows that the problem can be solved efficiently by finding the intersection points of a hyperbola and the unit circle. The solution can flexibly accommodate combinations of point and line features in minimal and overconstrained configurations. In addition, the two special cases of planar and minimal configurations are identified to yield simpler closed-form solutions. Extensive experiments validate the approach.
翻訳日:2024-09-18 22:10:43 公開日:2024-09-16
# 非ポリノミカル活性化による深部神経回路の補間 : 必要な数と十分な数のニューロン

Interpolation with deep neural networks with non-polynomial activations: necessary and sufficient numbers of neurons ( http://arxiv.org/abs/2405.13738v2 )

ライセンス: Link先を確認
Liam Madden, (参考訳) フィードフォワードニューラルネットワークに必要なニューロンの最小数$n$を$\mathbb{R}^d\times \mathbb{R}^{d'}$を$\Theta(\sqrt{nd'})$と解釈する。 以前の結果は、$\Theta(\sqrt{nd'})$ニューロンが十分であることを示しているが、活性化関数としてシグミド、ヘビシド、修正線形単位(ReLU)に制限されている。 異なるアプローチを用いて、活性化関数がある点において実解析的であり、その点において多項式ではない限り、$\Theta(\sqrt{nd'})$ニューロンは十分であることを示す。 したがって、我々の結果が適用できない唯一の実用的なアクティベーション関数は、断片多項式である。 これは、補間力を失うことなく、アクティベーション関数を問題依存的に自由に選択できることを意味している。

The minimal number of neurons required for a feedforward neural network to interpolate $n$ generic input-output pairs from $\mathbb{R}^d\times \mathbb{R}^{d'}$ is $\Theta(\sqrt{nd'})$. While previous results have shown that $\Theta(\sqrt{nd'})$ neurons are sufficient, they have been limited to sigmoid, Heaviside, and rectified linear unit (ReLU) as the activation function. Using a different approach, we prove that $\Theta(\sqrt{nd'})$ neurons are sufficient as long as the activation function is real analytic at a point and not a polynomial there. Thus, the only practical activation functions that our result does not apply to are piecewise polynomials. Importantly, this means that activation functions can be freely chosen in a problem-dependent manner without loss of interpolation power.
翻訳日:2024-09-18 22:10:43 公開日:2024-09-16
# 損失誘導拡散モデルによる画像レイアウト制御の強化

Enhancing Image Layout Control with Loss-Guided Diffusion Models ( http://arxiv.org/abs/2405.14101v2 )

ライセンス: Link先を確認
Zakaria Patel, Kirill Serkh, (参考訳) 拡散モデルは、単純なテキストプロンプトを用いて純粋なノイズから高品質な画像を生成することができる強力な生成モデルのクラスである。 生成した画像(例えばバウンディングボックス)に追加の空間的制約を導入するほとんどの手法は微調整を必要とするが、これらの手法のより小型でより最近のサブセットはモデルの注意機構を利用しており、訓練は不要である。 これらの方法は通常、2つのカテゴリの1つに分類される。 1つ目は、画像の特定の領域における信号を強化するために、特定のトークンのクロスアテンションマップを直接変更することである。 2つ目は、クロスアテンション写像上の損失関数を定義し、この損失の勾配を使って潜伏関数を導くことである。 従来の研究は,これらを代替戦略として検討する一方で,これらの手法を補完的特徴を強調した解釈を提供し,両手法をコンサートで使用する場合,優れた性能が得られることを示す。

Diffusion models are a powerful class of generative models capable of producing high-quality images from pure noise using a simple text prompt. While most methods which introduce additional spatial constraints into the generated images (e.g., bounding boxes) require fine-tuning, a smaller and more recent subset of these methods take advantage of the models' attention mechanism, and are training-free. These methods generally fall into one of two categories. The first entails modifying the cross-attention maps of specific tokens directly to enhance the signal in certain regions of the image. The second works by defining a loss function over the cross-attention maps, and using the gradient of this loss to guide the latent. While previous work explores these as alternative strategies, we provide an interpretation for these methods which highlights their complimentary features, and demonstrate that it is possible to obtain superior performance when both methods are used in concert.
翻訳日:2024-09-18 22:00:57 公開日:2024-09-16
# Label-Looping: トランスデューサのための高効率デコーディング

Label-Looping: Highly Efficient Decoding for Transducers ( http://arxiv.org/abs/2406.06220v2 )

ライセンス: Link先を確認
Vladimir Bataev, Hainan Xu, Daniel Galvez, Vitaly Lavrukhin, Boris Ginsburg, (参考訳) 本稿では,トランスデューサに基づく音声認識モデルのための,高効率なグリーディ復号アルゴリズムを提案する。 我々は、RNN-Tデコードのための標準的なネストループ設計を再設計し、フレームやラベルにループを置き換え、外ループはラベルに反復し、内ループは次の非ブランクシンボルを探すフレームに反復する。 さらに、CUDAテンソルを用いた特殊構造における部分仮説を表現し、並列化仮説の操作をサポートする。 実験の結果,ラベルループアルゴリズムはバッチサイズ32を使用する場合,従来のバッチデコードよりも最大2.0倍高速であることがわかった。 他のコンパイラやGPUコール関連のテクニックとさらに組み合わせて、さらなるスピードアップを実現することも可能だ。 本アルゴリズムは汎用的であり,従来のトランスデューサとToken-and-Durationトランスデューサの両方で動作する。 私たちは研究コミュニティに利益をもたらすために、実装をオープンソースにしています。

This paper introduces a highly efficient greedy decoding algorithm for Transducer-based speech recognition models. We redesign the standard nested-loop design for RNN-T decoding, swapping loops over frames and labels: the outer loop iterates over labels, while the inner loop iterates over frames searching for the next non-blank symbol. Additionally, we represent partial hypotheses in a special structure using CUDA tensors, supporting parallelized hypotheses manipulations. Experiments show that the label-looping algorithm is up to 2.0X faster than conventional batched decoding when using batch size 32. It can be further combined with other compiler or GPU call-related techniques to achieve even more speedup. Our algorithm is general-purpose and can work with both conventional Transducers and Token-and-Duration Transducers. We open-source our implementation to benefit the research community.
翻訳日:2024-09-18 22:00:57 公開日:2024-09-16
# フォールトトレラント量子コンピュータを用いた非圧縮性流体力学シミュレーションの高速化の可能性

Feasibility of accelerating incompressible computational fluid dynamics simulations with fault-tolerant quantum computers ( http://arxiv.org/abs/2406.06323v2 )

ライセンス: Link先を確認
John Penuel, Amara Katabarwa, Peter D. Johnson, Collin Farquhar, Yudong Cao, Michael C. Garrett, (参考訳) 業界全体では、伝統的な設計とエンジニアリングのワークフローがシミュレーション駆動のプロセスにアップグレードされている。 多くのワークフローには計算流体力学(CFD)がある。 乱流のシミュレーションは、高い計算コストと精度を損なう近似手法に依存することで有名である。 CFD計算の高速化と精度の向上は、計算コストを削減し、実験的なテストの必要性をなくすことで、設計ワークフローコストを削減できる可能性がある。 本研究では, 耐故障性量子コンピュータによる非圧縮性あるいは弱い圧縮性体制下でのCFDシミュレーションの高速化と精度向上の実現可能性について検討する。 シミュレーション駆動型船舶設計の例では,定常流れの抗力を計算するためのシミュレーションを検討し,経済性や古典的硬さの分析を行う。 選択した量子アプローチの実現可能性を評価するための道筋として、球面上のドラッグ力の単純な場合に必要な量子資源を推定する。 論理量子ビット)$\times$($T$ gates)の積を10^{22}$から10^{28}$まで見積もる。 これらの高い初期推定は、将来の量子コンピュータは、重要なアルゴリズムの進歩や代替の量子アプローチが開発されない限り、圧縮不能なCFDアプリケーションにユーティリティを提供する可能性は低いことを示唆している。 成熟した量子化学の応用により、量子資源削減の最も有望な次のステップは、球面からより複雑な幾何学によるユーティリティスケールの問題へのスケールアップである。

Across industries, traditional design and engineering workflows are being upgraded to simulation-driven processes. Many workflows include computational fluid dynamics (CFD). Simulations of turbulent flow are notorious for high compute costs and reliance on approximate methods that compromise accuracy. Improvements in the speed and accuracy of CFD calculations would potentially reduce design workflow costs by reducing computational costs and eliminating the need for experimental testing. This study explores the feasibility of using fault-tolerant quantum computers to improve the speed and accuracy of CFD simulations in the incompressible or weakly compressible regime. For the example of simulation-driven ship design, we consider simulations for calculating the drag force in steady-state flows, and provide analysis on economic utility and classical hardness. As a waypoint toward assessing the feasibility of our chosen quantum approach, we estimate the quantum resources required for the simpler case of drag force on a sphere. We estimate the product of (logical qubits)$\times$($T$ gates) to range from $10^{22}$ to $10^{28}$. These high initial estimates suggest that future quantum computers are unlikely to provide utility for incompressible CFD applications unless significant algorithmic advancements or alternative quantum approaches are developed. Encouraged by applications in quantum chemistry that have realized orders-of-magnitude improvements as they matured, we identify the most promising next steps for quantum resource reduction as we work to scale up our estimates from spheres to utility-scale problems with more complex geometry.
翻訳日:2024-09-18 22:00:57 公開日:2024-09-16
# 異常熱流の文脈性

Contextuality in anomalous heat flow ( http://arxiv.org/abs/2406.09715v2 )

ライセンス: Link先を確認
Naim Elias Comar, Danilo Cius, Luis Felipe Santos, Rafael Wagner, Bárbara Amaral, (参考訳) 古典的な熱力学では、熱は自然に熱から冷たい系へ流れなければならない。 量子熱力学において、同じ法則は、一元的に進化する多部積の熱状態を考えるときに適用される。 初期の相関が存在する場合、異常な熱流が起こり、一時的に冷熱状態が冷たくなり、熱状態が温くなる。 このような効果は絡み合いによって起こりうるが、古典的なランダム性のためもあり、したがって非古典性との直接的なつながりが欠如している。 本研究では, 異常な熱流 \emph{does} が非古典性に直接関連し, 実験データを説明する非文脈モデルの失敗と定義するシナリオを紹介する。 まず、既知の非コンテクスチュアリティの不等式を、逐次変換が考慮される設定に拡張することから始める。 次に、与えられた臨界時間$\tau_c$に対して、時間間隔$(0,\tau_c)$を特徴とする量子準備変換プロトコルのクラスを示す。 Micadei et al (Nat. Commun. 10, 2456 (2019)) による最近の実験も分析し、それらの実験パラメータに基づいて臨界時間 $\tau_c$ を求める。 本研究は,2つの量子ビット系の進化における熱流の研究から,我々の発見は2つの量子ビット系を用いるための人工物ではないことを示す。

In classical thermodynamics, heat must spontaneously flow from hot to cold systems. In quantum thermodynamics, the same law applies when considering multipartite product thermal states evolving unitarily. If initial correlations are present, anomalous heat flow can happen, temporarily making cold thermal states colder and hot thermal states hotter. Such effect can happen due to entanglement, but also because of classical randomness, hence lacking a direct connection with nonclassicality. In this work, we introduce scenarios where anomalous heat flow \emph{does} have a direct link to nonclassicality, defined to be the failure of noncontextual models to explain experimental data. We start by extending known noncontextuality inequalities to a setup where sequential transformations are considered. We then show a class of quantum prepare-transform-measure protocols, characterized by time intervals $(0,\tau_c)$ for a given critical time $\tau_c$, where anomalous heat flow happens only if a noncontextuality inequality is violated. We also analyze a recent experiment from Micadei et. al. [Nat. Commun. 10, 2456 (2019)] and find the critical time $\tau_c$ based on their experimental parameters. We conclude by investigating heat flow in the evolution of two qutrit systems, showing that our findings are not an artifact of using two-qubit systems.
翻訳日:2024-09-18 22:00:57 公開日:2024-09-16
# SynDARin:低リソース言語における自動推論のためのデータセットの合成

SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages ( http://arxiv.org/abs/2406.14425v3 )

ライセンス: Link先を確認
Gayane Ghazaryan, Erik Arakelyan, Pasquale Minervini, Isabelle Augenstein, (参考訳) QAデータセットは、LLM(Large Language Model)の機能の開発と評価に役立っている。 しかし、このようなデータセットは、収集と手作業によるアノテーションのコストと難しさのため、英語以外の言語では不十分である。 これは、低リソース言語における新しいモデルの作成と多言語LLMの性能の測定が困難であることを意味する。 これを軽減するために、低リソース言語向けのQAデータセットの生成と検証を行うメソッドである$\textbf{S}$yn$\textbf{DAR}$inを提案する。 並列コンテンツマイニングを用いて、英語と対象言語の間の$\textit{ Human-curated}$パラグラフを得る。 我々は、英語データを文脈として、$\textit{generate}$ Synthetic Multiple-Awer pairs(MC)に使用する。 これらは、指定されていない$\textit{human-curated}$パラグラフと組み合わせることで、最終的なQAデータセットを形成する。 この方法では、コンテンツ品質の維持、事実エラーの可能性を低減し、コストのかかるアノテーションの必要性を回避することができる。 この手法をテストするために、アルメニア語のための12ドルのサンプルを持つQAデータセットを作成しました。 人間の評価では、生成された英語データの9,8\%が質問の種類やトピックの品質と多様性を維持しており、翻訳検証パイプラインは品質の悪いデータの$\sim70\%をフィルタリングすることができる。 我々は、このデータセットを用いて最先端のLCMをベンチマークし、ランダムな確率に近いモデル性能で人間の精度を達成できないことを示す。 これは、生成されたデータセットが非自明であり、低リソース言語の推論能力を評価するために使用できることを示している。

Question Answering (QA) datasets have been instrumental in developing and evaluating Large Language Model (LLM) capabilities. However, such datasets are scarce for languages other than English due to the cost and difficulties of collection and manual annotation. This means that producing novel models and measuring the performance of multilingual LLMs in low-resource languages is challenging. To mitigate this, we propose $\textbf{S}$yn$\textbf{DAR}$in, a method for generating and validating QA datasets for low-resource languages. We utilize parallel content mining to obtain $\textit{human-curated}$ paragraphs between English and the target language. We use the English data as context to $\textit{generate}$ synthetic multiple-choice (MC) question-answer pairs, which are automatically translated and further validated for quality. Combining these with their designated non-English $\textit{human-curated}$ paragraphs form the final QA dataset. The method allows to maintain the content quality, reduces the likelihood of factual errors, and circumvents the need for costly annotation. To test the method, we created a QA dataset with $1.2$K samples for the Armenian language. The human evaluation shows that $98\%$ of the generated English data maintains quality and diversity in the question types and topics, while the translation validation pipeline can filter out $\sim70\%$ of data with poor quality. We use the dataset to benchmark state-of-the-art LLMs, showing their inability to achieve human accuracy with some model performances closer to random chance. This shows that the generated dataset is non-trivial and can be used to evaluate reasoning capabilities in low-resource language.
翻訳日:2024-09-18 21:51:13 公開日:2024-09-16
# NO$_3$ラジカルの2500ビブロニック固有状態

2500 vibronic eigenstates of the NO$_3$ radical ( http://arxiv.org/abs/2407.03398v2 )

ライセンス: Link先を確認
Henrik R. Larsson, Alexandra Viel, (参考訳) 硝酸基のNO$_3$は大気化学において重要な役割を担っているが、その結合と無調和のビブロニック構造には多くの側面がある。 ここでは、5つの電子状態を含む正確な全次元双極子ポテンシャルを用いて、電子の$\tilde X ^2A_2'$状態に関連する振動スペクトルを再検討する。 最近開発されたテンソルネットワーク状態法を用いて2500以上のビブロニック状態を計算することができ、計算された全次元状態の数を以前の研究と比べて50倍に増やすことができる。 我々は割り当てられたバイブロニックレベルのほとんどについて実験と良好な一致を得たが、他のいくつかの実験では、顕著な意見の不一致が観察された。 さらに、反対称曲げ運動に対しては、零次基準よりも大きい大きな対称性誘起準位分割が顕著に現れる。 本研究は,非無視的非透析効果について考察し,ボルン・オッペンハイマー近似がスペクトルに有意な誤差をもたらすことを示す。

The nitrate radical NO$_3$ plays an important role in atmospheric chemistry, yet many aspects of its coupled and anharmonic vibronic structure remain elusive. Here, using an accurate, coupled full-dimensional diabatic potential that includes five electronic states, we revisit the vibronic spectrum associated with the electronic $\tilde X ^2A_2'$ state. Using recently developed tensor network state methods, we are able to compute more than 2500 vibronic states, thereby increasing the number of computed full-dimensional states by a factor of 50, compared to previous work. While we obtain good agreement with experiment for most of the assigned vibronic levels, for several others, we observe striking disagreement. Further, for the antisymmetric bending motion we find remarkably large symmetry-induced level splittings that are larger than the zero-order reference. We discuss non-negligible nonadiabatic effects and show that the Born-Oppenheimer approximation leads to significant errors in the spectrum.
翻訳日:2024-09-18 21:41:27 公開日:2024-09-16
# エコノミストのためのディープラーニング

Deep Learning for Economists ( http://arxiv.org/abs/2407.15339v2 )

ライセンス: Link先を確認
Melissa Dell, (参考訳) ディープラーニングは、大規模で非構造化のテキストや画像データセットから構造化情報をインプットする強力な方法を提供する。 例えば、経済学者は、衛星画像における経済活動の存在を検知したり、ソーシャルメディア、議会記録、ファーム・ファイリングで言及されているトピックや実体を計測したいかもしれない。 このレビューでは、分類器、回帰モデル、生成AI、埋め込みモデルなど、ディープニューラルネットワークについて紹介する。 アプリケーションには、分類、文書のデジタル化、レコードリンク、大規模テキストと画像コーパスのデータ探索方法が含まれる。 適切な方法を使用する場合、ディープラーニングモデルはチューニングが安く、数百万から数十億のデータポイントに関わる問題に十分対応できる。 と。 レビューには、ユーザフレンドリーなデモノート、ソフトウェアリソース、技術的な詳細と追加のアプリケーションを提供するナレッジベースを備えたWebサイトであるEconDLが付属している。

Deep learning provides powerful methods to impute structured information from large-scale, unstructured text and image datasets. For example, economists might wish to detect the presence of economic activity in satellite images, or to measure the topics or entities mentioned in social media, the congressional record, or firm filings. This review introduces deep neural networks, covering methods such as classifiers, regression models, generative AI, and embedding models. Applications include classification, document digitization, record linkage, and methods for data exploration in massive scale text and image corpora. When suitable methods are used, deep learning models can be cheap to tune and can scale affordably to problems involving millions or billions of data points.. The review is accompanied by a companion website, EconDL, with user-friendly demo notebooks, software resources, and a knowledge base that provides technical details and additional applications.
翻訳日:2024-09-18 21:29:24 公開日:2024-09-16
# オール・ツー・オール再構成可能なルータを用いたモジュラ量子プロセッサ

Modular quantum processor with an all-to-all reconfigurable router ( http://arxiv.org/abs/2407.20134v2 )

ライセンス: Link先を確認
Xuntao Wu, Haoxiong Yan, Gustav Andersson, Alexander Anferov, Ming-Han Chou, Christopher R. Conner, Joel Grebel, Yash J. Joshi, Shiheng Li, Jacob M. Miller, Rhys G. Povey, Hong Qiao, Andrew N. Cleland, (参考訳) 超伝導量子ビットは、大規模フォールトトレラント量子コンピューティングに対する有望なアプローチを提供する。 しかし、平面上のqubit接続は通常、隣接する数個のqubitに制限される。 より長距離で柔軟な接続を実現することは、特に最近のエラー訂正コードの発展に照らして、特に魅力的であるが、通常は複雑な多層パッケージングと外部キャベリングが関係しており、リソース集約であり、フィデリティの制限が課せられる。 そこで我々は,大規模なオンオフ比で再構成可能なオールツーオール結合をサポートする高速オンチップ量子プロセッサを提案し,実現した。 本設計は,2つの単一量子ビットノードを含む2つの異なる量子ビットを持つ基板に結合した配線基板からなるモジュラー設計で構築された4ノード量子プロセッサに実装する。 この装置を用いて、全てのキュービット対における再構成可能な制御Zゲートを、ベンチマーク平均忠実度が9.6.00\%\pm0.08\%$、最良の忠実度が9.7.14\%\pm0.07\%$で示す。 また,GHZ-3 と GHZ-4 がそれぞれ 8.15\%\pm0.24\%$ と 7.18\%\pm0.11\%$ の忠実度を持つことを示す。 このアプローチは、より大規模な量子回路への効率的なスケーリングを約束し、量子アルゴリズムと量子ビット接続の強化によるエラー訂正スキームを実装するための経路を提供する。

Superconducting qubits provide a promising approach to large-scale fault-tolerant quantum computing. However, qubit connectivity on a planar surface is typically restricted to only a few neighboring qubits. Achieving longer-range and more flexible connectivity, which is particularly appealing in light of recent developments in error-correcting codes, however usually involves complex multi-layer packaging and external cabling, which is resource-intensive and can impose fidelity limitations. Here, we propose and realize a high-speed on-chip quantum processor that supports reconfigurable all-to-all coupling with a large on-off ratio. We implement the design in a four-node quantum processor, built with a modular design comprising a wiring substrate coupled to two separate qubit-bearing substrates, each including two single-qubit nodes. We use this device to demonstrate reconfigurable controlled-Z gates across all qubit pairs, with a benchmarked average fidelity of $96.00\%\pm0.08\%$ and best fidelity of $97.14\%\pm0.07\%$, limited mainly by dephasing in the qubits. We also generate multi-qubit entanglement, distributed across the separate modules, demonstrating GHZ-3 and GHZ-4 states with fidelities of $88.15\%\pm0.24\%$ and $75.18\%\pm0.11\%$, respectively. This approach promises efficient scaling to larger-scale quantum circuits, and offers a pathway for implementing quantum algorithms and error correction schemes that benefit from enhanced qubit connectivity.
翻訳日:2024-09-18 21:29:24 公開日:2024-09-16
# 実世界ヒューマノイドロボットのための多モード全体制御の学習

Learning Multi-Modal Whole-Body Control for Real-World Humanoid Robots ( http://arxiv.org/abs/2408.07295v2 )

ライセンス: Link先を確認
Pranay Dugar, Aayam Shrestha, Fangzhou Yu, Bart van Marum, Alan Fern, (参考訳) ヒューマノイドロボットの基本機能には、頑丈な立位、歩行、全身運動と部分運動の模倣が含まれるべきである。 この研究はMasked Humanoid Controller (MHC)を導入し、ヒューマノイド状態変数の選択したサブセット上での目標軌道をトラッキングし、障害に対するバランスと堅牢性を確保することで、これらのすべての機能をサポートする。 MHCは、スタンディング、ウォーキング、最適化された基準軌跡、再ターゲットされたビデオクリップ、人間のモーションキャプチャーデータにまたがる行動のライブラリから、部分的にマスクされた動きを模倣する、慎重に設計されたカリキュラムを使用してシミュレーションで訓練されている。 また、ジョイスティックベースのコントロールと部分体の動作模倣を組み合わせることもできる。 本稿では、MHCが部分的に特定された目標運動から多種多様な動作を実行する能力を検証したシミュレーション実験を紹介する。 さらに,実世界のDigital Digit V3ヒューマノイドロボット上でのシミュレート・トゥ・リアルトランスファーを実演する。 我々の知る限りでは、このような多様なマルチモーダルターゲットに対して、現実世界のヒューマノイドの全身制御を実現することができる学習コントローラとしては、これが初めてである。

The foundational capabilities of humanoid robots should include robustly standing, walking, and mimicry of whole and partial-body motions. This work introduces the Masked Humanoid Controller (MHC), which supports all of these capabilities by tracking target trajectories over selected subsets of humanoid state variables while ensuring balance and robustness against disturbances. The MHC is trained in simulation using a carefully designed curriculum that imitates partially masked motions from a library of behaviors spanning standing, walking, optimized reference trajectories, re-targeted video clips, and human motion capture data. It also allows for combining joystick-based control with partial-body motion mimicry. We showcase simulation experiments validating the MHC's ability to execute a wide variety of behaviors from partially-specified target motions. Moreover, we demonstrate sim-to-real transfer on the real-world Digit V3 humanoid robot. To our knowledge, this is the first instance of a learned controller that can realize whole-body control of a real-world humanoid for such diverse multi-modal targets.
翻訳日:2024-09-18 21:29:24 公開日:2024-09-16
# DrugAgent: 大規模言語モデルに基づく推論による説明可能な薬物再資源化剤

DrugAgent: Explainable Drug Repurposing Agent with Large Language Model-based Reasoning ( http://arxiv.org/abs/2408.13378v3 )

ライセンス: Link先を確認
Yoshitaka Inoue, Tianci Song, Tianfan Fu, (参考訳) 薬物再資源化は、既存の薬物の新しい治療の可能性を特定することによって、薬物開発を加速するための有望な道を提供する。 本稿では,最先端の機械学習技術と知識統合を用いた医薬品再調達プロセスを強化するためのマルチエージェントフレームワークを提案する。 AIエージェントは、ロバストドラッグ・ターゲット・インタラクション(DTI)モデル、知識グラフエージェントは、ドラッグ・ジェネティック・インタラクション・データベース(DGIdb)、ドラッグバンク、比較トキシコゲノミクス・データベース(CTD)、および化学の相互作用のための検索ツール(STITCH)を使用して、DTIを体系的に抽出し、検索エージェントはバイオメディカル文献と相互作用して、計算予測を注釈し、検証する。 これらのエージェントからの出力を統合することで、外部データベースを含む多様なデータソースを効果的に活用し、実行可能な再資源化候補を提案する。 薬物と薬物の相互作用を予測できるだけでなく、従来の薬物発見手法にかかわる時間とコストを削減できる可能性を示す予備的な研究結果が得られた。 本稿では, バイオメディカル研究におけるマルチエージェントシステムのスケーラビリティと, 薬物再資源化におけるイノベーションの推進における役割について述べる。 提案手法は, 薬物再資源化の可能性を予測する既存の手法に勝るだけでなく, より効率的かつ費用対効果の高い薬物発見プロセスの道を開くことができる。

Drug repurposing offers a promising avenue for accelerating drug development by identifying new therapeutic potentials of existing drugs. In this paper, we propose a multi-agent framework to enhance the drug repurposing process using state-of-the-art machine learning techniques and knowledge integration. Our framework comprises several specialized agents: an AI Agent trains robust drug-target interaction (DTI) models; a Knowledge Graph Agent utilizes the drug-gene interaction database (DGIdb), DrugBank, Comparative Toxicogenomics Database (CTD), and Search Tool for Interactions of Chemicals (STITCH) to systematically extract DTIs; and a Search Agent interacts with biomedical literature to annotate and verify computational predictions. By integrating outputs from these agents, our system effectively harnesses diverse data sources, including external databases, to propose viable repurposing candidates. Preliminary results demonstrate the potential of our approach in not only predicting drug-disease interactions but also in reducing the time and cost associated with traditional drug discovery methods. This paper highlights the scalability of multi-agent systems in biomedical research and their role in driving innovation in drug repurposing. Our approach not only outperforms existing methods in predicting drug repurposing potential but also provides interpretable results, paving the way for more efficient and cost-effective drug discovery processes.
翻訳日:2024-09-18 21:29:24 公開日:2024-09-16
# 空に侵入する:地球観測星団におけるデータ遅延とオーバーフロー攻撃

Infiltrating the Sky: Data Delay and Overflow Attacks in Earth Observation Constellations ( http://arxiv.org/abs/2409.00897v2 )

ライセンス: Link先を確認
Xiaojian Wang, Ruozhou Yu, Dejun Yang, Guoliang Xue, (参考訳) 低地球軌道(LEO)地球観測(EO)衛星は、地球を観測する方法を変えました。 移動カメラのように、EO衛星は異なるミッションと優先順位の星座に形成され、処理のために地上に送信する必要がある膨大なデータを捕捉する。 しかし、EO衛星はダウンリンク通信能力が非常に限られており、送信帯域、地上局の数と位置、高速衛星移動による小さな送信窓によって制限されている。 資源利用を最適化するために、EOコンステレーションは、通信効率の最大化のために、通信スペクトルと地上局を共有することが期待されている。 本稿では,EOコンステレーションにおける資源競争による新たな攻撃面について検討し,地球観測データの遅延や低下を正統なEOサービスを用いて検討する。 具体的には、攻撃者は高優先度要求を注入して、一時的に低優先度データ送信ウィンドウをプリエンプトすることができる。 さらに、予測可能な衛星力学を利用することで、攻撃者は低優先度の衛星から重要なデータを知的にターゲットし、配信を遅らせるか、データを不可逆的に落とすかのどちらかを示す。 我々は、データ遅延攻撃とデータオーバーフロー攻撃の2つの攻撃を定式化し、攻撃者が攻撃戦略を考案するのを支援するアルゴリズムを設計し、典型的なシナリオにおけるその実現可能性や最適性を分析する。 次に、実世界の衛星画像と軌道データを用いてトレース駆動シミュレーションを行い、現実的な衛星通信環境下でこれらの攻撃を発射する確率を評価する。 これらの攻撃に対する防御の可能性についても論じる。

Low Earth Orbit (LEO) Earth Observation (EO) satellites have changed the way we monitor Earth. Acting like moving cameras, EO satellites are formed in constellations with different missions and priorities, and capture vast data that needs to be transmitted to the ground for processing. However, EO satellites have very limited downlink communication capability, limited by transmission bandwidth, number and location of ground stations, and small transmission windows due to high velocity satellite movement. To optimize resource utilization, EO constellations are expected to share communication spectrum and ground stations for maximum communication efficiency. In this paper, we investigate a new attack surface exposed by resource competition in EO constellations, targeting the delay or drop of Earth monitoring data using legitimate EO services. Specifically, an attacker can inject high-priority requests to temporarily preempt low-priority data transmission windows. Furthermore, we show that by utilizing predictable satellite dynamics, an attacker can intelligently target critical data from low-priority satellites, either delaying its delivery or irreversibly dropping the data. We formulate two attacks, the data delay attack and the data overflow attack, design algorithms to assist attackers in devising attack strategies, and analyze their feasibility or optimality in typical scenarios. We then conduct trace-driven simulations using real-world satellite images and orbit data to evaluate the success probability of launching these attacks under realistic satellite communication settings. We also discuss possible defenses against these attacks.
翻訳日:2024-09-18 21:19:40 公開日:2024-09-16
# 米国におけるアルゴリズムバイアス計測のためのプライバシ保護レース/倫理性評価

Privacy-Preserving Race/Ethnicity Estimation for Algorithmic Bias Measurement in the U.S ( http://arxiv.org/abs/2409.04652v2 )

ライセンス: Link先を確認
Saikrishna Badrinarayanan, Osonde Osoba, Miao Cheng, Ryan Rogers, Sakshi Jain, Rahul Tandra, Natesh S. Pillai, (参考訳) 平等な治療のためのテストを含むAI公正度測定は、しばしばAIシステムの非集約的な評価の形を取る。 このような測定は、Responsible AIオペレーションの重要な部分です。 これらの測定は、人口集団やサブ人口集団のシステムパフォーマンスを比較し、通常、性別、人種、民族、位置といったメンバーレベルの人口統計信号を必要とする。 しかし、人種や民族のような繊細なメンバーレベルの人口特性は、プラットフォームの選択、法的制約、文化規範のために入手し、利用することは困難である。 本稿では,<emph{U.S. LinkedIn member}の人種・民族性に関するAI公正度測定を,プライバシ保護の方法で実現するタスクに焦点をあてる。 本稿では,プライバシ保存型確率的レース/倫理性推定(PPRE)手法を提案する。 PPREはBayesian Improved Surname Geocoding(BISG)モデルと、自己報告の少ないLinkedIn調査サンプルと、セキュアな2要素計算や差分プライバシーといったプライバシ強化技術を組み合わせて、メンバーのプライバシを維持しながら有意義な公正度測定を可能にする。 PPRE法とそのプライバシー保証の詳細について述べる。 次に、サンプル測定操作を例示する。 プライバシー保護のための公正度測定能力を拡大するためのオープンリサーチとエンジニアリングの課題をレビューして締めくくります。

AI fairness measurements, including tests for equal treatment, often take the form of disaggregated evaluations of AI systems. Such measurements are an important part of Responsible AI operations. These measurements compare system performance across demographic groups or sub-populations and typically require member-level demographic signals such as gender, race, ethnicity, and location. However, sensitive member-level demographic attributes like race and ethnicity can be challenging to obtain and use due to platform choices, legal constraints, and cultural norms. In this paper, we focus on the task of enabling AI fairness measurements on race/ethnicity for \emph{U.S. LinkedIn members} in a privacy-preserving manner. We present the Privacy-Preserving Probabilistic Race/Ethnicity Estimation (PPRE) method for performing this task. PPRE combines the Bayesian Improved Surname Geocoding (BISG) model, a sparse LinkedIn survey sample of self-reported demographics, and privacy-enhancing technologies like secure two-party computation and differential privacy to enable meaningful fairness measurements while preserving member privacy. We provide details of the PPRE method and its privacy guarantees. We then illustrate sample measurement operations. We conclude with a review of open research and engineering challenges for expanding our privacy-preserving fairness measurement capabilities.
翻訳日:2024-09-18 21:19:40 公開日:2024-09-16
# マルチモーダルモデルのスケーリング法則仮説

Scaling Law Hypothesis for Multimodal Model ( http://arxiv.org/abs/2409.06754v2 )

ライセンス: Link先を確認
Qingyun Sun, Zhen Guo, (参考訳) 共有トークンと埋め込み空間内でテキスト、音声、画像、ビデオを処理するマルチモーダルモデルに対するスケーリング法則仮説を提案する。 本フレームワークは、モダリティ固有の圧縮とトークン化効率に基づいてモデル性能を予測し、テキストベースのデコーダモデルから混合モダリティシステムまで、確立されたスケーリング法則を拡張した。 複数のモードでより多くのトレーニングデータを活用することで、マルチモーダルモデルのサイズが小さくなり、リソース制約のあるデバイスへの効率的なデプロイが可能になるかどうかを検討する。

We propose a scaling law hypothesis for multimodal models processing text, audio, images, and video within a shared token and embedding space. Our framework predicts model performance based on modality-specific compression and tokenization efficiency, extending established scaling laws from text-based decoder models to mixed-modality systems. We explore whether leveraging more training data in multiple modalities can reduce the size of the multimodal model, enabling efficient deployment on resource-constrained devices.
翻訳日:2024-09-18 21:09:36 公開日:2024-09-16
# ASMA:Scene-Aware Control Barrier関数による視覚言語ドローンナビゲーションのためのアダプティブセーフティマージンアルゴリズム

ASMA: An Adaptive Safety Margin Algorithm for Vision-Language Drone Navigation via Scene-Aware Control Barrier Functions ( http://arxiv.org/abs/2409.10283v1 )

ライセンス: Link先を確認
Sourav Sanyal, Kaushik Roy, (参考訳) 視覚言語ナビゲーション(VLN)の急速に発展する分野では、堅牢な安全機構の確保は依然としてオープンな課題である。 制御障壁関数(CBF)は、最適制御問題を解くことで安全性を保証する効率的なツールである。 本稿では,VLN環境における遠隔操作型ドローンの事例を考察し,RGB-Dセンサを用いて得られた自我中心の観測を用いて,新たなシーン認識CBFを定式化することによって,安全性を付加する。 ベースラインとして、コントラスト言語画像事前学習(CLIP)モデルを用いて、ユーザが指定した(自然言語で)ランドマークについて問い合わせる視覚言語理解モジュールを実装した。 YOLO(You Only Look Once)オブジェクト検出器を使用して、CLIPモデルは、収穫されたランドマークを検証するためにクエリされ、下流のナビゲーションをトリガーする。 ベースラインのナビゲーション安全性を向上させるために,移動物体を追跡するためのドローンの深度マップを抽出し,現場認識CBF評価を行うアダプティブ・セーフティ・マージン・アルゴリズム (Adaptive Safety Margin Algorithm) を提案する。 現場から潜在的に危険な観測を識別することにより、ASMAは予測不可能な環境条件へのリアルタイム適応を可能にし、VLN搭載ドローンのアクションに最適な安全性を確保できる。 ガゼボ環境におけるオウム・ベボプ2四重奏盤上のロボット・オペレーティングシステム(ROS)ミドルウェアを用いて、ASMAは59.4% - 61.8%の成功率と重要な5.4% - 8.2%の軌道長の上昇を保証し、安全でない状況から回復する。

In the rapidly evolving field of vision-language navigation (VLN), ensuring robust safety mechanisms remains an open challenge. Control barrier functions (CBFs) are efficient tools which guarantee safety by solving an optimal control problem. In this work, we consider the case of a teleoperated drone in a VLN setting, and add safety features by formulating a novel scene-aware CBF using ego-centric observations obtained through an RGB-D sensor. As a baseline, we implement a vision-language understanding module which uses the contrastive language image pretraining (CLIP) model to query about a user-specified (in natural language) landmark. Using the YOLO (You Only Look Once) object detector, the CLIP model is queried for verifying the cropped landmark, triggering downstream navigation. To improve navigation safety of the baseline, we propose ASMA -- an Adaptive Safety Margin Algorithm -- that crops the drone's depth map for tracking moving object(s) to perform scene-aware CBF evaluation on-the-fly. By identifying potential risky observations from the scene, ASMA enables real-time adaptation to unpredictable environmental conditions, ensuring optimal safety bounds on a VLN-powered drone actions. Using the robot operating system (ROS) middleware on a parrot bebop2 quadrotor in the gazebo environment, ASMA offers 59.4% - 61.8% increase in success rates with insignificant 5.4% - 8.2% increases in trajectory lengths compared to the baseline CBF-less VLN while recovering from unsafe situations.
翻訳日:2024-09-18 21:09:36 公開日:2024-09-16
# WaveMixSR-V2:高効率で高解像度を実現する

WaveMixSR-V2: Enhancing Super-resolution with Higher Efficiency ( http://arxiv.org/abs/2409.10582v1 )

ライセンス: Link先を確認
Pranav Jeevan, Neeraj Nixon, Amit Sethi, (参考訳) シングルイメージ超解像の最近の進歩は、主にトークンミキサーとトランスフォーマーアーキテクチャによって推進されている。 WaveMixSRは、空間トークンの混合に2次元の離散ウェーブレット変換を用い、資源効率の優れた超解像タスクにおいて優れた性能を実現した。 本稿では,(1)従来の変換畳み込み層をピクセルシャッフル操作に置き換え,(2)高分解能タスクのための多段階設計(4\times$)を実装することで,WaveMixSRアーキテクチャの強化版を提案する。 我々の実験は、強化されたモデルであるWaveMixSR-V2が、BSD100データセットの最先端を達成すると同時に、リソースの消費も少なく、パラメータ効率の向上、レイテンシの低減、スループットの向上など、複数の超高解像度タスクにおいて、他のアーキテクチャよりも優れていることを示した。 私たちのコードはhttps://github.com/pranavphoenix/WaveMixSR.comで利用可能です。

Recent advancements in single image super-resolution have been predominantly driven by token mixers and transformer architectures. WaveMixSR utilized the WaveMix architecture, employing a two-dimensional discrete wavelet transform for spatial token mixing, achieving superior performance in super-resolution tasks with remarkable resource efficiency. In this work, we present an enhanced version of the WaveMixSR architecture by (1) replacing the traditional transpose convolution layer with a pixel shuffle operation and (2) implementing a multistage design for higher resolution tasks ($4\times$). Our experiments demonstrate that our enhanced model -- WaveMixSR-V2 -- outperforms other architectures in multiple super-resolution tasks, achieving state-of-the-art for the BSD100 dataset, while also consuming fewer resources, exhibits higher parameter efficiency, lower latency and higher throughput. Our code is available at https://github.com/pranavphoenix/WaveMixSR.
翻訳日:2024-09-18 20:59:28 公開日:2024-09-16
# 準双曲型ディスカウントを用いた強化学習

Reinforcement Learning with Quasi-Hyperbolic Discounting ( http://arxiv.org/abs/2409.10583v1 )

ライセンス: Link先を確認
S. R. Eshwar, Mayank Motwani, Nibedita Roy, Gugan Thoppe, (参考訳) 強化学習は伝統的に指数割引や平均報酬設定で研究されてきた。 しかし、このようなフレームワークは人間の行動を正確に把握するに足りず、即時満足へのバイアスがある。 準双曲(QH)割引は、このバイアスをモデル化するための単純な代替手段である。 しかし、従来の割引とは異なり、ある時点で$t_1,$から始まる最適なQH政治は、$t_2.$Henceから始まるものとは異なる可能性がある。 この行動を防ぐために、マルコフ完全平衡(MPE)に固定されたポリシーを扱う方法がある。 本研究では, MPE 探索のためのモデルフリーアルゴリズムを提案する。 2時間スケール解析により,アルゴリズムが収束すると,その限界はMPEでなければならないことを示す。 また、この主張を確率的要求を伴う標準在庫システムに対して数値的に検証する。 我々の研究は、強化学習の実践的応用を著しく前進させる。

Reinforcement learning has traditionally been studied with exponential discounting or the average reward setup, mainly due to their mathematical tractability. However, such frameworks fall short of accurately capturing human behavior, which has a bias towards immediate gratification. Quasi-Hyperbolic (QH) discounting is a simple alternative for modeling this bias. Unlike in traditional discounting, though, the optimal QH-policy, starting from some time $t_1,$ can be different to the one starting from $t_2.$ Hence, the future self of an agent, if it is naive or impatient, can deviate from the policy that is optimal at the start, leading to sub-optimal overall returns. To prevent this behavior, an alternative is to work with a policy anchored in a Markov Perfect Equilibrium (MPE). In this work, we propose the first model-free algorithm for finding an MPE. Using a two-timescale analysis, we show that, if our algorithm converges, then the limit must be an MPE. We also validate this claim numerically for the standard inventory system with stochastic demands. Our work significantly advances the practical application of reinforcement learning.
翻訳日:2024-09-18 20:59:28 公開日:2024-09-16
# 構造に基づく医薬品設計のためのマニフォールド拘束核レベル拡散モデル

Manifold-Constrained Nucleus-Level Denoising Diffusion Model for Structure-Based Drug Design ( http://arxiv.org/abs/2409.10584v1 )

ライセンス: Link先を確認
Shengchao Liu, Divin Yan, Weitao Du, Weiyang Liu, Zhuoxinran Li, Hongyu Guo, Christian Borgs, Jennifer Chayes, Anima Anandkumar, (参考訳) 人工知能モデルは、高い結合親和性を持つ配位子を生成する構造に基づく薬物設計において大きな可能性を示している。 しかし、既存のモデルは、しばしば重要な物理的制約を見落としている:原子は分離違反を避けるために最小のペア距離を維持する必要があり、これは魅力的な力と反発力のバランスによって支配される現象である。 このような分離違反を軽減するために,NucleusDiffを提案する。 原子核と周囲の電子雲の間の相互作用を、原子核と多様体の間の距離制限を強制することによってモデル化する。 我々はCrossDocked2020データセットとCOVID-19治療ターゲットを用いてNucleusDiffを定量的に評価し、NucleusDiffは違反率を最大100.00%削減し、結合親和性を最大22.16%向上し、構造に基づく医薬品設計の最先端モデルを上回ることを実証した。 また,多様体サンプリングによる定性解析を行い,分離違反の低減と結合親和性の向上にNucleusDiffの有効性を視覚的に確認する。

Artificial intelligence models have shown great potential in structure-based drug design, generating ligands with high binding affinities. However, existing models have often overlooked a crucial physical constraint: atoms must maintain a minimum pairwise distance to avoid separation violation, a phenomenon governed by the balance of attractive and repulsive forces. To mitigate such separation violations, we propose NucleusDiff. It models the interactions between atomic nuclei and their surrounding electron clouds by enforcing the distance constraint between the nuclei and manifolds. We quantitatively evaluate NucleusDiff using the CrossDocked2020 dataset and a COVID-19 therapeutic target, demonstrating that NucleusDiff reduces violation rate by up to 100.00% and enhances binding affinity by up to 22.16%, surpassing state-of-the-art models for structure-based drug design. We also provide qualitative analysis through manifold sampling, visually confirming the effectiveness of NucleusDiff in reducing separation violations and improving binding affinities.
翻訳日:2024-09-18 20:59:28 公開日:2024-09-16
# モデルに基づくリスク最小化による動き予測

Motion Forecasting via Model-Based Risk Minimization ( http://arxiv.org/abs/2409.10585v1 )

ライセンス: Link先を確認
Aron Distelzweig, Eitan Kosman, Andreas Look, Faris Janjoš, Denesh K. Manivannan, Abhinav Valada, (参考訳) 周囲のエージェントの将来の軌道を予測することは、安全で効率的で快適なルート計画を保証するために、自動運転車にとって不可欠である。 モデルアンサンブルは様々な分野で予測精度を向上させたが、その軌道予測への応用は、予測のマルチモーダルな性質のために限られている。 本論文では,複数モデルの予測に基づく軌道予測に適用可能な新しいサンプリング手法を提案する。 まず、予測確率に基づく従来のサンプリングは、モデル間のアライメントの欠如により性能を低下させることができることを示す。 この問題に対処するため,ニューラルネットワークの集合から最適軌道を生成する新しい手法を導入し,可変損失関数を用いたリスク最小化問題とみなす。 基礎学習者として最先端モデルを用いて,最適軌道サンプリングのための多種多様な効果的なアンサンブルを構築した。 nuScenes予測データセットの大規模な実験により、我々の手法が現在の最先端技術を超え、リーダーボードの上位に到達していることが示された。 我々はまた、アンサンブル戦略に関する総合的な実証的研究を行い、その効果に関する洞察を提供する。 本研究は, 軌道予測における高度なアンサンブル技術の可能性, 予測性能を著しく向上させ, より信頼性の高い軌道予測への道を開くことを目的としたものである。

Forecasting the future trajectories of surrounding agents is crucial for autonomous vehicles to ensure safe, efficient, and comfortable route planning. While model ensembling has improved prediction accuracy in various fields, its application in trajectory prediction is limited due to the multi-modal nature of predictions. In this paper, we propose a novel sampling method applicable to trajectory prediction based on the predictions of multiple models. We first show that conventional sampling based on predicted probabilities can degrade performance due to missing alignment between models. To address this problem, we introduce a new method that generates optimal trajectories from a set of neural networks, framing it as a risk minimization problem with a variable loss function. By using state-of-the-art models as base learners, our approach constructs diverse and effective ensembles for optimal trajectory sampling. Extensive experiments on the nuScenes prediction dataset demonstrate that our method surpasses current state-of-the-art techniques, achieving top ranks on the leaderboard. We also provide a comprehensive empirical study on ensembling strategies, offering insights into their effectiveness. Our findings highlight the potential of advanced ensembling techniques in trajectory prediction, significantly improving predictive performance and paving the way for more reliable predicted trajectories.
翻訳日:2024-09-18 20:59:28 公開日:2024-09-16
# SoccerNet 2024の結果に挑戦

SoccerNet 2024 Challenges Results ( http://arxiv.org/abs/2409.10587v1 )

ライセンス: Link先を確認
Anthony Cioppa, Silvio Giancola, Vladimir Somers, Victor Joos, Floriane Magera, Jan Held, Seyed Abolfazl Ghasemzadeh, Xin Zhou, Karolina Seweryn, Mateusz Kowalczyk, Zuzanna Mróz, Szymon Łukasik, Michał Hałoń, Hassan Mkhallati, Adrien Deliège, Carlos Hinojosa, Karen Sanchez, Amir M. Mansourian, Pierre Miralles, Olivier Barnich, Christophe De Vleeschouwer, Alexandre Alahi, Bernard Ghanem, Marc Van Droogenbroeck, Adam Gorski, Albert Clapés, Andrei Boiarov, Anton Afanasiev, Artur Xarles, Atom Scott, ByoungKwon Lim, Calvin Yeung, Cristian Gonzalez, Dominic Rüfenacht, Enzo Pacilio, Fabian Deuser, Faisal Sami Altawijri, Francisco Cachón, HanKyul Kim, Haobo Wang, Hyeonmin Choe, Hyunwoo J Kim, Il-Min Kim, Jae-Mo Kang, Jamshid Tursunboev, Jian Yang, Jihwan Hong, Jimin Lee, Jing Zhang, Junseok Lee, Kexin Zhang, Konrad Habel, Licheng Jiao, Linyi Li, Marc Gutiérrez-Pérez, Marcelo Ortega, Menglong Li, Milosz Lopatto, Nikita Kasatkin, Nikolay Nemtsev, Norbert Oswald, Oleg Udin, Pavel Kononov, Pei Geng, Saad Ghazai Alotaibi, Sehyung Kim, Sergei Ulasen, Sergio Escalera, Shanshan Zhang, Shuyuan Yang, Sunghwan Moon, Thomas B. Moeslund, Vasyl Shandyba, Vladimir Golovkin, Wei Dai, WonTaek Chung, Xinyu Liu, Yongqiang Zhu, Youngseo Kim, Yuan Li, Yuting Yang, Yuxuan Xiao, Zehua Cheng, Zhihao Li, (参考訳) SoccerNet 2024の課題は、サッカーネットチームが主催する4年目のビデオ理解の課題を表している。 これらの課題は、ブロードキャストビデオ理解、フィールド理解、プレイヤー理解など、サッカーにおける複数のテーマにわたる研究を進めることを目的としている。 今年は、4つのビジョンベースのタスクが課題となっている。 1)ボールアクションスポッティングは,ボールに関連するサッカーのアクションの正確な位置決め,(2)映像キャプション,(2)自然言語とアンカータイムスタンプによる放送の描写,(3)ファウル認識,潜在的なファウルインシデントに対する複数の視点の分析と重症度の評価を目的とした新しいタスク,(4)ゲームステートリコンストラクション,そして,放送ビデオからフィールドの2次元トップビューマップへのゲーム状態の再構築に焦点を当てた新しいタスクである。 タスク、課題、リーダーボードの詳細はhttps://www.soccer-net.orgで、ベースラインと開発キットはhttps://github.com/SoccerNetで入手できる。

The SoccerNet 2024 challenges represent the fourth annual video understanding challenges organized by the SoccerNet team. These challenges aim to advance research across multiple themes in football, including broadcast video understanding, field understanding, and player understanding. This year, the challenges encompass four vision-based tasks. (1) Ball Action Spotting, focusing on precisely localizing when and which soccer actions related to the ball occur, (2) Dense Video Captioning, focusing on describing the broadcast with natural language and anchored timestamps, (3) Multi-View Foul Recognition, a novel task focusing on analyzing multiple viewpoints of a potential foul incident to classify whether a foul occurred and assess its severity, (4) Game State Reconstruction, another novel task focusing on reconstructing the game state from broadcast videos onto a 2D top-view map of the field. Detailed information about the tasks, challenges, and leaderboards can be found at https://www.soccer-net.org, with baselines and development kits available at https://github.com/SoccerNet.
翻訳日:2024-09-18 20:59:28 公開日:2024-09-16
# 抗体開発のための対向型シェイピング

Opponent Shaping for Antibody Development ( http://arxiv.org/abs/2409.10588v1 )

ライセンス: Link先を確認
Sebastian Towers, Aleksandra Kalisz, Alicia Higueruelo, Francesca Vianello, Ming-Han Chloe Tsai, Harrison Steel, Jakob N. Foerster, (参考訳) 抗ウイルス療法は通常、ウイルスの現在の株に向けて設計または進化される。 学習用語では、これは筋性最良の反応(すなわち、相手の適応的な動きを考慮しない)に対応する。 しかし、治療によって誘導される選択的圧力はウイルス抗原に作用し、変異株の出現を促進する。 我々の研究を動機づけるために、現在のウイルス株だけでなく、ウイルスがこれらの抗体によって引き起こされる進化的な圧力の下で進化する可能性のある、幅広い将来的な変異も対象とする抗体設計を検討する。 抗体とウイルス抗原の結合の計算モデル(Absolut!フレームワーク)に基づいて、ウイルスの進化的脱出の遺伝的シミュレーションを設計し、実装する。 重要なことに、私たちの抗体最適化アルゴリズムはウイルスの脱出曲線全体、すなわちウイルスの進化を導く(または「形」)ことを考慮し、影響を及ぼすことができます。 これは、一般的には、ミオピック・ベスト・レスポンスではなく、共プレイヤの適応を考慮に入れている相手のシェーピングにインスパイアされている。 したがって、私たちは最適化された抗体をシェーパと呼ぶ。 シミュレーションでは,現在およびシミュレーション中のウイルス変異体の両方を標的とし,筋電図で選択した抗体よりも優れた結果が得られた。 さらに, ウイルスに特異的な進化的圧力が作用していることが, 筋電図抗体と比較された。 いずれにせよ、シェイパーはウイルス株の進化の軌跡を修正し、ウイルスの脱出を心筋のそれと比べて最小化する。 これは単純なモデルですが、我々の提案するパラダイムは、シミュレーションツールの能力の急速な進歩によって、将来より長寿命なワクチンや抗体療法の発見を可能にすることを願っています。

Anti-viral therapies are typically designed or evolved towards the current strains of a virus. In learning terms, this corresponds to a myopic best response, i.e., not considering the possible adaptive moves of the opponent. However, therapy-induced selective pressures act on viral antigens to drive the emergence of mutated strains, against which initial therapies have reduced efficacy. To motivate our work, we consider antibody designs that target not only the current viral strains but also the wide range of possible future variants that the virus might evolve into under the evolutionary pressure exerted by said antibodies. Building on a computational model of binding between antibodies and viral antigens (the Absolut! framework), we design and implement a genetic simulation of the viral evolutionary escape. Crucially, this allows our antibody optimisation algorithm to consider and influence the entire escape curve of the virus, i.e. to guide (or ''shape'') the viral evolution. This is inspired by opponent shaping which, in general-sum learning, accounts for the adaptation of the co-player rather than playing a myopic best response. Hence we call the optimised antibodies shapers. Within our simulations, we demonstrate that our shapers target both current and simulated future viral variants, outperforming the antibodies chosen in a myopic way. Furthermore, we show that shapers exert specific evolutionary pressure on the virus compared to myopic antibodies. Altogether, shapers modify the evolutionary trajectories of viral strains and minimise the viral escape compared to their myopic counterparts. While this is a simple model, we hope that our proposed paradigm will enable the discovery of better long-lived vaccines and antibody therapies in the future, enabled by rapid advancements in the capabilities of simulation tools.
翻訳日:2024-09-18 20:59:28 公開日:2024-09-16
# 求人スケジューリング学習のためのオフライン強化学習

Offline Reinforcement Learning for Learning to Dispatch for Job Shop Scheduling ( http://arxiv.org/abs/2409.10589v1 )

ライセンス: Link先を確認
Jesse van Remmerden, Zaharah Bukhsh, Yingqian Zhang, (参考訳) ジョブショップスケジューリング問題(JSSP)は複雑な組合せ最適化問題である。 JSSPにオンライン強化学習(RL)を使用することへの関心が高まっている。 オンラインRLは、特に大きな問題に対して、すぐに受け入れられるソリューションを見つけることができるが、制約プログラミング(CP)のような従来の手法よりも品質の低い結果をもたらす。 オンラインRLの大きな欠点は、CPから生成されたソリューションなど、既存のデータから学ぶことができないこと、スクラッチからトレーニングすること、サンプルの非効率性、より最適な例から学ぶことができないことだ。 本稿では,これらの制約に対処するJSSPの新しいアプローチであるOffline-LD(Offline Reinforcement Learning for Learning to Dispatch)を紹介する。 Offline-LDは2つのCQLベースのQ-ラーニング手法(mQRDQNとmSAC)をマスク可能なアクション空間に適用し、離散SACの新しいエントロピーボーナス修正を導入し、前処理による報酬正規化を活用する。 実験の結果,Offline-LDは生成されたインスタンスとベンチマークインスタンスの両方でオンラインRLを上回っていることがわかった。 データセットにノイズを導入することで、専門家データセットと同じような、あるいはより良い結果が得られる。

The Job Shop Scheduling Problem (JSSP) is a complex combinatorial optimization problem. There has been growing interest in using online Reinforcement Learning (RL) for JSSP. While online RL can quickly find acceptable solutions, especially for larger problems, it produces lower-quality results than traditional methods like Constraint Programming (CP). A significant downside of online RL is that it cannot learn from existing data, such as solutions generated from CP, requiring them to train from scratch, leading to sample inefficiency and making them unable to learn from more optimal examples. We introduce Offline Reinforcement Learning for Learning to Dispatch (Offline-LD), a novel approach for JSSP that addresses these limitations. Offline-LD adapts two CQL-based Q-learning methods (mQRDQN and discrete mSAC) for maskable action spaces, introduces a new entropy bonus modification for discrete SAC, and exploits reward normalization through preprocessing. Our experiments show that Offline-LD outperforms online RL on both generated and benchmark instances. By introducing noise into the dataset, we achieve similar or better results than those obtained from the expert dataset, indicating that a more diverse training set is preferable because it contains counterfactual information.
翻訳日:2024-09-18 20:59:28 公開日:2024-09-16
# 量子電池の充電におけるスクランブル

Scrambling in the Charging of Quantum Batteries ( http://arxiv.org/abs/2409.10590v1 )

ライセンス: Link先を確認
Sebastián V. Romero, Yongcheng Ding, Xi Chen, Yue Ban, (参考訳) 初期状態の指数的に高速なスクランブルは、量子カオスシステムを特徴づける。 量子バッテリ充電プロトコルにおける低エネルギー状態から高エネルギーレベルを迅速に投入することの重要性を考えると、このレターは量子バッテリにおける量子スクランブルの役割とその最適電力と充電時間への影響を調査する。 我々は、システムエネルギー依存を抑制するために、正規化された帯域幅の素表現を採用する。 私たちの知る限り、これは量子電池の文脈における量子スクランブルの詳細な調査としては初めてのものです。 時間外相関器のダイナミクスを解析することにより、量子スクランブルが必ずしも高速な充電に繋がるとは限らないことを、我々の研究は示している。

Exponentially fast scrambling of an initial state characterizes quantum chaotic systems. Given the importance of quickly populating higher energy levels from low-energy states in quantum battery charging protocols, this Letter investigates the role of quantum scrambling in quantum batteries and its effect on optimal power and charging times. We adopt a bare representation with normalized bandwidths to suppress system energy dependence. To our knowledge, this is the first in-depth exploration of quantum scrambling in the context of quantum batteries. By analyzing the dynamics of out-of-time-order correlators, our findings indicate that quantum scrambling does not necessarily lead to faster charging, despite its potential for accelerating the process.
翻訳日:2024-09-18 20:59:28 公開日:2024-09-16
# CSKV:長期シナリオにおけるKVキャッシュのための訓練効率の良いチャネルスライキング

CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios ( http://arxiv.org/abs/2409.10593v1 )

ライセンス: Link先を確認
Luning Wang, Shiyao Li, Xuefei Ning, Zhihang Yuan, Shengen Yan, Guohao Dai, Yu Wang, (参考訳) 大きな言語モデル(LLM)は、長いコンテキストタスクを処理するために広く採用されている。 しかしながら、キー値(KV)キャッシュの大きなメモリオーバーヘッドは、長期コンテキストシナリオにおいて大きな課題を生じさせる。 既存のトレーニング不要なKVキャッシュ圧縮手法は、圧縮限界のある量子化とトークンプルーニングに重点を置いており、過度なスパーシリティによってパフォーマンスが著しく低下する可能性がある。 他の手法はKVオーバーヘッドが少ないが、かなりのトレーニングオーバーヘッドを必要とする新しいアーキテクチャを設計する。 上記の2つの欠点に対処するため、チャネル次元の冗長性をさらに検討し、少ないトレーニングコストでアーキテクチャレベルの設計を適用する。 そこで我々は,KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング手法であるCSKVを紹介した:(1)KVキャッシュの特異値分布をまず解析し,チャネル次元に沿った大きな冗長性と圧縮ポテンシャルを明らかにする。 そこで本研究では,鍵層と値層を低階分解し,低次元特徴を記憶する手法を提案する。 2) モデル性能を維持するため,ウィンドウベースフル精度KVキャッシュと低精度圧縮KVキャッシュを含む分岐KVキャッシュを導入する。 (3) トレーニングコストを削減するため, 圧縮KVキャッシュの階層的再構成損失を最小限に抑える。 大規模な実験により、CSKVはKVキャッシュのメモリオーバーヘッドを80%削減し、モデルの長期コンテキスト能力を維持できることが示された。 さらに,本手法を量子化とシームレスに組み合わせることで,メモリオーバーヘッドをさらに低減し,最大95%の圧縮比が得られることを示す。

Large Language Models (LLMs) have been widely adopted to process long-context tasks. However, the large memory overhead of the key-value (KV) cache poses significant challenges in long-context scenarios. Existing training-free KV cache compression methods typically focus on quantization and token pruning, which have compression limits, and excessive sparsity can lead to severe performance degradation. Other methods design new architectures with less KV overhead but require significant training overhead. To address the above two drawbacks, we further explore the redundancy in the channel dimension and apply an architecture-level design with minor training costs. Therefore, we introduce CSKV, a training-efficient Channel Shrinking technique for KV cache compression: (1) We first analyze the singular value distribution of the KV cache, revealing significant redundancy and compression potential along the channel dimension. Based on this observation, we propose using low-rank decomposition for key and value layers and storing the low-dimension features. (2) To preserve model performance, we introduce a bi-branch KV cache, including a window-based full-precision KV cache and a low-precision compressed KV cache. (3) To reduce the training costs, we minimize the layer-wise reconstruction loss for the compressed KV cache instead of retraining the entire LLMs. Extensive experiments show that CSKV can reduce the memory overhead of the KV cache by 80% while maintaining the model's long-context capability. Moreover, we show that our method can be seamlessly combined with quantization to further reduce the memory overhead, achieving a compression ratio of up to 95%.
翻訳日:2024-09-18 20:59:28 公開日:2024-09-16
# Kolmogorov-Arnold変換器

Kolmogorov-Arnold Transformer ( http://arxiv.org/abs/2409.10594v1 )

ライセンス: Link先を確認
Xingyi Yang, Xinchao Wang, (参考訳) トランスフォーマーは、mordern Deep Learningの基盤として立ちます。 伝統的に、これらのモデルはチャネル間で情報を混合するために多層パーセプトロン(MLP)層に依存している。 本稿では,MLP層をコルモゴロフ・アルノルドネットワーク(KAN)層に置き換え,表現性と性能を向上させる新しいアーキテクチャであるコルモゴロフ・アルノルド変換器(KAT)を紹介する。 しかし、Kansをトランスに組み込むことは、特にスケールアップでは容易ではない。 具体的には、(C1)基本関数の3つの重要な課題を特定する。 Kansで使用される標準的なB-spline関数は、現代のハードウェア上での並列コンピューティングに最適化されていないため、推論速度が遅くなる。 (C2) パラメータと計算の非効率性。 Kanは入力と出力のペアごとにユニークな関数を必要とし、計算を極端に大きくする。 (C3) 重量初期化。 Kansにおけるウェイトの初期化は、深層ニューラルネットワークの収束を達成する上で重要な、学習可能なアクティベーション関数のため、特に困難である。 上記の課題を克服するために、我々は3つの重要な解決策を提案する。 最新のGPUとの互換性を改善するために,B-スプライン関数を合理的関数に置き換える。 CUDAでこれを実装することにより、より高速な計算が可能となる。 (S2) KAグループ。 我々は、ニューロン群を通じて活性化重量を共有し、性能を犠牲にすることなく計算負荷を削減する。 (S3) 変数保存初期化。 活性化重みを慎重に初期化して、活性化分散が層間で維持されるようにします。 これらの設計により、KATは効率よく、かつ容易に従来のMLPベースのトランスフォーマーより優れている。

Transformers stand as the cornerstone of mordern deep learning. Traditionally, these models rely on multi-layer perceptron (MLP) layers to mix the information between channels. In this paper, we introduce the Kolmogorov-Arnold Transformer (KAT), a novel architecture that replaces MLP layers with Kolmogorov-Arnold Network (KAN) layers to enhance the expressiveness and performance of the model. Integrating KANs into transformers, however, is no easy feat, especially when scaled up. Specifically, we identify three key challenges: (C1) Base function. The standard B-spline function used in KANs is not optimized for parallel computing on modern hardware, resulting in slower inference speeds. (C2) Parameter and Computation Inefficiency. KAN requires a unique function for each input-output pair, making the computation extremely large. (C3) Weight initialization. The initialization of weights in KANs is particularly challenging due to their learnable activation functions, which are critical for achieving convergence in deep neural networks. To overcome the aforementioned challenges, we propose three key solutions: (S1) Rational basis. We replace B-spline functions with rational functions to improve compatibility with modern GPUs. By implementing this in CUDA, we achieve faster computations. (S2) Group KAN. We share the activation weights through a group of neurons, to reduce the computational load without sacrificing performance. (S3) Variance-preserving initialization. We carefully initialize the activation weights to make sure that the activation variance is maintained across layers. With these designs, KAT scales effectively and readily outperforms traditional MLP-based transformers.
翻訳日:2024-09-18 20:59:28 公開日:2024-09-16
# 幻覚早期検出による拡散モデルにおける資源消費の最適化

Optimizing Resource Consumption in Diffusion Models through Hallucination Early Detection ( http://arxiv.org/abs/2409.10597v1 )

ライセンス: Link先を確認
Federico Betti, Lorenzo Baraldi, Lorenzo Baraldi, Rita Cucchiara, Nicu Sebe, (参考訳) 拡散モデルは、かなり高度な生成AIを持つが、複数のオブジェクトの複雑な組み合わせを生成する際には困難に直面する。 最終的な結果が初期シードに大きく依存するため、所望の出力を正確に保証するには、生成プロセスの複数イテレーションが必要になる。 この繰り返しは時間の無駄につながるだけでなく、エネルギー消費も増加させ、複雑な生成タスクにおける効率性と精度の課題を反映している。 この問題に対処するために,拡散過程の開始時に不正確な世代を迅速に検出する新しいパラダイムであるHEaD(Hallucination Early Detection)を導入する。 HEaDパイプラインは、クロスアテンションマップと新しい指標である予測最終画像を組み合わせて、生成プロセスの初期段階で利用可能な情報を活用することで最終的な結果を予測する。 HEaDを用いることで、計算資源を節約し、生成プロセスを加速し、完全な画像を得る。 以上の結果から,HEaDは2つのオブジェクトのシナリオにおいて生成時間の最大12%を節約でき,生成モデルにおける早期検出機構の重要性を浮き彫りにすることができることがわかった。

Diffusion models have significantly advanced generative AI, but they encounter difficulties when generating complex combinations of multiple objects. As the final result heavily depends on the initial seed, accurately ensuring the desired output can require multiple iterations of the generation process. This repetition not only leads to a waste of time but also increases energy consumption, echoing the challenges of efficiency and accuracy in complex generative tasks. To tackle this issue, we introduce HEaD (Hallucination Early Detection), a new paradigm designed to swiftly detect incorrect generations at the beginning of the diffusion process. The HEaD pipeline combines cross-attention maps with a new indicator, the Predicted Final Image, to forecast the final outcome by leveraging the information available at early stages of the generation process. We demonstrate that using HEaD saves computational resources and accelerates the generation process to get a complete image, i.e. an image where all requested objects are accurately depicted. Our findings reveal that HEaD can save up to 12% of the generation time on a two objects scenario and underscore the importance of early detection mechanisms in generative models.
翻訳日:2024-09-18 20:59:28 公開日:2024-09-16
# 量子物理学のどの特徴は基本的に量子ではなく、不決定性によるものなのか?

Which features of quantum physics are not fundamentally quantum but are due to indeterminism? ( http://arxiv.org/abs/2409.10601v1 )

ライセンス: Link先を確認
Flavio Del Santo, Nicolas Gisin, (参考訳) 量子とは何か? 我々は、測度問題、ウィグナーの友人パラドックスとその提案された解、単一粒子非局所性、および非閉化など、ほとんどの特徴、問題、パラドックスは、古典物理学を根本的非決定論的と解釈するならば、量子物理学に帰属するとされる古典的な類似性を持っていると論じる。 量子物理学を真に特徴付けるものは、$\hbar$、すなわち非互換な観測可能量を含む現象のみに起因する。

What is fundamentally quantum? We argue that most of the features, problems, and paradoxes -- such as the measurement problem, the Wigner's friend paradox and its proposed solutions, single particle nonlocality, and no-cloning -- allegedly attributed to quantum physics have a clear classical analogue if one is to interpret classical physics as fundamentally indeterministic. What really characterizes quantum physics boils down only to phenomena that involve $\hbar$, i.e., incompatible observables.
翻訳日:2024-09-18 20:59:28 公開日:2024-09-16
# 量子シミュレーションのための完全ゲージ型SU(2)ハミルトニアン

A Fully Gauge-Fixed SU(2) Hamiltonian for Quantum Simulations ( http://arxiv.org/abs/2409.10610v1 )

ライセンス: Link先を確認
Dorota M. Grabowska, Christopher F. Kane, Christian W. Bauer, (参考訳) 純粋な SU(2) ゲージ理論に対して、完全にゲージ固定された格子ハミルトニアンを構築する方法を示す。 我々の研究は、ゲージ結合のすべての値で効率的にシミュレートできるSU(2)格子ゲージ理論の定式化が開発された以前の研究にも及んでいる。 この定式化は、すべての局所ゲージ対称性が固定され、残留な大域ゲージ対称性が残る極大木ゲージを利用した。 SU(2)格子ゲージ理論の幾何学図を回転ロッドの系として利用することにより、残りの大域ゲージ対称性を固定する方法を実証する。 特に、全電荷に関連する量子数は、3つのオイラー角を用いて実験室とボディフレームの間を回転させることで分離することができる。 この新しい'squestered'基底のヒルベルト空間は、全角運動量が異なるセクターにきれいに分割されるので、特に電荷ゼロセクターにおいて、特定の全電荷セクターへのゲージ固定は自明である。 この分離基底は結合のすべての値において効率のよい性質を継承するのに加えて、最終的なゲージ固定手順のグローバルな性質にもかかわらず、このハミルトンは格子体積と多項式的にしかスケーリングしない量子資源を用いてシミュレートできることを示した。

We demonstrate how to construct a fully gauge-fixed lattice Hamiltonian for a pure SU(2) gauge theory. Our work extends upon previous work, where a formulation of an SU(2) lattice gauge theory was developed that is efficient to simulate at all values of the gauge coupling. That formulation utilized maximal-tree gauge, where all local gauge symmetries are fixed and a residual global gauge symmetry remains. By using the geometric picture of an SU(2) lattice gauge theory as a system of rotating rods, we demonstrate how to fix the remaining global gauge symmetry. In particular, the quantum numbers associated with total charge can be isolated by rotating between the lab and body frames using the three Euler angles. The Hilbert space in this new `sequestered' basis partitions cleanly into sectors with differing total angular momentum, which makes gauge-fixing to a particular total charge sector trivial, particularly for the charge-zero sector. In addition to this sequestered basis inheriting the property of being efficient at all values of the coupling, we show that, despite the global nature of the final gauge-fixing procedure, this Hamiltonian can be simulated using quantum resources scaling only polynomially with the lattice volume.
翻訳日:2024-09-18 19:00:49 公開日:2024-09-16
# 3+1d格子$\mathbb Z_2$ゲージ理論の正確な接地状態を持つ双対保存変形

Duality-preserving deformation of 3+1d lattice $\mathbb Z_2$ gauge theory with exact gapped ground states ( http://arxiv.org/abs/2409.10612v1 )

ライセンス: Link先を確認
Pranay Gorantla, Tzu-Chen Huang, (参考訳) 我々は、自己双対点における非可逆ウェグナー双対性対称性を保存する3+1d格子$\mathbb Z_2$ゲージ理論の変形を提案し、解析する。 この変形に沿うフラストレーションのない点を、有限体積でも(周期的立方体格子上で)9つの正確に退化した基底状態が存在すると同定する。 これらの基底状態の1つは自明な積状態であり、残りは3+1dトーリック符号の位相的に順序付けられた基底状態である。 また, フラストレーションフリー点が熱力学的限界でギャップを空けることも証明した。 したがって、我々のモデルは、自発的に壊れたウェグナー双対性対称性を持つギャップ付き位相を実現する。 さらに、ガウスの法則の制約をエネルギカルに課すことで、上のすべての特徴をテンソル積ヒルベルト空間上で実現することができる。 最後に、この変形を3+1d格子$\mathbb Z_N$ゲージ理論に一般化し、可能な位相図を予想する。

We propose and analyze a deformation of the 3+1d lattice $\mathbb Z_2$ gauge theory that preserves the non-invertible Wegner duality symmetry at the self-dual point. We identify a frustration-free point along this deformation where there are nine exactly degenerate ground states (on a periodic cubic lattice) even at finite volume. One of these ground states is a trivial product state and the rest are the topologically-ordered ground states of the 3+1d toric code. We also prove that the frustration-free point is gapped in the thermodynamic limit. Our model, therefore, realizes a gapped phase with spontaneously broken Wegner duality symmetry. Furthermore, by imposing the Gauss law constraints energetically, all the above features can be realized on a tensor product Hilbert space. Finally, we discuss a generalization of this deformation to the 3+1d lattice $\mathbb Z_N$ gauge theory and conjecture the possible phase diagram.
翻訳日:2024-09-18 19:00:49 公開日:2024-09-16
# 準周期準1次元系における不死の量子相関

Immortal quantum correlation in quasiperiodic quasi-1D system ( http://arxiv.org/abs/2409.10614v1 )

ライセンス: Link先を確認
Junmo Jeon, SungBin Lee, (参考訳) 長距離相関に関する一般的な見解は、ほとんどの相互作用は、電力法則に従って短距離支配または崩壊を示すため、通常は距離と温度が均一に減衰するということである。 この信念とは対照的に、サブバンドの準周期性と準1次元の性質の間の複雑な相互作用は、減衰を伴わずに強い長距離カップリングをもたらすことを示し、これは不死の相互作用と呼ばれる現象である。 周期的に積み重ねられたフィボナッチ鎖を例示すると、非常に強化された永続的な長距離結合との不死の相互作用が明らかになる。 負性率を用いて、この相互作用は、長距離で安定な絡み合いを生じ、有限温度で頑健であることが示されている。 さらに、従来の地域法から逸脱した、従来の対数的スケーリングの絡み合いが明らかになる。 これらの発見は、有限温度効果が存在する場合でも、非常に長い距離にわたって安定な絡み合いを維持するための新しいプラットフォームとして準周期準1Dシステムを提供する。

The prevailing view on long-range correlations is that they typically attenuate uniformly with distance and temperature, as most interactions either exhibit short-range dominance or decay following a power law. In contrast to this belief, this study demonstrates that the intricate interplay between quasiperiodicity and the quasi-1D nature of subbands can result in strong long-range coupling without attenuation, a phenomenon referred to as an immortal interaction. Exemplifying a periodically stacked Fibonacci chain, we uncover an immortal interaction with greatly enhanced, persistent long-range coupling. Using negativity, it is shown that this interaction creates stable entanglement that endures over long distances and remains robust at finite temperatures. Additionally, unconventional logarithmic scaling entanglement is revealed, deviating from the traditional area law. These findings offer quasiperiodic quasi-1D systems as a novel platform for sustaining stable entanglement across exceptionally long distances, even in the presence of finite temperature effects.
翻訳日:2024-09-18 19:00:49 公開日:2024-09-16
# 表面を介する2次元イテナント電子の超強空洞結合

Surface-mediated ultra-strong cavity coupling of two-dimensional itinerant electrons ( http://arxiv.org/abs/2409.10615v1 )

ライセンス: Link先を確認
Christian J. Eckhardt, Andrey Grankin, Dante M. Kennes, Michael Ruggenthaler, Angel Rubio, Michael A. Sentef, Mohammad Hafezi, Marios H. Michael, (参考訳) キャビティにおける物質の工学的な位相は、素系のエネルギー量と同じ大きさの効果的な光-物質結合強度を必要とし、超強結合状態を作り出した。 離散的なエネルギーレベルを持たないイテナント電子系のモデルでは、この状態の明確な定義は、現在まで顕著である。 ここでは、電子質量の変化が、その素値の10\%を超えることは、そのような定義として役立つかもしれないと論じる。 本研究では,電子質量を真空値に関連付ける定量的な計算手法を提案し,表面偏光子モードとの結合がそのような質量変化を引き起こすことを示す。 この結果は、量子光による電子物性の工学を可能にする空洞設計の原則に重要な意味を持つ。

Engineering phases of matter in cavities requires effective light-matter coupling strengths that are on the same order of magnitude as the bare system energetics, coined the ultra-strong coupling regime. For models of itinerant electron systems, which do not have discrete energy levels, a clear definition of this regime is outstanding to date. Here we argue that a change of the electronic mass exceeding $10\%$ of its bare value may serve as such a definition. We propose a quantitative computational scheme for obtaining the electronic mass in relation to its bare vacuum value and show that coupling to surface polariton modes can induce such mass changes. Our results have important implications for cavity design principles that enable the engineering of electronic properties with quantum light.
翻訳日:2024-09-18 19:00:49 公開日:2024-09-16
# 複素固有値統計学における2つの遷移:ハーミシティと積分可能性の破れ

Two transitions in complex eigenvalue statistics: Hermiticity and integrability breaking ( http://arxiv.org/abs/2409.10625v1 )

ライセンス: Link先を確認
G. Akemann, F. Balducci, A. Chenu, P. Päßler, F. Roccati, R. Shir, (参考訳) 開量子系は複素エネルギー固有値を持ち、カオス時では非エルミート確率行列統計、可積分時では2次元(2d)ポアソン統計に従うことが期待される。 我々は,多体量子スピン鎖Hermitian XXZ Heisenberg模型のスペクトル特性について検討した。 そのリッチな複素固有値統計は、障害強度の異なるスケールで、ハーミティシティと積分性の両方を別々に破壊する。 障害がなければ、この系は積分可能でエルミート的であり、スペクトル統計は1dポアソンに対応する。 非常に小さな障害では、1dポアソン統計から効果的な$D$次元ポアソン点過程へ遷移し、エルミティシティの破れを示す。 中間障害では可積分性が破られ、統計はAI$^\dag$の非エルミート複素対称確率行列と一致する。 大障害では期待される2d Poisson統計を回復する。 解析では, スピンチェーンデータに適合する2dクーロンガスを逆温度$\beta$で記述し, 数値的に生成し, 隣り合う2dクーロンガスの温度分布を推定した。 クラスAI$^\dag$ と AII$^\dag$ のランダム行列の有効記述を, 隣り合う近距離まで確認する。

Open quantum systems have complex energy eigenvalues which are expected to follow non-Hermitian random matrix statistics when chaotic, or 2-dimensional (2d) Poisson statistics when integrable. We investigate the spectral properties of a many-body quantum spin chain, the Hermitian XXZ Heisenberg model with imaginary disorder. Its rich complex eigenvalue statistics is found to separately break both Hermiticity and integrability at different scales of the disorder strength. With no disorder, the system is integrable and Hermitian, with spectral statistics corresponding to 1d Poisson. At very small disorder, we find a transition from 1d Poisson statistics to an effective $D$-dimensional Poisson point process, showing Hermiticity breaking. At intermediate disorder we find integrability breaking, and the statistics agrees with that of non-Hermitian complex symmetric random matrices in class AI$^\dag$. For large disorder, we recover the expected 2d Poisson statistics. Our analysis uses numerically generated nearest and next-to-nearest neighbour spacing distributions of an effective 2d Coulomb gas description at inverse temperature $\beta$, fitting them to the spin chain data. We confirm such an effective description of random matrices in class AI$^\dag$ and AII$^\dag$ up to next-to-nearest neighbour spacings.
翻訳日:2024-09-18 19:00:49 公開日:2024-09-16
# シリコン上の超伝導デバイスにおける界面圧電性の観察

Observation of Interface Piezoelectricity in Superconducting Devices on Silicon ( http://arxiv.org/abs/2409.10626v1 )

ライセンス: Link先を確認
Haoxin Zhou, Eric Li, Kadircan Godeneli, Zi-Huai Zhang, Shahin Jahanbani, Kangdi Yu, Mutasem Odeh, Shaul Aloni, Sinéad Griffin, Alp Sipahigil, (参考訳) 超伝導量子プロセッサの進化は、フォールトトレラント計算におけるエラーとスケールの削減の必要性によって引き起こされる。 物理量子ビットエラー率の低減には、超伝導量子ビットにおけるデコヒーレンス機構の微視的モデリングと制御のさらなる進歩が必要である。 圧電相互作用はマイクロ波光子と音響フォノン間のエネルギー交換を媒介することでデコヒーレンスに寄与する。 シリコンやサファイアのようなセントロ対称材料は圧電性を示さず、超伝導量子ビットの基板として好まれる。 しかし、材料界面における破壊された中心対称性は、クォービットの圧電損失をもたらす可能性がある。 この損失機構は20年前に予測されたが、界面圧電性は超伝導デバイスで実験的に観測されていない。 本稿では,アルミニウム-シリコン接合部における界面圧電特性の観察を行い,超伝導デバイスにとって重要な損失チャネルであることを示す。 シリコン上にアルミ粒間弾性表面波トランスデューサを作製し, 室温からミリケルビン温度への圧電変換を実証した。 K^2\approx 2 \times 10^{-5}\%=弱圧電性基板に匹敵する有効電気機械的結合係数を求める。 測定された界面圧電応答が超伝導量子ビットに与える影響をモデル化し, 圧電損失チャネルがクビット品質係数を$Q\sim10^4-10^8$に制限していることを見出した。 これらの結果から, 超伝導量子ビットの電気機械面損失は, 超伝導量子ビットに対する重要な散逸チャネルであり, 次世代超伝導量子ビットの誤差を最小限に抑えるため, ヘテロ構造と音波工学の必要性が示唆された。

The evolution of superconducting quantum processors is driven by the need to reduce errors and scale for fault-tolerant computation. Reducing physical qubit error rates requires further advances in the microscopic modeling and control of decoherence mechanisms in superconducting qubits. Piezoelectric interactions contribute to decoherence by mediating energy exchange between microwave photons and acoustic phonons. Centrosymmetric materials like silicon and sapphire do not display piezoelectricity and are the preferred substrates for superconducting qubits. However, the broken centrosymmetry at material interfaces may lead to piezoelectric losses in qubits. While this loss mechanism was predicted two decades ago, interface piezoelectricity has not been experimentally observed in superconducting devices. Here, we report the observation of interface piezoelectricity at an aluminum-silicon junction and show that it constitutes an important loss channel for superconducting devices. We fabricate aluminum interdigital surface acoustic wave transducers on silicon and demonstrate piezoelectric transduction from room temperature to millikelvin temperatures. We find an effective electromechanical coupling factor of $K^2\approx 2 \times 10^{-5}\%$ comparable to weakly piezoelectric substrates. We model the impact of the measured interface piezoelectric response on superconducting qubits and find that the piezoelectric surface loss channel limits qubit quality factors to $Q\sim10^4-10^8$ for designs with different surface participation ratios and electromechanical mode matching. These results identify electromechanical surface losses as a significant dissipation channel for superconducting qubits, and show the need for heterostructure and phononic engineering to minimize errors in next-generation superconducting qubits.
翻訳日:2024-09-18 19:00:49 公開日:2024-09-16
# 損失共振器の高利得スクイーズ--漸近場アプローチ

High gain squeezing in lossy resonators: an asymptotic field approach ( http://arxiv.org/abs/2409.10639v1 )

ライセンス: Link先を確認
Michael Sloan, Alice Viola, Marco Liscidini, J. E. Sipe, (参考訳) 本稿では、漸近的/外場フォーマリズムを用いた集積フォトニックデバイスにおける非線形電磁相互作用を記述する方法を提案する。 本手法は、任意のパルス入力に対して非摂動的に進化を記述することにより、従来の連続波漸近処理に拡張する。 これは、入力/出力導波路に結合された集積マイクロリング共振器側のスケズリング相互作用の文脈で示されるが、様々な(非スケズング)3次相互作用を含む、他の統合構造に容易に一般化可能である。 単一励起非縮退スキーズ相互作用の例としては、高次共振器の標準結合モード処理や、低い確率でペアを生成する以前の摂動処理とよく一致することが示されている。

We present a method for describing nonlinear electromagnetic interactions in integrated photonic devices utilizing an asymptotic-in/out field formalism. Our method expands upon previous continuous wave asymptotic treatments by describing the evolution non-perturbatively for an arbitrary pulsed input. This is presented in the context of a squeezing interaction within an integrated microring resonator side coupled to an input/output waveguide, but is readily generalizable to other integrated structures, while including a variety of (non-squeezing) third-order interactions. An example of a single-pump, non-degenerate squeezing interaction is studied, which is shown to match well with standard coupled-mode treatments for high-finesse resonators, as well as previous perturbative treatments dealing with the generation of pairs with low probability.
翻訳日:2024-09-18 19:00:49 公開日:2024-09-16
# キーフレーズ選択のための微調整生成モデル探索:ロシア語を事例として

Exploring Fine-tuned Generative Models for Keyphrase Selection: A Case Study for Russian ( http://arxiv.org/abs/2409.10640v1 )

ライセンス: Link先を確認
Anna Glazkova, Dmitry Morozov, (参考訳) キーフレーズの選択は学術テキストの領域において重要な役割を担い、効率的な情報検索、要約、インデックス作成を容易にする。 本研究では,ロシアの科学文献におけるキーフレーズ選択の特定の課題に対して,微調整型生成トランスフォーマーモデルを適用する方法について検討した。 我々は,ruT5,ruGPT,mT5,mBARTの4つの異なる生成モデルを用いて実験を行った。 実験は、数学とコンピュータ科学、歴史、医学、言語学という4つの領域のロシアの科学的抽象のテキストに基づいて行われた。 生成モデル、すなわちmBARTの使用は、ロシア語の3つのキーフレーズ抽出ベースラインよりも、ドメイン内のパフォーマンス(BERTScoreで4.9\%、ROUGE-1で9.0\%、F1スコアで12.2\%)が向上した。 クロスドメイン利用の成果は著しく低かったが、いくつかのケースでベースライン性能を上回る能力を示しており、この研究分野におけるさらなる探索と改良の可能性を秘めている。

Keyphrase selection plays a pivotal role within the domain of scholarly texts, facilitating efficient information retrieval, summarization, and indexing. In this work, we explored how to apply fine-tuned generative transformer-based models to the specific task of keyphrase selection within Russian scientific texts. We experimented with four distinct generative models, such as ruT5, ruGPT, mT5, and mBART, and evaluated their performance in both in-domain and cross-domain settings. The experiments were conducted on the texts of Russian scientific abstracts from four domains: mathematics \& computer science, history, medicine, and linguistics. The use of generative models, namely mBART, led to gains in in-domain performance (up to 4.9\% in BERTScore, 9.0\% in ROUGE-1, and 12.2\% in F1-score) over three keyphrase extraction baselines for the Russian language. Although the results for cross-domain usage were significantly lower, they still demonstrated the capability to surpass baseline performances in several cases, underscoring the promising potential for further exploration and refinement in this research field.
翻訳日:2024-09-18 19:00:49 公開日:2024-09-16
# HAVANA: ビデオの高速化のための階層的確率的隣人埋め込み

HAVANA: Hierarchical stochastic neighbor embedding for Accelerated Video ANnotAtions ( http://arxiv.org/abs/2409.10641v1 )

ライセンス: Link先を確認
Alexandru Bobe, Jan C. van Gemert, (参考訳) ビデオアノテーションはコンピュータビジョンの研究と応用において重要かつ時間を要するタスクである。 本稿では,時間的ビデオアノテーションプロセスの高速化のために,事前抽出した特徴量と次元減少量を用いた新しいアノテーションパイプラインを提案する。 提案手法では,階層型確率的近傍埋め込み(HSNE)を用いてビデオ特徴のマルチスケール表現を作成し,アノテータによる大規模ビデオデータセットの探索とラベル付けを行う。 従来のリニア手法と比較して,アノテーションの取り組みが大幅に改善され,12時間以上のビデオのアノテートに要するクリック数が10倍以上に短縮された。 複数のデータセットに対する我々の実験は、さまざまなシナリオにわたるパイプラインの有効性と堅牢性を示している。 さらに,異なるデータセットに対するHSNEパラメータの最適設定について検討する。 我々の研究は、ビデオ理解の時代におけるビデオアノテーションの取り組みを拡大するための有望な方向性を提供する。

Video annotation is a critical and time-consuming task in computer vision research and applications. This paper presents a novel annotation pipeline that uses pre-extracted features and dimensionality reduction to accelerate the temporal video annotation process. Our approach uses Hierarchical Stochastic Neighbor Embedding (HSNE) to create a multi-scale representation of video features, allowing annotators to efficiently explore and label large video datasets. We demonstrate significant improvements in annotation effort compared to traditional linear methods, achieving more than a 10x reduction in clicks required for annotating over 12 hours of video. Our experiments on multiple datasets show the effectiveness and robustness of our pipeline across various scenarios. Moreover, we investigate the optimal configuration of HSNE parameters for different datasets. Our work provides a promising direction for scaling up video annotation efforts in the era of video understanding.
翻訳日:2024-09-18 19:00:49 公開日:2024-09-16
# CaBaGe: ClAss BAlanced Generator Ensemble を用いたデータフリーモデル抽出

CaBaGe: Data-Free Model Extraction using ClAss BAlanced Generator Ensemble ( http://arxiv.org/abs/2409.10643v1 )

ライセンス: Link先を確認
Jonathan Rosenthal, Shanchao Liang, Kevin Zhang, Lin Tan, (参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)は、クライアントに対するペイ・パー・クエリ、ブラックボックスシステムとして提供されることが多い。 このようなブラックボックスアプローチは、オープンレプリケーション、バリデーション、モデル結果の解釈を妨げるだけでなく、ホワイトハット研究者がMLaaSシステムの脆弱性を特定するのを難しくする。 モデル抽出はブラックボックスモデルのリバースエンジニアリングによってこれらの課題に対処する上で有望な手法である。 トレーニングデータは通常MLaaSモデルでは利用できないため、本論文では、その現実的なバージョンであるデータフリーモデル抽出に焦点を当てる。 少数のクエリで高いモデル抽出精度を実現するために,データフリーモデル抽出手法であるCaBaGeを提案する。 本研究の革新は,(1)困難なトレーニングサンプルに焦点を合わせるための新しい体験リプレイ,(2)多様な合成データを着実に生成するジェネレータのアンサンブル,(3)より硬くバランスの取れたサンプルで被害者モデルをクエリする選択的なフィルタリングプロセスである。 さらに、攻撃者が被害者のトレーニングデータ中のクラス数について知識を持っていない、より現実的な設定を作成し、オンザフライでクラス数を学ぶためのソリューションを作成します。 評価の結果、CaBaGeはMNIST, FMNIST, SVHN, CIFAR-10, CIFAR-100, ImageNet-subset, Tiny ImageNetという7つのデータセットで既存の手法より優れており、抽出したモデルの精度は最大43.13%向上した。 さらに、前の作業の最終精度に適合するクローンモデルを抽出するために必要なクエリの数を75.7%まで削減する。

Machine Learning as a Service (MLaaS) is often provided as a pay-per-query, black-box system to clients. Such a black-box approach not only hinders open replication, validation, and interpretation of model results, but also makes it harder for white-hat researchers to identify vulnerabilities in the MLaaS systems. Model extraction is a promising technique to address these challenges by reverse-engineering black-box models. Since training data is typically unavailable for MLaaS models, this paper focuses on the realistic version of it: data-free model extraction. We propose a data-free model extraction approach, CaBaGe, to achieve higher model extraction accuracy with a small number of queries. Our innovations include (1) a novel experience replay for focusing on difficult training samples; (2) an ensemble of generators for steadily producing diverse synthetic data; and (3) a selective filtering process for querying the victim model with harder, more balanced samples. In addition, we create a more realistic setting, for the first time, where the attacker has no knowledge of the number of classes in the victim training data, and create a solution to learn the number of classes on the fly. Our evaluation shows that CaBaGe outperforms existing techniques on seven datasets -- MNIST, FMNIST, SVHN, CIFAR-10, CIFAR-100, ImageNet-subset, and Tiny ImageNet -- with an accuracy improvement of the extracted models by up to 43.13%. Furthermore, the number of queries required to extract a clone model matching the final accuracy of prior work is reduced by up to 75.7%.
翻訳日:2024-09-18 19:00:49 公開日:2024-09-16
# マルチ候補投機デコードの改善

Improving Multi-candidate Speculative Decoding ( http://arxiv.org/abs/2409.10644v1 )

ライセンス: Link先を確認
Xiaofan Lu, Yixiao Zeng, Feiyang Ma, Zixu Yu, Marco Levorato, (参考訳) 投機的復号法 (SD) は、より低い複雑性のドラフトモデルを用いて、より大きなターゲットモデルによって検証された候補トークンを提案することにより、Large Language Models (LLM) の推論を高速化する手法である。 さらに効率を向上させるために、MCSD(Multi-Candidate Speculative Decoding)は、各ステップでドラフトモデルから複数の候補トークンをサンプリングし、それらを並列に検証することにより、トークンを受け入れる可能性を高め、生成時間を短縮する。 既存のMCSD法は、複数の候補列を初期化し、静的長とツリーアテンション構造をドラフト生成に利用するために、ドラフトモデルに依存している。 しかし、このようなアプローチは、特に動的生成コンテキストにおいて、ドラフトとターゲットモデルの出力分布の違いに悩まされる。 本研究では,目標モデルの初期化マルチ候補プロセス,動的長さ調整のための動的スライストポロジ対応因果マスク,早期停止を最適化する決定モデルを含むMCSDの改良版を紹介する。 提案フレームワークは,最大ドラフトシーケンス長に対して対象モデルが許容する最長ドラフトシーケンス長の比率を最大164%向上させ,MCSDベースラインに対して最大75%の速度で生成する。 また、意思決定モデルの効果を評価するためのアブレーション研究も行います。

Speculative Decoding (SD) is a technique to accelerate the inference of Large Language Models (LLMs) by using a lower complexity draft model to propose candidate tokens verified by a larger target model. To further improve efficiency, Multi-Candidate Speculative Decoding (MCSD) improves upon this by sampling multiple candidate tokens from the draft model at each step and verifying them in parallel, thus increasing the chances of accepting a token and reducing generation time. Existing MCSD methods rely on the draft model to initialize the multi-candidate sequences and use static length and tree attention structure for draft generation. However, such an approach suffers from the draft and target model's output distribution differences, especially in dynamic generation context. In this work, we introduce an improved version of MCSD that includes a target model initialized multi-candidate process, dynamic sliced topology-aware causal mask for dynamic length adjustment, and decision models to optimize early stopping. Our framework improves the acceptance rate, defined as the ratio of the longest draft sequence length accepted by the target model over the maximum draft sequence length, by a maximum of 164% and gains a maximum of 75% generation speed up over the MCSD baseline. We also conduct an ablation study to evaluate the impact of the decision model.
翻訳日:2024-09-18 19:00:49 公開日:2024-09-16
# コンパスを用いたテンポラルトピー埋め込みの可視化

Visualizing Temporal Topic Embeddings with a Compass ( http://arxiv.org/abs/2409.10649v1 )

ライセンス: Link先を確認
Daniel Palamarchuk, Lemara Williams, Brian Mayer, Thomas Danielson, Rebecca Faust, Larry Deschaine, Chris North, (参考訳) 動的トピックモデリングは、時間とともに潜在トピックの開発と変更を発見するのに役立ちます。 しかし、本手法は文書と単語の表現を分離するアルゴリズムに依存している。 これにより、単語使用量や文書の変更を直接時間的文脈で分析できる意味のある埋め込み空間が作成できない。 本稿では,コンパス整列時相Word2Vec手法を動的トピックモデリングに拡張することを提案する。 このような手法により、動的トピックにおける時間にわたって単語と文書の埋め込みを直接比較することができる。 これにより、文書のコンテキストに時間的な単語の埋め込みを組み込んだ視覚化をトピックの可視化に組み込むことができる。 提案手法は,現在の最先端技術に対する実験において,トピックの関連性や時間的データセットの多様性において,総合的な競争性能を示す。 同時に、グローバルトピックの進化によって提供される洞察を維持しながら、時間とともにトピックがどのように進化するかの理解を深めながら、時間的単語の埋め込みに焦点を当てた洞察に富んだ可視化を提供する。

Dynamic topic modeling is useful at discovering the development and change in latent topics over time. However, present methodology relies on algorithms that separate document and word representations. This prevents the creation of a meaningful embedding space where changes in word usage and documents can be directly analyzed in a temporal context. This paper proposes an expansion of the compass-aligned temporal Word2Vec methodology into dynamic topic modeling. Such a method allows for the direct comparison of word and document embeddings across time in dynamic topics. This enables the creation of visualizations that incorporate temporal word embeddings within the context of documents into topic visualizations. In experiments against the current state-of-the-art, our proposed method demonstrates overall competitive performance in topic relevancy and diversity across temporal datasets of varying size. Simultaneously, it provides insightful visualizations focused on temporal word embeddings while maintaining the insights provided by global topic evolution, advancing our understanding of how topics evolve over time.
翻訳日:2024-09-18 19:00:49 公開日:2024-09-16
# 因果変換器を用いた予測自己スーパービジョンを用いた論理合成最適化

Logic Synthesis Optimization with Predictive Self-Supervision via Causal Transformers ( http://arxiv.org/abs/2409.10653v1 )

ライセンス: Link先を確認
Raika Karimi, Faezeh Faez, Yingxue Zhang, Xing Li, Lei Chen, Mingxuan Yuan, Mahdi Biparva, (参考訳) 現代のハードウェア設計は、論理回路の実装を合理化する高レベルの論理ゲートによって提供される抽象化の恩恵を受けている。 論理合成最適化(LSO)はElectronic Design Automation(EDA)ワークフロー内の1つの抽象化レベルで動作し、最終レイアウトにおけるサイズや速度などのパフォーマンス指標に対する論理回路の改善を目標としている。 近年の分野における機械学習(ML)をEDAに活用することへの関心が高まっており、特にML誘導論理合成はポリシーベースの強化学習(RL)手法を用いているが、既存のモデルは過度な適合や一般化の制限、制約のある公開回路やグラフエンコーダの表現性制限といった課題に直面している。 これらのハードルに対処し、データ不足問題に対処するために、自動回帰トランスフォーマーモデルと予測SSLを用いた新しいアプローチであるLSOformerを導入し、結果の質の軌道(QoR)を予測する。 LSOformerは、クロスアテンションモジュールを統合して、回路グラフと最適化シーケンスからの洞察をマージし、QoRメトリクスの予測精度を向上させる。 LSOformerの有効性を検証し、QoR予測タスクにおけるベースラインアーキテクチャよりも優れた性能を示し、EPFL、OABCD、プロプライエタリな回路データセットでそれぞれ5.74%、4.35%、17.06%の改善を達成している。

Contemporary hardware design benefits from the abstraction provided by high-level logic gates, streamlining the implementation of logic circuits. Logic Synthesis Optimization (LSO) operates at one level of abstraction within the Electronic Design Automation (EDA) workflow, targeting improvements in logic circuits with respect to performance metrics such as size and speed in the final layout. Recent trends in the field show a growing interest in leveraging Machine Learning (ML) for EDA, notably through ML-guided logic synthesis utilizing policy-based Reinforcement Learning (RL) methods.Despite these advancements, existing models face challenges such as overfitting and limited generalization, attributed to constrained public circuits and the expressiveness limitations of graph encoders. To address these hurdles, and tackle data scarcity issues, we introduce LSOformer, a novel approach harnessing Autoregressive transformer models and predictive SSL to predict the trajectory of Quality of Results (QoR). LSOformer integrates cross-attention modules to merge insights from circuit graphs and optimization sequences, thereby enhancing prediction accuracy for QoR metrics. Experimental studies validate the effectiveness of LSOformer, showcasing its superior performance over baseline architectures in QoR prediction tasks, where it achieves improvements of 5.74%, 4.35%, and 17.06% on the EPFL, OABCD, and proprietary circuits datasets, respectively, in inductive setup.
翻訳日:2024-09-18 19:00:49 公開日:2024-09-16
# 深層強化学習を用いた安全なソーシャルナビゲーションのための不確かさの解消

Disentangling Uncertainty for Safe Social Navigation using Deep Reinforcement Learning ( http://arxiv.org/abs/2409.10655v1 )

ライセンス: Link先を確認
Daniel Flögel, Marcos Gómez Villafañe, Joshua Ransiek, Sören Hohmann, (参考訳) 自律移動ロボットは、安全なナビゲーションと適切なヒューマンインタラクションが不可欠である歩行者に富む環境にますます採用されている。 深層強化学習(Dreep Reinforcement Learning, DRL)は、社会的に統合されたロボットの動作を可能にするが、新しいシナリオや摂動シナリオでは、その政策がいつ、なぜ不確実であるかを示す課題が持続する。 意思決定における未知の不確実性は、衝突や人間の不快を招きかねず、安全かつリスクを意識したナビゲーションが依然としてオープンな問題である理由の1つである。 本研究は, Aleatoric, epistemic, 予測的不確実性推定をDRLベースのナビゲーションフレームワークに統合し, 意思決定における不確実性推定を実現する手法を提案する。 そこで我々は,観測依存性変動(ODV)とPPOアルゴリズムへのドロップアウトを取り入れた。 様々な種類の摂動について,Deep Ensembles と Monte-Carlo Dropout (MC-Dropout) を比較し,政策の不確実性を推定する。 本研究では,不確実な意思決定状況において,ロボットの社会的行動から保守的衝突回避への転換を提案する。 以上の結果から,ODV-PPOアルゴリズムはより高速に収束し,アレータ性およびてんかん性不確かさを解消することがわかった。 さらに、MC-Dropout法は摂動に敏感であり、不確実性型と摂動型をよりよく相関させることができる。 提案された安全な行動選択スキームにより、ロボットはより少ない衝突で乱れた環境で移動することができる。

Autonomous mobile robots are increasingly employed in pedestrian-rich environments where safe navigation and appropriate human interaction are crucial. While Deep Reinforcement Learning (DRL) enables socially integrated robot behavior, challenges persist in novel or perturbed scenarios to indicate when and why the policy is uncertain. Unknown uncertainty in decision-making can lead to collisions or human discomfort and is one reason why safe and risk-aware navigation is still an open problem. This work introduces a novel approach that integrates aleatoric, epistemic, and predictive uncertainty estimation into a DRL-based navigation framework for uncertainty estimates in decision-making. We, therefore, incorporate Observation-Dependent Variance (ODV) and dropout into the Proximal Policy Optimization (PPO) algorithm. For different types of perturbations, we compare the ability of Deep Ensembles and Monte-Carlo Dropout (MC-Dropout) to estimate the uncertainties of the policy. In uncertain decision-making situations, we propose to change the robot's social behavior to conservative collision avoidance. The results show that the ODV-PPO algorithm converges faster with better generalization and disentangles the aleatoric and epistemic uncertainties. In addition, the MC-Dropout approach is more sensitive to perturbations and capable to correlate the uncertainty type to the perturbation type better. With the proposed safe action selection scheme, the robot can navigate in perturbed environments with fewer collisions.
翻訳日:2024-09-18 19:00:49 公開日:2024-09-16
# シュリーファー・ヴォルフ摂動理論と分散相互作用に対する固有演算的アプローチ

Eigenoperator approach to Schrieffer-Wolff perturbation theory and dispersive interactions ( http://arxiv.org/abs/2409.10656v1 )

ライセンス: Link先を確認
Gabriel T. Landi, (参考訳) 現代の量子物理学は非常にモジュラーであり、まず基本的な構成要素( ``XXZ Hamiltonian'' ``Jaynes-Cummings' など)を理解し、それらを組み合わせて新しい効果を探求する。 典型的な例は、既知のシステムを光学キャビティ内に配置することである。 シュリーファー=ヴォルフ摂動法は、従来の時間非依存摂動理論のようにエネルギー準位補正よりも直感的なハミルトニアンへの演算子補正という観点で摂動拡大を行うので、これらの問題に対処するのに特に適している。 しかし、この手法には体系的なアプローチが欠けている。 8%で,ニッチな話題が続いている。 これらのノートでは、開量子系において主に用いられる概念である 'emph{eigenoperator decompositions} が、シュリーファー=ヴォルフ摂動論の直観的かつ体系的な定式化を構築するためにどのように用いられるかについて議論する。 これを説明するために、文学、古くて新しい様々な論文を再検討し、代わりに固有演算子を使ってどのように解決できるかを示す。 特に、非常に異なる遷移周波数(主に非共鳴)の2つの系を結合する摂動が強調され、いわゆる分散相互作用へと繋がる。

Modern quantum physics is very modular: we first understand basic building blocks (``XXZ Hamiltonian'' ``Jaynes-Cummings'' etc.) and then combine them to explore novel effects. A typical example is placing known systems inside an optical cavity. The Schrieffer-Wolff perturbation method is particularly suited for dealing with these problems, since it casts the perturbation expansion in terms of operator corrections to a Hamiltonian, which is more intuitive than energy level corrections, as in traditional time-independent perturbation theory. However, the method lacks a systematic approach.% and has largely remained a niche topic. In these notes we discuss how \emph{eigenoperator decompositions}, a concept largely used in open quantum systems, can be employed to construct an intuitive and systematic formulation of Schrieffer-Wolff perturbation theory. To illustrate this we revisit various papers in the literature, old and new, and show how they can instead be solved using eigenoperators. Particular emphasis is given to perturbations that couple two systems with very different transition frequencies (highly off-resonance), leading to the so-called dispersive interactions.
翻訳日:2024-09-18 19:00:49 公開日:2024-09-16
# 保証2.0の信頼性

Confidence in Assurance 2.0 Cases ( http://arxiv.org/abs/2409.10665v1 )

ライセンス: Link先を確認
Robin Bloomfield, John Rushby, (参考訳) 保証訴訟は、安全又は安全などのシステム又は手続のいくつかの重要な性質に関するクレームの真理を正当化可能な信頼を与えるべきである。 私たちは、アシュアランス2.0と呼ばれる厳格なアプローチで、いかに自信を評価できるかを考えます。 我々の目標は信頼を損なうことであり、論理的健全性、確率的評価、弁証的検査、残留リスクという4つの異なる視点からアプローチする。

An assurance case should provide justifiable confidence in the truth of a claim about some critical property of a system or procedure, such as safety or security. We consider how confidence can be assessed in the rigorous approach we call Assurance 2.0. Our goal is indefeasible confidence and we approach it from four different perspectives: logical soundness, probabilistic assessment, dialectical examination, and residual risks.
翻訳日:2024-09-18 18:50:48 公開日:2024-09-16
# 差分プライバシーのためのセキュアサンプリングプロトコルのベンチマーク

Benchmarking Secure Sampling Protocols for Differential Privacy ( http://arxiv.org/abs/2409.10667v1 )

ライセンス: Link先を確認
Yucheng Fu, Tianhao Wang, (参考訳) 差分プライバシー(DP)は、集約されたデータからの情報漏洩を制限することにより、個人に対してプライバシー保護を提供するために広く利用されている。 DPの2つのよく知られたモデルは、中心モデルと局所モデルである。 前者はデータアグリゲーションに信頼できるサーバを必要とし、後者は個人がノイズを加えることを必要とし、集約された結果の有用性を著しく低下させる。 近年,分散環境でのセキュアなマルチパーティ計算(MPC)によるDPの実現,すなわち,特定のセキュリティ前提の下では,中央モデルに匹敵するユーティリティを持つ分散モデルの実現が提案されている。 分散モデルにおけるDPを実現する一つの課題は、MPCで効率的にノイズをサンプリングすることである。 多くの安全なサンプリング法が提案されているが、それらは異なるセキュリティ仮定と独立した理論解析を持っている。 パフォーマンスを計測し比較する実験的な評価が不足しています。 我々は、既存のサンプリングプロトコルをMPCでベンチマークし、その効率を総合的に測定することで、このギャップを埋める。 まず,これらのサンプリングプロトコルの基礎となる手法の分類について述べる。 第二に、広く使われている分散ノイズ発生プロトコルを拡張して、ビザンチン攻撃に対する耐性を高める。 第3に、離散サンプリングプロトコルを実装し、セキュリティ設定を公平に比較する。 そして、その効率性と有用性を研究するために、広範囲な評価を行う。

Differential privacy (DP) is widely employed to provide privacy protection for individuals by limiting information leakage from the aggregated data. Two well-known models of DP are the central model and the local model. The former requires a trustworthy server for data aggregation, while the latter requires individuals to add noise, significantly decreasing the utility of aggregated results. Recently, many studies have proposed to achieve DP with Secure Multi-party Computation (MPC) in distributed settings, namely, the distributed model, which has utility comparable to central model while, under specific security assumptions, preventing parties from obtaining others' information. One challenge of realizing DP in distributed model is efficiently sampling noise with MPC. Although many secure sampling methods have been proposed, they have different security assumptions and isolated theoretical analyses. There is a lack of experimental evaluations to measure and compare their performances. We fill this gap by benchmarking existing sampling protocols in MPC and performing comprehensive measurements of their efficiency. First, we present a taxonomy of the underlying techniques of these sampling protocols. Second, we extend widely used distributed noise generation protocols to be resilient against Byzantine attackers. Third, we implement discrete sampling protocols and align their security settings for a fair comparison. We then conduct an extensive evaluation to study their efficiency and utility.
翻訳日:2024-09-18 18:50:48 公開日:2024-09-16
# アルゴリズムに影響を与えよう: 何百万人ものファンがアルゴリズムの集合的理解を構築し、協調的アルゴリズム行動の組織化

Let's Influence Algorithms Together: How Millions of Fans Build Collective Understanding of Algorithms and Organize Coordinated Algorithmic Actions ( http://arxiv.org/abs/2409.10670v1 )

ライセンス: Link先を確認
Qing Xiao, Yuhang Zheng, Xianzhe Fan, Bingbing Zhang, Zhicong Lu, (参考訳) 従来の研究は、ユーザーがアルゴリズムを戦略的に理解し、意識的に操作する方法に注意を払っていたが、主に個々のレベルに焦点を当てており、コミュニティ内のユーザーがアルゴリズムの集合的理解を開発し、集団的なアルゴリズム行動の組織化をいかに困難にするかを探求する。 オンラインファン活動の2年間のエスノグラフィーを通じて,大規模ファンの集団行動とそれに対応する一般ファン集団を常に組織する43人のコアファンを調査した。 この研究は、これらのコアファンが集団的なアルゴリズム行動を通じて何百万もの一般ファンを動員する方法を明らかにすることを目的としている。 これらの中核的なファンは、一般のファンを説得するための修辞的戦略、アルゴリズムの集合的理解を構築するためのステップ、プラットフォームや文化全体にわたる集合的行動に適応する協調的なプロセスについて報告した。 本研究は,大規模ドメインターゲティングアルゴリズムにおいて,コンピュータが支援する集団的アルゴリズム行動と集団的行動研究の拡張を可能にする重要な要因を明らかにするものである。

Previous research pays attention to how users strategically understand and consciously interact with algorithms but mainly focuses on an individual level, making it difficult to explore how users within communities could develop a collective understanding of algorithms and organize collective algorithmic actions. Through a two-year ethnography of online fan activities, this study investigates 43 core fans who always organize large-scale fans' collective actions and their corresponding general fan groups. This study aims to reveal how these core fans mobilize millions of general fans through collective algorithmic actions. These core fans reported the rhetorical strategies used to persuade general fans, the steps taken to build a collective understanding of algorithms, and the collaborative processes that adapt collective actions across platforms and cultures. Our findings highlight the key factors that enable computer-supported collective algorithmic actions and extend collective action research into large-scale domain targeting algorithms.
翻訳日:2024-09-18 18:50:48 公開日:2024-09-16
# 適応型低ランク適応のベイズ解釈

A Bayesian Interpretation of Adaptive Low-Rank Adaptation ( http://arxiv.org/abs/2409.10673v1 )

ライセンス: Link先を確認
Haolin Chen, Philip N. Garner, (参考訳) 適応型低ランク適応(AdaLoRA)の感度に基づく重要度スコアにより、適応型パラメータ予算配分のための改良型変分オンラインニュートン(IVON)オプティマイザとともに、信号対雑音比(SNR)を含むより理論的に支持された指標を利用する。 その結果得られたベイズ対応は、感度ベースの重要度基準を使用する性能と一致または上回っただけでなく、AdamとAdaLoRAの高速な代替手段でもある。 この2つの指標の間に有意な関係が明らかとなり,感度の有効性を重要視するベイズ的視点が得られた。 さらに, パラメータの重要性の指標として, ばらつきではなく, 大きさが重要であることが示唆された。

Motivated by the sensitivity-based importance score of the adaptive low-rank adaptation (AdaLoRA), we utilize more theoretically supported metrics, including the signal-to-noise ratio (SNR), along with the Improved Variational Online Newton (IVON) optimizer, for adaptive parameter budget allocation. The resulting Bayesian counterpart not only has matched or surpassed the performance of using the sensitivity-based importance metric but is also a faster alternative to AdaLoRA with Adam. Our theoretical analysis reveals a significant connection between the two metrics, providing a Bayesian perspective on the efficacy of sensitivity as an importance score. Furthermore, our findings suggest that the magnitude, rather than the variance, is the primary indicator of the importance of parameters.
翻訳日:2024-09-18 18:50:48 公開日:2024-09-16
# 相対論的量子スカーの直接可視化

Direct Visualization of Relativistic Quantum Scars ( http://arxiv.org/abs/2409.10675v1 )

ライセンス: Link先を確認
Zhehao Ge, Anton M. Graf, Joonas Keski-Rahkonen, Sergey Slizovskiy, Peter Polizogopoulos, Takashi Taniguchi, Kenji Watanabe, Ryan Van Haren, David Lederman, Vladimir I. Fal'ko, Eric J. Heller, Jairo Velasco Jr, (参考訳) 量子スカー(quantum scars)は、不安定な古典周期軌道(POs)に沿った確率密度が高められた固有状態を指す。 40年前に最初に予測された傷痕は、古典的な相互作用がカオスである量子系のエルゴード性に逆らう特別な固有状態である。 傷跡の重要性と長い歴史にもかかわらず、それらの量子系における直接可視化は依然としてオープンフィールドである。 In-situ graphene quantum dot (GQD) の生成と波動関数マッピング技術を用いて、ナノメートルの空間分解能とMeVのエネルギー分解能を持つディラック電子に対して、走査トンネル顕微鏡を用いて量子傷を画像化する。 具体的には, スタジアム形状のGQDにおいて, レニスケート形状およびストリーク様パターンの形で, 確率密度の増大が認められた。 どちらの特徴も、相対論的量子傷の予測と一致する等エネルギー間隔の繰り返しを示す。 古典的および量子シミュレーションを組み合わせることで、観測されたパターンはスタジアム形状のGQDに存在する2つの不安定なPOに対応し、どちらも量子的傷であることを示す。 我々の研究は、量子スカーリングの明確な視覚的証拠を提供するだけでなく、相対論的カオス量子システムにおける量子-古典的対応に関する洞察を提供し、摂動誘起傷、カイラル傷、アンチスカーリングなど、最近提案された他のスカーリング種の実験的研究への道を開く。

Quantum scars refer to eigenstates with enhanced probability density along unstable classical periodic orbits (POs). First predicted 40 years ago, scars are special eigenstates that counterintuitively defy ergodicity in quantum systems whose classical counterpart is chaotic. Despite the importance and long history of scars, their direct visualization in quantum systems remains an open field. Here we demonstrate that, by using an in-situ graphene quantum dot (GQD) creation and wavefunction mapping technique, quantum scars are imaged for Dirac electrons with nanometer spatial resolution and meV energy resolution with a scanning tunneling microscope. Specifically, we find enhanced probability densities in the form of lemniscate-shaped and streak-like patterns within our stadium-shaped GQDs. Both features show equal energy interval recurrence, consistent with predictions for relativistic quantum scars. By combining classical and quantum simulations, we demonstrate that the observed patterns correspond to two unstable POs that exist in our stadium-shaped GQD, thus proving they are both quantum scars. In addition to providing the first unequivocal visual evidence of quantum scarring, our work offers insight into the quantum-classical correspondence in relativistic chaotic quantum systems and paves the way to experimental investigation of other recently proposed scarring species such as perturbation-induced scars, chiral scars, and antiscarring.
翻訳日:2024-09-18 18:50:48 公開日:2024-09-16
# パイロット研修生のストレスと疲労モデリングにおける性バイアスの緩和に向けて

Toward Mitigating Sex Bias in Pilot Trainees' Stress and Fatigue Modeling ( http://arxiv.org/abs/2409.10676v1 )

ライセンス: Link先を確認
Rachel Pfeifer, Sudip Vhaduri, Mark Wilson, Julius Keller, (参考訳) 研究者は、パイロット、特にパイロット訓練生のストレスや疲労を理解し、ストレスや疲労を検出するプロセスを自動化するためのストレス/疲労モデルを開発しようとしてきたが、これらのモデルではセックスのようなバイアスを考慮しないことが多い。 しかし、航空のような重要な職業では、人口分布が不均等に1つの性に歪められているため、公正で安全なモデル予測に対するバイアスを軽減することが急務である。 本研究では,約63%の男子パイロット研修生40名を含む69人の大学生のストレス・疲労感について検討した。 我々はまず, 偏差緩和のない決定木を用いたモデルを構築し, 次に, 人口統計値の閾値オプティマイザと, ランダムインスタンスの30倍の確率制約を用いた偏差緩和モデルを構築した。 バイアス緩和を用いて、88.31%(デミノグラフィーのパリティ差)と54.26%(等化オッズ差)の改善を実現し、統計学的に有意であることが判明した。

While researchers have been trying to understand the stress and fatigue among pilots, especially pilot trainees, and to develop stress/fatigue models to automate the process of detecting stress/fatigue, they often do not consider biases such as sex in those models. However, in a critical profession like aviation, where the demographic distribution is disproportionately skewed to one sex, it is urgent to mitigate biases for fair and safe model predictions. In this work, we investigate the perceived stress/fatigue of 69 college students, including 40 pilot trainees with around 63% male. We construct models with decision trees first without bias mitigation and then with bias mitigation using a threshold optimizer with demographic parity and equalized odds constraints 30 times with random instances. Using bias mitigation, we achieve improvements of 88.31% (demographic parity difference) and 54.26% (equalized odds difference), which are also found to be statistically significant.
翻訳日:2024-09-18 18:50:48 公開日:2024-09-16
# 音声データ駆動型 COPD と COVID-19 ブレスティングパターン検出モデルにおける性バイアスの緩和

Mitigating Sex Bias in Audio Data-driven COPD and COVID-19 Breathing Pattern Detection Models ( http://arxiv.org/abs/2409.10677v1 )

ライセンス: Link先を確認
Rachel Pfeifer, Sudip Vhaduri, James Eric Dietz, (参考訳) 医療業界では、呼吸パターンに基づいて呼吸器疾患の患者を診断する機械学習モデルが研究されている。 しかしながら、これらのモデルは、スクイード患者データセットでモデルがトレーニングされたときにしばしば発生する人口統計バイアス、特に性バイアスを考慮しない。 したがって、モデルが公平に診断できるように、このような重要な産業において、このバイアスを減らすことが不可欠である。 本研究では,慢性閉塞性肺疾患(COPD)とCOVID-19(COVID-19)の2つの主要な呼吸器疾患の呼吸パターンを検出するモデルにおけるバイアスについて検討した。 29名の COPD と680名の COVID-19 陽性患者の2つのオープンソースデータセットから得られた呼吸パターンの音声記録を学習した決定木モデルを用いて,性別バイアスがモデルに与える影響を解析した。 バイアスを軽減するためのしきい値オプティマイザと2つの制約(デコログラフパリティと等化オッズ)により、81.43%(デコログラフパリティ差)と71.81%(等化オッズ差)の改善が見られた。 これらの発見は統計的に有意である。

In the healthcare industry, researchers have been developing machine learning models to automate diagnosing patients with respiratory illnesses based on their breathing patterns. However, these models do not consider the demographic biases, particularly sex bias, that often occur when models are trained with a skewed patient dataset. Hence, it is essential in such an important industry to reduce this bias so that models can make fair diagnoses. In this work, we examine the bias in models used to detect breathing patterns of two major respiratory diseases, i.e., chronic obstructive pulmonary disease (COPD) and COVID-19. Using decision tree models trained with audio recordings of breathing patterns obtained from two open-source datasets consisting of 29 COPD and 680 COVID-19-positive patients, we analyze the effect of sex bias on the models. With a threshold optimizer and two constraints (demographic parity and equalized odds) to mitigate the bias, we witness 81.43% (demographic parity difference) and 71.81% (equalized odds difference) improvements. These findings are statistically significant.
翻訳日:2024-09-18 18:50:48 公開日:2024-09-16
# 連続環境におけるマルチエージェント経路探索

Multi-agent Path Finding in Continuous Environment ( http://arxiv.org/abs/2409.10680v1 )

ライセンス: Link先を確認
Kristýna Janovská, Pavel Surynek, (参考訳) 連続環境(CE-MAPF)におけるマルチエージェントパスの変種に対処し、エージェントは滑らかな曲線の集合に沿って移動する。 エージェント間の衝突は、空間領域の回避によって解決される。 本研究では,新たな連続環境競合探索(CE-CBS)アルゴリズムを提案する。 CE-CBSは、ハイレベル検索フレームワークのためのコンフリクトベースの検索(CBS)と低レベルパス計画のためのRT*を組み合わせる。 CE-CBSアルゴリズムは多様なCE-MAPFインスタンス上で様々な設定でテストされる。 実験の結果、CE-CBSはMAPFのようなMAPFの連続的な側面を連続的に考慮する他のアルゴリズムと競合していることがわかった。

We address a variant of multi-agent path finding in continuous environment (CE-MAPF), where agents move along sets of smooth curves. Collisions between agents are resolved via avoidance in the space domain. A new Continuous Environment Conflict-Based Search (CE-CBS) algorithm is proposed in this work. CE-CBS combines conflict-based search (CBS) for the high-level search framework with RRT* for low-level path planning. The CE-CBS algorithm is tested under various settings on diverse CE-MAPF instances. Experimental results show that CE-CBS is competitive w.r.t. to other algorithms that consider continuous aspect in MAPF such as MAPF with continuous time.
翻訳日:2024-09-18 18:50:48 公開日:2024-09-16
# MotIF:モーションインストラクションの微調整

MotIF: Motion Instruction Fine-tuning ( http://arxiv.org/abs/2409.10683v1 )

ライセンス: Link先を確認
Minyoung Hwang, Joey Hejna, Dorsa Sadigh, Yonatan Bisk, (参考訳) 多くのロボティクスタスクの成功は、最終状態と、それが初期状態とどのように異なるか(例えば、リンゴが拾われた場合)を観察するだけで決定できるが、成功を正しく決定するためには、ロボットの完全な動きを観察する必要がある。 例えば、ブラッシングヘアは、輪郭や髪型に対応する繰り返しストロークを必要とする。 しかし、成功が完全な軌道に依存する場合、VLMは2つの理由から正しい判断を下すのに苦労する。 第一に、現代のVLMは単一のフレームでしか訓練されておらず、完全な軌道上の変化を捉えることができない。 第二に、複数のフレームの集合的な入力を最先端のVLMに提供しても、ロボットデータが不足しているため、成功は見つからない。 我々のキーとなるアイデアは、最終画像上にキーポイント軌跡をオーバーレイすることで、ロボットが取る経路などの軌道レベルの情報をキャプチャできる抽象表現を用いて、VLMを微調整することである。 本稿では、上記抽象表現を用いてVLMを微調整し、ロボットの動作を環境内で意味的にグルーピングするモーションインストラクションファインタニング(MotIF)を提案する。 ロボット動作理解のためのVLMのベンチマークと微調整を行うため、13のタスクカテゴリにわたる653人の人間と369人のロボットデモを含むMotIF-1Kデータセットを紹介した。 MotIFは、軌跡、タスク命令、動作記述のイメージ観察から、ロボットの動きの成功を評価する。 我々のモデルは、最先端のVLMを少なくとも2倍の精度で再現し、56.1%のリコールを行い、目に見えない動き、タスク、環境を一般化する。 最後に,MotIFのロボット計画の精錬・終了における実践的応用と,タスクや動作記述の整合性に関する軌道のランク付けについて述べる。 プロジェクトページ: https://motif-1k.github.io

While success in many robotics tasks can be determined by only observing the final state and how it differs from the initial state - e.g., if an apple is picked up - many tasks require observing the full motion of the robot to correctly determine success. For example, brushing hair requires repeated strokes that correspond to the contours and type of hair. Prior works often use off-the-shelf vision-language models (VLMs) as success detectors; however, when success depends on the full trajectory, VLMs struggle to make correct judgments for two reasons. First, modern VLMs are trained only on single frames, and cannot capture changes over a full trajectory. Second, even if we provide state-of-the-art VLMs with an aggregate input of multiple frames, they still fail to detect success due to a lack of robot data. Our key idea is to fine-tune VLMs using abstract representations that are able to capture trajectory-level information such as the path the robot takes by overlaying keypoint trajectories on the final image. We propose motion instruction fine-tuning (MotIF), a method that fine-tunes VLMs using the aforementioned abstract representations to semantically ground the robot's behavior in the environment. To benchmark and fine-tune VLMs for robotic motion understanding, we introduce the MotIF-1K dataset containing 653 human and 369 robot demonstrations across 13 task categories. MotIF assesses the success of robot motion given the image observation of the trajectory, task instruction, and motion description. Our model significantly outperforms state-of-the-art VLMs by at least twice in precision and 56.1% in recall, generalizing across unseen motions, tasks, and environments. Finally, we demonstrate practical applications of MotIF in refining and terminating robot planning, and ranking trajectories on how they align with task and motion descriptions. Project page: https://motif-1k.github.io
翻訳日:2024-09-18 18:50:48 公開日:2024-09-16
# 自動車用E/Eアーキテクチャの集中化ポテンシャル

Centralization potential of automotive E/E architectures ( http://arxiv.org/abs/2409.10690v1 )

ライセンス: Link先を確認
Lucas Mauser, Stefan Wagner, (参考訳) 現在の自動車のE/Eアーキテクチャは、コンピューティング能力に富んだ高度な運転支援システム、帯域幅の長いインフォテインメントシステム、車両とインターネットとの接続、そしてサイバーセキュリティの必要性により、E/Eアーキテクチャの中央集権化が進められている。 集中型アーキテクチャは、これらの課題をマスターするための重要なイネーブラーと見なされることが多い。 利用可能な研究は、主に異なるタイプのE/Eアーキテクチャに焦点を当て、その利点と欠点を対比している。 システムデザイナとファンクションディベロッパが中央集権化のためのシステムの可能性を分析するためのガイドラインに関する研究ギャップがある。 本研究の目的は,文献をレビューする中央集権化の可能性の定量化と,業界関係者との質的なインタビューを行うことである。 文献では,バス負荷,機能安全,コンピュータパワー,機能依存,開発とメンテナンスのコスト,エラー率,モジュール性,柔軟性という,現在の自動車アーキテクチャの限界に達する7つの重要な自動車システム特性を特定した。 これらの特性は、集中化がシステム全体の性能を高めるかどうかを推定するための定量的評価基準となる。 インタビューでは、これらの制限を緩和する能力として、中央集権化とその資金、概念システムエンジニアリングを検証しました。 この研究は、実践的な洞察と教訓に焦点を当て、システム設計者にシステム最適化のための実用的なガイダンスを提供し、モノリシックアーキテクチャを避けながら、概略した課題に対処する。 本稿では, 理論的研究と実践的応用のギャップを埋め, 実践者に価値あるテイクアウトを提供する。

Current automotive E/E architectures are subject to significant transformations: Computing-power-intensive advanced driver-assistance systems, bandwidth-hungry infotainment systems, the connection of the vehicle with the internet and the consequential need for cyber-security drives the centralization of E/E architectures. A centralized architecture is often seen as a key enabler to master those challenges. Available research focuses mostly on the different types of E/E architectures and contrasts their advantages and disadvantages. There is a research gap on guidelines for system designers and function developers to analyze the potential of their systems for centralization. The present paper aims to quantify centralization potential reviewing relevant literature and conducting qualitative interviews with industry practitioners. In literature, we identified seven key automotive system properties reaching limitations in current automotive architectures: busload, functional safety, computing power, feature dependencies, development and maintenance costs, error rate, modularity and flexibility. These properties serve as quantitative evaluation criteria to estimate whether centralization would enhance overall system performance. In the interviews, we have validated centralization and its fundament - the conceptual systems engineering - as capabilities to mitigate these limitations. By focusing on practical insights and lessons learned, this research provides system designers with actionable guidance to optimize their systems, addressing the outlined challenges while avoiding monolithic architecture. This paper bridges the gap between theoretical research and practical application, offering valuable takeaways for practitioners.
翻訳日:2024-09-18 18:50:48 公開日:2024-09-16
# 抽象ハイパーグラフとしての再利用可能なマルチロボット計画戦略の符号化

Encoding Reusable Multi-Robot Planning Strategies as Abstract Hypergraphs ( http://arxiv.org/abs/2409.10692v1 )

ライセンス: Link先を確認
Khen Elimelech, James Motes, Marco Morales, Nancy M. Amato, Moshe Y. Vardi, Lydia E. Kavraki, (参考訳) マルチロボットタスクプランニング(Multi-Robot Task Planning、MR-TP)は、ロボットのチームがタスクを完了させるために行う離散アクションプランの探索である。 このような問題の複雑さは、ロボットの数やタスクの複雑さとともに指数関数的にスケールし、オンラインソリューションでは困難である。 MR-TPの寿命を早めるために、本研究は2つの最近の進歩を組み合わせることを目的としている。 (i) Decomposable State Space Hypergraph(DaSH)は、MR-TP問題を効率的にモデル化し解決する新しいハイパーグラフベースのフレームワークである。 (II) 個別の計画経験から一般化可能な計画戦略を自動的に抽出し、後で再利用する技術。 具体的には、ハイパーグラフベースのMR-TPを用いたマルチロボット計画の恩恵を受けるために、もともとシングルロボット計画用に設計されたこの戦略学習手法を拡張したい。

Multi-Robot Task Planning (MR-TP) is the search for a discrete-action plan a team of robots should take to complete a task. The complexity of such problems scales exponentially with the number of robots and task complexity, making them challenging for online solution. To accelerate MR-TP over a system's lifetime, this work looks at combining two recent advances: (i) Decomposable State Space Hypergraph (DaSH), a novel hypergraph-based framework to efficiently model and solve MR-TP problems; and \mbox{(ii) learning-by-abstraction,} a technique that enables automatic extraction of generalizable planning strategies from individual planning experiences for later reuse. Specifically, we wish to extend this strategy-learning technique, originally designed for single-robot planning, to benefit multi-robot planning using hypergraph-based MR-TP.
翻訳日:2024-09-18 18:50:48 公開日:2024-09-16
# 変圧器を用いた適応信号制御における部分観測可能性の緩和

Mitigating Partial Observability in Adaptive Traffic Signal Control with Transformers ( http://arxiv.org/abs/2409.10693v1 )

ライセンス: Link先を確認
Xiaoyu Wang, Ayal Taitler, Scott Sanner, Baher Abdulhai, (参考訳) 交通信号の効率的な制御は、都市交通の管理、混雑の最小化、安全と持続可能性の向上に不可欠である。 Reinforcement Learning(RL)は、適応的な交通信号制御(ATSC)システムを強化するための有望なアプローチとして登場し、コントローラは環境とのインタラクションを通じて最適なポリシーを学ぶことができる。 しかし、エージェントの視認性に限界があり、有効性を妨げている交通ネットワークにおける部分的可観測性(PO)が課題となっている。 本稿では,Transformer ベースのコントローラを ATSC システムに統合し,PO を効果的に処理する手法を提案する。 本研究では,実世界のシナリオにおける協調能力の向上を実証し,学習効率と有効性を向上する戦略を提案する。 その結果,トランスフォーマーをベースとしたモデルでは,過去の観測から重要な情報を捉えることができ,制御ポリシが向上し,トラフィックフローが改善された。 本研究は,トランスフォーマーの高度化による都市交通管理の強化の可能性を明らかにするものである。

Efficient traffic signal control is essential for managing urban transportation, minimizing congestion, and improving safety and sustainability. Reinforcement Learning (RL) has emerged as a promising approach to enhancing adaptive traffic signal control (ATSC) systems, allowing controllers to learn optimal policies through interaction with the environment. However, challenges arise due to partial observability (PO) in traffic networks, where agents have limited visibility, hindering effectiveness. This paper presents the integration of Transformer-based controllers into ATSC systems to address PO effectively. We propose strategies to enhance training efficiency and effectiveness, demonstrating improved coordination capabilities in real-world scenarios. The results showcase the Transformer-based model's ability to capture significant information from historical observations, leading to better control policies and improved traffic flow. This study highlights the potential of leveraging the advanced Transformer architecture to enhance urban transportation management.
翻訳日:2024-09-18 18:50:48 公開日:2024-09-16
# パワーセンシングのための電気光学ハイブリッドシステムによる標準量子限界の克服

Overcoming the Standard Quantum Limit with Electro-Optomechanical Hybrid System for Enhanced Force Sensing ( http://arxiv.org/abs/2409.10694v1 )

ライセンス: Link先を確認
Alolika Roy, Amarendra K. Sarma, (参考訳) ハイブリッド光学系におけるパワースペクトル密度 (PSD) を解析し, 力覚センサにおける測定付加雑音の低減について検討した。 機械振動子として機能する可動ミラー、定常半透明ミラー、超伝導キュービット、光学パラメトリック増幅器(OPA)を備えた光学キャビティを備える。 コヒーレント量子ノイズキャンセリング(CQNC)の概念を利用することで、バックアクションの完全キャンセルに必要な条件を導出し、力の感度を高める。 さらに、OPAポンプの上昇が徐々に増加するにつれて、レーザパワーの低い値で標準量子限界(SQL)を超える感度を抑えることができる。 バックアクションノイズの除去とショットノイズの低減により、力検出能力が向上し、弱い力検出に関連する標準的な量子限界を超える。

We investigate the reduction of measurement-added noise in force sensing by analyzing its power spectral density (PSD) within a hybrid optomechanical system. The setup comprises of an optomechanical cavity equipped with a movable mirror which acts as the mechanical oscillator, a stationary semi-transparent mirror, a superconducting qubit, and an optical parametric amplifier (OPA). By utilizing the concept of coherent quantum noise cancellation (CQNC), we derive the conditions necessary for complete cancellation of back-action force, thereby enhancing force sensitivity. Furthermore, with the gradual increase in the OPA pump gains, we suppress the sensitivity beyond the standard quantum limit (SQL) at a lower value of laser power. The removal of back-action noise, along with the reduction of shot noise, improves force detection capabilities, thereby surpassing the standard quantum limit associated with weak force detection.
翻訳日:2024-09-18 18:50:48 公開日:2024-09-16
# Playground v3: 大規模言語モデルによるテキストと画像のアライメントの改善

Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models ( http://arxiv.org/abs/2409.10695v1 )

ライセンス: Link先を確認
Bingchen Liu, Ehsan Akhgari, Alexander Visheratin, Aleks Kamko, Linmiao Xu, Shivam Shrirao, Joao Souza, Suhail Doshi, Daiqing Li, (参考訳) Playground v3(PGv3)は、複数のテストベンチマークにまたがって最先端(SoTA)のパフォーマンスを実現し、グラフィック設計能力に優れ、新しい機能を導入しています。 T5やCLIPテキストエンコーダのような事前訓練された言語モデルに依存する従来のテキスト・ツー・イメージ生成モデルとは異なり、我々のアプローチは大規模言語モデル(LLM)をデコーダのみのLLMからのみテキスト条件を活用する新しい構造と完全に統合する。 さらに、画像キャプションの質を高めるために、様々なレベルの詳細でキャプションを生成し、テキスト構造の多様性を豊かにする社内キャプションキャプタを開発した。 また、画像キャプションの詳細な性能を評価するために、新しいベンチマークCapsBenchを導入する。 実験の結果,PGv3はテキストのアペンデンス,複雑な推論,正確なテキストレンダリングに優れていた。 ユーザの嗜好調査は、ステッカー、ポスター、ロゴデザインなど、一般的なデザイン応用のための、我々のモデルの超人的なグラフィックデザイン能力を示している。 さらにPGv3では、正確なRGB色制御や堅牢な多言語理解など、新しい機能が導入されている。

We introduce Playground v3 (PGv3), our latest text-to-image model that achieves state-of-the-art (SoTA) performance across multiple testing benchmarks, excels in graphic design abilities and introduces new capabilities. Unlike traditional text-to-image generative models that rely on pre-trained language models like T5 or CLIP text encoders, our approach fully integrates Large Language Models (LLMs) with a novel structure that leverages text conditions exclusively from a decoder-only LLM. Additionally, to enhance image captioning quality-we developed an in-house captioner, capable of generating captions with varying levels of detail, enriching the diversity of text structures. We also introduce a new benchmark CapsBench to evaluate detailed image captioning performance. Experimental results demonstrate that PGv3 excels in text prompt adherence, complex reasoning, and accurate text rendering. User preference studies indicate the super-human graphic design ability of our model for common design applications, such as stickers, posters, and logo designs. Furthermore, PGv3 introduces new capabilities, including precise RGB color control and robust multilingual understanding.
翻訳日:2024-09-18 18:50:48 公開日:2024-09-16
# 生産モデルによるイギリス風雨の実人口生成

Using Generative Models to Produce Realistic Populations of the United Kingdom Windstorms ( http://arxiv.org/abs/2409.10696v1 )

ライセンス: Link先を確認
Etron Yee Chun Tsoi, (参考訳) 暴風はイギリスに大きな影響を及ぼし、資産に大きな損害を与え、社会を混乱させ、潜在的に生命の喪失をもたらした。 このような事象の正確なモデリングと理解は、効果的なリスク評価と緩和に不可欠である。 しかし、極端な吹雪の希少さは観測データに限界をもたらし、包括的な分析と保険モデリングに重大な課題をもたらす。 この論文は、保険業界で使用されている現行のCATモデルの堅牢性を高めることを目的とした、現実的な合成風場データ作成のための生成モデルの適用を探求するものである。 この研究は、1940年から2022年までの期間をカバーするERA5データセットから、時間毎の分析データを活用する。 標準的なGAN、WGAN-GP、U-net拡散モデルを含む3つのモデルを使用して、イギリスの高品質な風図を作成した。 これらのモデルは、SSIM、KL発散、EMDを含む複数のメトリクスを用いて評価され、PCAを用いて次元空間を縮小する。 その結果、全てのモデルが一般的な空間特性を捉えるのに有効であるが、それぞれのモデルは異なる強みと弱みを示すことが明らかとなった。 標準のGANは、他のモデルよりも多くのノイズを導入した。 WGAN-GPモデルは、特に統計分布の複製において優れた性能を示した。 U-net拡散モデルは最も視覚的にコヒーレントな出力を生み出したが、ピーク強度と統計的変動の再現に少し苦労した。 この研究は、限られた再分析データセットを合成データで補完する生成モデルの可能性を強調し、リスクアセスメントやカタストロフィ・モデリングに有用なツールを提供する。 しかし、生成した出力の異なる側面を評価するための適切な評価指標を選択することが重要である。 今後の研究はこれらのモデルを洗練し、さらに組み込むかもしれない。

Windstorms significantly impact the UK, causing extensive damage to property, disrupting society, and potentially resulting in loss of life. Accurate modelling and understanding of such events are essential for effective risk assessment and mitigation. However, the rarity of extreme windstorms results in limited observational data, which poses significant challenges for comprehensive analysis and insurance modelling. This dissertation explores the application of generative models to produce realistic synthetic wind field data, aiming to enhance the robustness of current CAT models used in the insurance industry. The study utilises hourly reanalysis data from the ERA5 dataset, which covers the period from 1940 to 2022. Three models, including standard GANs, WGAN-GP, and U-net diffusion models, were employed to generate high-quality wind maps of the UK. These models are then evaluated using multiple metrics, including SSIM, KL divergence, and EMD, with some assessments performed in a reduced dimensionality space using PCA. The results reveal that while all models are effective in capturing the general spatial characteristics, each model exhibits distinct strengths and weaknesses. The standard GAN introduced more noise compared to the other models. The WGAN-GP model demonstrated superior performance, particularly in replicating statistical distributions. The U-net diffusion model produced the most visually coherent outputs but struggled slightly in replicating peak intensities and their statistical variability. This research underscores the potential of generative models in supplementing limited reanalysis datasets with synthetic data, providing valuable tools for risk assessment and catastrophe modelling. However, it is important to select appropriate evaluation metrics that assess different aspects of the generated outputs. Future work could refine these models and incorporate more ...
翻訳日:2024-09-18 18:50:48 公開日:2024-09-16
# 情報戦士としてのLLM : LLMを利用したチャットボットがウクライナにおけるロシアの戦争に関する偽情報にどのように取り組むか

LLMs as information warriors? Auditing how LLM-powered chatbots tackle disinformation about Russia's war in Ukraine ( http://arxiv.org/abs/2409.10697v1 )

ライセンス: Link先を確認
Mykola Makhortykh, Ani Baghumyan, Victoria Vziatysheva, Maryna Sydorova, Elizaveta Kuznetsova, (参考訳) 大規模言語モデル(LLM)の台頭は情報戦争に大きな影響を及ぼす。 偽情報やプロパガンダキャンペーンに関連するコンテンツの制作を容易にすることで、LLMはさまざまな種類の情報操作を増幅し、オンラインユーザを誤解させることができる。 本研究では,Google,Microsoft,Perplexityによって開発されたLLMを利用したチャットボットが,ウクライナにおけるロシアの戦争や,そのトピックに関する正確な情報を提供するチャットボットの能力が言語や時間によって異なるかどうかを実証的に検討した。 その結果,いくつかのチャットボット (Perplexity) では,いくつかの言語では時間とともにパフォーマンスが大幅に向上している(Gemini) が,その性能は英語でのみ改善されているが,低リソース言語では低下していることがわかった。

The rise of large language models (LLMs) has a significant impact on information warfare. By facilitating the production of content related to disinformation and propaganda campaigns, LLMs can amplify different types of information operations and mislead online users. In our study, we empirically investigate how LLM-powered chatbots, developed by Google, Microsoft, and Perplexity, handle disinformation about Russia's war in Ukraine and whether the chatbots' ability to provide accurate information on the topic varies across languages and over time. Our findings indicate that while for some chatbots (Perplexity), there is a significant improvement in performance over time in several languages, for others (Gemini), the performance improves only in English but deteriorates in low-resource languages.
翻訳日:2024-09-18 18:40:30 公開日:2024-09-16
# CoMamba: リアルタイムの協調認識がステートスペースモデルにロックされていない

CoMamba: Real-time Cooperative Perception Unlocked with State Space Models ( http://arxiv.org/abs/2409.10699v1 )

ライセンス: Link先を確認
Jinlong Li, Xinyu Liu, Baolu Li, Runsheng Xu, Jiachen Li, Hongkai Yu, Zhengzhong Tu, (参考訳) 協調認識システムは、車両自律の安全性と効率を高める上で重要な役割を担っている。 近年の研究では、自動運転車におけるV2X( vehicle-to-everything)通信技術の有効性が強調されているが、重要な課題は、車やインフラなどの接続エージェントのネットワークをまたいで、複数の高帯域機能を効率的に統合する方法である。 本稿では,リアルタイム車載認識に状態空間モデルを活用することを目的とした,新しい協調型3D検出フレームワークであるCoMambaを紹介する。 従来の最先端トランスフォーマーベースモデルと比較して、CoMambaは2方向状態空間モデルを用いたよりスケーラブルな3Dモデルであり、注意機構の2次複雑さの痛み点を回避している。 V2X/V2Vデータセットの広範な実験を通じて、CoMambaは、リアルタイム処理能力を維持しながら、既存の方法よりも優れたパフォーマンスを実現している。 提案手法は,物体検出精度を向上するだけでなく,処理時間を大幅に短縮すると共に,知的輸送ネットワークにおける次世代協調認識システムに有望なソリューションとなる。

Cooperative perception systems play a vital role in enhancing the safety and efficiency of vehicular autonomy. Although recent studies have highlighted the efficacy of vehicle-to-everything (V2X) communication techniques in autonomous driving, a significant challenge persists: how to efficiently integrate multiple high-bandwidth features across an expanding network of connected agents such as vehicles and infrastructure. In this paper, we introduce CoMamba, a novel cooperative 3D detection framework designed to leverage state-space models for real-time onboard vehicle perception. Compared to prior state-of-the-art transformer-based models, CoMamba enjoys being a more scalable 3D model using bidirectional state space models, bypassing the quadratic complexity pain-point of attention mechanisms. Through extensive experimentation on V2X/V2V datasets, CoMamba achieves superior performance compared to existing methods while maintaining real-time processing capabilities. The proposed framework not only enhances object detection accuracy but also significantly reduces processing time, making it a promising solution for next-generation cooperative perception systems in intelligent transportation networks.
翻訳日:2024-09-18 18:40:30 公開日:2024-09-16
# Model-in-the-Loop (MILO): LLMによるマルチモーダルAIデータアノテーションの高速化

Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs ( http://arxiv.org/abs/2409.10702v1 )

ライセンス: Link先を確認
Yifan Wang, David Stevens, Pranay Shah, Wenwen Jiang, Miao Liu, Xu Chen, Robert Kuo, Na Li, Boying Gong, Daniel Lee, Jiabo Hu, Ning Zhang, Bob Kamma, (参考訳) AIトレーニングデータに対する需要の高まりは、データアノテーションをグローバルな産業に変える一方で、人間のアノテータに依存する従来のアプローチは、しばしば時間がかかり、労働集約的であり、一貫性のない品質の傾向にある。 本稿では,AI/MLモデルをアノテーションプロセスに統合するMILOフレームワークを提案する。 本研究では,プロのアノテータと大規模言語モデル(LLM)の長所を活かした協調パラダイムを提案する。 LLMを事前アノテーションおよびリアルタイムアシスタントとして使用し、アノテータ応答を判断することにより、MILOは人間のアノテータとLLM間の効果的な相互作用パターンを可能にする。 マルチモーダルデータアノテーションに関する実験的な3つの研究は、MILOが処理時間を短縮し、データ品質を改善し、アノテータエクスペリエンスを向上させることの有効性を示している。 また、フレキシブルな評価や、オープンなアノテーションに対するきめ細かいフィードバックのためのクオリティ・ルーリックも導入する。 MILOフレームワークは、AI/ML開発を加速し、人間のアノテーションのみへの依存を減らし、人間と機械の値の整合性を向上する。

The growing demand for AI training data has transformed data annotation into a global industry, but traditional approaches relying on human annotators are often time-consuming, labor-intensive, and prone to inconsistent quality. We propose the Model-in-the-Loop (MILO) framework, which integrates AI/ML models into the annotation process. Our research introduces a collaborative paradigm that leverages the strengths of both professional human annotators and large language models (LLMs). By employing LLMs as pre-annotation and real-time assistants, and judges on annotator responses, MILO enables effective interaction patterns between human annotators and LLMs. Three empirical studies on multimodal data annotation demonstrate MILO's efficacy in reducing handling time, improving data quality, and enhancing annotator experiences. We also introduce quality rubrics for flexible evaluation and fine-grained feedback on open-ended annotations. The MILO framework has implications for accelerating AI/ML development, reducing reliance on human annotation alone, and promoting better alignment between human and machine values.
翻訳日:2024-09-18 18:40:30 公開日:2024-09-16
# 単語レベル発声音声検出のための自己教師型音声モデル

Self-supervised Speech Models for Word-Level Stuttered Speech Detection ( http://arxiv.org/abs/2409.10704v1 )

ライセンス: Link先を確認
Yi-Jen Shih, Zoi Gkalitsiou, Alexandros G. Dimakis, David Harwath, (参考訳) 発声の臨床的診断には、認可された言語病理医による評価が必要である。 しかし、このプロセスは時間がかかり、発疹や流感障害の訓練と経験を持つ臨床医が必要である。 残念なことに、言語病理学者の報告はごくわずかしかなく、世界中に散らばっている8000万人の人には不適当だ。 発声を検知する機械学習モデルを開発することで、発声の普遍的かつ自動化されたスクリーニングが可能になり、発声障害と診断される可能性が最も高い患者を言語病理医が識別し、追跡することができる。 この領域における従来の研究は主に発話レベルの検出に焦点が当てられていたが、これは、単語レベルのスタブリングアノテーションが標準である臨床環境では不十分である。 本研究では,単語レベルのアノテーションを用いた発声音声データセットをキュレートし,自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。 本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。 さらに,本手法の広範囲なアブレーション解析を行い,発声検出に自己教師付き音声モデルを適用する上で最も重要な側面について考察した。

Clinical diagnosis of stuttering requires an assessment by a licensed speech-language pathologist. However, this process is time-consuming and requires clinicians with training and experience in stuttering and fluency disorders. Unfortunately, only a small percentage of speech-language pathologists report being comfortable working with individuals who stutter, which is inadequate to accommodate for the 80 million individuals who stutter worldwide. Developing machine learning models for detecting stuttered speech would enable universal and automated screening for stuttering, enabling speech pathologists to identify and follow up with patients who are most likely to be diagnosed with a stuttering speech disorder. Previous research in this area has predominantly focused on utterance-level detection, which is not sufficient for clinical settings where word-level annotation of stuttering is the norm. In this study, we curated a stuttered speech dataset with word-level annotations and introduced a word-level stuttering speech detection model leveraging self-supervised speech models. Our evaluation demonstrates that our model surpasses previous approaches in word-level stuttering speech detection. Additionally, we conducted an extensive ablation analysis of our method, providing insight into the most important aspects of adapting self-supervised speech models for stuttered speech detection.
翻訳日:2024-09-18 18:40:30 公開日:2024-09-16
# 変圧器モデルにおける作業記憶能力の自己注意限界

Self-Attention Limits Working Memory Capacity of Transformer-Based Models ( http://arxiv.org/abs/2409.10715v1 )

ライセンス: Link先を確認
Dongyu Gong, Hantao Zhang, (参考訳) トランスフォーマーをベースとした大規模言語モデル(LLM)に関する最近の研究は、人間の行動研究で見られるような、作業記憶能力の著しい限界を明らかにしている。 具体的には、これらのモデルの性能は N が増加するにつれて N-back タスクに著しく低下する。 しかし、なぜこの現象が起こるのかというメカニスティックな解釈能力の欠如がまだ残っている。 行動科学からエグゼクティブアテンション理論に触発された我々は、トランスフォーマーベースのモデルにおける自己認識メカニズムが、そのワーキングメモリ容量の限界に寄与するかもしれないと仮説を立てた。 この仮説を検証するために,バニラ復号器のみの変圧器を訓練してN-backタスクを実行し,学習中のN-back位置に徐々に注目スコアが集約されることを確認し,モデルが現在の位置とN-back位置の関係に注意を払う戦略を学習することによってタスクをマスターすることを提案する。 臨界的には,Nが増加するにつれて注目スコア行列の総エントロピーが増加し,N-backタスクで観測されるキャパシティ限界の原因が注目スコアの分散である可能性が示唆された。

Recent work on Transformer-based large language models (LLMs) has revealed striking limits in their working memory capacity, similar to what has been found in human behavioral studies. Specifically, these models' performance drops significantly on N-back tasks as N increases. However, there is still a lack of mechanistic interpretability as to why this phenomenon would arise. Inspired by the executive attention theory from behavioral sciences, we hypothesize that the self-attention mechanism within Transformer-based models might be responsible for their working memory capacity limits. To test this hypothesis, we train vanilla decoder-only transformers to perform N-back tasks and find that attention scores gradually aggregate to the N-back positions over training, suggesting that the model masters the task by learning a strategy to pay attention to the relationship between the current position and the N-back position. Critically, we find that the total entropy of the attention score matrix increases as N increases, suggesting that the dispersion of attention scores might be the cause of the capacity limit observed in N-back tasks.
翻訳日:2024-09-18 18:40:30 公開日:2024-09-16
# メモリによるオンライン学習:検索拡張ディテクタ適応

Online Learning via Memory: Retrieval-Augmented Detector Adaptation ( http://arxiv.org/abs/2409.10716v1 )

ライセンス: Link先を確認
Yanan Jian, Fuxun Yu, Qi Zhang, William Levine, Brandon Dubbs, Nikolaos Karianakis, (参考訳) 本稿では,任意の既製の物体検出モデルを,検出モデルを再学習することなく,新しい領域にオンライン適応する方法を提案する。 人間が新しい主題(例えば記憶)の知識を素早く習得する方法(例えば記憶)にインスパイアされた私たちは、テスト期間中に、同様の物体の概念を記憶から調べることを可能にする。 これは、新しいドメイン知識で柔軟に更新できるメモリバンクと共に、検索拡張分類(RAC)モジュールによって達成される。 我々は、市販のオープンセット検出器とクローズセット検出器を実験した。 最小限のメモリバンク(例:カテゴリ毎に10の画像)とトレーニング不要で、私たちのオンライン学習方法は、検出器を新しいドメインに適応させることで、ベースラインを大幅に上回る可能性がある。

This paper presents a novel way of online adapting any off-the-shelf object detection model to a novel domain without retraining the detector model. Inspired by how humans quickly learn knowledge of a new subject (e.g., memorization), we allow the detector to look up similar object concepts from memory during test time. This is achieved through a retrieval augmented classification (RAC) module together with a memory bank that can be flexibly updated with new domain knowledge. We experimented with various off-the-shelf open-set detector and close-set detectors. With only a tiny memory bank (e.g., 10 images per category) and being training-free, our online learning method could significantly outperform baselines in adapting a detector to novel domains.
翻訳日:2024-09-18 18:40:30 公開日:2024-09-16
# 説得的非定型画像に関するVLMのベンチマーク

Benchmarking VLMs' Reasoning About Persuasive Atypical Images ( http://arxiv.org/abs/2409.10719v1 )

ライセンス: Link先を確認
Sina Malakouti, Aysan Aghazadeh, Ashmit Khandelwal, Adriana Kovashka, (参考訳) 視覚言語モデル(VLM)は様々なタスク、特に大規模言語モデル(LLM)との統合において、強力なゼロショット一般化を示している。 しかし、広告などの修辞的・説得的な視覚メディアを理解する能力は、いまだ検討されていない。 広告は、しばしば非典型的なイメージを使用し、驚くべきオブジェクトの並置を使って共有プロパティを伝達する。 例えば、図1(e)は羽のような質感を持つビールを示している。 これは、この非定型表現がビールの軽さを表すと推測する高度な推論を必要とする。 本稿では, マルチラベル非定型分類, 非定型文検索, Aypical Object Recognitionの3つの新しいタスクを紹介し, 説得的画像における非定型性理解のベンチマークを行う。 我々は、VLMが非定型性を用いて広告のメッセージを推測し、意味論的に難解なネガティブを用いて推論能力をテストすることを評価する。 最後に,非定型的要素に敏感な包括的画像記述を抽出し,非定型性を考慮した言語化の先駆者となった。 その結果, 1) VLM は LLM と比較して高度な推論能力が欠如していること, (2) 単純で効果的な戦略は非定型的認識情報を抽出し, 包括的画像の言語化につながること,(3) 非定型性は説得力のある広告理解を支援すること,などが判明した。 コードとデータは利用可能になる。

Vision language models (VLMs) have shown strong zero-shot generalization across various tasks, especially when integrated with large language models (LLMs). However, their ability to comprehend rhetorical and persuasive visual media, such as advertisements, remains understudied. Ads often employ atypical imagery, using surprising object juxtapositions to convey shared properties. For example, Fig. 1 (e) shows a beer with a feather-like texture. This requires advanced reasoning to deduce that this atypical representation signifies the beer's lightness. We introduce three novel tasks, Multi-label Atypicality Classification, Atypicality Statement Retrieval, and Aypical Object Recognition, to benchmark VLMs' understanding of atypicality in persuasive images. We evaluate how well VLMs use atypicality to infer an ad's message and test their reasoning abilities by employing semantically challenging negatives. Finally, we pioneer atypicality-aware verbalization by extracting comprehensive image descriptions sensitive to atypical elements. Our findings reveal that: (1) VLMs lack advanced reasoning capabilities compared to LLMs; (2) simple, effective strategies can extract atypicality-aware information, leading to comprehensive image verbalization; (3) atypicality aids persuasive advertisement understanding. Code and data will be made available.
翻訳日:2024-09-18 18:40:30 公開日:2024-09-16
# 分散化深層学習における分布シフトによる類似度指標の効果について

On the effects of similarity metrics in decentralized deep learning under distributional shift ( http://arxiv.org/abs/2409.10720v1 )

ライセンス: Link先を確認
Edvin Listo Zec, Tom Hagander, Eric Ihre-Thomason, Sarunas Girdzijauskas, (参考訳) 分散学習(DL)は、組織やユーザ間のプライバシ保護コラボレーションによって、ローカルなディープラーニングモデルのパフォーマンス向上を可能にする。 しかし、クライアントデータが異種である場合、モデル集約は困難になり、直接データ交換なしで互換性のあるコラボレータを識別することは、依然として迫る問題である。 本稿では,モデルマージのためのピアを特定するためのDLにおける様々な類似度指標の有効性について検討し,分散シフトを伴う複数のデータセットにまたがる経験的分析を行う。 私たちの研究は、これらのメトリクスのパフォーマンスに関する洞察を提供し、効果的なコラボレーションを促進する上での彼らの役割を調べます。 これらの指標の長所と短所を探索することにより、堅牢なDL手法の開発に寄与する。

Decentralized Learning (DL) enables privacy-preserving collaboration among organizations or users to enhance the performance of local deep learning models. However, model aggregation becomes challenging when client data is heterogeneous, and identifying compatible collaborators without direct data exchange remains a pressing issue. In this paper, we investigate the effectiveness of various similarity metrics in DL for identifying peers for model merging, conducting an empirical analysis across multiple datasets with distribution shifts. Our research provides insights into the performance of these metrics, examining their role in facilitating effective collaboration. By exploring the strengths and limitations of these metrics, we contribute to the development of robust DL methods.
翻訳日:2024-09-18 18:40:30 公開日:2024-09-16
# キャラクタスプライト生成のためのミスデータインプットGAN

A Missing Data Imputation GAN for Character Sprite Generation ( http://arxiv.org/abs/2409.10721v1 )

ライセンス: Link先を確認
Flávio Coutinho, Luiz Chaimowicz, (参考訳) 異なるアニメーションとポーズにまたがる多くのフレームを持つピクセルアートキャラクターのスプライトの作成と更新には時間がかかるため、すぐに繰り返しになる可能性がある。 しかし、これは部分的に自動化され、アーティストはよりクリエイティブなタスクに集中できる。 本研究は,他の3方向を向いている画像からターゲットポーズの画素アートキャラクタのスプライトを作成することに集中する。 本稿では,課題を欠落したデータ計算タスクとしてフレーミングすることで,文字生成に新たなアプローチを提案する。 提案する生成逆ネットワークモデルは,すべての利用可能な領域の文字の画像を受信し,欠落したポーズの画像を生成する。 我々は,1,2,3つの欠落画像を用いたシナリオでのアプローチを評価し,より多くの画像が利用可能になった場合の最先端画像と類似あるいは良好な結果を得た。 また,提案した変更がベースアーキテクチャに与える影響についても検討した。

Creating and updating pixel art character sprites with many frames spanning different animations and poses takes time and can quickly become repetitive. However, that can be partially automated to allow artists to focus on more creative tasks. In this work, we concentrate on creating pixel art character sprites in a target pose from images of them facing other three directions. We present a novel approach to character generation by framing the problem as a missing data imputation task. Our proposed generative adversarial networks model receives the images of a character in all available domains and produces the image of the missing pose. We evaluated our approach in the scenarios with one, two, and three missing images, achieving similar or better results to the state-of-the-art when more images are available. We also evaluate the impact of the proposed changes to the base architecture.
翻訳日:2024-09-18 18:40:30 公開日:2024-09-16
# 結合型光偏光の深さ

Depth from Coupled Optical Differentiation ( http://arxiv.org/abs/2409.10725v1 )

ライセンス: Link先を確認
Junjie Luo, Yuxuan Liu, Emma Alexander, Qi Guo, (参考訳) 我々は,低計算受光3次元センシング機構である光の複合化による深度推定を提案する。 画素単位の物体距離は、単純な閉形式関係を用いて、デフォーカス画像の1対の光学微分によって厳密に決定できるという発見に基づいている。 画像の空間的デリバティブを利用してシーン深度を推定する従来のDfD法とは異なり、提案手法では光学的デリバティブのみを用いることで、ノイズに対して著しく堅牢である。 さらに、アパーチャ符号が要求される多くの従来のDfDアルゴリズムとは異なり、この関係は幅広いアパーチャ符号に対して普遍的であることが証明されている。 我々は、結合した光の微分から深度に基づいて、最初の3次元センサを構築する。 光学組立体は変形可能なレンズと電動アイリスを備えており、光学パワーと開口半径を動的に調整することができる。 センサは、光学パワーの差分変化の2対と、開口スケールの差分変化の2対の画像をキャプチャする。 4つの画像から,出力画素あたり36個の浮動小数点演算で深度と信頼度マップを生成できる。 さらに,提案したセンサにより生成された深度マップは,従来のDfD法の作業範囲を2倍以上に拡大し,計算量を大幅に削減した。

We propose depth from coupled optical differentiation, a low-computation passive-lighting 3D sensing mechanism. It is based on our discovery that per-pixel object distance can be rigorously determined by a coupled pair of optical derivatives of a defocused image using a simple, closed-form relationship. Unlike previous depth-from-defocus (DfD) methods that leverage spatial derivatives of the image to estimate scene depths, the proposed mechanism's use of only optical derivatives makes it significantly more robust to noise. Furthermore, unlike many previous DfD algorithms with requirements on aperture code, this relationship is proved to be universal to a broad range of aperture codes. We build the first 3D sensor based on depth from coupled optical differentiation. Its optical assembly includes a deformable lens and a motorized iris, which enables dynamic adjustments to the optical power and aperture radius. The sensor captures two pairs of images: one pair with a differential change of optical power and the other with a differential change of aperture scale. From the four images, a depth and confidence map can be generated with only 36 floating point operations per output pixel (FLOPOP), more than ten times lower than the previous lowest passive-lighting depth sensing solution to our knowledge. Additionally, the depth map generated by the proposed sensor demonstrates more than twice the working range of previous DfD methods while using significantly lower computation.
翻訳日:2024-09-18 18:40:30 公開日:2024-09-16
# 委員会選択における決定論的境界:分散台帳における分散化とスケーラビリティの促進

Deterministic Bounds in Committee Selection: Enhancing Decentralization and Scalability in Distributed Ledgers ( http://arxiv.org/abs/2409.10727v1 )

ライセンス: Link先を確認
Grigorii Melnikov, Sebastian Müller, Nikita Polyanskii, Yury Yanovich, (参考訳) コンセンサスは分散台帳システムにおいて重要な役割を担い、スケーラビリティと分散化の両方に影響を与える。 多くのブロックチェーンシステムは、ステークホルダやストレージ、メモリ、コンピューティングパワーといった不足リソースに基づいて重み付けされた宝くじを使用して、メンバがコンセンサスを推進し、台帳に新たな情報を追加する責任を持つ委員会を選択する。 したがって、安全、効率、分散化を維持するためには、堅牢で公正な委員会選択プロセスを確保することが不可欠である。 ランダム化委員会選択には2つの主要なアプローチがある。 あるアプローチでは、各バリデータ候補が委員会に選出されるかどうかを局所的に確認し、コンセンサスフェーズ中にその証明を明らかにする。 対照的に、第2のアプローチでは、ソートアルゴリズムが世界規模で検証された固定サイズの委員会を決定する。 本稿では,一定の委員会サイズを保証する公正な委員会選定方法として,暗号的選別を用いた後者のアプローチに焦点をあてる。 我々の目標は、分散化を強化する決定論的保証を開発することです。 数値実験で実証されたように,委員会内の敵の影響を決定論的に限定する新たな手法を導入する。 このアプローチは確率的保証のみを提供する既存のプロトコルの制限を克服し、しばしば原子ブロードキャストやランダムネスビーコンプロトコルのような多くのクォーラムベースのアプリケーションでは実行不可能な大きな委員会を提供する。

Consensus plays a crucial role in distributed ledger systems, impacting both scalability and decentralization. Many blockchain systems use a weighted lottery based on a scarce resource such as a stake, storage, memory, or computing power to select a committee whose members drive the consensus and are responsible for adding new information to the ledger. Therefore, ensuring a robust and fair committee selection process is essential for maintaining security, efficiency, and decentralization. There are two main approaches to randomized committee selection. In one approach, each validator candidate locally checks whether they are elected to the committee and reveals their proof during the consensus phase. In contrast, in the second approach, a sortition algorithm decides a fixed-sized committee that is globally verified. This paper focuses on the latter approach, with cryptographic sortition as a method for fair committee selection that guarantees a constant committee size. Our goal is to develop deterministic guarantees that strengthen decentralization. We introduce novel methods that provide deterministic bounds on the influence of adversaries within the committee, as evidenced by numerical experiments. This approach overcomes the limitations of existing protocols that only offer probabilistic guarantees, often providing large committees that are impractical for many quorum-based applications like atomic broadcast and randomness beacon protocols.
翻訳日:2024-09-18 18:40:30 公開日:2024-09-16
# オンライン言語処理における予測と応答性の一般的な対策

Generalized Measures of Anticipation and Responsivity in Online Language Processing ( http://arxiv.org/abs/2409.10728v1 )

ライセンス: Link先を確認
Mario Giulianelli, Andreas Opedal, Ryan Cotterell, (参考訳) 本稿では,オンライン言語処理における予測不確実性に関する古典的情報理論の一般化について,漸進的言語文脈の予測継続のシミュレーションに基づいて紹介する。 本フレームワークは,予測および応答性尺度の形式的定義を提供するとともに,実験者に対して,標準の次シンボルエントロピーや仮定を超えた,新しい,より表現力のある尺度を定義するためのツールを提供する。 言語モデルからこれらの標準量を抽出することは有用であるが,モンテカルロシミュレーションを用いて代替応答性および予測的対策を推定することは実証的に有益である。

We introduce a generalization of classic information-theoretic measures of predictive uncertainty in online language processing, based on the simulation of expected continuations of incremental linguistic contexts. Our framework provides a formal definition of anticipatory and responsive measures, and it equips experimenters with the tools to define new, more expressive measures beyond standard next-symbol entropy and surprisal. While extracting these standard quantities from language models is convenient, we demonstrate that using Monte Carlo simulation to estimate alternative responsive and anticipatory measures pays off empirically: New special cases of our generalized formula exhibit enhanced predictive power compared to surprisal for human cloze completion probability as well as ELAN, LAN, and N400 amplitudes, and greater complementarity with surprisal in predicting reading times.
翻訳日:2024-09-18 18:40:30 公開日:2024-09-16
# ロボット決定過程におけるニューラルネットワークの概念記述

Trustworthy Conceptual Explanations for Neural Networks in Robot Decision-Making ( http://arxiv.org/abs/2409.10733v1 )

ライセンス: Link先を確認
Som Sagar, Aditya Taparia, Harsh Mankodiya, Pranav Bidare, Yifan Zhou, Ransalu Senanayake, (参考訳) ブラックボックスニューラルネットワークは、現代のロボットにとって欠かせない部分である。 それでも、そのような高度なシステムを現実のシナリオにデプロイすることは、エンジニアや立法機関といったステークホルダーが、ニューラルネットワークの意思決定プロセスに関する洞察を欠いている場合に、重大な課題を生じさせる。 現在、説明可能なAIは主に自然言語処理とコンピュータビジョンに特化しており、ロボットに適用された場合、意思決定タスクの基盤と、説明の信頼性を評価する能力の2つの重要な側面で不足している。 本稿では,ニューラルネットワークによる決定に起因した,人間解釈可能な高レベルな概念に基づく,信頼性の高い説明可能なロボット工学手法を提案する。 提案手法は、ニューラルネットワークのアクティベーションと人間の解釈可能なビジュアライゼーションをマッチングすることにより、関連する不確実性スコアを説明できる。 提案手法の有効性を実証し,提案手法をポストホックで人間フレンドリなロボット学習診断ツールとして,様々なシミュレーションおよび実世界のロボット意思決定モデルを用いて実験を行った。

Black box neural networks are an indispensable part of modern robots. Nevertheless, deploying such high-stakes systems in real-world scenarios poses significant challenges when the stakeholders, such as engineers and legislative bodies, lack insights into the neural networks' decision-making process. Presently, explainable AI is primarily tailored to natural language processing and computer vision, falling short in two critical aspects when applied in robots: grounding in decision-making tasks and the ability to assess trustworthiness of their explanations. In this paper, we introduce a trustworthy explainable robotics technique based on human-interpretable, high-level concepts that attribute to the decisions made by the neural network. Our proposed technique provides explanations with associated uncertainty scores by matching neural network's activations with human-interpretable visualizations. To validate our approach, we conducted a series of experiments with various simulated and real-world robot decision-making models, demonstrating the effectiveness of the proposed approach as a post-hoc, human-friendly robot learning diagnostic tool.
翻訳日:2024-09-18 18:40:30 公開日:2024-09-16
# AutoSafeCoder:静的解析とファズテストを通じてLLMコード生成をセキュアにするためのマルチエージェントフレームワーク

AutoSafeCoder: A Multi-Agent Framework for Securing LLM Code Generation through Static Analysis and Fuzz Testing ( http://arxiv.org/abs/2409.10737v1 )

ライセンス: Link先を確認
Ana Nunez, Nafis Tanveer Islam, Sumit Kumar Jha, Peyman Najafirad, (参考訳) 大規模言語モデル(LLM)を用いた自動コード生成の最近の進歩は、完全に自動化されたセキュアなソフトウェア開発に近づきつつある。 しかしながら、既存のアプローチは、セキュアで脆弱性のないコードを生成するのに苦労するコード生成に、単一のエージェントに依存することが多い。 LLMを使った従来のプログラム合成は主に機能的正当性に重点を置いており、多くの場合、実行中に発生する重要な動的セキュリティ上の影響を無視している。 これらの課題に対処するために,コード生成,脆弱性解析,セキュリティ強化にLLM駆動エージェントを活用するマルチエージェントフレームワークであるAutoSafeCoderを提案する。 フレームワークは、コード生成を担当するコーディングエージェント、脆弱性を特定する静的アナライザエージェント、および実行時エラーを検出するために突然変異ベースのファジングアプローチを使用して動的テストを実行するファジングエージェントの3つのエージェントで構成されている。 我々のコントリビューションは、LLMによるコード生成中に動的および静的なテストを統合することで、セキュリティを改善することで、マルチエージェントコード生成の安全性を確保することに焦点を当てている。 SecurityEvalデータセットを使用した実験では、ベースラインのLLMに比べて13%のコード脆弱性が減少し、機能面での妥協はない。

Recent advancements in automatic code generation using large language models (LLMs) have brought us closer to fully automated secure software development. However, existing approaches often rely on a single agent for code generation, which struggles to produce secure, vulnerability-free code. Traditional program synthesis with LLMs has primarily focused on functional correctness, often neglecting critical dynamic security implications that happen during runtime. To address these challenges, we propose AutoSafeCoder, a multi-agent framework that leverages LLM-driven agents for code generation, vulnerability analysis, and security enhancement through continuous collaboration. The framework consists of three agents: a Coding Agent responsible for code generation, a Static Analyzer Agent identifying vulnerabilities, and a Fuzzing Agent performing dynamic testing using a mutation-based fuzzing approach to detect runtime errors. Our contribution focuses on ensuring the safety of multi-agent code generation by integrating dynamic and static testing in an iterative process during code generation by LLM that improves security. Experiments using the SecurityEval dataset demonstrate a 13% reduction in code vulnerabilities compared to baseline LLMs, with no compromise in functionality.
翻訳日:2024-09-18 18:40:30 公開日:2024-09-16
# 分散QPU上でのマルチポピュレーション進化QAOAの進化

Evolving a Multi-Population Evolutionary-QAOA on Distributed QPUs ( http://arxiv.org/abs/2409.10739v1 )

ライセンス: Link先を確認
Francesca Schiavello, Edoardo Altamura, Ivano Tavernelli, Stefano Mensa, Benjamin Symons, (参考訳) 我々の研究は、進化的アルゴリズム(EA)と量子近似最適化アルゴリズム(QAOA)を組み合わせて、従来の勾配法の代わりにアンザッツパラメータを更新し、Max-Cut問題に対するベンチマークを行う。 我々は,4ノードから26ノード間の正則グラフ$d$3に対して,我々の進化的QAOA(E-QAOA)ペアリングがCOBYLAベースのQAOAと同等以上の性能を示し,適合関数評価に$max\_count$とConditional Value at Risk(CVaR)を併用した。 さらに,本アルゴリズムは,2つのQPU上に分布する多集団EAを並列に,古典的に両立するエリート個体群に並列に進化させることにより,新たなアプローチを提案する。 シミュレータと量子ハードウェアの両方で実験を行い、相対的な性能精度とばらつきについて検討した。

Our research combines an Evolutionary Algorithm (EA) with a Quantum Approximate Optimization Algorithm (QAOA) to update the ansatz parameters, in place of traditional gradient-based methods, and benchmark on the Max-Cut problem. We demonstrate that our Evolutionary-QAOA (E-QAOA) pairing performs on par or better than a COBYLA-based QAOA in terms of solution accuracy and variance, for $d$-3 regular graphs between 4 and 26 nodes, using both $max\_count$ and Conditional Value at Risk (CVaR) for fitness function evaluations. Furthermore, we take our algorithm one step further and present a novel approach by presenting a multi-population EA distributed on two QPUs, which evolves independent and isolated populations in parallel, classically communicating elite individuals. Experiments were conducted on both simulators and quantum hardware, and we investigated the relative performance accuracy and variance.
翻訳日:2024-09-18 18:40:30 公開日:2024-09-16
# 無検出光子を用いた量子情報科学の基礎としての可視性ストークスパラメータ

Visibility Stokes parameters as a foundation for quantum information science with undetected photons ( http://arxiv.org/abs/2409.10740v1 )

ライセンス: Link先を確認
Jaroslav Kysela, Markus Gräfe, Jorge Fuenzalida, (参考訳) 誘導放出のない誘導コヒーレンス現象は、検出されていない光子の量子状態の再構成を可能にする。 状態情報は、光コヒーレンスを介してパートナー光子に転送される。 この現象を用いて、多くの確立された量子情報プロトコルを未検出光子に適応させることができる。 部分的な試みにもかかわらず、そのような適応のための一般的な手順は存在しない。 ここでは、量子ビットの量子状態トモグラフィーと、未検出光子の量子状態トモグラフィーという、2つの非常に異なる技法の密接な関係を示すことで、この問題に光を当てた。 我々は、コヒーレンスを定量化し、偏光状態トモグラフィから知られているストークスパラメータを模倣するパラメータセットを導入する。 また,未検出光子の環境と再生過程におけるその役割を網羅的に分析した。

The phenomenon of induced coherence without induced emission allows to reconstruct the quantum state of a photon that remains undetected. The state information is transferred to its partner photon via optical coherence. Using this phenomenon, a number of established quantum information protocols could be adapted for undetected photons. Despite partial attempts, no general procedure for such adaptation exists. Here we shed light on the matter by showing the close relation between two very dissimilar techniques, namely the quantum state tomography of qubits and the recently developed quantum state tomography of undetected photons. We do so by introducing a set of parameters that quantify the coherence and that mimic the Stokes parameters known from the polarization state tomography. We also perform a thorough analysis of the environment of undetected photons and its role in the reconstruction process.
翻訳日:2024-09-18 18:30:27 公開日:2024-09-16
# NaviQAte: 関数型Webアプリケーションナビゲーション

NaviQAte: Functionality-Guided Web Application Navigation ( http://arxiv.org/abs/2409.10741v1 )

ライセンス: Link先を確認
Mobina Shahbandeh, Parsa Alian, Noor Nashid, Ali Mesbah, (参考訳) 多様なWebアプリケーションの機能を調べる必要があるため、エンドツーエンドのWebテストは難しい。 WebCanvasのような現在の最先端のメソッドは、幅広い機能探索のために設計されていない。 NaviQAteは、Webアプリケーションの探索を質問と回答のタスクとしてフレーム化し、詳細なパラメータを必要とせずに機能のためのアクションシーケンスを生成する。 我々の3段階のアプローチでは、GPT-4oのような先進的な言語モデルを用いて複雑な意思決定を行い、GPT-4o miniのようなコスト効率のよいモデルを用いる。 NaviQAteは、機能指向のWebアプリケーションナビゲーションに焦点を当て、テキストや画像などのマルチモーダル入力を統合し、コンテキスト理解を強化する。 Mind2Web-LiveとMind2Web-Live-Abstractedデータセットの評価によると、NaviQAteはユーザタスクナビゲーションで44.23%、機能ナビゲーションで38.46%、WebCanvasで15%と33%改善している。 これらの結果は、自動Webアプリケーションテストの進歩における我々のアプローチの有効性を裏付けるものである。

End-to-end web testing is challenging due to the need to explore diverse web application functionalities. Current state-of-the-art methods, such as WebCanvas, are not designed for broad functionality exploration; they rely on specific, detailed task descriptions, limiting their adaptability in dynamic web environments. We introduce NaviQAte, which frames web application exploration as a question-and-answer task, generating action sequences for functionalities without requiring detailed parameters. Our three-phase approach utilizes advanced large language models like GPT-4o for complex decision-making and cost-effective models, such as GPT-4o mini, for simpler tasks. NaviQAte focuses on functionality-guided web application navigation, integrating multi-modal inputs such as text and images to enhance contextual understanding. Evaluations on the Mind2Web-Live and Mind2Web-Live-Abstracted datasets show that NaviQAte achieves a 44.23% success rate in user task navigation and a 38.46% success rate in functionality navigation, representing a 15% and 33% improvement over WebCanvas. These results underscore the effectiveness of our approach in advancing automated web application testing.
翻訳日:2024-09-18 18:30:27 公開日:2024-09-16
# 圧縮駆動型パラメトリック発振器のLiouvilliansの対称性

Symmetries of Liouvillians of squeeze-driven parametric oscillators ( http://arxiv.org/abs/2409.10744v1 )

ライセンス: Link先を確認
Francesco Iachello, Colin V. Coane, Jayameenakshi Venkatraman, (参考訳) 一次元パラメトリック発振器のリウヴィル超作用素の対称性、特にいわゆる圧縮駆動Kerr発振器の対称性を考察し、ハミルトン作用素が以前に見いだした対称性を反映した変形パラメータ $\eta =\omega /K$ の整数値 $su(2)$ を発見できる。 我々は、$su(2)$表現 $\left\vert j,m_{j}\right\rangle$ のリウヴィリアンが特徴的な二重楕円構造を持ち、この構造に対して緩和時間 $T_{X}$ を計算することを発見した。 次に、パラメータ $\xi =\varepsilon _{2}/K$ と $\eta=\omega /K$ の関数として生じるリウヴィリアンの位相遷移を研究する。 最後に,Louvillian の固有値スペクトルの温度依存性について検討した。 我々の発見は、量子コンピューティングに関心のある状態の生成と安定化に応用できるかもしれない。

We study the symmetries of the Liouville superoperator of one dimensional parametric oscillators, especially the so-called squeeze-driven Kerr oscillator, and discover a remarkable quasi-spin symmetry $su(2)$ at integer values of the ratio $\eta =\omega /K$ of the detuning parameter $\omega$ to the Kerr coefficient $K$, which reflects the symmetry previously found for the Hamiltonian operator. We find that the Liouvillian of an $su(2)$ representation $\left\vert j,m_{j}\right\rangle$ has a characteristic double-ellipsoidal structure, and calculate the relaxation time $T_{X}$ for this structure. We then study the phase transitions of the Liouvillian which occur as a function of the parameters $\xi =\varepsilon _{2}/K$ and $\eta=\omega /K$. Finally, we study the temperature dependence of the spectrum of eigenvalues of the Liouvillian. Our findings may have applications in the generation and stabilization of states of interest in quantum computing.
翻訳日:2024-09-18 18:30:27 公開日:2024-09-16
# アルカリ金属飽和空孔錯体を用いたシリコン中のテレコム波長量子エミッタの設計

Design for telecom-wavelength quantum emitters in silicon based on alkali-metal-saturated vacancy complexes ( http://arxiv.org/abs/2409.10746v1 )

ライセンス: Link先を確認
Péter Udvarhelyi, Prineha Narang, (参考訳) シリコンの欠陥エミッタは、固体量子リピータとセンサーネットワークの構成要素として有望である。 ここでは、設計の観点から、可能な等電子放出体欠陥複合体の族について検討する。 量子欠陥状態の局在化に対する鍵物理効果の同定は、テレコム波長エミッタの探索を導くことができることを示す。 我々は、Q中心で第一原理計算を行い、最低損失の通信帯域近傍で理想的な発光波長を持つナトリウム変種を予測し、スピン-光子界面とナノスケールスピンセンサの応用の可能性について、実験ではまだ検討されていない。

Defect emitters in silicon are promising contenders as building blocks of solid-state quantum repeaters and sensor networks. Here we investigate a family of possible isoelectronic emitter defect complexes from a design standpoint. We show that the identification of key physical effects on quantum defect state localization can guide the search for telecom wavelength emitters. We demonstrate this by performing first-principles calculations on the Q center, predicting its charged sodium variants possessing ideal emission wavelength near the lowest-loss telecom bands and ground state spin for possible spin-photon interface and nanoscale spin sensor applications yet to be explored in experiments.
翻訳日:2024-09-18 18:30:27 公開日:2024-09-16
# VulnLLMEval: ソフトウェアの脆弱性検出とパッチングにおける大規模言語モデル評価フレームワーク

VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching ( http://arxiv.org/abs/2409.10756v1 )

ライセンス: Link先を確認
Arastoo Zibaeirad, Marco Vieira, (参考訳) 大規模言語モデル(LLM)は、コード翻訳のようなタスクにおいて、ソフトウェア脆弱性検出(SVD)とパッチ(SVP)を自動化する可能性への関心を喚起している。 この分野のさらなる研究のためには,これらの課題におけるLLMの強度と限界を評価するために,ベンチマークの確立が不可欠である。 これらの機能にもかかわらず、LSMが複雑な脆弱性を正確に分析し、適切なパッチを生成することができるかどうかについては疑問が残る。 本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。 私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれています。 このデータセットは現実世界のコードに基づいており、SVDおよびSVPタスクにおけるLLMのパフォーマンスを評価するための多様で代表的なテストベッドを提供し、厳密な評価のための堅牢な基盤を提供する。 我々の結果は、LLMは脆弱性のあるコードとパッチされたコードの区別にしばしば苦労していることを示している。 さらに、SVPタスクでは、これらのモデルはコードを単純化し、さらなる改善なしに直接利用できないソリューションを生成する傾向がある。

Large Language Models (LLMs) have shown promise in tasks like code translation, prompting interest in their potential for automating software vulnerability detection (SVD) and patching (SVP). To further research in this area, establishing a benchmark is essential for evaluating the strengths and limitations of LLMs in these tasks. Despite their capabilities, questions remain regarding whether LLMs can accurately analyze complex vulnerabilities and generate appropriate patches. This paper introduces VulnLLMEval, a framework designed to assess the performance of LLMs in identifying and patching vulnerabilities in C code. Our study includes 307 real-world vulnerabilities extracted from the Linux kernel, creating a well-curated dataset that includes both vulnerable and patched code. This dataset, based on real-world code, provides a diverse and representative testbed for evaluating LLM performance in SVD and SVP tasks, offering a robust foundation for rigorous assessment. Our results reveal that LLMs often struggle with distinguishing between vulnerable and patched code. Furthermore, in SVP tasks, these models tend to oversimplify the code, producing solutions that may not be directly usable without further refinement.
翻訳日:2024-09-18 18:30:27 公開日:2024-09-16
# 大規模言語モデルを用いた絵文字レコメンデーションのセマンティクス

Semantics Preserving Emoji Recommendation with Large Language Models ( http://arxiv.org/abs/2409.10760v1 )

ライセンス: Link先を確認
Zhongyi Qiu, Kangyi Qiu, Hanjia Lyu, Wei Xiong, Jiebo Luo, (参考訳) 絵文字はデジタルコミュニケーションの不可欠な部分となり、感情、トーン、意図を伝えることによってテキストを豊かにする。 既存の絵文字レコメンデーションメソッドは、ユーザーが元のテキストで選択した正確な絵文字にマッチする能力に基づいて、主に評価される。 しかし、各テキストが複数の合理的な絵文字に対応できるという点で、ソーシャルメディア上でのユーザの行動の本質を無視する。 このような実世界の絵文字利用と整合するモデルの能力をよりよく評価するために,ユーザのテキストとのセマンティック一貫性を維持する絵文字を推薦するモデルの能力を計測する,絵文字推薦のためのセマンティックス保存評価フレームワークを提案する。 モデルがセマンティクスをいかに保存するかを評価するため、予測された感情状態、人口統計、ユーザの姿勢が変化しないかどうかを評価する。 これらの属性が保存されている場合、推奨絵文字は元のセマンティクスを維持していたと考えられる。 大言語モデル(LLM)の、曖昧で文脈に関連のある出力の理解と生成における高度な能力は、絵文字の推奨を保存する意味論の複雑さを扱うのに適している。 そこで本研究では,異なるプロンプト技術を用いて,6つのプロプライエタリかつオープンソースのLCMの性能を体系的に評価するための総合的なベンチマークを構築した。 実験の結果, GPT-4o は他の LLM よりも優れており, 意味保存スコアは79.23% であることがわかった。 さらに、下流分類タスクにおけるモデルバイアスを分析し、推奨絵文字の多様性を評価するケーススタディを実施している。

Emojis have become an integral part of digital communication, enriching text by conveying emotions, tone, and intent. Existing emoji recommendation methods are primarily evaluated based on their ability to match the exact emoji a user chooses in the original text. However, they ignore the essence of users' behavior on social media in that each text can correspond to multiple reasonable emojis. To better assess a model's ability to align with such real-world emoji usage, we propose a new semantics preserving evaluation framework for emoji recommendation, which measures a model's ability to recommend emojis that maintain the semantic consistency with the user's text. To evaluate how well a model preserves semantics, we assess whether the predicted affective state, demographic profile, and attitudinal stance of the user remain unchanged. If these attributes are preserved, we consider the recommended emojis to have maintained the original semantics. The advanced abilities of Large Language Models (LLMs) in understanding and generating nuanced, contextually relevant output make them well-suited for handling the complexities of semantics preserving emoji recommendation. To this end, we construct a comprehensive benchmark to systematically assess the performance of six proprietary and open-source LLMs using different prompting techniques on our task. Our experiments demonstrate that GPT-4o outperforms other LLMs, achieving a semantics preservation score of 79.23%. Additionally, we conduct case studies to analyze model biases in downstream classification tasks and evaluate the diversity of the recommended emojis.
翻訳日:2024-09-18 18:30:27 公開日:2024-09-16
# スマートグリッドのためのフェデレートラーニング:アプリケーションと潜在的な脆弱性に関する調査

Federated Learning for Smart Grid: A Survey on Applications and Potential Vulnerabilities ( http://arxiv.org/abs/2409.10764v1 )

ライセンス: Link先を確認
Zikai Zhang, Suman Rath, Jiaohao Xu, Tingsong Xiao, (参考訳) スマートグリッド(スマートグリッド、SG)は、情報通信技術(ICT)を用いた将来のエネルギー需要を予測するために、リアルタイム電気利用データを収集する重要なエネルギー基盤である。 SGにおけるデータセキュリティとプライバシに関する懸念が高まっているため、フェデレートラーニング(FL)が有望なトレーニングフレームワークとして登場した。 FLは、IoTデバイスからプライベートデータを共有することなく、協調的なモデルトレーニングを可能にすることによって、SGのプライバシ、効率、精度のバランスを提供する。 本稿では,FLベースのSGシステムの設計における最近の進歩を,生成,伝達,分散,消費の3段階にわたって概観する。 さらに、これらの段階でFLを実装する際に生じる潜在的な脆弱性についても検討する。 最後に,現状のFL研究とSGにおける実践的応用のギャップについて論じ,今後の研究方向性を提案する。 これらは、FLベースのSGシステムの潜在的な攻撃および防衛戦略と、堅牢なFLベースのSGインフラを構築する必要性に焦点を当てている。 SGシステムの集中型機械学習手法におけるセキュリティ問題に対処する従来の調査とは異なり、この調査はFLベースのSGシステムにおけるアプリケーションとセキュリティ上の懸念を初めて調査する。 我々の目標は、FLベースのSGシステムのロバスト性に関する応用と改善に関するさらなる研究を刺激することである。

The Smart Grid (SG) is a critical energy infrastructure that collects real-time electricity usage data to forecast future energy demands using information and communication technologies (ICT). Due to growing concerns about data security and privacy in SGs, federated learning (FL) has emerged as a promising training framework. FL offers a balance between privacy, efficiency, and accuracy in SGs by enabling collaborative model training without sharing private data from IoT devices. In this survey, we thoroughly review recent advancements in designing FL-based SG systems across three stages: generation, transmission and distribution, and consumption. Additionally, we explore potential vulnerabilities that may arise when implementing FL in these stages. Finally, we discuss the gap between state-of-the-art FL research and its practical applications in SGs and propose future research directions. These focus on potential attack and defense strategies for FL-based SG systems and the need to build a robust FL-based SG infrastructure. Unlike traditional surveys that address security issues in centralized machine learning methods for SG systems, this survey specifically examines the applications and security concerns in FL-based SG systems for the first time. Our aim is to inspire further research into applications and improvements in the robustness of FL-based SG systems.
翻訳日:2024-09-18 18:30:27 公開日:2024-09-16
# 線形関数近似を用いた不定値平均逆強化学習の確率的効率化

Provably Efficient Infinite-Horizon Average-Reward Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2409.10772v1 )

ライセンス: Link先を確認
Woojin Chae, Dabeen Lee, (参考訳) 本稿では,無限水平平均逆線形マルコフ決定過程 (MDP) と線形混合 MDP をベルマン最適条件下で学習するアルゴリズムを提案する。 線形MDPのアルゴリズムは計算効率を保証しながら、最もよく知られた後悔の上界を$\widetilde{\mathcal{O}}(d^{3/2}\mathrm{sp}(v^*)\sqrt{T})$ over $T$ time steps ここで、$\mathrm{sp}(v^*)$は最適バイアス関数$v^*$であり、$d$は特徴写像の次元である。 線形混合 MDP に対して、我々のアルゴリズムは、$\widetilde{\mathcal{O}}(d\cdot\mathrm{sp}(v^*)\sqrt{T})$ の後悔境界に達する。 このアルゴリズムは、値関数クラスの被覆数と、独立な関心を持つ値関数の楽観的な推定子のスパンを制御するために、新しい手法を適用している。

This paper proposes a computationally tractable algorithm for learning infinite-horizon average-reward linear Markov decision processes (MDPs) and linear mixture MDPs under the Bellman optimality condition. While guaranteeing computational efficiency, our algorithm for linear MDPs achieves the best-known regret upper bound of $\widetilde{\mathcal{O}}(d^{3/2}\mathrm{sp}(v^*)\sqrt{T})$ over $T$ time steps where $\mathrm{sp}(v^*)$ is the span of the optimal bias function $v^*$ and $d$ is the dimension of the feature mapping. For linear mixture MDPs, our algorithm attains a regret bound of $\widetilde{\mathcal{O}}(d\cdot\mathrm{sp}(v^*)\sqrt{T})$. The algorithm applies novel techniques to control the covering number of the value function class and the span of optimistic estimators of the value function, which is of independent interest.
翻訳日:2024-09-18 18:30:27 公開日:2024-09-16
# 非対称高次ヘルダー平滑性と一様凸性の下での高次下界

Tight Lower Bounds under Asymmetric High-Order Hölder Smoothness and Uniform Convexity ( http://arxiv.org/abs/2409.10773v1 )

ライセンス: Link先を確認
Site Bai, Brian Bullins, (参考訳) 本稿では,高次H\"olderの滑らかかつ一様凸関数を最小化するオラクル複雑性に対して,厳密な下界を提供する。 具体的には、$p^{th}$-次微分が次数$\nu$ とパラメータ $H$ を持つ H\ より古い連続であり、次数$q$ とパラメータ $\sigma$ を持つ一様凸である関数に対して、(1)$q > p + \nu$ と (2)$q < p+\nu$ の2つの非対称ケースに焦点を当てる。 p^{th}$-次オラクルアクセスが与えられると、$\Omega\left( \left( \frac{H}{\sigma}\right)^\frac{2}{3(p+\nu)-2}\left( \frac{\sigma}{\epsilon}\right)^\frac{2(q-p-\nu)}{q(3(p+\nu)-2)}\right)$ truncated-Gaussian smoothed hard function in the first case and $\Omega\left(\left(\frac{H}{\sigma}\right)^\frac{2}{3(p+\nu)-2+\log^2\frac{2(p+\nu)}{q(p+\nu)-2}\right)$$$$$$Omega\left(\left(\frac{H}{\sigma}\right)^\left(\frac{2}{3(p+\nu)}{q(p+\nu)}{q(p+\nu)-2\right)$ が成立する。 解析は、一階および二階の滑らかさの下での関数の以前の下界と一様凸関数の値とを一般化し、さらに、一般設定における対応する上界と一致させる。

In this paper, we provide tight lower bounds for the oracle complexity of minimizing high-order H\"older smooth and uniformly convex functions. Specifically, for a function whose $p^{th}$-order derivatives are H\"older continuous with degree $\nu$ and parameter $H$, and that is uniformly convex with degree $q$ and parameter $\sigma$, we focus on two asymmetric cases: (1) $q > p + \nu$, and (2) $q < p+\nu$. Given up to $p^{th}$-order oracle access, we establish worst-case oracle complexities of $\Omega\left( \left( \frac{H}{\sigma}\right)^\frac{2}{3(p+\nu)-2}\left( \frac{\sigma}{\epsilon}\right)^\frac{2(q-p-\nu)}{q(3(p+\nu)-2)}\right)$ with a truncated-Gaussian smoothed hard function in the first case and $\Omega\left(\left(\frac{H}{\sigma}\right)^\frac{2}{3(p+\nu)-2}+ \log^2\left(\frac{\sigma^{p+\nu}}{H^q}\right)^\frac{1}{p+\nu-q}\right)$ in the second case, for reaching an $\epsilon$-approximate solution in terms of the optimality gap. Our analysis generalizes previous lower bounds for functions under first- and second-order smoothness as well as those for uniformly convex functions, and furthermore our results match the corresponding upper bounds in the general setting.
翻訳日:2024-09-18 18:30:27 公開日:2024-09-16
# 深層学習モデルは視覚認識課題における部分的物体排除に頑健か?

Are Deep Learning Models Robust to Partial Object Occlusion in Visual Recognition Tasks? ( http://arxiv.org/abs/2409.10775v1 )

ライセンス: Link先を確認
Kaleb Kassaw, Francesco Luzi, Leslie M. Collins, Jordan M. Malof, (参考訳) 畳み込みニューラルネットワーク(CNN)を含む画像分類モデルは、様々な分類タスクでうまく機能するが、部分閉塞の条件、すなわち、物体がカメラの視界から部分的に覆われている条件下では苦労する。 データ拡張、部分ベースのクラスタリング、ViT(Vision Transformer)モデルなど、本質的に堅牢なアーキテクチャなど、隠蔽下でのパフォーマンスを改善する方法は、ある程度は、部分閉塞下でオブジェクトを分類する能力に基づいて評価されている。 しかし、これらの手法の評価は、一般的にコンピュータ生成され、ラベル付けに安価である人工閉塞を含む画像に大きく依存している。 さらに、メソッドを互いに比較することは滅多になく、多くのメソッドを早期、現在時代遅れのディープラーニングモデルと比較する。 我々は,最近開発されたOccluded Video Instance Segmentation (OVIS) データセット (arXiv:2102.01558) に基づいて,IRUOデータセットにコントリビュートする。 IRUOは、実世界の画像と人工的に隠蔽された画像を用いて、視覚認識タスクにおける部分閉塞に対する先行手法の堅牢性をテストし、ベンチマークする。 また,IRUOの画像を用いて,多段階,多種多様な咬合者の分類性能を評価した結果を提示する。 現代のCNNベースモデルでは、従来のCNNベースモデルと比較して認識精度が向上しており、ViTベースモデルは、隠蔽画像のCNNベースモデルよりも精度が高く、人間の精度よりもわずかに劣っていることがわかった。 また, フェンスや葉などの隠蔽体の「穴」を通して対象物が観察される拡散閉塞を含むある種の閉塞は, 人体, 特にCNN背骨と比較して, 深部認識モデルの精度を大幅に低下させる可能性が示唆された。

Image classification models, including convolutional neural networks (CNNs), perform well on a variety of classification tasks but struggle under conditions of partial occlusion, i.e., conditions in which objects are partially covered from the view of a camera. Methods to improve performance under occlusion, including data augmentation, part-based clustering, and more inherently robust architectures, including Vision Transformer (ViT) models, have, to some extent, been evaluated on their ability to classify objects under partial occlusion. However, evaluations of these methods have largely relied on images containing artificial occlusion, which are typically computer-generated and therefore inexpensive to label. Additionally, methods are rarely compared against each other, and many methods are compared against early, now outdated, deep learning models. We contribute the Image Recognition Under Occlusion (IRUO) dataset, based on the recently developed Occluded Video Instance Segmentation (OVIS) dataset (arXiv:2102.01558). IRUO utilizes real-world and artificially occluded images to test and benchmark leading methods' robustness to partial occlusion in visual recognition tasks. In addition, we contribute the design and results of a human study using images from IRUO that evaluates human classification performance at multiple levels and types of occlusion. We find that modern CNN-based models show improved recognition accuracy on occluded images compared to earlier CNN-based models, and ViT-based models are more accurate than CNN-based models on occluded images, performing only modestly worse than human accuracy. We also find that certain types of occlusion, including diffuse occlusion, where relevant objects are seen through "holes" in occluders such as fences and leaves, can greatly reduce the accuracy of deep recognition models as compared to humans, especially those with CNN backbones.
翻訳日:2024-09-18 18:30:27 公開日:2024-09-16
# 信頼関係の逐次準計画型物理インフォームニューラルネットワーク

Physics-Informed Neural Networks with Trust-Region Sequential Quadratic Programming ( http://arxiv.org/abs/2409.10777v1 )

ライセンス: Link先を確認
Xiaoran Cheng, Sen Na, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、物理領域の知識をソフト制約として経験的損失関数に統合し、モデルのトレーニングに既存の機械学習手法を適用する科学機械学習(SciML)において、大きな進歩を示す。 しかし、最近の研究によると、PINNは比較的複雑な部分微分方程式(PDE)を学習できない可能性がある。 本稿では,信頼領域の逐次準計画法(trSQP-PINN)を新たに導入し,PINNの障害モードに対処する。 PINNのようにペナル化ソフト制約損失を直接訓練するのに対し,本手法はソフト制約損失を利用して信頼範囲半径を適応的に調整しながら,ハード制約損失の線形2次近似を行う。 我々はモデル近似を信頼し、信頼領域内で更新するのみであり、そのような更新方法はPINNの不適切な問題を克服することができる。 また、準ニュートン更新を2次情報に適用することにより、2次SQP法の計算ボトルネックに対処し、さらに、本手法のトレーニング効率をさらに高めるための簡単な事前学習手順を導入する。 広範囲な実験を通して, trSQP-PINNの有効性を実証する。 ペナルティ法や拡張ラグランジアン法などの既存のPINNのハードコントラスト法と比較して、trSQP-PINNは学習したPDEソリューションの精度を大幅に向上し、最大1~3桁の誤りを犯す。 さらに,本研究の事前学習は,他のハード制約手法に対して一般的に有効であり,問題固有パラメータとアルゴリズムチューニングパラメータの両方に対して,本手法の堅牢性を示す実験を行った。

Physics-Informed Neural Networks (PINNs) represent a significant advancement in Scientific Machine Learning (SciML), which integrate physical domain knowledge into an empirical loss function as soft constraints and apply existing machine learning methods to train the model. However, recent research has noted that PINNs may fail to learn relatively complex Partial Differential Equations (PDEs). This paper addresses the failure modes of PINNs by introducing a novel, hard-constrained deep learning method -- trust-region Sequential Quadratic Programming (trSQP-PINN). In contrast to directly training the penalized soft-constrained loss as in PINNs, our method performs a linear-quadratic approximation of the hard-constrained loss, while leveraging the soft-constrained loss to adaptively adjust the trust-region radius. We only trust our model approximations and make updates within the trust region, and such an updating manner can overcome the ill-conditioning issue of PINNs. We also address the computational bottleneck of second-order SQP methods by employing quasi-Newton updates for second-order information, and importantly, we introduce a simple pretraining step to further enhance training efficiency of our method. We demonstrate the effectiveness of trSQP-PINN through extensive experiments. Compared to existing hard-constrained methods for PINNs, such as penalty methods and augmented Lagrangian methods, trSQP-PINN significantly improves the accuracy of the learned PDE solutions, achieving up to 1-3 orders of magnitude lower errors. Additionally, our pretraining step is generally effective for other hard-constrained methods, and experiments have shown the robustness of our method against both problem-specific parameters and algorithm tuning parameters.
翻訳日:2024-09-18 18:30:27 公開日:2024-09-16
# コードコメントの不整合がバグ導入に与える影響の調査

Investigating the Impact of Code Comment Inconsistency on Bug Introducing ( http://arxiv.org/abs/2409.10781v1 )

ライセンス: Link先を確認
Shiva Radmanesh, Aaron Imani, Iftekhar Ahmed, Mohammad Moshirpour, (参考訳) コードコメントは、コード機能の明確化、可読性の向上、開発者間のコラボレーションの促進に不可欠である。 その重要性にもかかわらず、コメントは時代遅れになり、対応するコードと矛盾する。 これは開発者を誤解させ、バグを起こす可能性がある。 本稿では,大規模言語モデル,特に GPT-3.5 を用いたバグ導入におけるコード圧縮の不整合の影響について検討する。 我々はまず,GPT-3.5モデルの性能を,これらの不整合を検出する他の最先端手法と比較し,GPT-3.5の優位性を実証した。 さらに, GPT-3.5 と Odds 比分析を用いて, コード圧縮の不整合の時間的変化と, バグ発生率に及ぼす影響を解析した。 私たちの調査によると、一貫性のない変更は、一貫した変更よりもバグ導入のコミットにつながる確率が約1.5倍高く、ソフトウェア開発において一貫性のある最新のコメントを維持する必要性を強調しています。 本研究は,コード・コンシュームの不整合性とソフトウェア品質の関係に関する新たな洞察を提供するとともに,コード・コンシュームの不整合がバグ導入に与える影響が,不整合を導入し,時間が経つにつれて減少することを示す,その影響を包括的に分析する。

Code comments are essential for clarifying code functionality, improving readability, and facilitating collaboration among developers. Despite their importance, comments often become outdated, leading to inconsistencies with the corresponding code. This can mislead developers and potentially introduce bugs. Our research investigates the impact of code-comment inconsistency on bug introduction using large language models, specifically GPT-3.5. We first compare the performance of the GPT-3.5 model with other state-of-the-art methods in detecting these inconsistencies, demonstrating the superiority of GPT-3.5 in this domain. Additionally, we analyze the temporal evolution of code-comment inconsistencies and their effect on bug proneness over various timeframes using GPT-3.5 and Odds ratio analysis. Our findings reveal that inconsistent changes are around 1.5 times more likely to lead to a bug-introducing commit than consistent changes, highlighting the necessity of maintaining consistent and up-to-date comments in software development. This study provides new insights into the relationship between code-comment inconsistency and software quality, offering a comprehensive analysis of its impact over time, demonstrating that the impact of code-comment inconsistency on bug introduction is highest immediately after the inconsistency is introduced and diminishes over time.
翻訳日:2024-09-18 18:30:27 公開日:2024-09-16
# デュアルアンサンブルYb光格子クロックにおける格子光シフト評価

Lattice Light Shift Evaluations In a Dual-Ensemble Yb Optical Lattice Clock ( http://arxiv.org/abs/2409.10782v1 )

ライセンス: Link先を確認
Tobias Bothwell, Benjamin D. Hunt, Jacob L. Siegel, Youssef S. Hassan, Tanner Grogan, Takumi Kobayashi, Kurt Gibble, Sergey G. Porsev, Marianna S. Safronova, Roger C. Brown, Kyle Beloy, Andrew D. Ludlow, (参考訳) 最先端の光学格子時計では、極端電気双極子偏光性項は魔法の波長トラップの破壊につながる。 本稿では,実験手法と理論計算との原子多極性項における近年の相違に対処するため,格子光のシフトを評価するための新しい手法について報告する。 我々は、画像とマルチアンサンブル技術を組み合わせて格子光シフト原子係数の評価を行い、デュアルアンサンブル格子クロックにおける比較を利用して、微分周波数シフトを迅速に評価する。 さらに,マルチポーラライザビリティ係数と高ポーラライザビリティ係数の両方を探索するためのランニング波動場の適用を実証し,今後の格子光シフト評価のための新しい手法を確立する。

In state-of-the-art optical lattice clocks, beyond-electric-dipole polarizability terms lead to a break-down of magic wavelength trapping. In this Letter, we report a novel approach to evaluate lattice light shifts, specifically addressing recent discrepancies in the atomic multipolarizability term between experimental techniques and theoretical calculations. We combine imaging and multi-ensemble techniques to evaluate lattice light shift atomic coefficients, leveraging comparisons in a dual-ensemble lattice clock to rapidly evaluate differential frequency shifts. Further, we demonstrate application of a running wave field to probe both the multipolarizability and hyperpolarizability coefficients, establishing a new technique for future lattice light shift evaluations.
翻訳日:2024-09-18 18:30:27 公開日:2024-09-16
# 古漢文における句読解の予測:多層LSTMと注意に基づくアプローチ

Predicting Punctuation in Ancient Chinese Texts: A Multi-Layered LSTM and Attention-Based Approach ( http://arxiv.org/abs/2409.10783v1 )

ライセンス: Link先を確認
Tracy Cai, Kimmy Chang, Fahad Nabi, (参考訳) 中国語が句読法を使い始めたのは20世紀になってからである。 実際、古代の漢文の多くは、目に見える句読点や区切り文字のない数千行の行を含んでいる。 このような文章における句読点の欠如は、特定の句の間に停止や中断があったときの識別を困難にし、文章の意味を理解することを困難にしている(Mogahed, 2012)。 その結果、古代に教育を受けない限り、古代中国語の読者の多くは文章の解釈が著しく異なることになる。 我々は,Luong et al's (2015) の注目アーキテクチャに関する議論に触発されて,双方向多層LSTMとマルチヘッドアテンション機構を活用することによって,Oh et al (2017) の作業を拡張する古代中国語の句読点の位置(とタイプ)を予測するアプローチを提案する。 多層LSTMとマルチヘッドアテンションの使用は、古代中国語のテキストを評価する際に、そのようなコンポーネントを組み込まないRNNを著しく上回っていることがわかった。

It was only until the 20th century when the Chinese language began using punctuation. In fact, many ancient Chinese texts contain thousands of lines with no distinct punctuation marks or delimiters in sight. The lack of punctuation in such texts makes it difficult for humans to identify when there pauses or breaks between particular phrases and understand the semantic meaning of the written text (Mogahed, 2012). As a result, unless one was educated in the ancient time period, many readers of ancient Chinese would have significantly different interpretations of the texts. We propose an approach to predict the location (and type) of punctuation in ancient Chinese texts that extends the work of Oh et al (2017) by leveraging a bidirectional multi-layered LSTM with a multi-head attention mechanism as inspired by Luong et al.'s (2015) discussion of attention-based architectures. We find that the use of multi-layered LSTMs and multi-head attention significantly outperforms RNNs that don't incorporate such components when evaluating ancient Chinese texts.
翻訳日:2024-09-18 18:30:27 公開日:2024-09-16
# 理想的平坦かつ解決されたSU(3)3次元ランダウレベル

Ideal flat and resolved SU(3) Landau levels in three dimensions ( http://arxiv.org/abs/2409.10785v1 )

ライセンス: Link先を確認
Mian Peng, Qiang Wei, Jiale Yuan, Da-Wei Wang, Mou Yan, Han Cai, Gang Chen, (参考訳) ランドーレベル(LL)は量子ホール効果と関連する多体物理学を理解する上で非常に重要である。 近年、その3次元(3次元)対、すなわち、よく定義された量子数を持つ分散のない3次元LLは大きな注目を集めているが、まだ報告されていない。 ここでは, 固有状態がSU(3)量子数によって特徴づけられるダイヤモンド音響格子において, 鋭く量子化されたスペクトルを持つ3次元LLを理論的に提案し, 実験的に観察する。 工学的な不均一ホッピング強度は、ノルム線をLLに量子化する擬磁場を導入するだけでなく、3つのボゾン自由度を与え、ジェネリックSU(3)対称性をLLに埋め込む。 音響音源の位相配列を用いて, 退化LLマルチレット内の異なる固有状態を選択的に抽出し, 3次元固有モードを可視化する。 重要なことに、本手法は固有モード相関から直接SU(3)量子数の正確な再構成を可能にする。 以上の結果から,SU(3) LL を人工プラットフォームにおけるトラクタブルモデルとして確立し,任意の次元でゼロ分散と可算量子数で LL を合成する方法を開拓した。

Landau levels (LLs) are of great importance for understanding the quantum Hall effect and associated many-body physics. Recently, their three-dimensional (3D) counterparts, i.e., dispersionless 3D LLs with well-defined quantum numbers, have attracted significant attention but have not yet been reported. Here we theoretically propose and experimentally observe 3D LLs with a sharply quantized spectrum in a diamond acoustic lattice, where the eigenstates are characterized by SU(3) quantum numbers. The engineered inhomogeneous hopping strengths not only introduce pseudomagnetic fields that quantize the nodal lines into LLs but also provide three bosonic degrees of freedom, embedding a generic SU(3) symmetry into the LLs. Using a phased array of acoustic sources, we selectively excite distinct eigenstates within the degenerate LL multiplets and visualize their 3D eigenmodes. Importantly, our approach enables the precise reconstruction of SU(3) quantum numbers directly from eigenmode correlations. Our results establish SU(3) LLs as a tractable model in artificial platforms, and pave the way for synthesizing LLs with zero dispersion and countable quantum numbers in arbitrary dimensions.
翻訳日:2024-09-18 18:30:27 公開日:2024-09-16
# モデルが注意すべき場所を語る:Fithfulnessが自動アテンションステアリングと出会う

Model Tells Itself Where to Attend: Faithfulness Meets Automatic Attention Steering ( http://arxiv.org/abs/2409.10790v1 )

ライセンス: Link先を確認
Qingru Zhang, Xiaodong Yu, Chandan Singh, Xiaodong Liu, Liyuan Liu, Jianfeng Gao, Tuo Zhao, Dan Roth, Hao Cheng, (参考訳) 大規模言語モデル(LLM)は、様々な現実世界のタスクで顕著なパフォーマンスを示している。 しかし、彼らはしばしば、入力コンテキストを完全に理解し、効果的に活用することに苦慮し、不信または幻覚的な反応をもたらす。 この困難さは、長いか、邪魔な情報を含むコンテキストに対して増大し、LCMが完全に重要な証拠をつかむのを防ぐことができる。 この問題に対処するために、多くの研究は、LLMが文脈情報をより忠実に利用するのを助けるためにプロンプトを使用する。 例えば、反復的なプロンプトは、2つのステップで重要な情報をハイライトする。 しかし、プロンプト法はトークン空間において暗黙的に鍵情報を強調することに制約されるため、しばしばモデルの注意を十分に引くには不十分である。 モデルの忠実度をより確実に向上するために,重要な文脈情報を自動的に識別し,LLMの注意点を操縦することで強調する手法であるAutoPASTAを提案する。 プロンプトと同様に、AutoPASTAは推論時に適用され、モデルパラメータを変更する必要はない。 オープンブックQAにおける実験により,AutoPASTAは,本質的な文脈情報を効果的に把握し,モデル忠実度と性能を著しく向上させ,LLAMA3-70B-インストラクトの平均7.95%の改善を実現した。 コードはhttps://github.com/QingruZhang/AutoPASTAで公開される。

Large language models (LLMs) have demonstrated remarkable performance across various real-world tasks. However, they often struggle to fully comprehend and effectively utilize their input contexts, resulting in responses that are unfaithful or hallucinated. This difficulty increases for contexts that are long or contain distracting information, which can divert LLMs from fully capturing essential evidence. To address this issue, many works use prompting to help LLMs utilize contextual information more faithfully. For instance, iterative prompting highlights key information in two steps that first ask the LLM to identify important pieces of context and then derive answers accordingly. However, prompting methods are constrained to highlighting key information implicitly in token space, which is often insufficient to fully steer the model's attention. To improve model faithfulness more reliably, we propose AutoPASTA, a method that automatically identifies key contextual information and explicitly highlights it by steering an LLM's attention scores. Like prompting, AutoPASTA is applied at inference time and does not require changing any model parameters. Our experiments on open-book QA demonstrate that AutoPASTA effectively enables models to grasp essential contextual information, leading to substantially improved model faithfulness and performance, e.g., an average improvement of 7.95% for LLAMA3-70B-Instruct. Code will be publicly available at https://github.com/QingruZhang/AutoPASTA .
翻訳日:2024-09-18 18:20:31 公開日:2024-09-16
# 修正フェルミ-ハバード模型の熱力学

Thermodynamics of a Modified Fermi-Hubbard Model ( http://arxiv.org/abs/2409.11180v1 )

ライセンス: Link先を確認
Moorad Alexanian, (参考訳) 最近導入されたFermi-Hubbardモデルに適用されたリカレンス・リレーション・アンサッツは可溶性モデルを生み出し、ここではいくつかの熱力学的観測値を計算するために用いられる。 サイト毎の単位密度の制約、密度 = 1 を適用し、いくつかの結果が制約が課されない場合と比較される。 修正されたモデルでは、整数量子ホール抵抗を想起させる連続相転移(第2次)と基底状態、第1次相転移を示す。

A recently introduced recurrence-relation ansatz applied to the Fermi-Hubbard model gives rise to a soluble model and here is used to calculate several thermodynamic observables. The constraint of unit density per site, density = 1, is applied and some of the results are compared to cases where the constraint is not imposed. The modified model exhibits a continuous phase transition (second order) reminiscent of the integer quantum Hall resistance and a ground state, first-order phase transition.
翻訳日:2024-09-18 16:35:30 公開日:2024-09-16
# 自律運転における効率的なマルチモーダルLCMのためのビデオトケスペーシング

Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving ( http://arxiv.org/abs/2409.11182v1 )

ライセンス: Link先を確認
Yunsheng Ma, Amr Abdelraouf, Rohit Gupta, Ziran Wang, Kyungtae Han, (参考訳) マルチモーダル大規模言語モデル(MLLM)は、強力な論理的推論能力を通じて、自律運転システムにおけるシーン理解を強化する重要な可能性を実証している。 しかし、これらのモデルの展開は、かなりのパラメータサイズと計算要求が、しばしばオンボード計算の制約を超えているため、重大な課題に直面している。 1つの大きな制限は、細粒度で長いコンテキストの視覚情報をキャプチャするために必要な大量の視覚トークンから生じ、レイテンシとメモリ消費が増大する。 この問題に対処するために,ビデオトークンスペーシング(VTS)を提案する。これは連続するビデオフレームにおける固有の冗長性を生かし,視覚トークンの総数を大幅に削減し,最も有能な情報を保存する新しい手法である。 VTSは軽量なCNNベースの提案モデルを用いて、キーフレームを適応的に識別し、少ない情報トークンをプーンし、幻覚を効果的に緩和し、性能を損なうことなく推論スループットを向上する。 我々は,DRAMA と LingoQA ベンチマークの総合的な実験を行い,VTS が推論スループットを最大で 33 % 改善し,メモリ使用量を 228 % 削減できることを示す。

Multimodal large language models (MLLMs) have demonstrated remarkable potential for enhancing scene understanding in autonomous driving systems through powerful logical reasoning capabilities. However, the deployment of these models faces significant challenges due to their substantial parameter sizes and computational demands, which often exceed the constraints of onboard computation. One major limitation arises from the large number of visual tokens required to capture fine-grained and long-context visual information, leading to increased latency and memory consumption. To address this issue, we propose Video Token Sparsification (VTS), a novel approach that leverages the inherent redundancy in consecutive video frames to significantly reduce the total number of visual tokens while preserving the most salient information. VTS employs a lightweight CNN-based proposal model to adaptively identify key frames and prune less informative tokens, effectively mitigating hallucinations and increasing inference throughput without compromising performance. We conduct comprehensive experiments on the DRAMA and LingoQA benchmarks, demonstrating the effectiveness of VTS in achieving up to a 33\% improvement in inference throughput and a 28\% reduction in memory usage compared to the baseline without compromising performance.
翻訳日:2024-09-18 16:35:30 公開日:2024-09-16
# LASERS: ジェネレーティブモデリングのための疎結合表現のための遅延空間符号化

LASERS: LAtent Space Encoding for Representations with Sparsity for Generative Modeling ( http://arxiv.org/abs/2409.11184v1 )

ライセンス: Link先を確認
Xin Li, Anand Sarwate, (参考訳) コンパクトで有意義な潜在空間表現の学習は、視覚データの生成的モデリングタスクにおいて非常に有用であることが示されている。 例えば、変分オートエンコーダ(VQ-VAEs、VQ-GANsなど)にベクトル量子化(VQ)を適用し、現代の多くのモデルアプリケーションで最先端の性能を実証している。 潜時空間の量子化は、データ自体が潜時空間(ピクセル値など)において本質的に離散であるという仮定によって正当化されている。 本稿では、VQの定式化よりも構造的仮定を緩和することにより、潜在空間の代替表現を提案する。 具体的には、余剰制約の下で辞書ベースの表現に対応する部分空間モデルの和で、潜伏空間を近似することができると仮定する。 辞書は、トレーニングプロセス中に学習/更新される。 本稿では,DL-VAE (Dictionary Learning Variational Autoencoders) と DL-VAEs with Generative Adversarial Networks (DL-GANs) の2つのモデルについて検討する。 我々は、より遅延空間がより表現力が高く、潜在空間計算の計算オーバーヘッドを少なくして、再構成品質の点でVQアプローチよりも優れた表現が得られることを実証的に示す。 以上の結果から,VQ手法の真の利点は,潜伏空間の離散化ではなく,潜伏空間の損失圧縮によるものである可能性が示唆された。 VQファミリーモデルでよく見られるように、スパース表現もコードブックの崩壊問題にも対処していることを示すことで、この仮説を裏付ける。

Learning compact and meaningful latent space representations has been shown to be very useful in generative modeling tasks for visual data. One particular example is applying Vector Quantization (VQ) in variational autoencoders (VQ-VAEs, VQ-GANs, etc.), which has demonstrated state-of-the-art performance in many modern generative modeling applications. Quantizing the latent space has been justified by the assumption that the data themselves are inherently discrete in the latent space (like pixel values). In this paper, we propose an alternative representation of the latent space by relaxing the structural assumption than the VQ formulation. Specifically, we assume that the latent space can be approximated by a union of subspaces model corresponding to a dictionary-based representation under a sparsity constraint. The dictionary is learned/updated during the training process. We apply this approach to look at two models: Dictionary Learning Variational Autoencoders (DL-VAEs) and DL-VAEs with Generative Adversarial Networks (DL-GANs). We show empirically that our more latent space is more expressive and has leads to better representations than the VQ approach in terms of reconstruction quality at the expense of a small computational overhead for the latent space computation. Our results thus suggest that the true benefit of the VQ approach might not be from discretization of the latent space, but rather the lossy compression of the latent space. We confirm this hypothesis by showing that our sparse representations also address the codebook collapse issue as found common in VQ-family models.
翻訳日:2024-09-18 16:35:30 公開日:2024-09-16
# SARと光学衛星画像を用いたアイボリ海岸の森林モニタリング支援のための深層学習ツール

Deep Learning tools to support deforestation monitoring in the Ivory Coast using SAR and Optical satellite imagery ( http://arxiv.org/abs/2409.11186v1 )

ライセンス: Link先を確認
Gabriele Sartor, Matteo Salis, Stefano Pinardi, Ozgur Saracik, Rosa Meo, (参考訳) 森林伐採は、特に人口が不利な経済状態を持ち、農業が主要な収入源である発展途上国において、周囲環境への強い影響から、ますます重要になっている。 例えば、イヴォリー海岸では、ココア生産が最も報酬的な活動であるため、古代の森林の一部を新しいココアプランテーションに置き換えるのを支援することはまれではない。 この種の有害な活動を監視するために、衛星は森林の消失を認識して関心領域を広げるのを防ぐために使用できる。 本研究では,フォレスト・ノンフォレスト・マップ(FNF)をセンチネル画像入力モデルの基礎的真理として用いている。 最新技術モデルU-Net, Attention U-Net, Segnet, FCN32は、Sentinel-1, Sentinel-2と雲の確率を組み合わせて、森林と非森林のセグメンテーションを作成する。 アイヴォリー海岸は森林被覆データセットが欠如しており、一部はセンチネル画像でカバーされているが、森林や非森林を分類するモデルが、森林破壊の起こり得る場所を予測するためにオープンデータセットを用いて作成可能であることが示されている。 森林破壊研究のかなりの部分は可視光帯域で行われているが、SARによる買収は雲に覆われた領域におけるRGB画像の限界を克服するために用いられている。 最後に、2019年から2020年にかけて森林の面積を推定するために最も有望なモデルが採用されている。

Deforestation is gaining an increasingly importance due to its strong influence on the sorrounding environment, especially in developing countries where population has a disadvantaged economic condition and agriculture is the main source of income. In Ivory Coast, for instance, where the cocoa production is the most remunerative activity, it is not rare to assist to the replacement of portion of ancient forests with new cocoa plantations. In order to monitor this type of deleterious activities, satellites can be employed to recognize the disappearance of the forest to prevent it from expand its area of interest. In this study, Forest-Non-Forest map (FNF) has been used as ground truth for models based on Sentinel images input. State-of-the-art models U-Net, Attention U-Net, Segnet and FCN32 are compared over different years combining Sentinel-1, Sentinel-2 and cloud probability to create forest/non-forest segmentation. Although Ivory Coast lacks of forest coverage datasets and is partially covered by Sentinel images, it is demonstrated the feasibility to create models classifying forest and non-forests pixels over the area using open datasets to predict where deforestation could have occurred. Although a significant portion of the deforestation research is carried out on visible bands, SAR acquisitions are employed to overcome the limits of RGB images over areas often covered by clouds. Finally, the most promising model is employed to estimate the hectares of forest has been cut between 2019 and 2020.
翻訳日:2024-09-18 16:35:30 公開日:2024-09-16
# リアルかロボットか : LLMが対話における人間の反応の質を正確にシミュレートするかどうか

Real or Robotic? Assessing Whether LLMs Accurately Simulate Qualities of Human Responses in Dialogue ( http://arxiv.org/abs/2409.08330v2 )

ライセンス: Link先を確認
Jonathan Ivey, Shivani Kumar, Jiayu Liu, Hua Shen, Sushrita Rakshit, Rohan Raju, Haotian Zhang, Aparna Ananthasubramaniam, Junghwan Kim, Bowen Yi, Dustin Wright, Abraham Israeli, Anders Giovanni Møller, Lechen Zhang, David Jurgens, (参考訳) 対話タスクのためのデータセットの学習と構築は、研究参加者からデータを集め、訓練し、収集する必要があるため、費用も時間もかかる。 これに対し、近年の研究では、人間と人の両方のLLMの相互作用をシミュレートするために、大きな言語モデル(LLM)の使用を模索している。 しかし、LLMに基づくシミュレーションは人間の対話をどの程度反映しているか? 本研究では,WildChatデータセットから10万対のLLM-LLMと人-LLM対話の大規模データセットを生成し,LLMシミュレーションが人間とどのように一致しているかを定量化する。 全体として、シミュレーションと人間のインタラクションのアライメントは比較的低く、スタイルや内容を含む複数のテキスト特性に沿って体系的な相違を示す。 さらに、英語、中国語、ロシア語の対話と比較すると、モデルも同様に機能することがわかった。 以上の結果から,LLM自体がLLMのスタイルに類似した書き方で書く場合,LLMの動作は概して良好であることが示唆された。

Studying and building datasets for dialogue tasks is both expensive and time-consuming due to the need to recruit, train, and collect data from study participants. In response, much recent work has sought to use large language models (LLMs) to simulate both human-human and human-LLM interactions, as they have been shown to generate convincingly human-like text in many settings. However, to what extent do LLM-based simulations \textit{actually} reflect human dialogues? In this work, we answer this question by generating a large-scale dataset of 100,000 paired LLM-LLM and human-LLM dialogues from the WildChat dataset and quantifying how well the LLM simulations align with their human counterparts. Overall, we find relatively low alignment between simulations and human interactions, demonstrating a systematic divergence along the multiple textual properties, including style and content. Further, in comparisons of English, Chinese, and Russian dialogues, we find that models perform similarly. Our results suggest that LLMs generally perform better when the human themself writes in a way that is more similar to the LLM's own style.
翻訳日:2024-09-18 11:25:49 公開日:2024-09-16
# ソフトウェア工学実験における金融インセンティブの異なる手法を用いた実験室実験

A Laboratory Experiment on Using Different Financial-Incentivization Schemes in Software-Engineering Experimentation ( http://arxiv.org/abs/2202.10985v9 )

ライセンス: Link先を確認
Dmitri Bershadskyy, Jacob Krüger, Gül Çalıklı, Siegmar Otto, Sarah Zabel, Jannik Greif, Robert Heyer, (参考訳) ソフトウェア工学の研究では、多くの経験的研究がオープンソースや業界開発者によって行われている。 しかし、経済学や心理学のような他の研究コミュニティとは対照的に、参加者の行動を動機づけ、パフォーマンスに報いる戦略として金銭的インセンティブ(すなわち、お金を払うこと)を使用する実験はごくわずかである。 最新のSIGSOFT Empirical Standardsでは、調査への参加の増加のためだけに、実際のモチベーションや実験の振る舞いを模倣するためではなく、支払いについて言及している。 本稿では、金融インセンティブの異なるスキームが開発者に与える影響を研究することによって、このギャップに対処する制御実験を報告する。 そこで我々はまず,(1)従業員が好むパフォーマンス依存型スキーム,(2)パフォーマンス非依存型スキーム,(3)オープンソース開発を模倣するスキームの3つのインセンティブを設計した実世界の金融インセンティブに関する調査を行った。 そして,これらの3つのスキームが参加者のパフォーマンスに与える影響について検討した。 提案手法は,ソフトウェア工学実験における参加者のパフォーマンスに影響を及ぼす可能性が示唆された。 サンプルサイズが小さいため、統計的に有意ではないが、それでも明らかな傾向が観察できる。 私たちのコントリビューションは、ファイナンシャルインセンティブが実験参加者や実世界のシナリオに与える影響を理解し、研究者が実験を設計し、開発者を補償する組織を指導する上で役立ちます。

In software-engineering research, many empirical studies are conducted with open-source or industry developers. However, in contrast to other research communities like economics or psychology, only few experiments use financial incentives (i.e., paying money) as a strategy to motivate participants' behavior and reward their performance. The most recent version of the SIGSOFT Empirical Standards mentions payouts only for increasing participation in surveys, but not for mimicking real-world motivations and behavior in experiments. Within this article, we report a controlled experiment in which we tackled this gap by studying how different financial incentivization schemes impact developers. For this purpose, we first conducted a survey on financial incentives used in the real-world, based on which we designed three incentivization schemes: (1) a performance-dependent scheme that employees prefer, (2) a scheme that is performance-independent, and (3) a scheme that mimics open-source development. Then, using a between-subject experimental design, we explored how these three schemes impact participants' performance. Our findings indicate that the different schemes can impact participants' performance in software-engineering experiments. Due to the small sample sizes, our results are not statistically significant, but we can still observe clear tendencies. Our contributions help understand the impact of financial incentives on participants in experiments as well as real-world scenarios, guiding researchers in designing experiments and organizations in compensating developers.
翻訳日:2024-09-18 06:00:45 公開日:2024-09-16
# ドメイン適応と半教師付き学習における因果性について:パラメトリックモデルの情報理論解析

On Causality in Domain Adaptation and Semi-Supervised Learning: an Information-Theoretic Analysis for Parametric Models ( http://arxiv.org/abs/2205.04641v2 )

ライセンス: Link先を確認
Xuetong Wu, Mingming Gong, Jonathan H. Manton, Uwe Aickelin, Jingge Zhu, (参考訳) 非教師なしドメイン適応(UDA)と半教師付き学習(SSL)の最近の進歩は、特に因果関係を取り入れたものであり、これらの学習問題において、重要な方法論的改善をもたらしている。 しかし、UDA/SSLの一般化性能における因果性の役割を説明する公式な理論は、いまだに欠落している。 本稿では、パラメトリック確率モデルを用いて、異なる因果的設定下でのトレーニングインスタンスとして、ラベル付きソースデータ$m$と非ラベル付きターゲットデータ$n$にアクセスするUDA/SSLシナリオについて考察する。 対象領域における予測の学習性能(過剰リスクなど)を情報理論の観点から検討する。 具体的には、2つのシナリオを区別する: 学習問題は、その特徴が原因であり、ラベルが効果である場合、因果学習と呼ばれ、それ以外の場合、反因果学習と呼ばれる。 因果学習では、ソースとターゲットドメイン間のラベル付け分布が変化しない場合のみ、$O(\frac{1}{m})$のレートでソースサンプルのサイズに依存する。 反因果学習では、非競合データが通常$O(\frac{1}{n})$の速度で性能を支配していることを示す。 これらの結果から,データサンプルサイズと,因果メカニズムの異なる学習課題の硬さの関係が明らかになった。

Recent advancements in unsupervised domain adaptation (UDA) and semi-supervised learning (SSL), particularly incorporating causality, have led to significant methodological improvements in these learning problems. However, a formal theory that explains the role of causality in the generalization performance of UDA/SSL is still lacking. In this paper, we consider the UDA/SSL scenarios where we access $m$ labelled source data and $n$ unlabelled target data as training instances under different causal settings with a parametric probabilistic model. We study the learning performance (e.g., excess risk) of prediction in the target domain from an information-theoretic perspective. Specifically, we distinguish two scenarios: the learning problem is called causal learning if the feature is the cause and the label is the effect, and is called anti-causal learning otherwise. We show that in causal learning, the excess risk depends on the size of the source sample at a rate of $O(\frac{1}{m})$ only if the labelling distribution between the source and target domains remains unchanged. In anti-causal learning, we show that the unlabelled data dominate the performance at a rate of typically $O(\frac{1}{n})$. These results bring out the relationship between the data sample size and the hardness of the learning problem with different causal mechanisms.
翻訳日:2024-09-18 06:00:45 公開日:2024-09-16
# オンライン変更検出のための指数窓における最大平均差

Maximum Mean Discrepancy on Exponential Windows for Online Change Detection ( http://arxiv.org/abs/2205.12706v3 )

ライセンス: Link先を確認
Florian Kalinke, Marco Heyden, Georg Gntuni, Edouard Fouché, Klemens Böhm, (参考訳) 変更を検出することは、データストリームを分析する場合の基本的重要性であり、予測保守、不正検出、医療など多くの応用がある。 変化を検出するための原則的なアプローチは、仮説テストを通じてストリーム内の観測の分布を互いに比較することである。 最大平均離散性(MMD)は、確率分布の空間上の(半)測度であり、カーネル富化領域上で強力な非パラメトリック2サンプルテストを提供する。 特に、MDDは穏やかな条件下で分布間の相違を検出することができる。 しかし、古典的MDD推定器は2次ランタイムの複雑さに悩まされ、データストリームにおける変更検出に直接使用される。 本稿では,MMDEW (Maximum Mean Discrepancy on Exponential Windows) と呼ばれる変更検出アルゴリズムを提案する。 MMDEWは多対数実行時と対数メモリの複雑さに優れており、ベンチマークデータストリームの最先端性よりも優れていることを実証的に証明する。

Detecting changes is of fundamental importance when analyzing data streams and has many applications, e.g., in predictive maintenance, fraud detection, or medicine. A principled approach to detect changes is to compare the distributions of observations within the stream to each other via hypothesis testing. Maximum mean discrepancy (MMD), a (semi-)metric on the space of probability distributions, provides powerful non-parametric two-sample tests on kernel-enriched domains. In particular, MMD is able to detect any disparity between distributions under mild conditions. However, classical MMD estimators suffer from a quadratic runtime complexity, which renders their direct use for change detection in data streams impractical. In this article, we propose a new change detection algorithm, called Maximum Mean Discrepancy on Exponential Windows (MMDEW), that combines the benefits of MMD with an efficient computation based on exponential windows. We prove that MMDEW enjoys polylogarithmic runtime and logarithmic memory complexity and show empirically that it outperforms the state of the art on benchmark data streams.
翻訳日:2024-09-18 06:00:45 公開日:2024-09-16
# MapReduceおよび適応複雑度モデルにおけるサイズ制約付き部分モジュラ最大化のためのスケーラブル分散アルゴリズム

Scalable Distributed Algorithms for Size-Constrained Submodular Maximization in the MapReduce and Adaptive Complexity Models ( http://arxiv.org/abs/2206.09563v6 )

ライセンス: Link先を確認
Yixin Chen, Tonmoy Dey, Alan Kuhnle, (参考訳) MapReduce(MR)モデルにおける部分モジュラ関数の分散最大化は大きな注目を集めており、これまで標準の欲求と連続的な欲求アルゴリズムで満たされていた一定の一貫性特性を満たさない限り、一元的アルゴリズムを近似を失わずにMR設定で実行可能にする2つのフレームワークに到達した。 適応的複雑性モデルにおいて、各スレッドが基底集合全体にアクセス可能な部分モジュラー最大化の並列化性について研究した。 単調および部分モジュラー関数のサイズ制約による最大化について、いくつかのサブ線形適応性(高並列化可能な)アルゴリズムがMR設定で動作するために必要な整合性を満たすことを示し、実用的で並列化可能な分散アルゴリズムが得られる。 本稿では,この問題に対する線形クエリの複雑さを考慮した分散アルゴリズムの開発を行う。 最後に,追加のMRラウンドを犠牲にして,MRアルゴリズムの最大濃度制約を増大させる手法を提案する。

Distributed maximization of a submodular function in the MapReduce (MR) model has received much attention, culminating in two frameworks that allow a centralized algorithm to be run in the MR setting without loss of approximation, as long as the centralized algorithm satisfies a certain consistency property -- which had previously only been known to be satisfied by the standard greedy and continous greedy algorithms. A separate line of work has studied parallelizability of submodular maximization in the adaptive complexity model, where each thread may have access to the entire ground set. For the size-constrained maximization of a monotone and submodular function, we show that several sublinearly adaptive (highly parallelizable) algorithms satisfy the consistency property required to work in the MR setting, which yields practical, parallelizable and distributed algorithms. Separately, we develop the first distributed algorithm with linear query complexity for this problem. Finally, we provide a method to increase the maximum cardinality constraint for MR algorithms at the cost of additional MR rounds.
翻訳日:2024-09-18 06:00:45 公開日:2024-09-16
# 時空間深部ネットワークにおける静的と動的情報の定量化と学習

Quantifying and Learning Static vs. Dynamic Information in Deep Spatiotemporal Networks ( http://arxiv.org/abs/2211.01783v2 )

ライセンス: Link先を確認
Matthew Kowal, Mennatullah Siam, Md Amirul Islam, Neil D. B. Bruce, Richard P. Wildes, Konstantinos G. Derpanis, (参考訳) 中間表現において、深部時空間モデルで捉えた情報の理解は限られている。 例えば、アクション認識アルゴリズムは単一のフレームの視覚的外観に大きく影響されているという証拠はあるが、潜在表現におけるそのような静的バイアスを評価するための定量的方法論は、ダイナミクスに対するバイアスと比較して存在しない。 本研究では,任意の時空間モデルの静的および動的バイアスを定量化するためのアプローチを提案し,そのアプローチを3つのタスク,アクション認識,自動ビデオオブジェクト分割(AVOS),ビデオインスタンス分割(VIS)に適用する。 私たちの主要な発見は次のとおりです。 (i)ほとんどの検査モデルは静的情報に偏っている。 (ii) 動的に偏りがあると仮定されるいくつかのデータセットは、実際には静的情報に対して偏りがある。 3) アーキテクチャ内の個々のチャネルは、静的、動的、あるいは2つの組み合わせに偏りがある。 (4)ほとんどのモデルは、トレーニングの前半で達成されるバイアスに収束します。 次に、これらのバイアスが動的バイアス付きデータセットのパフォーマンスにどのように影響するかを調査する。 動作認識のために,静的情報から動的情報へモデルを分離するセマンティックガイド付きドロップアウトであるStaticDropoutを提案する。 AVOSでは、従来のアーキテクチャと比較して、融合層とクロスコネクション層をうまく組み合わせて設計する。

There is limited understanding of the information captured by deep spatiotemporal models in their intermediate representations. For example, while evidence suggests that action recognition algorithms are heavily influenced by visual appearance in single frames, no quantitative methodology exists for evaluating such static bias in the latent representation compared to bias toward dynamics. We tackle this challenge by proposing an approach for quantifying the static and dynamic biases of any spatiotemporal model, and apply our approach to three tasks, action recognition, automatic video object segmentation (AVOS) and video instance segmentation (VIS). Our key findings are: (i) Most examined models are biased toward static information. (ii) Some datasets that are assumed to be biased toward dynamics are actually biased toward static information. (iii) Individual channels in an architecture can be biased toward static, dynamic or a combination of the two. (iv) Most models converge to their culminating biases in the first half of training. We then explore how these biases affect performance on dynamically biased datasets. For action recognition, we propose StaticDropout, a semantically guided dropout that debiases a model from static information toward dynamics. For AVOS, we design a better combination of fusion and cross connection layers compared with previous architectures.
翻訳日:2024-09-18 05:51:14 公開日:2024-09-16
# 平均アンサンブルを超える - サブシーズン予測のための気候モデルアンサンブルの活用

Beyond Ensemble Averages: Leveraging Climate Model Ensembles for Subseasonal Forecasting ( http://arxiv.org/abs/2211.15856v5 )

ライセンス: Link先を確認
Elena Orlova, Haokun Liu, Raphael Rossellini, Benjamin A. Cash, Rebecca Willett, (参考訳) 温暖化や降水などの重要な気候変数の季節下時間スケールにおける高品質な予測は、長年にわたって運用上の予測のギャップであった。 本研究では,機械学習モデル(ML)を時系列予測のための後処理ツールとして応用することを検討した。 大陸アメリカにおける月平均降水量と2週間前の2週間の気温を予測するために、タグ付き数値アンサンブル予測(すなわち、メンバーが初期化日が異なるアンサンブル)と観測データ(相対湿度、海面圧力、測地高度など)をMLの様々な手法に組み込む。 回帰、量子レグレッション、およびtercile分類タスクでは、線形モデル、ランダムフォレスト、畳み込みニューラルネットワーク、および積み重ねモデル(個々のMLモデルの予測に基づくマルチモデルアプローチ)を用いて検討する。 アンサンブルを単独で使用する従来のMLアプローチとは異なり、アンサンブル予測に埋め込まれた情報を活用して予測精度を向上させる。 さらに,計画や緩和に不可欠な極端な事象予測についても検討する。 アンサンブルメンバーを空間予測の集合として考慮し、空間情報を用いた様々なアプローチを探求する。 異なるアプローチ間のトレードオフは、モデルの積み重ねによって緩和される可能性がある。 提案手法は,気候予報やアンサンブル手段などの標準基準よりも優れている。 さらに,全アンサンブルを用いた場合とアンサンブル平均のみを用いた場合のトレードオフ,空間的変動を考慮した説明方法の相違について検討した。

Producing high-quality forecasts of key climate variables, such as temperature and precipitation, on subseasonal time scales has long been a gap in operational forecasting. This study explores an application of machine learning (ML) models as post-processing tools for subseasonal forecasting. Lagged numerical ensemble forecasts (i.e., an ensemble where the members have different initialization dates) and observational data, including relative humidity, pressure at sea level, and geopotential height, are incorporated into various ML methods to predict monthly average precipitation and two-meter temperature two weeks in advance for the continental United States. For regression, quantile regression, and tercile classification tasks, we consider using linear models, random forests, convolutional neural networks, and stacked models (a multi-model approach based on the prediction of the individual ML models). Unlike previous ML approaches that often use ensemble mean alone, we leverage information embedded in the ensemble forecasts to enhance prediction accuracy. Additionally, we investigate extreme event predictions that are crucial for planning and mitigation efforts. Considering ensemble members as a collection of spatial forecasts, we explore different approaches to using spatial information. Trade-offs between different approaches may be mitigated with model stacking. Our proposed models outperform standard baselines such as climatological forecasts and ensemble means. In addition, we investigate feature importance, trade-offs between using the full ensemble or only the ensemble mean, and different modes of accounting for spatial variability.
翻訳日:2024-09-18 05:51:14 公開日:2024-09-16
# 量子膨張器に関する一考察

A note on quantum expanders ( http://arxiv.org/abs/2302.07772v3 )

ライセンス: Link先を確認
Cécilia Lancien, Pierre Youssef, (参考訳) 少数のクラウス作用素を持つ広い種類のランダム量子チャネルが、いくつかのスパーシリティとモーメント仮定を持つランダム行列としてサンプリングされ、典型的には大きなスペクトルギャップを示し、従って最適な量子展開器であることを示す。 特に、我々の結果は、古典的(ランダムまたは決定論的)なものからランダムな量子展開器を構築するためのレシピを提供する。 これは、これまで少数の例に限られていた最適量子展開器の既知の構成のリストを大幅に拡大した。 我々の証明は、依存と非均一性を持つランダム行列の作用素ノルムの研究の最近の進歩に依存しており、量子情報のいくつかの領域でさらなる応用が期待できる。

We prove that a wide class of random quantum channels with few Kraus operators, sampled as random matrices with some sparsity and moment assumptions, typically exhibit a large spectral gap, and are therefore optimal quantum expanders. In particular, our result provides a recipe to construct random quantum expanders from their classical (random or deterministic) counterparts. This considerably enlarges the list of known constructions of optimal quantum expanders, which was previously limited to few examples. Our proofs rely on recent progress in the study of the operator norm of random matrices with dependence and non-homogeneity, which we expect to have further applications in several areas of quantum information.
翻訳日:2024-09-18 05:51:14 公開日:2024-09-16
# 動的2次元イオン結晶における高効率サイト分解イメージングとスピン状態検出

Efficient site-resolved imaging and spin-state detection in dynamic two-dimensional ion crystals ( http://arxiv.org/abs/2303.10801v4 )

ライセンス: Link先を確認
Robert N. Wolf, Joseph H. Pham, Julian Y. Z. Jee, Alexander Rischka, Michael J. Biercuk, (参考訳) 量子コンピューティング、シミュレーション、センシングにおいて、個々の捕捉されたイオンのスピン状態を高い忠実度で解き明かすことは、幅広い分野の応用にとって重要である。 本稿では, ハードウェア検出器と人工ニューラルネットワークを組み合わせた, トラップ領域に100個以上のイオンを閉じ込めた大型2次元(2次元)結晶の高忠実度状態判別法について報告する。 ペニングトラップ内の2D結晶の効率的な単発検出を行い、約25\,\mathrm{kHz}$で回転を示す。 次に、人工ニューラルネットワークをトレーニングして、回転結晶の残りのフレームで蛍光光子データを処理する。 最後に、時間結合状態検出法を用いて、平均スピン状態検出忠実度9,4(2)\%$に達する。 この手法は、数百個の閉じ込められたイオン量子ビットの配列における空間的および時間的相関を分析するのに使うことができる。

Resolving the locations and discriminating the spin states of individual trapped ions with high fidelity is critical for a large class of applications in quantum computing, simulation, and sensing. We report on a method for high-fidelity state discrimination in large two-dimensional (2D) crystals with over 100 trapped ions in a single trapping region, combining a hardware detector and an artificial neural network. A high-data-rate, spatially resolving, single-photon sensitive timestamping detector performs efficient single-shot detection of 2D crystals in a Penning trap, exhibiting rotation at about $25\,\mathrm{kHz}$. We then train an artificial neural network to process the fluorescence photon data in the rest frame of the rotating crystal in order to identify ion locations with a success rate of $~90\%$, accounting for substantial illumination inhomogeneity across the crystal. Finally, employing a time-binned state detection method, we arrive at an average spin-state detection fidelity of $94(2)\%$. This technique can be used to analyze spatial and temporal correlations in arrays of hundreds of trapped-ion qubits.
翻訳日:2024-09-18 05:51:14 公開日:2024-09-16
# 実現可能性保証付き2段階直流最適潮流の効率的な学習ベース解法

An Efficient Learning-Based Solver for Two-Stage DC Optimal Power Flow with Feasibility Guarantees ( http://arxiv.org/abs/2304.01409v2 )

ライセンス: Link先を確認
Ling Zhang, Daniel Tabas, Baosen Zhang, (参考訳) 本稿では,負荷が不確実性に直面している場合の最適かつ信頼性の高いディスパッチのためのシナリオベース2段階直流最適電力流(OPF)問題を考察する。 この問題は線形プログラムであるが、不確かさを正確に表現するのに必要なシナリオが多数存在するため、計算的に解決が困難である。 計算問題を緩和するため、より効率的に処理できるように第2段階の決定を近似する多くの手法が提案されている。 第二段階の決定を近似する適切なポリシーを見つける上での課題は、これらのソリューションが実現可能である必要があることである。 これらの課題に対処するために,より効率的かつ最適な方法で2段階問題の解法を提案する。 ゲージマップと呼ばれるテクニックが学習アーキテクチャ設計に組み込まれ、学習したソリューションがネットワークの制約に対して実現可能であることを保証する。 すなわち、フォワード関数をフィードし、実行可能なソリューションのみを出力するポリシーを設計できる。 標準IEEEシステムにおけるシミュレーションの結果,提案手法は反復解法と広く用いられているアフィンポリシーと比較して,良質な解を学習するだけでなく,桁違いの計算を高速化することを示した。

In this paper, we consider the scenario-based two-stage stochastic DC optimal power flow (OPF) problem for optimal and reliable dispatch when the load is facing uncertainty. Although this problem is a linear program, it remains computationally challenging to solve due to the large number of scenarios needed to accurately represent the uncertainties. To mitigate the computational issues, many techniques have been proposed to approximate the second-stage decisions so they can be dealt more efficiently. The challenge of finding good policies to approximate the second-stage decisions is that these solutions need to be feasible, which has been difficult to achieve with existing policies. To address these challenges, this paper proposes a learning method to solve the two-stage problem in a more efficient and optimal way. A technique called the gauge map is incorporated into the learning architecture design to guarantee the learned solutions' feasibility to the network constraints. Namely, we can design policies that are feed forward functions and only output feasible solutions. Simulation results on standard IEEE systems show that, compared to iterative solvers and the widely used affine policy, our proposed method not only learns solutions of good quality but also accelerates the computation by orders of magnitude.
翻訳日:2024-09-18 05:51:13 公開日:2024-09-16
# 相対論的重力ポテンシャルにおける量子時計の時間拡張

Time dilation of quantum clocks in a relativistic gravitational potential ( http://arxiv.org/abs/2304.04281v5 )

ライセンス: Link先を確認
Tommaso Favalli, Augusto Smerzi, (参考訳) 相対論的重力ポテンシャルと相互作用する2つの量子時計の動的進化を研究する。 一般相対性理論におけるシュワルツシルト解から得られる重力時間拡張と一致する時間拡張効果を求める。 我々は、Page and Wootters量子時間形式による調査を行う。 我々の枠組みから現れる重力赤方偏移も提案され議論されている。

We study the dynamical evolution of two quantum clocks interacting with a relativistic gravitational potential. We find a time dilation effect for the clocks in agreement with the gravitational time dilation as obtained from the Schwarzschild solution in General Relativity. We perform our investigation via the Page and Wootters quantum time formalism. The gravitational redshift, as emerging from our framework, is also proposed and discussed.
翻訳日:2024-09-18 05:51:13 公開日:2024-09-16
# コントラスト言語-画像事前学習の説明可能性について

A Closer Look at the Explainability of Contrastive Language-Image Pre-training ( http://arxiv.org/abs/2304.05653v2 )

ライセンス: Link先を確認
Yi Li, Hualiang Wang, Yiqun Duan, Jiheng Zhang, Xiaomeng Li, (参考訳) Contrastive Language-image Pre-training (CLIP)は、様々なタスクに対して大きなメリットを示す強力なビジョン言語モデルである。 しかし、その信頼性を損なうような説明可能性の問題や、関連するタスクのキャパシティの制限が指摘されている。 特に,CLIPは前景よりも背景領域に焦点をあてる傾向があり,可視化結果に無関係な位置でノイズが生じる傾向にある。 これらの現象は,クラスアテンションマップ(CAM)に基づく従来の説明可能性手法と矛盾する。 これらの問題に対処するために、アーキテクチャと機能について詳しく見ていきます。 徹底的な分析により、生の自己注意が一貫性のない意味領域に結びついていることが分かり、その逆の可視化結果となる。 さらに、ノイズのあるアクティベーションは、カテゴリ間の冗長な特徴のためである。 これらの知見に基づいて,従来のCAM法のように微調整を行なわずに,推論アーキテクチャや特徴に対する手術様の修正を可能にするCLIP surgery for reliable CAMを提案する。 このアプローチはCLIPの説明可能性を大幅に改善し、既存のメソッドを大きなマージンで上回る。 さらに、マルチモーダルな可視化を可能にし、余分なアライメントなしでオープン語彙タスクで生のCLIPのキャパシティを拡張する。 コードはhttps://github.com/xmed-lab/CLIP_Surgery.comで公開されている。

Contrastive language-image pre-training (CLIP) is a powerful vision-language model that has shown great benefits for various tasks. However, we have identified some issues with its explainability, which undermine its credibility and limit the capacity for related tasks. Specifically, we find that CLIP tends to focus on background regions rather than foregrounds, with noisy activations at irrelevant positions on the visualization results. These phenomena conflict with conventional explainability methods based on the class attention map (CAM), where the raw model can highlight the local foreground regions using global supervision without alignment. To address these problems, we take a closer look at its architecture and features. Based on thorough analyses, we find the raw self-attentions link to inconsistent semantic regions, resulting in the opposite visualization. Besides, the noisy activations are owing to redundant features among categories. Building on these insights, we propose the CLIP Surgery for reliable CAM, a method that allows surgery-like modifications to the inference architecture and features, without further fine-tuning as classical CAM methods. This approach significantly improves the explainability of CLIP, surpassing existing methods by large margins. Besides, it enables multimodal visualization and extends the capacity of raw CLIP on open-vocabulary tasks without extra alignment. The code is available at https://github.com/xmed-lab/CLIP_Surgery.
翻訳日:2024-09-18 05:51:13 公開日:2024-09-16
# 有限幅のカウンタモデルによる一階理論の問合せ可能性

Decidability of Querying First-Order Theories via Countermodels of Finite Width ( http://arxiv.org/abs/2304.06348v3 )

ライセンス: Link先を確認
Thomas Feller, Tim S. Lyon, Piotr Ostropolski-Nalewaja, Sebastian Rudolph, (参考訳) 本稿では, 構造的に単純で, 一定の幅の測度(木幅, 斜め幅など)で測れるカウンターモデルの存在に基づいて, 幅広い論理的包含問題の決定可能性を確立するための一般的な枠組みを提案する。 フレームワークの重要な特別なケースとして、幅が有限で普遍的なモデルセットを示す論理を識別し、多岐にわたる同型クローズドクエリに対する決定可能なエンテーメントを保証し、実用的なクエリ言語の多種多様なセットを仮定する。 特に強力な幅測度として,Blumensath の分割幅を用いることを提案する。 実存則の形式主義を一般的なショーケースとして取り上げ、有限分割幅の規則集合が、他の既知の抽象決定可能なクラスをサブスメイトするが、既存の成層概念を活用することにより、また、広範囲の新しい規則セットもカバーする。 我々は、有限ユニフィケーション集合のクラスを図形に適合させる自然な制限を露呈し、治療のためのいくつかの選択肢を提案する。

We propose a generic framework for establishing the decidability of a wide range of logical entailment problems (briefly called querying), based on the existence of countermodels that are structurally simple, gauged by certain types of width measures (with treewidth and cliquewidth as popular examples). As an important special case of our framework, we identify logics exhibiting width-finite finitely universal model sets, warranting decidable entailment for a wide range of homomorphism-closed queries, subsuming a diverse set of practically relevant query languages. As a particularly powerful width measure, we propose to employ Blumensath's partitionwidth, which subsumes various other commonly considered width measures and exhibits highly favorable computational and structural properties. Focusing on the formalism of existential rules as a popular showcase, we explain how finite partitionwidth sets of rules subsume other known abstract decidable classes but - leveraging existing notions of stratification - also cover a wide range of new rulesets. We expose natural limitations for fitting the class of finite unification sets into our picture and suggest several options for remedy.
翻訳日:2024-09-18 05:51:13 公開日:2024-09-16
# 離散幾何学空間におけるロバストクラスタリングのパラメータ近似

Parameterized Approximation for Robust Clustering in Discrete Geometric Spaces ( http://arxiv.org/abs/2305.07316v2 )

ライセンス: Link先を確認
Fateme Abbasi, Sandip Banerjee, Jarosław Byrka, Parinya Chalermsook, Ameet Gadekar, Kamyar Khodamoradi, Dániel Marx, Roohani Sharma, Joachim Spoerhase, (参考訳) 我々は、古典的な$k$-Median, $k$-Means, $k$-Center問題を一般化する、よく研究されたRobust $(k, z)$-Clustering問題を考える。 定数 $z\ge 1$ が与えられたとき、Robust $(k, z)$-Clustering への入力は、計量空間 $(M,\delta)$ における集合 $P$ of $n$ 重み付き点と正の整数 $k$ である。 さらに、各点は、多くの異なる群$S_1,S_2,\ldots,S_m$の1つ(またはそれ以上)に属する。 我々のゴールは、$\max_{i \in [m]} \sum_{p \in S_i} w(p) \delta(p,X)^z$ が最小となるような、$k$ の集合 $X$ を見つけることである。 この問題はロバスト最適化の領域(Anthony, Goyal, Gupta, Nagarajan, Math. Oper. Res. 2010)とアルゴリズムフェアネスの領域で発生する。 多項式時間計算の場合、$O(\log m/\log\log)の近似係数 m)$は[Makarychev, Vakilian, COLT 2021$]として知られています。 FPT時間には$(3^z+\epsilon)$-approximationアルゴリズムがあり、GAP-ETH(Goyal, Jaiswal, Inf. Proc. Letters, 2023)の下で厳密である。 一般的な離散的測度に対する厳密な下界によって動機付けられ、(離散的な)高次元ユークリッドの設定や低倍次元の測度など、データ解析の応用において重要な役割を担っている。 まず、普遍定数 $\eta_0 >0.0006$ に対して、離散高次元ユークリッド空間に対する3^z(1-\eta_{0})$-factor FPT近似アルゴリズムを考案し、一般計量に対する下界をバイパスする。 この結果は、次元 $\Theta(\log) の $k$-Center の特別な場合でさえも、この結果を補完する。 n)$ is $(\sqrt{3/2}-o(1))$-hard to almost for FPT algorithm。 最後に, FPT $(1+\epsilon)$-approximation scheme (EPAS) を設計することにより, FPT近似環境を完成させる。

We consider the well-studied Robust $(k, z)$-Clustering problem, which generalizes the classic $k$-Median, $k$-Means, and $k$-Center problems. Given a constant $z\ge 1$, the input to Robust $(k, z)$-Clustering is a set $P$ of $n$ weighted points in a metric space $(M,\delta)$ and a positive integer $k$. Further, each point belongs to one (or more) of the $m$ many different groups $S_1,S_2,\ldots,S_m$. Our goal is to find a set $X$ of $k$ centers such that $\max_{i \in [m]} \sum_{p \in S_i} w(p) \delta(p,X)^z$ is minimized. This problem arises in the domains of robust optimization [Anthony, Goyal, Gupta, Nagarajan, Math. Oper. Res. 2010] and in algorithmic fairness. For polynomial time computation, an approximation factor of $O(\log m/\log\log m)$ is known [Makarychev, Vakilian, COLT $2021$], which is tight under a plausible complexity assumption even in the line metrics. For FPT time, there is a $(3^z+\epsilon)$-approximation algorithm, which is tight under GAP-ETH [Goyal, Jaiswal, Inf. Proc. Letters, 2023]. Motivated by the tight lower bounds for general discrete metrics, we focus on \emph{geometric} spaces such as the (discrete) high-dimensional Euclidean setting and metrics of low doubling dimension, which play an important role in data analysis applications. First, for a universal constant $\eta_0 >0.0006$, we devise a $3^z(1-\eta_{0})$-factor FPT approximation algorithm for discrete high-dimensional Euclidean spaces thereby bypassing the lower bound for general metrics. We complement this result by showing that even the special case of $k$-Center in dimension $\Theta(\log n)$ is $(\sqrt{3/2}- o(1))$-hard to approximate for FPT algorithms. Finally, we complete the FPT approximation landscape by designing an FPT $(1+\epsilon)$-approximation scheme (EPAS) for the metric of sub-logarithmic doubling dimension.
翻訳日:2024-09-18 03:58:31 公開日:2024-09-16
# ゼロThreshold PT-Symmetric Polariton-Ramanレーザー

A Zero-Threshold PT-Symmetric Polariton-Raman Laser ( http://arxiv.org/abs/2305.17475v4 )

ライセンス: Link先を確認
Avijit Dhara, Pritam Das, Devarshi Chakrabarty, Kritika Ghosh, Ayan Roy Chaudhuri, Sajal Dhara, (参考訳) 非エルミートフレームワークにおけるパリティ時間(PT)対称性は、レーザーモード選択、非相互光伝搬、偏光光スイッチ、高感度センシングなどの光学分野の多くの応用に利用することができる。 ここでは、偏光選択的光ポンピングにより、PT対称性破壊相における異方性光マイクロキャビティにおいて、ゼロ閾値ラマンレーザーが達成可能であることを示す。 2つの分極ストークスモード間の損失利得機構は、偏光依存的散乱と微小キャビティ内の活性層物質の異方性ラマンゲインによって自然に生じる。 異方性微小キャビティにおける刺激されたラマン過程の顕微鏡理論は、様々な温度で我々の結果をうまく説明し、提案された量子PT対称ハミルトンのパラメータを予測できた。 ゼロ閾値ラマンレーザーの実現と、異方性マイクロキャビティにおける刺激ラマン散乱の理論は、量子フォトニクスや情報に応用するための効率的な量子周波数変換器のような新しい技術の発展に繋がる。

Parity-time (PT) symmetry in a non-Hermitian framework can be harnessed for numerous applications in optics such as laser mode selection, non-reciprocal light propagation, polaritonic optical switches, and enhanced sensing. Here we show a zero-threshold Raman laser can be achieved in an anisotropic optical microcavity in the PT-symmetry broken phase via polarization selective optical pumping. A loss-gain mechanism between two polarized Stokes modes arises naturally via polarization dependent stimulated scattering and anisotropic Raman gain of the active layered material inside the microcavity. A microscopic theory of stimulated Raman process in anisotropic microcavity successfully explains our results at various temperatures and enabled us to predict the parameters of a proposed quantum PT-symmetric Hamiltonian. Our realization of the zero-threshold Raman laser and the proposed theory of stimulated Raman scattering in anisotropic microcavity can lead to future development of novel technologies such as efficient quantum frequency converters for applications in quantum photonics and information.
翻訳日:2024-09-18 03:58:31 公開日:2024-09-16
# CCE:信頼度制御によるロボットナビゲーションのための効率的なスパースリワード政策学習

CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration ( http://arxiv.org/abs/2306.06192v7 )

ライセンス: Link先を確認
Bhrij Patel, Kasun Weerakoon, Wesley A. Suttle, Alec Koppel, Brian M. Sadler, Tianyi Zhou, Amrit Singh Bedi, Dinesh Manocha, (参考訳) 本稿では,ロボットナビゲーションなどのスパース報酬設定のための強化学習(RL)アルゴリズムのトレーニングサンプル効率を高めるための新しい探索手法である信頼性制御探索(CCE)を紹介する。 スパース報酬はRLで一般的であり、設計と実装に便利であるが、探索の課題のために対処するのが通常困難である。 既存の手法では、探索課題に対処するための正規化ベースの手法が展開されている。 しかし、正規化は報酬関数自体を変更するため、探索と搾取のバランスを特徴付けることは困難である。 既存の文献における正規化に基づくアプローチとは対照的に、我々のアプローチであるCCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。 CCEは、探索を制御するために訓練中に使用される勾配更新のサンプル数を動的に調整する。 興味深いことに、CCEは既存のオン・ポリティクスとオフ・ポリティクスのRL手法の両方に適用でき、この手法を3つの一般的なRL手法(REINFORCE, Proximal Policy Optimization (PPO),Soft Actor-Critic (SAC))に対して実証的に有効性を示す。 我々は,サンプル予算を制約する場合に,一定の軌道長とエントロピー正規化を用いる従来の手法よりもCCEの方が優れる実世界のシミュレーション実験を通して実証する。 固定されたサンプル予算では、CCEは航法成功率18\%、航法パス長20-38\%、高架コスト9.32\%を達成している。 さらに,CCEをClearpath Huskyロボットに統合し,複雑な屋外環境に適用可能であることを示す。

We introduce Confidence-Controlled Exploration (CCE), a novel exploration scheme designed to enhance the training sample efficiency of reinforcement learning (RL) algorithms for sparse reward settings such as robot navigation. Sparse rewards are common in RL and convenient to design and implement, but typically hard to deal with due to the challenges of exploration. Existing methods deploy regularization-based methods to deal with the exploration challenges. However, it is hard to characterize the balance between exploration and exploitation because regularization modifies the reward function itself, hence changing the objective we are optimizing for. In contrast to regularization-based approaches in the existing literature, our approach, CCE, is based on a novel relationship we provide between gradient estimation and policy entropy. CCE dynamically adjusts the number of samples of the gradient update used during training to control exploration. Interestingly, CCE can be applied to both existing on-policy and off-policy RL methods, which we demonstrate by empirically validating its efficacy on three popular RL methods: REINFORCE, Proximal Policy Optimization (PPO), and Soft Actor-Critic (SAC) for goal-reaching robotic navigation tasks. We demonstrate through simulated and real-world experiments that CCE outperforms conventional methods that employ constant trajectory lengths and entropy regularization when constraining the sample budget. For a fixed sample budget, CCE achieves an 18\% increase in navigation success rate, a 20-38\% reduction in navigation path length, and a 9.32\% decrease in elevation costs. Furthermore, we showcase the versatility of CCE by integrating it with the Clearpath Husky robot, illustrating its applicability in complex outdoor environments.
翻訳日:2024-09-18 03:58:31 公開日:2024-09-16
# 重力が測定時に量子実体として働くかどうかをテストする

Testing whether gravity acts as a quantum entity when measured ( http://arxiv.org/abs/2307.08133v4 )

ライセンス: Link先を確認
Farhan Hanif, Debarshi Das, Jonathan Halliwell, Dipankar Home, Anupam Mazumdar, Hendrik Ulbricht, Sougato Bose, (参考訳) 古典システムの決定的なシグネチャは、外乱のない「原理的可測性(in principle measurability)」であり、量子システムによって明らかに違反される特徴である。 本稿では,空間的重畳磁場の非古典性を明らかにするためのマルチインターフェロメーター実験装置について述べる。 1つの干渉計が磁場を発生させる間、他の干渉計は重ね合わせによって生じる重力場を測定するために使用される。 これは、非古典的な重力の特定の形式や、任意の段階における関連する自由度の間の絡み合いの発生を必要としないため、これまで提案された実験と区別できる。 このテストは、近年の絡み合いウィットネスに基づく提案に加えられたとき、重力でテストされている量子公準の領域を拡大する。 さらに、提案試験では、有限個のデコヒーレンス率に対して量子測定誘導障害の符号が得られ、デバイス独立である。

A defining signature of classical systems is "in principle measurability" without disturbance: a feature manifestly violated by quantum systems. We describe a multi-interferometer experimental setup that can, in principle, reveal the nonclassicality of a spatial superposition-sourced gravitational field if an irreducible disturbance is caused by a measurement of gravity. While one interferometer sources the field, the others are used to measure the gravitational field created by the superposition. This requires neither any specific form of nonclassical gravity, nor the generation of entanglement between any relevant degrees of freedom at any stage, thus distinguishing it from the experiments proposed so far. This test, when added to the recent entanglement-witness based proposals, enlarges the domain of quantum postulates being tested for gravity. Moreover, the proposed test yields a signature of quantum measurement induced disturbance for any finite rate of decoherence, and is device independent.
翻訳日:2024-09-18 03:47:44 公開日:2024-09-16
# 複素数を持つ論理ゲートについて

On Logic Gates with Complex Numbers ( http://arxiv.org/abs/2307.12905v5 )

ライセンス: Link先を確認
M. W. AlMasri, (参考訳) 論理ゲートは複素微分作用素の言葉で書くことができ、入力と出力は複数の変数を持つ正則函数である。 複素数の極表現を用いて、系の振動挙動と論理ゲートの間の即時接続に到達する。 様々な計算システムにおけるこの形式主義の普遍性について論じる。

Logic gates can be written in terms of complex differential operators, where the inputs and outputs are holomorphic functions with several variables. Using the polar representation of complex numbers, we arrive at an immediate connection between the oscillatory behavior of the system and logic gates. We discuss the universality of this formalism in a variety of computing systems.
翻訳日:2024-09-18 03:47:44 公開日:2024-09-16
# 開シュウィンガーモデルのリウヴィリア動力学:熱媒質中の弦の破断と運動散逸

Liouvillian Dynamics of the Open Schwinger Model: String Breaking and Kinetic Dissipation in a Thermal Medium ( http://arxiv.org/abs/2308.03878v5 )

ライセンス: Link先を確認
Kyle Lee, James Mulligan, Felix Ringer, Xiaojun Yao, (参考訳) 境界状態形成の力学を理解することは、量子クロモダイナミックス(QCD)のような量子場理論の収束における基本的な問題の一つである。 重要な注目を集めたハドロン化機構の1つは、最初にフェルミオンと反フェルミオンを接続する弦の破断である。 シュウィンガーモデルのようなより単純で低次元のモデルでリアルタイムの弦破れ力学の理解を深めることにより、凝縮物質や統計システムで見られるQCDやその他の凝縮系におけるハドロン化過程の理解を深めることができる。 本稿では、Schwingerモデル内の弦破れ力学を考察し、熱媒質内での変化を考察し、Schwingerモデルを熱環境に結合したオープン量子システムとして扱う。 システムと環境の弱い結合状態の中で、システムのリアルタイム進化はリンドブラッド進化方程式によって記述できる。 このリンドブラッド方程式のリウヴィリアンギャップと系のフォン・ノイマンエントロピーの時間依存性を解析する。 環境相関長の増大に伴い, 遅延緩和速度が低下することが観察された。 さらに、環境相関長が無限の場合、系は2つの定常状態を示す。 初期弦が真空中で破れてしまうパラメータ状態に対しては, 速度論的散逸の影響により, 媒体内の弦の破れの遅れが観察される。 逆に、真空時間進化において初期弦がそのまま残る状態においては、熱媒体内の弦の破れ(融解)が観察される。 さらに、オープンシュウィンガーモデルのリウヴィリア動力学が量子コンピュータ上でどのようにシミュレートできるかを議論し、関連するトロッター誤差を推定する。

Understanding the dynamics of bound state formation is one of the fundamental questions in confining quantum field theories such as Quantum Chromodynamics (QCD). One hadronization mechanism that has garnered significant attention is the breaking of a string initially connecting a fermion and an anti-fermion. Deepening our understanding of real-time string-breaking dynamics with simpler, lower dimensional models like the Schwinger model can improve our understanding of the hadronization process in QCD and other confining systems found in condensed matter and statistical systems. In this paper, we consider the string-breaking dynamics within the Schwinger model and investigate its modification inside a thermal medium, treating the Schwinger model as an open quantum system coupled to a thermal environment. Within the regime of weak coupling between the system and environment, the real-time evolution of the system can be described by a Lindblad evolution equation. We analyze the Liouvillian gaps of this Lindblad equation and the time dependence of the system's von Neumann entropy. We observe that the late-time relaxation rate decreases as the environment correlation length increases. Moreover, when the environment correlation length is infinite, the system exhibits two steady states, one in each of the sectors with definite charge-conjugation-parity (CP) quantum numbers. For parameter regimes where an initial string breaks in vacuum, we observe a delay of the string breaking in the medium, due to kinetic dissipation effects. Conversely, in regimes where an initial string remains intact in vacuum time evolution, we observe string breaking (melting) in the thermal medium. We further discuss how the Liouvillian dynamics of the open Schwinger model can be simulated on quantum computers and provide an estimate of the associated Trotter errors.
翻訳日:2024-09-18 03:47:44 公開日:2024-09-16
# AD-CLIP: CLIP を用いたプロンプト空間でのドメイン適応

AD-CLIP: Adapting Domains in Prompt Space Using CLIP ( http://arxiv.org/abs/2308.05659v2 )

ライセンス: Link先を確認
Mainak Singha, Harsh Pal, Ankit Jha, Biplab Banerjee, (参考訳) ディープラーニングモデルは教師付き学習タスクに顕著なパフォーマンスを示してきたが、トレーニング(ソース)とテスト(ターゲット)のドメインが異なる場合、よく一般化するのに苦労することが多い。 非教師なしドメイン適応(DA)は、この問題に対する一般的な解決策として現れている。 しかし、現在のDA手法は視覚的なバックボーンに依存しており、セマンティック・リッチネスが欠如している可能性がある。 CLIPのような大規模ヴィジュアル言語基盤モデルの可能性にもかかわらず、DAの有効性はまだ十分に検討されていない。 このギャップに対処するために,CLIPのドメインに依存しないプロンプト学習戦略である \textsc{AD-CLIP} を導入する。 我々はCLIPの凍結した視覚バックボーンを利用して画像スタイル(ドメイン)とコンテンツ情報を抽出し、プロンプトトークンを学習する。 我々のプロンプトは、画像スタイルとコンテンツの特徴を同時に学習することで、ドメイン不変でクラス一般化できるように設計されている。 我々は、ソース領域における標準教師付きコントラスト学習を使用し、対象ドメインデータに与えられた埋め込み空間内のドメインをアライメントするエントロピー最小化戦略を提案する。 また、ソースドメインデータなしで、テスト中にのみ対象ドメインサンプルが利用可能となるシナリオについても検討し、ドメインに依存しないトークンを幻覚するクロスドメインスタイルマッピングネットワークを提案する。 3つのベンチマーク DA データセットに対する広範な実験により,既存の文献と比較して textsc{AD-CLIP} の有効性が示された。 コードは \url{https://github.com/mainaksingha01/AD-CLIP} で入手できる。

Although deep learning models have shown impressive performance on supervised learning tasks, they often struggle to generalize well when the training (source) and test (target) domains differ. Unsupervised domain adaptation (DA) has emerged as a popular solution to this problem. However, current DA techniques rely on visual backbones, which may lack semantic richness. Despite the potential of large-scale vision-language foundation models like CLIP, their effectiveness for DA has yet to be fully explored. To address this gap, we introduce \textsc{AD-CLIP}, a domain-agnostic prompt learning strategy for CLIP that aims to solve the DA problem in the prompt space. We leverage the frozen vision backbone of CLIP to extract both image style (domain) and content information, which we apply to learn prompt tokens. Our prompts are designed to be domain-invariant and class-generalizable, by conditioning prompt learning on image style and content features simultaneously. We use standard supervised contrastive learning in the source domain, while proposing an entropy minimization strategy to align domains in the embedding space given the target domain data. We also consider a scenario where only target domain samples are available during testing, without any source domain data, and propose a cross-domain style mapping network to hallucinate domain-agnostic tokens. Our extensive experiments on three benchmark DA datasets demonstrate the effectiveness of \textsc{AD-CLIP} compared to existing literature. Code is available at \url{https://github.com/mainaksingha01/AD-CLIP}
翻訳日:2024-09-18 03:47:44 公開日:2024-09-16
# 注意行列のトポロジカル解析による変圧器の予測の不確かさの推定

Uncertainty Estimation of Transformers' Predictions via Topological Analysis of the Attention Matrices ( http://arxiv.org/abs/2308.11295v2 )

ライセンス: Link先を確認
Elizaveta Kostenok, Daniil Cherniavskii, Alexey Zaytsev, (参考訳) ディープラーニングモデルの予測における信頼度の決定は、自然言語処理の分野におけるオープンな問題である。 不確実性推定の古典的手法のほとんどは、テキスト分類モデルにおいて非常に弱い。 そこで我々は,Transformerアーキテクチャに基づくニューラルネットワークの不確実性推定を行うタスクを設定した。 このようなモデルの重要な特徴は、ニューラルネットワーク内のトークンの隠された表現間の情報フローをサポートするアテンションメカニズムである。 本研究では、トポロジカルデータ解析手法を用いて、内部表現間の関係を定式化し、モデルの信頼度を予測する。 本稿では,注意機構の位相特性に基づく不確実性推定手法を提案し,従来の手法と比較する。 その結果,提案アルゴリズムは既存の手法を上回り,アテンション機構の新たな適用領域を開くが,トポロジ的特徴の選択が必要である。

Determining the degree of confidence of deep learning model in its prediction is an open problem in the field of natural language processing. Most of the classical methods for uncertainty estimation are quite weak for text classification models. We set the task of obtaining an uncertainty estimate for neural networks based on the Transformer architecture. A key feature of such mo-dels is the attention mechanism, which supports the information flow between the hidden representations of tokens in the neural network. We explore the formed relationships between internal representations using Topological Data Analysis methods and utilize them to predict model's confidence. In this paper, we propose a method for uncertainty estimation based on the topological properties of the attention mechanism and compare it with classical methods. As a result, the proposed algorithm surpasses the existing methods in quality and opens up a new area of application of the attention mechanism, but requires the selection of topological features.
翻訳日:2024-09-18 03:47:44 公開日:2024-09-16
# 高次元クラスター状態を用いた資源効率フォトニック量子計算

Resource-efficient photonic quantum computation with high-dimensional cluster states ( http://arxiv.org/abs/2309.10464v2 )

ライセンス: Link先を確認
Ohad Lib, Yaron Bromberg, (参考訳) 量子コンピュータは科学とテクノロジーに革命をもたらすが、その実現はあらゆるプラットフォームで困難である。 スケーラビリティへの有望な経路はフォトニックな計測に基づく量子計算であり、大規模なクラスタ状態の単一量子ビット計測とフィードフォワードは、フォールトトレラントな量子計算を可能にする。 しかし、検出確率は、状態を構成する光子の数とともに指数関数的に低下するため、高い速度で大きなクラスター状態を生成することは、非常に難しい。 我々は、高次元空間符号化により各光子上の複数の量子ビットを符号化し、100Hzの速度で9量子ビットを超えるクラスター状態を生成することで、この問題に対処する。 さらに、高次元符号化は、同じ光子に符号化された量子ビット間の即時フィードフォワードを可能にすることにより、計算時間を大幅に短縮することを示した。 本研究は,高次元エンタングルメントを用いた資源効率測定に基づく量子計算の道を開くものである。

Quantum computers can revolutionize science and technology, but their realization remains challenging across all platforms. A promising route to scalability is photonic measurement-based quantum computation, where single-qubit measurements on large cluster states, together with feedforward, enable fault-tolerant quantum computation. However, generating large cluster states at high rates is notoriously difficult, as detection probabilities drop exponentially with the number of photons comprising the state. We tackle this challenge by encoding multiple qubits on each photon through high-dimensional spatial encoding, generating cluster states with over nine qubits at a rate of 100Hz. Additionally, we demonstrate that high-dimensional encoding substantially reduces the computation duration by enabling instantaneous feedforward between qubits encoded in the same photon. Our findings pave the way for resource-efficient measurement-based quantum computation using high-dimensional entanglement.
翻訳日:2024-09-18 03:47:44 公開日:2024-09-16
# 密閉型遠隔ゲートを用いたクビットルーティングの改善

Improving Qubit Routing by Using Entanglement Mediated Remote Gates ( http://arxiv.org/abs/2309.13141v2 )

ライセンス: Link先を確認
Gurleen Padda, Edwin Tham, Aharon Brodutch, Dave Touchette, (参考訳) 短期量子コンピュータは接続の制約、すなわちデバイス内の量子ビットのペアが相互作用できる制限を持つことが多い。 これらの制約の下で量子回路をハードウェアトポロジーに最適にマッピングすることは難しい課題である。 キュービットルーティングを最適化するための多くのアプローチが提案されているが、多くの近距離デバイスにおけるキュービットの短距離結合のため、コンパイルされた回路のゲート数と深さオーバーヘッドは高いままである。 Bell や Einstein-Podolsky-Rosen (EPR) のような資源状態は、キュービット間の長距離相互作用を促進する操作の仲介に使うことができる。 本研究では,資源状態を用いたキュービットルーティングの実践的トレードオフについて検討した。 我々は,既存の最先端コンパイラを利用して,標準ゲートとEPR経由の遠隔制御NOTゲートの両方で回路のルーティングを最適化する手法を開発した。 これはその後、正方形グリッドトポロジーのために異なるベンチマーク回路をコンパイルするために使用され、そこではキュービットのごく一部がEPRペアを保存するために使用される。 実運用上のオーバーヘッドを考慮に入れた最適化コンパイラを使用すれば,EPRによる操作により,コンパイルされた回路のゲート数や深さの総数を大幅に削減できることを示す。 本結果は,EPRによる操作を統合可能な効率的なコンパイルツールの開発との関連性を強調した。

Near-term quantum computers often have connectivity constraints, i.e. restrictions, on which pairs of qubits in the device can interact. Optimally mapping a quantum circuit to a hardware topology under these constraints is a difficult task. While numerous approaches have been proposed to optimize qubit routing, the resulting gate count and depth overheads of the compiled circuits remain high due to the short-range coupling of qubits in many near-term devices. Resource states, such as Bell or Einstein-Podolsky-Rosen (EPR) pairs, can be used to mediate operations that facilitate long-range interactions between qubits. In this work, we studied some of the practical trade-offs involved in using resource states for qubit routing. We developed a method that leverages an existing state-of-the-art compiler to optimize the routing of circuits with both standard gates and EPR mediated remote controlled-NOT gates. This was then used to compile different benchmark circuits for a square grid topology, where a fraction of the qubits are used to store EPR pairs. We demonstrate that EPR-mediated operations can substantially reduce the total number of gates and depths of compiled circuits when used with an appropriate optimizing compiler that accounts for practical overheads. Our results highlight the relevance of developing efficient compilation tools that can integrate EPR-mediated operations.
翻訳日:2024-09-18 03:37:26 公開日:2024-09-16
# DRIFT:Intelligent Floating Platforms Trajectoriesのための深層強化学習

DRIFT: Deep Reinforcement Learning for Intelligent Floating Platforms Trajectories ( http://arxiv.org/abs/2310.04266v2 )

ライセンス: Link先を確認
Matteo El-Hariry, Antoine Richard, Vivek Muralidharan, Matthieu Geist, Miguel Olivares-Mendez, (参考訳) 本研究は, シミュレーション環境と実環境の両方において, 浮遊プラットフォームを制御するための, 深層強化学習ベースのスイートを提案する。 フローティングプラットフォームは、地球上の微小重力環境をエミュレートするための汎用的なテストベッドとして機能し、宇宙アプリケーションのための自律航法システムをテストするのに有用である。 本研究は,動的かつ予測不能な条件下での精密な操作が可能な訓練方針により,このようなプラットフォーム制御におけるシステムと環境の不確実性に対処する。 深層強化学習(DRL)技術を活用することで,我々のスイートは,シミュレーションから現実への堅牢性,適応性,良好な伝達性を実現する。 我々の深層強化学習フレームワークは、高速トレーニング時間、大規模テスト機能、リッチな可視化オプション、実世界のロボットシステムとの統合のためのROSバインディングなどの利点を提供します。 私たちのスイートはオープンアクセスなので、同様の研究をシミュレーションされた環境や研究室で再現したいと考える実践者のための総合的なプラットフォームとして役立ちます。

This investigation introduces a novel deep reinforcement learning-based suite to control floating platforms in both simulated and real-world environments. Floating platforms serve as versatile test-beds to emulate micro-gravity environments on Earth, useful to test autonomous navigation systems for space applications. Our approach addresses the system and environmental uncertainties in controlling such platforms by training policies capable of precise maneuvers amid dynamic and unpredictable conditions. Leveraging Deep Reinforcement Learning (DRL) techniques, our suite achieves robustness, adaptability, and good transferability from simulation to reality. Our deep reinforcement learning framework provides advantages such as fast training times, large-scale testing capabilities, rich visualization options, and ROS bindings for integration with real-world robotic systems. Being open access, our suite serves as a comprehensive platform for practitioners who want to replicate similar research in their own simulated environments and labs.
翻訳日:2024-09-18 03:37:26 公開日:2024-09-16
# 量子コンピュータにおけるトポロジカルセクター最適化の探索

Exploring the topological sector optimization on quantum computers ( http://arxiv.org/abs/2310.04291v3 )

ライセンス: Link先を確認
Yi-Ming Ding, Yan-Cheng Wang, Shi-Xin Zhang, Zheng Yan, (参考訳) 最適化問題は、科学と工学の多くの分野における中核的な課題であるが、最適解を探索するための一般的かつ効果的な手法は乏しい。 例えば、断熱進化に基づく量子アニール法(QA)は、D波のアニールやライドバーグアレイのような量子シミュレータ上で広く研究され、うまく実装されている。 本研究では、量子多体物理学コミュニティにおいて特に関心を惹きつけるトポロジカルセクター最適化(TSO)問題について検討する。 スピンモデルにおけるフラストレーションによって引き起こされるトポロジーは、QAや他の従来の手法が基底状態に近づくための固有の障害であることが明らかとなった。 TSO問題の最適化の難しさはギャップレス性に限らず,従来の最適化問題の解析では無視されるトポロジカルな性質に起因していることを示す。 TSO問題を解くために、量子コンピュータ上で実現可能な量子想像時間進化(QITE)を利用し、量子重ね合わせの性質を利用してヒルベルト空間全体を探索し、トポロジカルな性質の最適化問題に対処する。 本稿では、TSO問題に対する異なる量子最適化アルゴリズムの性能について報告し、実際のQITE実装に必要な量子計算資源を考慮しても、最適化問題に対処する能力が異なることを示した。

Optimization problems are the core challenge in many fields of science and engineering, yet general and effective methods are scarce for searching optimal solutions. Quantum computing has been envisioned to help solve such problems, for example, the quantum annealing (QA) method based on adiabatic evolution has been extensively explored and successfully implemented on quantum simulators such as D-wave's annealers and some Rydberg arrays. In this work, we investigate topological sector optimization (TSO) problem, which attracts particular interests in the quantum many-body physics community. We reveal that the topology induced by frustration in the spin model is an intrinsic obstruction for QA and other traditional methods to approach the ground state. We demonstrate that the optimization difficulties of TSO problem are not restricted to the gaplessness, but are also due to the topological nature which are often ignored for the analysis of optimization problems before. To solve TSO problems, we utilize quantum imaginary time evolution (QITE) with a possible realization on quantum computers, which exploits the property of quantum superposition to explore the full Hilbert space and can thus address optimization problems of topological nature. We report the performance of different quantum optimization algorithms on TSO problems and demonstrate that their capability to address optimization problems are distinct even when considering the quantum computational resources required for practical QITE implementations.
翻訳日:2024-09-18 03:37:26 公開日:2024-09-16
# 足ロボットのための完全スパイクニューラルネットワーク

Fully Spiking Neural Network for Legged Robots ( http://arxiv.org/abs/2310.05022v3 )

ライセンス: Link先を確認
Xiaoyang Jiang, Qiang Zhang, Jingkai Sun, Jiahang Cao, Jingtong Ma, Renjing Xu, (参考訳) 深部強化学習を用いた脚ロボットの最近の進歩は大きな進歩をもたらした。 四足歩行ロボットは挑戦的な環境で複雑なタスクをこなせる一方、二足歩行ロボットやヒューマノイドロボットもブレークスルーを達成した。 現在の強化学習法では、多様なロボット体と過去の情報を活用して行動を行うが、これまでの研究では、ネットワーク推論の速度とエネルギー消費と、ニューラルネットワークの生物学的意義を強調していなかった。 ほとんどのネットワークは、多層パーセプトロン(MLP)を利用する従来のニューラルネットワークである。 本稿では,足歩行ロボットのための新しいスパイキングニューラルネットワーク(SNN)を提案する。 SNNは推論速度とエネルギー消費において自然な利点を提供し、そのパルス形式処理は生物学的解釈可能性を高める。 本研究では,他の学習モデルにシームレスに統合可能な脚付きロボットのための高効率SNNを提案する。

Recent advancements in legged robots using deep reinforcement learning have led to significant progress. Quadruped robots can perform complex tasks in challenging environments, while bipedal and humanoid robots have also achieved breakthroughs. Current reinforcement learning methods leverage diverse robot bodies and historical information to perform actions, but previous research has not emphasized the speed and energy consumption of network inference and the biological significance of neural networks. Most networks are traditional artificial neural networks that utilize multilayer perceptrons (MLP). This paper presents a novel Spiking Neural Network (SNN) for legged robots, showing exceptional performance in various simulated terrains. SNNs provide natural advantages in inference speed and energy consumption, and their pulse-form processing enhances biological interpretability. This study presents a highly efficient SNN for legged robots that can be seamless integrated into other learning models.
翻訳日:2024-09-18 03:37:26 公開日:2024-09-16
# 自律型サイバー作戦のための深層強化学習

Deep Reinforcement Learning for Autonomous Cyber Operations: A Survey ( http://arxiv.org/abs/2310.07745v2 )

ライセンス: Link先を確認
Gregory Palmer, Chris Parry, Daniel J. B. Harrold, Chris Willis, (参考訳) 近年のサイバー攻撃の急増により、ネットワークを悪意ある行為者から守るための原則的な方法の必要性が高まっている。 深層強化学習(DRL)はこれらの攻撃を緩和するための有望なアプローチである。 しかし、DRLはサイバー防衛の可能性をかなり示しているが、DRLが大規模に自律型サイバーオペレーション(ACO)に適用されるまでには、多くの課題が克服されなければならない。 原理的手法は,高次元状態空間,大規模多面的行動空間,対人学習など,学習者と対面する環境において必要である。 最近の研究は、これらの問題を個別に解決することに成功していると報告している。 また、リアルタイム戦略ゲームのために3つすべてを解決するための素晴らしいエンジニアリング努力も行われている。 しかし、完全なACO問題にDRLを適用することは、依然としてオープンな課題である。 本稿では、DRLに関する文献を調査し、理想化されたACO-DRLエージェントを概念化する。 以下に示す。 ) ACO問題を定義するドメインプロパティの要約。 4) DRLアプローチのベンチマークに使用される現在のACO環境を総合的に比較した。 DRLを学習者に対して次元性の呪いに直面する領域に拡張するための最先端アプローチの概要,および, iv。 2ACOの観点から、敵国におけるエージェントの搾取可能性を制限するための現在の方法の調査及び批判。 我々は、ACOに携わる研究者や実践者に将来の方向性を動機付けることを願っているオープンリサーチの質問で締めくくります。

The rapid increase in the number of cyber-attacks in recent years raises the need for principled methods for defending networks against malicious actors. Deep reinforcement learning (DRL) has emerged as a promising approach for mitigating these attacks. However, while DRL has shown much potential for cyber defence, numerous challenges must be overcome before DRL can be applied to autonomous cyber operations (ACO) at scale. Principled methods are required for environments that confront learners with very high-dimensional state spaces, large multi-discrete action spaces, and adversarial learning. Recent works have reported success in solving these problems individually. There have also been impressive engineering efforts towards solving all three for real-time strategy games. However, applying DRL to the full ACO problem remains an open challenge. Here, we survey the relevant DRL literature and conceptualize an idealised ACO-DRL agent. We provide: i.) A summary of the domain properties that define the ACO problem; ii.) A comprehensive comparison of current ACO environments used for benchmarking DRL approaches; iii.) An overview of state-of-the-art approaches for scaling DRL to domains that confront learners with the curse of dimensionality, and; iv.) A survey and critique of current methods for limiting the exploitability of agents within adversarial settings from the perspective of ACO. We conclude with open research questions that we hope will motivate future directions for researchers and practitioners working on ACO.
翻訳日:2024-09-18 03:37:26 公開日:2024-09-16
# ラベル付き検証データの存在下での異常検出器のモデル選択

Model Selection of Anomaly Detectors in the Absence of Labeled Validation Data ( http://arxiv.org/abs/2310.10461v3 )

ライセンス: Link先を確認
Clement Fung, Chen Qiu, Aodong Li, Maja Rudolph, (参考訳) 異常検出は、大きなラベルのないデータセットで異常サンプルを識別するタスクである。 基礎モデルの出現は、強力なゼロショット異常検出方法を生み出しているが、実際には、ラベル付きバリデーションデータが欠如しているため、その検出性能を確実に評価することはできない。 本研究では,画像に基づく異常検出をラベル付き検証データなしで選択するための汎用フレームワークSWSAを提案する。 ラベル付き検証データを収集する代わりに、通常の画像の小さなサポートセットのみを用いて、トレーニングや微調整なしに合成異常を生成する。 我々の合成異常は、モデル選択のための検証フレームワークを構成する検出タスクを作成するために使用される。 本研究では,画像に基づく異常検出装置のモデル選択と,CLIPに基づく異常検出の迅速な選択という,3種類の合成異常と2つの選択タスクによるSWSAの評価を行った。 SWSAは、しばしばモデルを選択し、ベースライン選択戦略よりも優れた、地道な検証セットで選択された選択にマッチするように促す。

Anomaly detection is the task of identifying abnormal samples in large unlabeled datasets. While the advent of foundation models has produced powerful zero-shot anomaly detection methods, their deployment in practice is often hindered by the absence of labeled validation data -- without it, their detection performance cannot be evaluated reliably. In this work, we propose SWSA (Selection With Synthetic Anomalies): a general-purpose framework to select image-based anomaly detectors without labeled validation data. Instead of collecting labeled validation data, we generate synthetic anomalies without any training or fine-tuning, using only a small support set of normal images. Our synthetic anomalies are used to create detection tasks that compose a validation framework for model selection. In an empirical study, we evaluate SWSA with three types of synthetic anomalies and on two selection tasks: model selection of image-based anomaly detectors and prompt selection for CLIP-based anomaly detection. SWSA often selects models and prompts that match selections made with a ground-truth validation set, outperforming baseline selection strategies.
翻訳日:2024-09-18 03:37:26 公開日:2024-09-16
# Rydberg atomtronic device

Rydberg atomtronic devices ( http://arxiv.org/abs/2310.18242v2 )

ライセンス: Link先を確認
Philip Kitson, Tobias Haug, Antonino La Magna, Oliver Morsch, Luigi Amico, (参考訳) ライドバーグ原子のネットワークは量子シミュレータや量子技術に強力な基盤を提供する。 物質波微視学に触発されて、スイッチ、ダイオード、普遍論理ゲートを設計しました。 提案手法は, 反遮断機構やファシリテーション機構を通じてリドベルク励起力学を制御し, 低温原子系に比べてはるかに高速なデバイスを実現する。 我々のアプローチはノイズに対して堅牢であり、個別に閉じ込められた原子や広範囲な3次元気体にも適用できる。 エレクトロニクスと類似して、Rydberg atomtronic devicesは量子情報プロセッサと量子シミュレータを強化することを約束している。

Networks of Rydberg atoms provide a powerful basis for quantum simulators and quantum technologies. Inspired by matter-wave atomtronics, here we engineer switches, diodes and universal logic gates. Our schemes control the Rydberg excitation dynamics via the anti-blockade or facilitation mechanism, allowing for much faster devices compared to cold atom systems. Our approach is robust to noise and can be applied to individually trapped atoms and extensive three-dimensional gases. In analogy to electronics, Rydberg atomtronic devices promise to enhance quantum information processors and quantum simulators.
翻訳日:2024-09-18 03:37:26 公開日:2024-09-16
# 雑音密度符号化プロトコルによるセキュア情報取引における次元的優位性

Dimensional advantage in secure information trading via the noisy dense coding protocol ( http://arxiv.org/abs/2310.20688v2 )

ライセンス: Link先を確認
Ayan Patra, Rivu Gupta, Tamoghna Das, Aditi Sen De, (参考訳) セキュリティ機能を持たない量子密度符号化(DC)プロトコルは、単一送信者と単一受信機との間の共有絡みを利用して、量子状態に符号化された古典情報の伝送を扱う。 その適切な変種は、2量子ビットの最大絡み合い状態の量子鍵分布(QKD)スキームとして確立され、相補的可観測物の不確実性関係とショアプレスキル絡み合い浄化スキームを利用したセキュリティ証明が確立されている。 我々は、高次元システムのためのDCベースのQKDプロトコルを提案し、共有状態が2量子最大の絡み合い状態である場合、秘密鍵レートの低い境界を報告し、異なるランクの最大絡み合い状態の混合を報告する。 この分析には、エンコーディング前後のセキュアなキーレートに対するノイズチャネルの影響も含まれている。 ノイズのないシナリオとノイズの多いシナリオの両方において、ノイズに対するプロトコルのロバスト性とともに、鍵レートが寸法とともに増加することを実証する。 さらに、DCベースのQKDプロトコルにおける無駄な状態の集合が凸かつコンパクトであることを証明する。

The quantum dense coding (DC) protocol, which has no security feature, deals with the transmission of classical information encoded in a quantum state by using shared entanglement between a single sender and a single receiver. Its appropriate variant has been established as a quantum key distribution (QKD) scheme for shared two-qubit maximally entangled states, with the security proof utilizing the uncertainty relation of complementary observables and the Shor-Preskill entanglement purification scheme. We present the DC-based QKD protocol for higher dimensional systems and report the lower bounds on secret key rate, when the shared state is a two-qudit maximally entangled state, and mixtures of maximally entangled states with different ranks. The analysis also includes the impact of noisy channels on the secure key rates, before and after encoding. In both the noiseless and the noisy scenarios, we demonstrate that the key rate as well as the robustness of the protocol against noise increases with the dimension. Further, we prove that the set of useless states in the DC-based QKD protocol is convex and compact.
翻訳日:2024-09-18 03:37:26 公開日:2024-09-16
# GMISeg:再検査なしの一般医用画像分割

GMISeg: General Medical Image Segmentation without Re-Training ( http://arxiv.org/abs/2311.12539v5 )

ライセンス: Link先を確認
Jing Xu, (参考訳) 深層学習モデルは医用画像セグメンテーションの主要な方法となっている。 しかし、新しい解剖学的構造、ラベル、形状を含む未知のタスクに一般化することはしばしば困難である。 これらのケースでは、新しいタスクのためにモデルを再トレーニングする必要があります。 ここでは、未知の医用画像分割タスクを、追加の訓練を必要とせずに解決できる汎用モデルを開発した。 GMISeg(General Medical Image Segmentation)は、新しいセグメンテーションタスクを定義するための画像と視覚的プロンプトの例として、ViTに基づいてトレーニング済みのイメージエンコーダを活用し、プロンプトエンコーダとマスクデコーダに低ランクの微調整戦略を適用し、効率的な方法でモデルを微調整する。 本手法は, 画像量や解剖学的構造が異なる医用画像データセットに対して, 提案手法の性能評価を行った。 提案手法は,学習済みのAIモデルを,ユーザフレンドリな方法で新たなセグメンテーション作業に展開することを容易にする。

Deep learning models have become the dominant method for medical image segmentation. However, they often struggle to be generalisable to unknown tasks involving new anatomical structures, labels, or shapes. In these cases, the model needs to be re-trained for the new tasks, posing a significant challenge for non-machine learning experts and requiring a considerable time investment. Here I developed a general model that can solve unknown medical image segmentation tasks without requiring additional training. Given an example set of images and visual prompts for defining new segmentation tasks, GMISeg (General Medical Image Segmentation) leverages a pre-trained image encoder based on ViT and applies a low-rank fine-tuning strategy to the prompt encoder and mask decoder to fine-tune the model without in an efficient manner. I evaluated the performance of the proposed method on medical image datasets with different imaging modalities and anatomical structures. The proposed method facilitated the deployment of pre-trained AI models to new segmentation works in a user-friendly way.
翻訳日:2024-09-18 03:27:25 公開日:2024-09-16
# ブラックホール放射の絡み合い非対称性の研究

An entanglement asymmetry study of black hole radiation ( http://arxiv.org/abs/2311.12683v2 )

ライセンス: Link先を確認
Filiberto Ares, Sara Murciano, Lorenzo Piroli, Pasquale Calabrese, (参考訳) ホーキングは、ブラックホールが放射光によって蒸発するという発見は、時間とともに重力の量子論の基本的な指標となったという多くの疑問を提起している。 最も有名なものは情報パラドックスであり、これはブラックホールとその放射がランダムな量子ビットの状態によって効果的に表現できることを示すページの議論においてエレガントな説明である。 同じ仮定を活用すれば、ブラックホールが創発対称性を示すことができる範囲を考慮し、交絡非対称性を対称性の破れの現代的情報に基づく指標として利用することができる。 任意の対称性を欠いたランダムな状態に対して、$U(1)$対称性が出現し、ページ時間前の熱力学的極限に正確に一致することが分かる。 ページ時間において、絡み合う非対称性は大きな値への有限ジャンプを示す。 その結果, 放射光はページ時間まで対称であり, 急激な遷移を経験していることが示唆された。 逆に、ブラックホールはページ時間後にのみ対称である。

Hawking's discovery that black holes can evaporate through radiation emission has posed a number of questions that with time became fundamental hallmarks for a quantum theory of gravity. The most famous one is likely the information paradox, which finds an elegant explanation in the Page argument suggesting that a black hole and its radiation can be effectively represented by a random state of qubits. Leveraging the same assumption, we ponder the extent to which a black hole may display emergent symmetries, employing the entanglement asymmetry as a modern, information-based indicator of symmetry breaking. We find that for a random state devoid of any symmetry, a $U(1)$ symmetry emerges and it is exact in the thermodynamic limit before the Page time. At the Page time, the entanglement asymmetry shows a finite jump to a large value. Our findings imply that the emitted radiation is symmetric up to the Page time and then undergoes a sharp transition. Conversely the black hole is symmetric only after the Page time.
翻訳日:2024-09-18 03:27:25 公開日:2024-09-16
# 推定平均値とデータ適応予測

Assumption-Lean and Data-Adaptive Post-Prediction Inference ( http://arxiv.org/abs/2311.14220v4 )

ライセンス: Link先を確認
Jiacheng Miao, Xinran Miao, Yixuan Wu, Jiwei Zhao, Qiongshi Lu, (参考訳) 現代の科学研究に直面する主な課題は、金標準データの入手が限られていることである。 機械学習(ML)の急速な開発により、研究者はMLアルゴリズムを使用して、入手しやすい変数で金標準結果を予測することができる。 しかしながら、これらの予測結果は、予測手順によって導入された不正確性や不均一性を無視した、その後の統計分析で直接使用されることが多い。 これはおそらく偽陽性の発見と無効な科学的結論をもたらすだろう。 本稿では,ML予測データに基づく有効かつ強力な推論を可能にするPoSt-Prediction Adaptive Inference (PSPA)を提案する。 その「推定リーン」特性は、ML予測に関する仮定なしで信頼できる統計的推測を保証する。 データ適応型(data-adaptive)"機能は、ML予測の正確性に関わらず、既存のメソッドよりも効率性の向上を保証する。 シミュレーションと実データによる手法の統計的優位性と適用性を示す。

A primary challenge facing modern scientific research is the limited availability of gold-standard data which can be costly, labor-intensive, or invasive to obtain. With the rapid development of machine learning (ML), scientists can now employ ML algorithms to predict gold-standard outcomes with variables that are easier to obtain. However, these predicted outcomes are often used directly in subsequent statistical analyses, ignoring imprecision and heterogeneity introduced by the prediction procedure. This will likely result in false positive findings and invalid scientific conclusions. In this work, we introduce PoSt-Prediction Adaptive inference (PSPA) that allows valid and powerful inference based on ML-predicted data. Its "assumption-lean" property guarantees reliable statistical inference without assumptions on the ML prediction. Its "data-adaptive" feature guarantees an efficiency gain over existing methods, regardless of the accuracy of ML prediction. We demonstrate the statistical superiority and broad applicability of our method through simulations and real-data applications.
翻訳日:2024-09-18 03:27:25 公開日:2024-09-16
# DreamVideo:画像の保持とテキスト誘導機能を備えた高忠実な画像合成

DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance ( http://arxiv.org/abs/2312.03018v4 )

ライセンス: Link先を確認
Cong Wang, Jiaxi Gu, Panwen Hu, Songcen Xu, Hang Xu, Xiaodan Liang, (参考訳) 参照画像からビデオを生成することを目的とした画像対ビデオ生成が注目されている。 既存の方法は、事前訓練されたテキスト誘導画像拡散モデルから画像誘導映像生成モデルへの拡張を試みる。 しかしながら、これらの手法は、浅い画像誘導と時間的整合性に限界があるため、低忠実度または時間的変動をもたらすことが多い。 これらの問題に対処するために,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。 参照画像をセマンティックレベルで拡散処理に統合する代わりに、DreamVideoはコンボリューション層を通じて参照画像を認識し、ノイズの多いラテントをモデル入力として特徴を結合する。 これにより、参照画像の詳細を最大限に保存することができる。 さらに、二条件分類器フリーガイダンスを組み込むことで、異なるプロンプトテキストを提供することで、異なるアクションのビデオに単一のイメージを向けることができる。 これは、制御可能なビデオ生成に重要な意味を持ち、幅広い応用の見通しを持っている。 我々は,公開データセットの総合的な実験を行い,定量的および定性的な結果から,本手法が最先端の手法より優れていることを示す。 特に忠実度では,このモデルには強力な画像保持能力があり,他の画像から映像までのモデルと比較して,UCF101で最高の結果が得られる。 また、異なるテキストプロンプトを与えることで、正確な制御が可能となる。 我々のモデルの詳細と包括的な結果はhttps://anonymous0769.github.io/DreamVideo/.com/で発表されます。

Image-to-video generation, which aims to generate a video starting from a given reference image, has drawn great attention. Existing methods try to extend pre-trained text-guided image diffusion models to image-guided video generation models. Nevertheless, these methods often result in either low fidelity or flickering over time due to their limitation to shallow image guidance and poor temporal consistency. To tackle these problems, we propose a high-fidelity image-to-video generation method by devising a frame retention branch based on a pre-trained video diffusion model, named DreamVideo. Instead of integrating the reference image into the diffusion process at a semantic level, our DreamVideo perceives the reference image via convolution layers and concatenates the features with the noisy latents as model input. By this means, the details of the reference image can be preserved to the greatest extent. In addition, by incorporating double-condition classifier-free guidance, a single image can be directed to videos of different actions by providing varying prompt texts. This has significant implications for controllable video generation and holds broad application prospects. We conduct comprehensive experiments on the public dataset, and both quantitative and qualitative results indicate that our method outperforms the state-of-the-art method. Especially for fidelity, our model has a powerful image retention ability and delivers the best results in UCF101 compared to other image-to-video models to our best knowledge. Also, precise control can be achieved by giving different text prompts. Further details and comprehensive results of our model will be presented in https://anonymous0769.github.io/DreamVideo/.
翻訳日:2024-09-18 03:27:25 公開日:2024-09-16
# 還元された相対エントロピーの境界

Bounds for the reduced relative entropies ( http://arxiv.org/abs/2312.03778v2 )

ライセンス: Link先を確認
Shigeru Furuichi, Frank Hansen, (参考訳) 縮小された相対エントロピーの下位境界は、変動式を用いて与えられる。 還元されたツァリス相対エントロピーが定義され、いくつかの結果が与えられる。 特に、還元されたTsallis相対エントロピーの凸性を得る。 最後に、還元されたツァリス相対エントロピーの上界が与えられる。

A lower bound of the reduced relative entropy is given by the use of a variational expression. The reduced Tsallis relative entropy is defined and some results are given. In particular, the convexity of the reduced Tsallis relative entropy is obtained. Finally, an upper bound of the reduced Tsallis relative entropy is given.
翻訳日:2024-09-18 03:27:25 公開日:2024-09-16
# MS-Twins:医療画像セグメンテーションのためのマルチスケールディープセルフアテンションネットワーク

MS-Twins: Multi-Scale Deep Self-Attention Networks for Medical Image Segmentation ( http://arxiv.org/abs/2312.07128v5 )

ライセンス: Link先を確認
Jing Xu, (参考訳) 自然言語処理ではトランスフォーマーが好まれているが、近年では医療画像の分野でのみ応用されている研究もある。 長期的な依存のために、トランスフォーマーは、伝統的な畳み込みニューラルネットが固有の空間誘導バイアスを克服するのに寄与することが期待されている。 近年提案されている変換器ベースセグメンテーション法は,グローバルコンテキストを畳み込み表現に符号化するための補助モジュールとしてのみ変換器を使用する。 自己意識と畳み込みを最適に統合する方法は、まだ深く研究されていない。 そこで本研究では,MS-Twins(Multi-Scale Twins)を提案する。 MS-Twinsは、さまざまなスケールとカスケード機能を組み合わせることで、セマンティックおよびきめ細かい情報をよりよくキャプチャできる。 既存のネットワーク構造と比較すると、MS-TwinsはSynapseとACDCの2つの共通利用データセットの変換器に基づいて従来の手法を進歩させてきた。 特に、Synapse上でのMS-TwinsのパフォーマンスはSwinUNetよりも8%高い。 Synapse と ACDC における MS-Twins のパフォーマンスは,完全に複雑な医療画像セグメンテーションネットワークである nnUNet と比較しても,まだ多少の優位性がある。

Although transformer is preferred in natural language processing, some studies has only been applied to the field of medical imaging in recent years. For its long-term dependency, the transformer is expected to contribute to unconventional convolution neural net conquer their inherent spatial induction bias. The lately suggested transformer-based segmentation method only uses the transformer as an auxiliary module to help encode the global context into a convolutional representation. How to optimally integrate self-attention with convolution has not been investigated in depth. To solve the problem, this paper proposes MS-Twins (Multi-Scale Twins), which is a powerful segmentation model on account of the bond of self-attention and convolution. MS-Twins can better capture semantic and fine-grained information by combining different scales and cascading features. Compared with the existing network structure, MS-Twins has made progress on the previous method based on the transformer of two in common use data sets, Synapse and ACDC. In particular, the performance of MS-Twins on Synapse is 8% higher than SwinUNet. Even compared with nnUNet, the best entirely convoluted medical image segmentation network, the performance of MS-Twins on Synapse and ACDC still has a bit advantage.
翻訳日:2024-09-18 03:17:40 公開日:2024-09-16
# 回路QEDにおける非相互分散モデルのためのツールボックス

Toolbox for nonreciprocal dispersive models in circuit QED ( http://arxiv.org/abs/2312.08354v3 )

ライセンス: Link先を確認
Lautaro Labarca, Othmane Benhayoune-Khadraoui, Alexandre Blais, Adrian Parra-Rodriguez, (参考訳) 本稿では, カプラを特徴付け, 有効結合パラメータと減衰率を用いて, 一般散逸のない非相反線形系に結合した弱非調和超伝導回路を記述するために, 効果的分散型リンドブラッドマスター方程式を構築するための体系的手法を提案する。 本稿では, インピーダンス応答によって記述された線形相互結合子に対する Solgun et al (2019) の基礎的作業を拡張する。 ここでは、既存のツールボックスを拡張して、非相互要素を組み込むとともに、送電ポート間の直接の格子結合を考慮し、潜在的な特異点を回避し、共通の浴との相互作用から生じる散逸的相互作用を含める。 本研究は, マルチポート非相互環境と消散ポートに結合した弱非調和ジョセフソン接合回路を用いて, 実験結果について述べる。 ここで得られた結果は、量子情報の非自明なルーティングを持つ複雑な超伝導量子プロセッサの設計や、凝縮物質系のアナログ量子シミュレータの設計に利用できる。

We provide a systematic method for constructing effective dispersive Lindblad master equations to describe weakly-anharmonic superconducting circuits coupled by a generic dissipationless nonreciprocal linear system, with effective coupling parameters and decay rates written in terms of the immittance parameters characterizing the coupler. This article extends the foundational work of Solgun et al. (2019) for linear reciprocal couplers described by an impedance response. Here, we expand the existing toolbox to incorporate nonreciprocal elements, account for direct stray coupling between immittance ports, circumvent potential singularities, and include dissipative interactions arising from interaction with a common bath. We illustrate the use of our results with a circuit of weakly-anharmonic Josephson junctions coupled to a multiport nonreciprocal environment and a dissipative port. The results obtained here can be used for the design of complex superconducting quantum processors with non-trivial routing of quantum information, as well as analog quantum simulators of condensed matter systems.
翻訳日:2024-09-18 03:17:40 公開日:2024-09-16
# 等方性フォトニック結晶中のV型原子の量子コヒーレンスと量子フィッシャー情報のダイナミクス

Dynamics of Quantum Coherence and Quantum Fisher Information of a V-type Atom in Isotropic Photonic Crystal ( http://arxiv.org/abs/2312.09910v2 )

ライセンス: Link先を確認
Ghafar Ahmadi, Shahpoor Saeidian, Ghasem Naeimi, (参考訳) 自由空間やフォトニックバンドギャップ結晶に埋め込まれたV型3レベル原子の量子フィッシャー情報の時間進化、量子コヒーレンス、非マルコビアン性について検討した。 フォトニックバンドギャップ結晶は、構造された環境として、これらの量子的特徴の保存と強化に大きな影響を与えることが示されている。 さらに、原子状態に符号化された初期相対位相値と、禁止されたギャップ内の上層階の相対位置を操作することにより、量子的特徴のダイナミクスを制御できることが観察された。 これらの知見は、量子系におけるフォトニックバンドギャップ結晶の利用による潜在的な利点を強調し、量子情報の保存と操作を改善した。 量子機能を制御する能力は、量子情報処理および関連する技術への応用のための新しい道を開く。

The time evolution of quantum Fisher information, quantum coherence, and non-Markovianity of a V-type three-level atom embedded in free space or a photonic band gap crystal have been investigated. It has been demonstrated that the photonic band gap crystal, as a structured environment, significantly influences the preservation and enhancement of these quantum features. Additionally, we observe that by manipulating the initial relative phase values encoded in the atomic state and the relative positions of the upper levels within the forbidden gap, control over the dynamics of quantum features can be achieved. These findings highlight the potential benefits of utilizing photonic band gap crystals in quantum systems, offering improved preservation and manipulation of quantum information. The ability to control quantum features opens new avenues for applications in quantum information processing and related technologies.
翻訳日:2024-09-18 03:17:40 公開日:2024-09-16
# Manydepth2:動的シーンにおける動きを考慮した自己スーパービジョン単眼深度推定

Manydepth2: Motion-Aware Self-Supervised Monocular Depth Estimation in Dynamic Scenes ( http://arxiv.org/abs/2312.15268v2 )

ライセンス: Link先を確認
Kaichen Zhou, Jia-Wang Bian, Qian Xie, Jian-Qing Zheng, Niki Trigoni, Andrew Markham, (参考訳) 自己監督型単分子深度推定の進歩にもかかわらず、静的世界に関する仮定に依存するため、動的なシナリオでは課題が持続する。 本稿では,動的対象と静的背景の両方の正確な深さ推定を実現するために,移動誘導コストボリューム深度ネットであるManddepth2を提案する。 動的コンテンツによって引き起こされる課題に対処するために、光学フローと粗い単分子深度を取り入れて、新しい静的参照フレームを作成する。 このフレームを使用して、目標フレームと協調してモーションガイド付きコストボリュームを構築する。 さらに,ネットワーク構造の精度とレジリエンスを高めるため,様々な解像度で特徴マップからの情報を効果的に統合する注目型ディープネットアーキテクチャを導入する。 同様の計算コストの手法と比較して、Multedepth2は、KITTI-2015データセット上での自己教師付き単眼深度推定において、ルート平均二乗誤差を約5%削減する。 コードは:https://github.com/kaichen-z/Manydepth2

Despite advancements in self-supervised monocular depth estimation, challenges persist in dynamic scenarios due to the dependence on assumptions about a static world. In this paper, we present Manydepth2, a Motion-Guided Cost Volume Depth Net, to achieve precise depth estimation for both dynamic objects and static backgrounds, all while maintaining computational efficiency. To tackle the challenges posed by dynamic content, we incorporate optical flow and coarse monocular depth to create a novel static reference frame. This frame is then utilized to build a motion-guided cost volume in collaboration with the target frame. Additionally, to enhance the accuracy and resilience of the network structure, we introduce an attention-based depth net architecture to effectively integrate information from feature maps with varying resolutions. Compared to methods with similar computational costs, Manydepth2 achieves a significant reduction of approximately five percent in root-mean-square error for self-supervised monocular depth estimation on the KITTI-2015 dataset. The code could be found: https://github.com/kaichen-z/Manydepth2
翻訳日:2024-09-18 03:17:40 公開日:2024-09-16
# フェデレーション・コンテクスト・バンドにおけるフェデレーション・ラーニングの力の調和

Harnessing the Power of Federated Learning in Federated Contextual Bandits ( http://arxiv.org/abs/2312.16341v2 )

ライセンス: Link先を確認
Chengshuai Shi, Ruida Zhou, Kun Yang, Cong Shen, (参考訳) フェデレーテッド・ラーニング(FL)は、分散機械学習に革命をもたらす大きな可能性を示しており、教師付きラーニングに焦点を絞るだけでなく、それを拡張するための多大な努力が続けられている。 多くの方向において、FLとシーケンシャルな意思決定の重要な統合であるFCB(Federated contextual bandits)が近年注目されている。 かなりの進歩にもかかわらず、既存のFCBアプローチは、しばしば標準FLフレームワークから逸脱する、カスタマイズされたFLコンポーネントを主に採用している。 したがって、FedAvgのような有名なアルゴリズムでさえ、他のFLの進歩はもちろん、FCBでは未利用のままである。 この切断に動機づけられたこの研究は、標準FL研究とFCB研究との密接な関係を構築するための一歩を踏み出した。 特に、回帰に基づくCBアルゴリズム、すなわち逆ギャップ重み付けを活用するために、FedIGWと呼ばれる新しいFCB設計が提案されている。 既存のFCBアプローチと比較して、提案されたFedIGW設計は、(1)既存のFLプロトコルの柔軟な組み込み、(2)パフォーマンス保証におけるFL分析のモジュール化されたプラグイン、(3)パーソナライズ、堅牢性、プライバシなど)FLアペンダのシームレスな統合など、FLイノベーションのスペクトル全体を活用することができる。 我々は厳密な理論的分析と経験的評価を通じてこれらの主張を裏付ける。

Federated learning (FL) has demonstrated great potential in revolutionizing distributed machine learning, and tremendous efforts have been made to extend it beyond the original focus on supervised learning. Among many directions, federated contextual bandits (FCB), a pivotal integration of FL and sequential decision-making, has garnered significant attention in recent years. Despite substantial progress, existing FCB approaches have largely employed their tailored FL components, often deviating from the canonical FL framework. Consequently, even renowned algorithms like FedAvg remain under-utilized in FCB, let alone other FL advancements. Motivated by this disconnection, this work takes one step towards building a tighter relationship between the canonical FL study and the investigations on FCB. In particular, a novel FCB design, termed FedIGW, is proposed to leverage a regression-based CB algorithm, i.e., inverse gap weighting. Compared with existing FCB approaches, the proposed FedIGW design can better harness the entire spectrum of FL innovations, which is concretely reflected as (1) flexible incorporation of (both existing and forthcoming) FL protocols; (2) modularized plug-in of FL analyses in performance guarantees; (3) seamless integration of FL appendages (such as personalization, robustness, and privacy). We substantiate these claims through rigorous theoretical analyses and empirical evaluations.
翻訳日:2024-09-18 03:17:40 公開日:2024-09-16
# 境界注意: 学習曲線、コーナー、ジャンクション、グループ化

Boundary Attention: Learning curves, corners, junctions and grouping ( http://arxiv.org/abs/2401.00935v3 )

ライセンス: Link先を確認
Mia Gaia Polansky, Charles Herrmann, Junhwa Hur, Deqing Sun, Dor Verbin, Todd Zickler, (参考訳) 我々は、曲線、角、ジャンクションを含むグループ化と境界を推論する軽量なネットワークを提案する。 ボトムアップ方式で動作し、サブピクセルのエッジローカライゼーションとエッジリンクの古典的な手法に似ているが、局所境界構造の高次元表現と、設計ではなく学習される局所スケールと空間一貫性の概念がある。 我々のネットワークは境界アテンションと呼ばれるメカニズムを用いており、幾何対応の局所アテンション演算は、濃密かつ繰り返し適用されると、画像内のすべての重なり合うパッチにおける境界構造を規定する変数のピクセル分解能場を徐々に洗練する。 ラスタ化バイナリエッジマップを生成する多くのエッジ検出器とは異なり、我々のモデルは、各局所領域における幾何学的構造のリッチで未ラスタ化されていない表現を提供する。 意図的な幾何学的バイアスは、単純な合成形状で訓練し、ノイズの多い低照度写真から境界を抽出するように一般化することができる。

We present a lightweight network that infers grouping and boundaries, including curves, corners and junctions. It operates in a bottom-up fashion, analogous to classical methods for sub-pixel edge localization and edge-linking, but with a higher-dimensional representation of local boundary structure, and notions of local scale and spatial consistency that are learned instead of designed. Our network uses a mechanism that we call boundary attention: a geometry-aware local attention operation that, when applied densely and repeatedly, progressively refines a pixel-resolution field of variables that specify the boundary structure in every overlapping patch within an image. Unlike many edge detectors that produce rasterized binary edge maps, our model provides a rich, unrasterized representation of the geometric structure in every local region. We find that its intentional geometric bias allows it to be trained on simple synthetic shapes and then generalize to extracting boundaries from noisy low-light photographs.
翻訳日:2024-09-18 03:17:40 公開日:2024-09-16
# VideoStudio: 一貫性のあるマルチシーンビデオを生成する

VideoStudio: Generating Consistent-Content and Multi-Scene Videos ( http://arxiv.org/abs/2401.01256v2 )

ライセンス: Link先を確認
Fuchen Long, Zhaofan Qiu, Ting Yao, Tao Mei, (参考訳) 拡散モデルにおける最近の革新とブレークスルーは、与えられたプロンプトに対して高品質なビデオを生成する可能性を大幅に拡大した。 既存の作業の多くは、単一のバックグラウンドで1つのビデオイベントしか発生しない、ワンシーンシナリオに取り組みます。 それでもマルチシーンビデオを生成するのは簡単ではなく、ビデオシーン全体のキーコンテンツの一貫した視覚的外観を保ちながら、ロジックを適切に管理する必要がある。 本稿では,一貫したコンテンツとマルチシーンのビデオ生成のための新しいフレームワークであるVideoStudioを提案する。 技術的には、VideoStudioはLarge Language Models (LLM)を活用して、入力プロンプトをLLMが学習した論理的知識の恩恵を受ける包括的なマルチシーンスクリプトに変換する。 各シーンの脚本には、イベントを記述するプロンプト、フォアグラウンド/バックグラウンドエンティティ、カメラムーブメントが含まれる。 VideoStudioはスクリプト全体の共通エンティティを特定し、各エンティティの詳細をLCMに尋ねる。 結果のエンティティ記述は、各エンティティの参照画像を生成するために、テキスト・ツー・イメージモデルに入力される。 最後に、VideoStudioは、参照画像、イベントの記述的プロンプト、カメラの動きを考慮に入れた拡散プロセスを介して、各シーン映像を生成することで、マルチシーン映像を出力する。 拡散モデルは、参照画像を条件とアライメントとして組み込んで、マルチシーンビデオのコンテンツ一貫性を強化する。 大規模な実験により、VideoStudioは、視覚的品質、コンテンツ整合性、ユーザー嗜好の点で、SOTAビデオ生成モデルよりも優れていることが示された。 ソースコードは \url{https://github.com/FuchenUSTC/VideoStudio} で公開されている。

The recent innovations and breakthroughs in diffusion models have significantly expanded the possibilities of generating high-quality videos for the given prompts. Most existing works tackle the single-scene scenario with only one video event occurring in a single background. Extending to generate multi-scene videos nevertheless is not trivial and necessitates to nicely manage the logic in between while preserving the consistent visual appearance of key content across video scenes. In this paper, we propose a novel framework, namely VideoStudio, for consistent-content and multi-scene video generation. Technically, VideoStudio leverages Large Language Models (LLM) to convert the input prompt into comprehensive multi-scene script that benefits from the logical knowledge learnt by LLM. The script for each scene includes a prompt describing the event, the foreground/background entities, as well as camera movement. VideoStudio identifies the common entities throughout the script and asks LLM to detail each entity. The resultant entity description is then fed into a text-to-image model to generate a reference image for each entity. Finally, VideoStudio outputs a multi-scene video by generating each scene video via a diffusion process that takes the reference images, the descriptive prompt of the event and camera movement into account. The diffusion model incorporates the reference images as the condition and alignment to strengthen the content consistency of multi-scene videos. Extensive experiments demonstrate that VideoStudio outperforms the SOTA video generation models in terms of visual quality, content consistency, and user preference. Source code is available at \url{https://github.com/FuchenUSTC/VideoStudio}.
翻訳日:2024-09-18 03:17:40 公開日:2024-09-16
# NeRFmentation: NeRF-based Augmentation for Monocular Depth Estimation

NeRFmentation: NeRF-based Augmentation for Monocular Depth Estimation ( http://arxiv.org/abs/2401.03771v2 )

ライセンス: Link先を確認
Casimir Feldmann, Niall Siegenheim, Nikolas Hars, Lovro Rabuzin, Mert Ertugrul, Luca Wolfart, Marc Pollefeys, Zuria Bauer, Martin R. Oswald, (参考訳) 単眼深度推定(MDE)モデルの能力は、十分かつ多様なデータセットの可用性によって制限される。 自律運転のためのMDEモデルの場合、この問題は捕捉されたデータ軌跡の線形性によって悪化する。 我々はNeRFに基づくデータ拡張パイプラインを提案し、より多様な視方向を持つ合成データをトレーニングデータセットに導入し、パフォーマンスとロバスト性をモデル化するためのアプローチの利点を実証する。 我々のデータ拡張パイプラインは、私たちが「textit{NeRFmentation}」と呼んでいるもので、データセットで各シーンでNeRFをトレーニングし、関連するメトリクスに基づいてサブパーのNeRFをフィルタリングし、新しい視聴方向からキャプチャされた合成RGB-D画像を生成する。 本研究では,一般的な自動運転データセットであるKITTI上で,最先端の3つのMDEアーキテクチャと併用して,Eigenスプリットのトレーニングセットを増強する手法を提案する。 我々は、元のテストセット、人気の駆動データセット、および我々の合成テストセットにおける結果のパフォーマンス向上を評価した。

The capabilities of monocular depth estimation (MDE) models are limited by the availability of sufficient and diverse datasets. In the case of MDE models for autonomous driving, this issue is exacerbated by the linearity of the captured data trajectories. We propose a NeRF-based data augmentation pipeline to introduce synthetic data with more diverse viewing directions into training datasets and demonstrate the benefits of our approach to model performance and robustness. Our data augmentation pipeline, which we call \textit{NeRFmentation}, trains NeRFs on each scene in a dataset, filters out subpar NeRFs based on relevant metrics, and uses them to generate synthetic RGB-D images captured from new viewing directions. In this work, we apply our technique in conjunction with three state-of-the-art MDE architectures on the popular autonomous driving dataset, KITTI, augmenting its training set of the Eigen split. We evaluate the resulting performance gain on the original test set, a separate popular driving dataset, and our own synthetic test set.
翻訳日:2024-09-18 03:17:40 公開日:2024-09-16
# 特徴関数のための生成ニューラルネットワーク

Generative neural networks for characteristic functions ( http://arxiv.org/abs/2401.04778v2 )

ライセンス: Link先を確認
Florian Brück, (参考訳) ブラックボックス形式でのみアクセス可能な(マルチバリアイト)特性関数からシミュレーションを行うシミュレーションアルゴリズムを提案する。 この方法は、損失関数が最大平均値の特定の表現を利用して目的の特徴関数を直接組み込む生成ニューラルネットワークに基づいている。 このアルゴリズムは次元から独立であり、与えられた特性関数に関する仮定を一切必要としないという意味で普遍的である。 さらに、最大平均離散度メートル法で近似品質の有限サンプル保証を導出する。 この手法はシミュレーション研究で説明されている。

We provide a simulation algorithm to simulate from a (multivariate) characteristic function, which is only accessible in a black-box format. The method is based on a generative neural network, whose loss function exploits a specific representation of the Maximum-Mean-Discrepancy metric to directly incorporate the targeted characteristic function. The algorithm is universal in the sense that it is independent of the dimension and that it does not require any assumptions on the given characteristic function. Furthermore, finite sample guarantees on the approximation quality in terms of the Maximum-Mean Discrepancy metric are derived. The method is illustrated in a simulation study.
翻訳日:2024-09-18 03:17:40 公開日:2024-09-16
# 深層学習の統計理論に関する調査研究:近似, トレーニングダイナミクス, 生成モデル

A Survey on Statistical Theory of Deep Learning: Approximation, Training Dynamics, and Generative Models ( http://arxiv.org/abs/2401.07187v3 )

ライセンス: Link先を確認
Namjoon Suh, Guang Cheng, (参考訳) 本稿では、近似、トレーニング力学、生成モデルという3つの観点から、ニューラルネットワークの統計理論に関する文献をレビューする。 第一に、ニューラルネットワークの過剰なリスクに関する結果は、回帰の非パラメトリックなフレームワーク(および Appendix~{\color{blue}B} の分類)でレビューされる。 これらの結果は、ニューラルネットワークの明示的な構築に依存しており、過剰なリスクの高速収束率につながっている。 それでも、その基盤となる分析は、ディープニューラルネットワークの非凸な状況におけるグローバルな最小化にのみ適用される。 これは、第2部におけるニューラルネットワークのトレーニングダイナミクスをレビューする動機となります。 具体的には、勾配に基づく手法でトレーニングされたニューラルネットワークが、目に見えないデータに対してうまく一般化できるソリューションを見つける方法」に答えようとする論文をレビューする。 特に、ニューラルタンジェントカーネル(NTK)パラダイムと平均フィールド(MF)パラダイムの2つのよく知られたパラダイムがレビューされている。 最後に,GAN(Generative Adversarial Networks)や拡散モデル,Large Language Models(LLMs)におけるICL(In-context Learning)などの生成モデルに関する最近の理論的進歩について,これまでにレビューされた2つのパースペクティブ,すなわち近似とトレーニングのダイナミクスから概観する。

In this article, we review the literature on statistical theories of neural networks from three perspectives: approximation, training dynamics and generative models. In the first part, results on excess risks for neural networks are reviewed in the nonparametric framework of regression (and classification in Appendix~{\color{blue}B}). These results rely on explicit constructions of neural networks, leading to fast convergence rates of excess risks. Nonetheless, their underlying analysis only applies to the global minimizer in the highly non-convex landscape of deep neural networks. This motivates us to review the training dynamics of neural networks in the second part. Specifically, we review papers that attempt to answer ``how the neural network trained via gradient-based methods finds the solution that can generalize well on unseen data.'' In particular, two well-known paradigms are reviewed: the Neural Tangent Kernel (NTK) paradigm, and Mean-Field (MF) paradigm. Last but not least, we review the most recent theoretical advancements in generative models including Generative Adversarial Networks (GANs), diffusion models, and in-context learning (ICL) in the Large Language Models (LLMs) from two perpsectives reviewed previously, i.e., approximation and training dynamics.
翻訳日:2024-09-18 03:17:40 公開日:2024-09-16
# 空間適応フィルタを用いたスペクトルグラフニューラルネットワークの再検討

Rethinking Spectral Graph Neural Networks with Spatially Adaptive Filtering ( http://arxiv.org/abs/2401.09071v5 )

ライセンス: Link先を確認
Jingwei Guo, Kaizhu Huang, Xinping Yi, Zixian Su, Rui Zhang, (参考訳) スペクトルグラフニューラルネットワーク(GNN)は理論的にはスペクトル領域において十分に基礎を置いているが、それらの多項式近似への実践的依存は空間領域への深いリンクを意味する。 前回の研究では、空間的視点からスペクトルGNNを調べることはめったにないが、それらの空間領域の解釈性は、例えば空間領域におけるスペクトルGNNによって本質的にエンコードされている情報とは何か? 本稿では,スペクトルフィルタリングと空間アグリゲーションの理論的関係を確立し,スペクトルフィルタリングが空間アグリゲーションのために明示的に計算された元のグラフを適応した新しいグラフに暗黙的に導く本質的な相互作用を明らかにする。 理論的および実証的研究の両方で、適応された新しいグラフは非局所性を示すだけでなく、ノード間のラベルの一貫性を反映する符号付きエッジウェイトも備えていることが明らかになった。 これらの結果は、空間領域におけるスペクトルGNNの解釈可能な役割を強調し、グローバル情報を無視した固定順序多項式以外のグラフスペクトルフィルタを再考するきっかけとなった。 この理論的な知見に基づいて、我々は最先端のスペクトルGNNを再検討し、新しい空間適応フィルタリング(SAF)フレームワークを提案する。 特に,提案したSAFは,ノードの類似性と相似性の両方を大域的観点から包括的にモデル化し,長距離依存やグラフヘテロフィリーに関連するGNNの持続的欠陥を緩和する。 13のノード分類ベンチマークに対する大規模な実験は、提案したフレームワークが最先端モデルよりも優れていることを示す。

Whilst spectral Graph Neural Networks (GNNs) are theoretically well-founded in the spectral domain, their practical reliance on polynomial approximation implies a profound linkage to the spatial domain. As previous studies rarely examine spectral GNNs from the spatial perspective, their spatial-domain interpretability remains elusive, e.g., what information is essentially encoded by spectral GNNs in the spatial domain? In this paper, to answer this question, we establish a theoretical connection between spectral filtering and spatial aggregation, unveiling an intrinsic interaction that spectral filtering implicitly leads the original graph to an adapted new graph, explicitly computed for spatial aggregation. Both theoretical and empirical investigations reveal that the adapted new graph not only exhibits non-locality but also accommodates signed edge weights to reflect label consistency among nodes. These findings thus highlight the interpretable role of spectral GNNs in the spatial domain and inspire us to rethink graph spectral filters beyond the fixed-order polynomials, which neglect global information. Built upon the theoretical findings, we revisit the state-of-the-art spectral GNNs and propose a novel Spatially Adaptive Filtering (SAF) framework, which leverages the adapted new graph by spectral filtering for an auxiliary non-local aggregation. Notably, our proposed SAF comprehensively models both node similarity and dissimilarity from a global perspective, therefore alleviating persistent deficiencies of GNNs related to long-range dependencies and graph heterophily. Extensive experiments over 13 node classification benchmarks demonstrate the superiority of our proposed framework to the state-of-the-art models.
翻訳日:2024-09-18 03:05:43 公開日:2024-09-16
# 次決定予測の強化: 実世界の航空データを用いた長期記憶ニューラルネットワークアプローチ

Enhancing Next Destination Prediction: A Novel Long Short-Term Memory Neural Network Approach Using Real-World Airline Data ( http://arxiv.org/abs/2401.12830v2 )

ライセンス: Link先を確認
Salih Salihoglu, Gulser Koksal, Orhan Abar, (参考訳) 近代交通業界では、旅行者の次の目的地の正確な予測は、顧客満足度やターゲットマーケティングなど、企業にとって多くの利益をもたらす。 本研究は、旅行データにおける逐次パターンや依存関係を正確に把握し、旅行者の将来の目的地を正確に予測できるモデルを開発することに焦点を当てる。 これを実現するために,輸送産業における目的地予測のために,LSTM(Long Short-Term Memory)に基づくスライディングウインドウ手法を用いた新しいモデルアーキテクチャを提案する。 実験結果は,データサイズや性能指標の異なるモデルによって達成された満足な性能と高いスコアを強調した。 本研究は、目的地予測手法の進歩、企業へのパーソナライズされたレコメンデーションの提供、ダイナミックな旅行環境における顧客エクスペリエンスの最適化に寄与する。

In the modern transportation industry, accurate prediction of travelers' next destinations brings multiple benefits to companies, such as customer satisfaction and targeted marketing. This study focuses on developing a precise model that captures the sequential patterns and dependencies in travel data, enabling accurate predictions of individual travelers' future destinations. To achieve this, a novel model architecture with a sliding window approach based on Long Short-Term Memory (LSTM) is proposed for destination prediction in the transportation industry. The experimental results highlight satisfactory performance and high scores achieved by the proposed model across different data sizes and performance metrics. This research contributes to advancing destination prediction methods, empowering companies to deliver personalized recommendations and optimize customer experiences in the dynamic travel landscape.
翻訳日:2024-09-18 03:05:43 公開日:2024-09-16
# GPT-3.5は生成可能か?

Can GPT-3.5 Generate and Code Discharge Summaries? ( http://arxiv.org/abs/2401.13512v2 )

ライセンス: Link先を確認
Matúš Falis, Aryo Pradipta Gema, Hang Dong, Luke Daines, Siddharth Basetti, Michael Holder, Rose S Penfold, Alexandra Birch, Beatrice Alex, (参考訳) 目的:低リソースラベルのデータ拡張のためのICD-10符号を用いた医用文書の生成・符号化におけるGPT-3.5の検討。 資料と方法:MIMIC-IVデータセットに低頻度(世代)符号を持つ患者のICD-10コード記述リストに基づいてGPT-3.5を用いて,9,606個の放電サマリーを作成した。 ベースライントレーニングセットと組み合わせて、拡張トレーニングセットを形成した。 ニューラルネットワークモデルはベースラインと拡張データに基づいてトレーニングされ、MIMIC-IVテストセットで評価された。 マイクロF1スコアとマクロF1スコアを全コードセット、生成コードおよびそれらの家族について報告する。 Weak Hierarchical Confusion Matricesは、後者のコードセットにおいて、家族内および家族外のコーディングエラーを決定するために使用される。 GPT-3.5の符号化性能は,プロンプト誘導型自己生成データと実MIMIC-IVデータの両方で評価した。 臨床専門家は、生成された文書の臨床的受容性を評価した。 結果: Augmentationはモデル全体のパフォーマンスをわずかに阻害するが、ベースライントレーニングデータに見当たらないものを含め、生成候補コードとその家族のパフォーマンスを改善する。 拡張されたモデルは、家族内エラー率を低く表示する。 GPT-3.5 はインプットされた記述によって ICD-10 の符号を識別できるが、実際のデータでは不十分である。 評価者は、多様性、支援情報、物語に苦しんでいる間に生成された概念の正しさに注意する。 議論と結論: GPT-3.5 だけでは ICD-10 のコーディングには適さない。 拡張は、ジェネレーションコードファミリに影響を与えるが、主に既存の例でコードに恩恵を与える。 拡張により、家族外のエラーが減少する。 GPT-3.5状態によって生成された放電サマリーは、正しい概念を導き出したが、物語における多様性と信頼性は欠如していた。 臨床には適さない。

Objective: To investigate GPT-3.5 in generating and coding medical documents with ICD-10 codes for data augmentation on low-resources labels. Materials and Methods: Employing GPT-3.5 we generated and coded 9,606 discharge summaries based on lists of ICD-10 code descriptions of patients with infrequent (generation) codes within the MIMIC-IV dataset. Combined with the baseline training set, this formed an augmented training set. Neural coding models were trained on baseline and augmented data and evaluated on a MIMIC-IV test set. We report micro- and macro-F1 scores on the full codeset, generation codes, and their families. Weak Hierarchical Confusion Matrices were employed to determine within-family and outside-of-family coding errors in the latter codesets. The coding performance of GPT-3.5 was evaluated both on prompt-guided self-generated data and real MIMIC-IV data. Clinical professionals evaluated the clinical acceptability of the generated documents. Results: Augmentation slightly hinders the overall performance of the models but improves performance for the generation candidate codes and their families, including one unseen in the baseline training data. Augmented models display lower out-of-family error rates. GPT-3.5 can identify ICD-10 codes by the prompted descriptions, but performs poorly on real data. Evaluators note the correctness of generated concepts while suffering in variety, supporting information, and narrative. Discussion and Conclusion: GPT-3.5 alone is unsuitable for ICD-10 coding. Augmentation positively affects generation code families but mainly benefits codes with existing examples. Augmentation reduces out-of-family errors. Discharge summaries generated by GPT-3.5 state prompted concepts correctly but lack variety, and authenticity in narratives. They are unsuitable for clinical practice.
翻訳日:2024-09-18 03:05:43 公開日:2024-09-16
# トラスト量子鍵配電網のトロイの木馬検出における実証的リスク認識機械学習

Empirical Risk-aware Machine Learning on Trojan-Horse Detection for Trusted Quantum Key Distribution Networks ( http://arxiv.org/abs/2401.14622v2 )

ライセンス: Link先を確認
Hong-fu Chou, Thang X. Vu, Ilora Maity, Sean Longyu Ma, Symeon Chatzinotas, Bjorn Ottersten, (参考訳) 量子鍵分布(Quantum Key Distribution, QKD)は、量子力学の原理を利用して伝送中に極めて高いレベルのデータセキュリティを提供する暗号技術である。 証明可能なセキュリティを達成する能力は高く評価されている。 しかし、理論概念と実践的実装のギャップの存在は、QKDネットワークの信頼性に関する懸念を引き起こしている。 この格差を軽減するために,時間変動量子チャネル上でのトロイの木馬攻撃のリスク分析を行うリスク対応機械学習手法の実装を提案する。 本研究は, 推奨安全境界線間のリスクレベルを比較し, 安全保証のオフライン評価を行うことを目的としている。 この評価はリスク分析に基づいて行われる。 さらに,提案した信頼性の高いQKDシナリオでは,1m,1km,30kmの光量子チャネル上で動作可能な最先端のポイントツーポイントQKDデバイスを用いて数値的な結果を示す。 30km光接続の実験的評価の結果から,提案した学習者に事前情報を提供するQKD装置が,イブの攻撃の非存在下で得られたものであると結論付けることができる。 最適分類器によれば、学習者が提供した防御ゲートは、潜伏Eve攻撃を識別する能力を有しており、潜在的な脆弱性のリスクを効果的に軽減する。 Eve検出確率は、信頼できるQKDシナリオに確実に拘束される。

Quantum key distribution (QKD) is a cryptographic technique that leverages principles of quantum mechanics to offer extremely high levels of data security during transmission. It is well acknowledged for its capacity to accomplish provable security. However, the existence of a gap between theoretical concepts and practical implementation has raised concerns about the trustworthiness of QKD networks. In order to mitigate this disparity, we propose the implementation of risk-aware machine learning techniques that present risk analysis for Trojan-horse attacks over the time-variant quantum channel. The trust condition presented in this study aims to evaluate the offline assessment of safety assurance by comparing the risk levels between the recommended safety borderline. This assessment is based on the risk analysis conducted. Furthermore, the proposed trustworthy QKD scenario demonstrates its numerical findings with the assistance of a state-of-the-art point-to-point QKD device, which operates over optical quantum channels spanning distances of 1m, 1km, and 30km. Based on the results from the experimental evaluation of a 30km optical connection, it can be concluded that the QKD device provided prior information to the proposed learner during the non-existence of Eve's attack. According to the optimal classifier, the defensive gate offered by our learner possesses the capability to identify any latent Eve attacks, hence effectively mitigating the risk of potential vulnerabilities. The Eve detection probability is provably bound for our trustworthy QKD scenario.
翻訳日:2024-09-18 03:05:43 公開日:2024-09-16
# 有限次元ZW-カルキュリーの最小性

Minimality in Finite-Dimensional ZW-Calculi ( http://arxiv.org/abs/2401.16225v2 )

ライセンス: Link先を確認
Marc de Visme, Renaud Vilmart, (参考訳) ZW-計算(ZW-calculus)は、2次元量子系(量子ビット)を図式で表し、方程式理論でそれらを操作できるグラフィカル言語である。 形式主義を拡張して、有限次元ヒルベルト空間を qubit 系を超えて取り込む。 まず、全ての系が同じ任意の有限次元の$d$を持つような言語のqu$d$itバージョンを定義し、与えられた方程式理論が完備であることを示す。 そして、さらにグラフィカル言語を拡張して、混合次元システムを可能にします。 ここでも、与えられた方程式理論の完全性と最小性を示す。

The ZW-calculus is a graphical language capable of representing 2-dimensional quantum systems (qubit) through its diagrams, and manipulating them through its equational theory. We extend the formalism to accommodate finite dimensional Hilbert spaces beyond qubit systems. First we define a qu$d$it version of the language, where all systems have the same arbitrary finite dimension $d$, and show that the provided equational theory is both complete -- i.e. semantical equivalence is entirely captured by the equations -- and minimal -- i.e. none of the equations are consequences of the others. We then extend the graphical language further to allow for mixed-dimensional systems. We again show the completeness and minimality of the provided equational theory.
翻訳日:2024-09-18 03:05:43 公開日:2024-09-16
# マイケルソン干渉計を用いた量子光コヒーレンストモグラフィのための広帯域複光子源

Broadband biphoton source for quantum optical coherence tomography based on a Michelson interferometer ( http://arxiv.org/abs/2401.17836v2 )

ライセンス: Link先を確認
Konstantin Katamadze, Anna Romanova, Denis Chupakhin, Alexander Pashchenko, Sergei Kulik, (参考訳) 広帯域相関光子対 (biphotons) は量子力学において有用であるが、現在の生成法は複雑な非線形構造を含むか、十分な帯域幅と明るさを欠いている。 本研究では, バルク非線形結晶に密集したポンプを用いて, 広帯域の明るいコリニア双光子場を生成する新しい手法を理論的に記述し, 実験的に実証する。 ソースの最も簡単な応用として、Michelson Interferometer-based quantum optical coherence tomography (QOCT) を用いる。 ソースを利用すると、このQOCTスキームのレコード解像度と分散キャンセルのデモが可能になる。

Broadband correlated photon pairs (biphotons) are valuable in quantum metrology, but current generation methods either involve complex nonlinear structures or lack sufficient bandwidth and brightness. In this work, we theoretically describe and experimentally demonstrate a novel technique for generation of a bright collinear biphoton field with a broad spectrum, achieved by using a tightly focused pump in a bulk nonlinear crystal. As the most straightforward application of the source, we employ Michelson interferometer-based quantum optical coherence tomography (QOCT). Utilizing the source enables the demonstration of record resolution and dispersion cancellation for this QOCT scheme.
翻訳日:2024-09-18 03:05:43 公開日:2024-09-16
# 分数量子ホールエノンのスケーリング次元の観察

Observation of the scaling dimension of fractional quantum Hall anyons ( http://arxiv.org/abs/2401.18044v2 )

ライセンス: Link先を確認
A. Veillon, C. Piquard, P. Glidic, Y. Sato, A. Aassime, A. Cavanna, Y. Jin, U. Gennser, A. Anthore, F. Pierre, (参考訳) 分数量子ホール状態に現れる非伝統的な準粒子は、その外乱的性質をあいまいに観察するという課題を提示する。 準粒子の分数電荷は30年近く前から証明されているが、その正準量子統計学の最初の証拠は、最近しか得られておらず、これまでのところ、準粒子の伝播ダイナミクスを決定するいわゆるスケーリング次元は解明されていない。 特に、トンネル状準粒子電流の非線形性はスケーリング次元を明らかにするべきであるが、この測定結果は理論と一致しない。 ここでは、熱雑音からショットノイズクロスオーバーへのスケーリング次元を公開し、期待値との一致を観測する。 測定は準粒子のスケーリング次元と電荷の両方を含む予測された有限温度表現に適合する。 複数の制限条件と実験条件を繰り返す系統的解析は、充填係数1/3, 2/5, 2/3で現れる分数準粒子の理論的スケーリング次元と一貫して一致している。 これは分数量子ホール・エノンの中心的性質を確立し、強で相補的な窓をエキゾチック準粒子に示す。

Unconventional quasiparticles emerging in the fractional quantum Hall regime present the challenge of observing their exotic properties unambiguously. Although the fractional charge of quasiparticles has been demonstrated since nearly three decades, the first convincing evidence of their anyonic quantum statistics has only recently been obtained and, so far, the so-called scaling dimension that determines the quasiparticles propagation dynamics remains elusive. In particular, while the non-linearity of the tunneling quasiparticle current should reveal their scaling dimension, the measurements fail to match theory, arguably because this observable is not robust to non-universal complications. Here we expose the scaling dimension from the thermal noise to shot noise crossover, and observe an agreement with expectations. Measurements are fitted to the predicted finite temperature expression involving both the quasiparticles scaling dimension and their charge, in contrast to previous charge investigations focusing on the high bias shot noise regime. A systematic analysis, repeated on multiple constrictions and experimental conditions, consistently matches the theoretical scaling dimensions for the fractional quasiparticles emerging at filling factors 1/3, 2/5 and 2/3. This establishes a central property of fractional quantum Hall anyons, and demonstrates a powerful and complementary window into exotic quasiparticles.
翻訳日:2024-09-18 03:05:43 公開日:2024-09-16
# CataractBot:白内障患者のためのLLMベースのエキスパート・イン・ザ・ループチャットボット

CataractBot: An LLM-Powered Expert-in-the-Loop Chatbot for Cataract Patients ( http://arxiv.org/abs/2402.04620v2 )

ライセンス: Link先を確認
Pragnya Ramjee, Bhuvan Sachdeva, Satvik Golechha, Shreyas Kulkarni, Geeta Fulari, Kaushik Murali, Mohit Jain, (参考訳) 医療の展望は進化しており、患者は自分の健康状態や利用可能な治療オプションについて信頼できる情報を求めている。 情報ソースが豊富にあるにもかかわらず、デジタル時代は、過度に不正確な情報を持つ個人を圧倒する。 患者は主に医療専門家を信頼しており、専門知識のある医療情報の必要性を強調している。 しかし、専門家に対する患者負荷の増加はコミュニケーション時間を短縮し、情報の共有に影響を与えている。 このギャップに対処するため,私たちはインドにある眼科病院と共同で,LLMを利用したループ型チャットボットのCatalactBotを開発した。 CataractBotは、キュレートされた知識ベースをクエリすることで、白内障手術に関連する質問に即座に答え、専門家が検証した応答を非同期に提供する。 マルチモーダルと多言語機能を備えている。 CataractBotは、55名の参加者を対象に、あらゆる時間的アクセシビリティ、保存時間、多様なリテラシーレベルの調整、パワー差の緩和、患者と医師のプライバシーレイヤの追加など、その価値を実証した。 システムに対する信頼は、専門家による検証によって確立されたと報告された。 我々の研究結果は、専門家によるLLMボットの設計に関する今後の研究に役立てることができるだろう。

The healthcare landscape is evolving, with patients seeking reliable information about their health conditions and available treatment options. Despite the abundance of information sources, the digital age overwhelms individuals with excess, often inaccurate information. Patients primarily trust medical professionals, highlighting the need for expert-endorsed health information. However, increased patient loads on experts has led to reduced communication time, impacting information sharing. To address this gap, we develop CataractBot, an experts-in-the-loop chatbot powered by LLMs, in collaboration with an eye hospital in India. CataractBot answers cataract surgery related questions instantly by querying a curated knowledge base, and provides expert-verified responses asynchronously. It has multimodal and multilingual capabilities. In an in-the-wild deployment study with 55 participants, CataractBot proved valuable, providing anytime accessibility, saving time, accommodating diverse literacy levels, alleviating power differences, and adding a privacy layer between patients and doctors. Users reported that their trust in the system was established through expert verification. Broadly, our results could inform future work on designing expert-mediated LLM bots.
翻訳日:2024-09-18 03:05:43 公開日:2024-09-16
# シャドーインバージョンによる量子トモグラフィーの最適化

Optimising quantum tomography via shadow inversion ( http://arxiv.org/abs/2402.06727v4 )

ライセンス: Link先を確認
Andrea Caprotti, Joshua Morris, Borivoje Dakić, (参考訳) 量子情報理論において、観測可能量の正確な推定は、量子情報処理において重要であり、計算および通信プロトコルにおいて重要な役割を果たす。 本研究は、従来の影の逆写像における未利用資源を利用して、余分なオーバーヘッドを伴わずに観測対象物の推定コストを大幅に改善する、そのようなオブジェクトを推定する新しい手法を導入する。 シャドウ反転の同次空間における計算と追加自由度を最適化するための一般化された枠組みは、様々な短期問題に適応する可能性がある。 局所測定戦略の特別の場合では、サンプル複雑性と標準アプローチの指数的な分離につながる実現可能な最適化を示し、例外的に、局所測定に最適化された後処理の非自明な例を与え、グローバルなクリフォードの影と同じ効率を達成する。

In quantum information theory, the accurate estimation of observables is pivotal for quantum information processing, playing a crucial role in compute and communication protocols. This work introduces a novel technique for estimating such objects, leveraging an underutilised resource in the inversion map of classical shadows that greatly refines the estimation cost of target observables without incurring any additional overhead. A generalised framework for computing and optimising additional degrees of freedom in the homogeneous space of the shadow inversion is given that may be adapted to a variety of near-term problems. In the special case of local measurement strategies we show feasible optimisation leading to an exponential separation in sample complexity versus the standard approach and in an exceptional case we give non-trivial examples of optimised post-processing for local measurements, achieving the same efficiency as the global Cliffords shadows.
翻訳日:2024-09-18 02:55:35 公開日:2024-09-16
# メンバーシップ推論は大規模言語モデルで動作するか?

Do Membership Inference Attacks Work on Large Language Models? ( http://arxiv.org/abs/2402.07841v2 )

ライセンス: Link先を確認
Michael Duan, Anshuman Suri, Niloofar Mireshghallah, Sewon Min, Weijia Shi, Luke Zettlemoyer, Yulia Tsvetkov, Yejin Choi, David Evans, Hannaneh Hajishirzi, (参考訳) メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。 従来の機械学習モデルに関する広範な研究にもかかわらず、大規模言語モデル(LLM)の事前学習データに関するMIAの研究は限られている。 我々は、Pileで訓練された言語モデル(LM)に対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。 様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。 さらに分析した結果,(1)大規模なデータセットと少数のトレーニングイテレーションの組み合わせ,(2)メンバと非メンバのファジィな境界によるパフォーマンスの低下が示唆された。 我々は,LDMがメンバシップ推論に脆弱であることを示す特定の設定を特定し,そのような設定における明らかな成功は,メンバーと非メンバが同一のドメインから引き出された場合や時間範囲が異なる場合など,分布シフトによるものであることを示す。 私たちは、既存のすべてのMIAを含む統一されたベンチマークパッケージとしてコードとデータをリリースし、将来の作業をサポートします。

Membership inference attacks (MIAs) attempt to predict whether a particular datapoint is a member of a target model's training data. Despite extensive research on traditional machine learning models, there has been limited work studying MIA on the pre-training data of large language models (LLMs). We perform a large-scale evaluation of MIAs over a suite of language models (LMs) trained on the Pile, ranging from 160M to 12B parameters. We find that MIAs barely outperform random guessing for most settings across varying LLM sizes and domains. Our further analyses reveal that this poor performance can be attributed to (1) the combination of a large dataset and few training iterations, and (2) an inherently fuzzy boundary between members and non-members. We identify specific settings where LLMs have been shown to be vulnerable to membership inference and show that the apparent success in such settings can be attributed to a distribution shift, such as when members and non-members are drawn from the seemingly identical domain but with different temporal ranges. We release our code and data as a unified benchmark package that includes all existing MIAs, supporting future work.
翻訳日:2024-09-18 02:55:35 公開日:2024-09-16
# クエリ効率サンプリング攻撃による大規模言語モデルにおけるバイオメディカル知識の堅牢性の評価

Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks ( http://arxiv.org/abs/2402.10527v2 )

ライセンス: Link先を確認
R. Patrick Xian, Alex J. Lee, Satvik Lolla, Vincent Wang, Qiming Cui, Russell Ro, Reza Abbasi-Asl, (参考訳) 大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。 モデル予測の信頼性を定量化し、それらの使用を規制するためには、高取り分と知識集約的なタスクにおけるモデルの脆弱性を理解することが不可欠である。 自然言語処理タスクにおける敵的実体(すなわち、敵対的実体)として最近発見された名前付き実体は、事前訓練された、微調整されたLLMの高度な領域における知識の堅牢性に対する潜在的な影響についての疑問を提起する。 バイオメディカル知識を生かした10億パラメータのLDMに対して, 敵対的エンティティを収集するためのテンプレートとして, タイプ一貫性エンティティ置換を用いる方法を検討した。 そこで我々は,バイオメディカル知識のロバスト性を低照会予算と制御可能なカバレッジで評価するために,パワースケール距離重み付きサンプリングに基づく埋め込み空間攻撃を開発した。 提案手法は, ランダムサンプリングとブラックボックス勾配誘導探索に基づく代替手法よりも, クエリ効率とスケーリングが良好であり, バイオメディカル質問応答において, 対向的トラクタ生成を実証した。 その後の障害モード解析により,攻撃面に異なる特徴を持つ2つの逆転体が存在することが判明し,トークンワイドシェープ値の説明を操作できることが判明した。 提案手法は,高容量モデルに対する標準評価を補完するものであり,LLMにおけるドメイン知識の脆さを浮き彫りにする。

The increasing depth of parametric domain knowledge in large language models (LLMs) is fueling their rapid deployment in real-world applications. Understanding model vulnerabilities in high-stakes and knowledge-intensive tasks is essential for quantifying the trustworthiness of model predictions and regulating their use. The recent discovery of named entities as adversarial examples (i.e. adversarial entities) in natural language processing tasks raises questions about their potential impact on the knowledge robustness of pre-trained and finetuned LLMs in high-stakes and specialized domains. We examined the use of type-consistent entity substitution as a template for collecting adversarial entities for billion-parameter LLMs with biomedical knowledge. To this end, we developed an embedding-space attack based on powerscaled distance-weighted sampling to assess the robustness of their biomedical knowledge with a low query budget and controllable coverage. Our method has favorable query efficiency and scaling over alternative approaches based on random sampling and blackbox gradient-guided search, which we demonstrated for adversarial distractor generation in biomedical question answering. Subsequent failure mode analysis uncovered two regimes of adversarial entities on the attack surface with distinct characteristics and we showed that entity substitution attacks can manipulate token-wise Shapley value explanations, which become deceptive in this setting. Our approach complements standard evaluations for high-capacity models and the results highlight the brittleness of domain knowledge in LLMs.
翻訳日:2024-09-18 02:55:35 公開日:2024-09-16
# 離散的ニューラルネットワーク推論

Discrete Neural Algorithmic Reasoning ( http://arxiv.org/abs/2402.11628v2 )

ライセンス: Link先を確認
Gleb Rodionov, Liudmila Prokhorenkova, (参考訳) ニューラルネットワーク推論は、古典的なアルゴリズムの実行を模倣するモデルを学ぶことによって、ニューラルネットワークで計算をキャプチャすることを目的としている。 一般的なアーキテクチャは、重み空間の正しいモデルを含むのに十分な表現力を持っているが、現在の神経推論者は、分布外データに対してうまく一般化するのに苦労している。 一方、古典計算は離散的な計算状態間の遷移として記述できるため、分布シフトの影響を受けない。 本研究は,有限状態の組合せとして,ニューラル推論器に実行軌跡の維持を強制することを提案する。 これを実現するために、離散データフローと連続データフローを分離し、それらの相互作用を記述する。 アルゴリズムの状態遷移を監督して訓練されたそのようなモデルは、元のアルゴリズムと完全に整合することができる。 これを示すために、我々は、複数のアルゴリズム問題に対するアプローチを評価し、シングルタスクとマルチタスクの両方で完璧なテストスコアを得る。 さらに、提案したアーキテクチャ選択により、任意のテスト~データに対して学習アルゴリズムの正確性を証明することができる。

Neural algorithmic reasoning aims to capture computations with neural networks via learning the models to imitate the execution of classic algorithms. While common architectures are expressive enough to contain the correct model in the weights space, current neural reasoners are struggling to generalize well on out-of-distribution data. On the other hand, classic computations are not affected by distributional shifts as they can be described as transitions between discrete computational states. In this work, we propose to force neural reasoners to maintain the execution trajectory as a combination of finite predefined states. To achieve that, we separate discrete and continuous data flows and describe the interaction between them. Trained with supervision on the algorithm's state transitions, such models are able to perfectly align with the original algorithm. To show this, we evaluate our approach on multiple algorithmic problems and get perfect test scores both in single-task and multitask setups. Moreover, the proposed architectural choice allows us to prove the correctness of the learned algorithms for any test~data.
翻訳日:2024-09-18 02:55:35 公開日:2024-09-16
# LLMのパラメータ効率向上のためのChatGPTに基づくデータ拡張

ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs ( http://arxiv.org/abs/2402.11764v2 )

ライセンス: Link先を確認
Pengrui Han, Rafal Kocielnik, Adhithya Saravanan, Roy Jiang, Or Sharir, Anima Anandkumar, (参考訳) 大きな言語モデル(LLM)は強力だが、有害な社会的バイアスを示す。 遅延は、計算コスト、データ制約、マルチタスク言語能力の潜在的な劣化のため、しばしば困難である。 本研究は, 合成学習データの生成にChatGPTを用いた新しい手法を導入し, LLMの劣化の促進を目的とした。 我々は、既知のバイアスに対して効果的なデバイアスを提供するターゲット・プロンプティングと、いくつかのカテゴリでデバイアスを提供するジェネラル・プロンプティングの2つの戦略を提案する。 我々は、アダプタチューニングを用いた資源効率の高いLCMデバイアスを利用して、我々の合成データの有効性を既存のデバイアスデータセットと比較する。 以上の結果から,(1)ChatGPTは,他のLSMを非バイアス化するための高品質なトレーニングデータを効率よく生成することができること,(2)既存のLCMの内部知識を保ちながら,デバイアス化性能のデータセットを超越したデータが得られること,(3)合成データはカテゴリ間での一般化性を示し,交叉性を含む様々なバイアスを効果的に軽減することができること,などが判明した。 これらの結果は,LLMの公正性を最小再トレーニングコストで推し進める上での合成データの可能性を裏付けるものである。

Large Language models (LLMs), while powerful, exhibit harmful social biases. Debiasing is often challenging due to computational costs, data constraints, and potential degradation of multi-task language capabilities. This work introduces a novel approach utilizing ChatGPT to generate synthetic training data, aiming to enhance the debiasing of LLMs. We propose two strategies: Targeted Prompting, which provides effective debiasing for known biases but necessitates prior specification of bias in question; and General Prompting, which, while slightly less effective, offers debiasing across various categories. We leverage resource-efficient LLM debiasing using adapter tuning and compare the effectiveness of our synthetic data to existing debiasing datasets. Our results reveal that: (1) ChatGPT can efficiently produce high-quality training data for debiasing other LLMs; (2) data produced via our approach surpasses existing datasets in debiasing performance while also preserving internal knowledge of a pre-trained LLM; and (3) synthetic data exhibits generalizability across categories, effectively mitigating various biases, including intersectional ones. These findings underscore the potential of synthetic data in advancing the fairness of LLMs with minimal retraining cost.
翻訳日:2024-09-18 02:55:35 公開日:2024-09-16
# CoReEcho:2次元+時間心エコー解析のための連続表現学習

CoReEcho: Continuous Representation Learning for 2D+time Echocardiography Analysis ( http://arxiv.org/abs/2403.10164v2 )

ライセンス: Link先を確認
Fadillah Adamsyah Maani, Numan Saeed, Aleksandr Matsun, Mohammad Yaqub, (参考訳) 深層学習(DL)モデルは、総合的なエンドツーエンドのトレーニングパイプラインを提供することで、心エコー法を含む様々なモードの自動医療画像解析を推進してきた。 このアプローチにより、DLモデルは2D+時間心エコー図から直接放出率(EF)を抑えることができ、性能が向上する。 しかし、エンドツーエンドのトレーニングパイプラインは、学習した表現をより説明しにくくする。 これらの表現は、心エコー画像クリップ間の連続的な関係を捉えることにも失敗し、一般化に悪影響を及ぼす急激な相関の存在を示す。 この問題を軽減するために,直接EF回帰に適した連続表現を強調する新しいトレーニングフレームワークであるCoReEchoを提案する。 私たちの大規模な実験は、CoReEchoを実証しています。 1) エコーNet-Dynamic (EchoNet-Dynamic) における現在最先端のSOTA(State-of-the-art) を、82.44の3.90&R2のMAEで上回ります。 2.2は、関連する下流タスクをより効果的に転送する堅牢で一般化可能な機能を提供する。 コードはhttps://github.com/fadamsyah/CoReEchoで公開されている。

Deep learning (DL) models have been advancing automatic medical image analysis on various modalities, including echocardiography, by offering a comprehensive end-to-end training pipeline. This approach enables DL models to regress ejection fraction (EF) directly from 2D+time echocardiograms, resulting in superior performance. However, the end-to-end training pipeline makes the learned representations less explainable. The representations may also fail to capture the continuous relation among echocardiogram clips, indicating the existence of spurious correlations, which can negatively affect the generalization. To mitigate this issue, we propose CoReEcho, a novel training framework emphasizing continuous representations tailored for direct EF regression. Our extensive experiments demonstrate that CoReEcho: 1) outperforms the current state-of-the-art (SOTA) on the largest echocardiography dataset (EchoNet-Dynamic) with MAE of 3.90 & R2 of 82.44, and 2) provides robust and generalizable features that transfer more effectively in related downstream tasks. The code is publicly available at https://github.com/fadamsyah/CoReEcho.
翻訳日:2024-09-18 02:45:24 公開日:2024-09-16
# 非腫瘍浸潤性膀胱癌再発予測におけるAIの役割

Reviewing AI's Role in Non-Muscle-Invasive Bladder Cancer Recurrence Prediction ( http://arxiv.org/abs/2403.10586v2 )

ライセンス: Link先を確認
Saram Abbas, Rishad Shafik, Naeem Soomro, Rakesh Heer, Kabita Adhikari, (参考訳) 非筋浸潤性膀胱癌(NMIBC)は70-80%の再発率で知られており、人的負担が大きく、治療に最も費用がかかるがんの1つである。 NMIBCの再発を予測するための現在のツールは、しばしばリスクを過大評価し、精度が低いスコアシステムに依存している。 そこで機械学習(ML)ベースの技術が、分子および臨床データを活用することでNMIBCの再発を予測するための有望なアプローチとして登場した。 本論文は,NMIBCの再発予測のためのMLベースのフレームワークを,その統計的堅牢性とアルゴリズムの有効性に着目して批判的に分析する。 種々の予測タスク,データモダリティ,MLモデルに着目し,各研究の長所と短所を慎重に検討し,本質的な制約とともにその顕著な性能を強調した。 放射線、臨床、病理、ゲノムデータにまたがるマルチモーダルデータを利用するMLアルゴリズムの多種多様な配列は、NMIBCの再発を正確に予測する上で大きな可能性を秘めている。 しかし、広く普及する道は、モデルの一般化可能性と解釈可能性に関する課題に直面し、協調作業の必要性、堅牢なデータセット、費用対効果の確立を強調している。 我々の詳細な分類と詳細な分析は、これらのAIベースのテクニックの現実的な進歩と採用に影響を与えるニュアンス、複雑さ、コンテキストを照らします。 この厳密な分析により、研究者はMLアルゴリズムの複雑さを深く理解することができる。 研究者たちはこれらの洞察を使って、アプローチを洗練し、制限に対処し、MLモデルの一般性を高め、最終的に医療費の削減と患者の成果を改善することができる。

Notorious for its 70-80% recurrence rate, Non-muscle-invasive Bladder Cancer (NMIBC) imposes a significant human burden and is one of the costliest cancers to manage. Current tools for predicting NMIBC recurrence rely on scoring systems that often overestimate risk and have poor accuracy. This is where Machine learning (ML)-based techniques have emerged as a promising approach for predicting NMIBC recurrence by leveraging molecular and clinical data. This comprehensive review paper critically analyses ML-based frameworks for predicting NMIBC recurrence, focusing on their statistical robustness and algorithmic efficacy. We meticulously examine the strengths and weaknesses of each study, by focusing on various prediction tasks, data modalities, and ML models, highlighting their remarkable performance alongside inherent limitations. A diverse array of ML algorithms that leverage multimodal data spanning radiomics, clinical, histopathological, and genomic data, exhibit significant promise in accurately predicting NMIBC recurrence. However, the path to widespread adoption faces challenges concerning the generalisability and interpretability of models, emphasising the need for collaborative efforts, robust datasets, and the incorporation of cost-effectiveness. Our detailed categorisation and in-depth analysis illuminate the nuances, complexities, and contexts that influence real-world advancement and adoption of these AI-based techniques. This rigorous analysis equips researchers with a deeper understanding of the intricacies of the ML algorithms employed. Researchers can use these insights to refine approaches, address limitations, and boost generalisability of their ML models, ultimately leading to reduced healthcare costs and improved patient outcomes.
翻訳日:2024-09-18 02:45:24 公開日:2024-09-16
# マルチエージェント強化学習システムの持続可能Sim2Real遷移のための拡張性と並列化可能なディジタルツインフレームワーク

A Scalable and Parallelizable Digital Twin Framework for Sustainable Sim2Real Transition of Multi-Agent Reinforcement Learning Systems ( http://arxiv.org/abs/2403.10996v2 )

ライセンス: Link先を確認
Chinmay Vilas Samak, Tanmay Vilas Samak, Venkat Krovi, (参考訳) マルチエージェント強化学習(MARL)システムは通常、その固有の複雑さのために、非常に長い訓練時間を必要とする。 さらに、これらを現実世界に展開するには、エネルギー消費や安全性の問題だけでなく、予算や空間制限のために実現不可能な、複数の実施エージェントとともに機能豊富な環境が必要である。 この研究は、必要に応じて並列化されたワークロードを選択的にスケーリングし、最小限のハードウェアリソースを使用してトレーニングされたポリシーをシミュレーションから現実に転送することで、MARLトレーニングを加速できる持続可能なデジタルツインフレームワークを提供することによって、これらの問題点に対処しようとしている。 提案するディジタルツインフレームワークの適用性は,MARL問題における協調的および競合的クラスをカバーする2つの代表的なユースケースを通じて強調される。 エージェントと環境の並列化が訓練時間および系統的領域ランダム化に及ぼす影響を両事例で検討した。 その結果、提案した並列化方式でトレーニング時間を最大76.3%削減し、提案手法を用いて2.9%のsim2realギャップを減らした。

Multi-agent reinforcement learning (MARL) systems usually require significantly long training times due to their inherent complexity. Furthermore, deploying them in the real world demands a feature-rich environment along with multiple embodied agents, which may not be feasible due to budget or space limitations, not to mention energy consumption and safety issues. This work tries to address these pain points by presenting a sustainable digital twin framework capable of accelerating MARL training by selectively scaling parallelized workloads on-demand, and transferring the trained policies from simulation to reality using minimal hardware resources. The applicability of the proposed digital twin framework is highlighted through two representative use cases, which cover cooperative as well as competitive classes of MARL problems. We study the effect of agent and environment parallelization on training time and that of systematic domain randomization on zero-shot sim2real transfer across both the case studies. Results indicate up to 76.3% reduction in training time with the proposed parallelization scheme and as low as 2.9% sim2real gap using the suggested deployment method.
翻訳日:2024-09-18 02:45:24 公開日:2024-09-16
# InfNeRF: O(log n)空間複素度を用いた無限スケールNeRFレンダリングを目指して

InfNeRF: Towards Infinite Scale NeRF Rendering with O(log n) Space Complexity ( http://arxiv.org/abs/2403.14376v2 )

ライセンス: Link先を確認
Jiabin Liang, Lanqing Zhang, Zhuoran Zhao, Xiangyu Xu, (参考訳) 従来のメッシュベースのLevel of Detail(LoD)技術は、Google Earthや多くのゲームエンジンなどのアプリケーションで例示され、地球でも大きなシーンを水平に表現する能力を示し、O(log n)の空間複雑さでレンダリングを実現する。 この制約付きデータ要求は、レンダリング効率を向上するだけでなく、動的なデータフェッチを容易にするため、ユーザにシームレスな3Dナビゲーション体験を可能にする。 本研究では,この実証されたLoD手法を,異なるスケールでシーンを表現するオクツリー構造を導入することにより,ニューラルラジアンス場(NeRF)に拡張する。 この革新的なアプローチは、O(log n)のレンダリング空間の複雑さを持つ数学的に単純でエレガントな表現を提供する。 また,O(n)の複雑性を維持する新しいトレーニング戦略を提案する。 この戦略により、最小限のオーバーヘッドで並列トレーニングが可能となり、提案手法のスケーラビリティと効率が保証される。 我々の貢献は、既存の技術の能力を拡張するだけでなく、NeRFとOctree構造を用いたスケーラブルで効率的な大規模シーン表現の基礎を確立することである。

The conventional mesh-based Level of Detail (LoD) technique, exemplified by applications such as Google Earth and many game engines, exhibits the capability to holistically represent a large scene even the Earth, and achieves rendering with a space complexity of O(log n). This constrained data requirement not only enhances rendering efficiency but also facilitates dynamic data fetching, thereby enabling a seamless 3D navigation experience for users. In this work, we extend this proven LoD technique to Neural Radiance Fields (NeRF) by introducing an octree structure to represent the scenes in different scales. This innovative approach provides a mathematically simple and elegant representation with a rendering space complexity of O(log n), aligned with the efficiency of mesh-based LoD techniques. We also present a novel training strategy that maintains a complexity of O(n). This strategy allows for parallel training with minimal overhead, ensuring the scalability and efficiency of our proposed method. Our contribution is not only in extending the capabilities of existing techniques but also in establishing a foundation for scalable and efficient large-scale scene representation using NeRF and octree structures.
翻訳日:2024-09-18 02:45:24 公開日:2024-09-16
# 大規模モデルのためのパラメータ効率の良いファインチューニング:包括的調査

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey ( http://arxiv.org/abs/2403.14608v7 )

ライセンス: Link先を確認
Zeyu Han, Chao Gao, Jinyang Liu, Jeff Zhang, Sai Qian Zhang, (参考訳) 大規模モデルは、複数のアプリケーション分野における画期的な進歩を表しており、様々なタスクにおける顕著な達成を可能にしている。 しかし、その前例のない規模には計算コストがかなり伴う。 これらのモデルはしばしば数十億のパラメータで構成され、実行には膨大な量の計算資源を必要とする。 特に、拡張スケールと計算要求は、特定の下流タスク、特に計算能力に制約されたハードウェアプラットフォームをカスタマイズする際に大きな課題を生じさせる。 パラメータ効率の良いファインチューニング(PEFT)は、様々な下流タスクに対して大きなモデルを効率的に調整することで、実用的なソリューションを提供する。 特にPEFTは、訓練済みの大規模モデルのパラメータを特定のタスクやドメインに適応させ、導入された追加パラメータの数や計算資源を最小限に抑えるプロセスを指す。 これらのモデルをスクラッチから微調整することは、計算コストが高く、リソース集約的であり、システムプラットフォーム設計をサポートする上で大きな課題となるため、大規模な言語モデルに高いパラメータ数で対処する上で特に重要である。 本稿では,様々なPEFTアルゴリズムの総合的な研究を行い,その性能と計算オーバーヘッドについて検討する。 さらに,異なるPEFTアルゴリズムを用いて開発されたアプリケーションの概要を述べるとともに,PEFTの計算コストを軽減するための一般的な手法について議論する。 アルゴリズムの観点からの広範な調査に加えて,様々なPEFT手法による実装コストを調査するために,実世界のシステム設計についても検討する。 この調査は、PEFTアルゴリズムとシステム実装の両方を理解することを目的とした研究者にとって貴重なリソースとなり、詳細な情報を提供する。

Large models represent a groundbreaking advancement in multiple application fields, enabling remarkable achievements across various tasks. However, their unprecedented scale comes with significant computational costs. These models, often consisting of billions of parameters, require vast amounts of computational resources for execution. Especially, the expansive scale and computational demands pose considerable challenges when customizing them for particular downstream tasks, particularly over the hardware platforms constrained by computational capabilities. Parameter Efficient Fine-Tuning (PEFT) provides a practical solution by efficiently adjusting the large models over the various downstream tasks. In particular, PEFT refers to the process of adjusting the parameters of a pre-trained large model to adapt it to a specific task or domain while minimizing the number of additional parameters introduced or computational resources required. This approach is particularly important when dealing with large-scale language models with high parameter counts, as fine-tuning these models from scratch can be computationally expensive and resource-intensive, posing considerable challenges in the supporting system platform design. In this survey, we present comprehensive studies of various PEFT algorithms, examining their performance and computational overhead. Moreover, we provide an overview of applications developed using different PEFT algorithms and discuss common techniques employed to mitigate computation costs for PEFT. In addition to providing an extensive survey from an algorithmic standpoint, we also examine various real-world system designs to investigate the implementation costs associated with different PEFT approaches. This survey serves as a valuable resource for researchers aiming to understand both the PEFT algorithm and its system implementation, offering detailed ......
翻訳日:2024-09-18 02:45:24 公開日:2024-09-16
# SSLにおける敵のロバスト性とバックドアの緩和に向けて

Towards Adversarial Robustness And Backdoor Mitigation in SSL ( http://arxiv.org/abs/2403.15918v3 )

ライセンス: Link先を確認
Aryan Satpathy, Nilaksh Singh, Dhruva Rajwade, Somesh Kumar, (参考訳) Self-Supervised Learning (SSL)は、ラベルのないデータから表現を学習する際の大きな可能性を示している。 人間のアノテーションを必要とせずに表現を学習する能力によって、SSLは現実世界の問題において広く使われている技術となった。 しかし、SSLメソッドは、最近、バックドア攻撃に対して脆弱であることが示されている。そこでは、学習したモデルを敵に利用して、学習した表現を操作することができる。 この作業は、SSLのバックドア攻撃に対する防御に対処することを目的としており、敵はSSLトレーニングデータの現実的な部分にアクセスでき、モデルにアクセスできない。 我々は、計算効率が良く、異なる問題設定にまたがって一般化可能な新しい手法を用いる。 また,本手法を訓練した場合のSSLモデルの逆ロバスト性について検討し,周波数領域拡張によるSSLのロバスト性向上に関する知見を示す。 提案手法の有効性をSSLベンチマークで示すとともに,ダウンストリームタスクにおける高い性能を維持しつつ,バックドア攻撃を軽減できることを示す。 私たちの仕事のコードはgithub.com/Aryan-Satpathy/Backdoorで利用可能です。

Self-Supervised Learning (SSL) has shown great promise in learning representations from unlabeled data. The power of learning representations without the need for human annotations has made SSL a widely used technique in real-world problems. However, SSL methods have recently been shown to be vulnerable to backdoor attacks, where the learned model can be exploited by adversaries to manipulate the learned representations, either through tampering the training data distribution, or via modifying the model itself. This work aims to address defending against backdoor attacks in SSL, where the adversary has access to a realistic fraction of the SSL training data, and no access to the model. We use novel methods that are computationally efficient as well as generalizable across different problem settings. We also investigate the adversarial robustness of SSL models when trained with our method, and show insights into increased robustness in SSL via frequency domain augmentations. We demonstrate the effectiveness of our method on a variety of SSL benchmarks, and show that our method is able to mitigate backdoor attacks while maintaining high performance on downstream tasks. Code for our work is available at github.com/Aryan-Satpathy/Backdoor
翻訳日:2024-09-18 02:45:24 公開日:2024-09-16
# 量子衝突モデル

Queued quantum collision models ( http://arxiv.org/abs/2403.19408v2 )

ライセンス: Link先を確認
Guilherme Fiusa, Gabriel T. Landi, (参考訳) 衝突モデルでは、システムと独立アンシラの連続的な相互作用を記述する。 最近の中性原子配列の進歩に触発されて、このレターでは、アンシラが古典的なコントローラによって支配されるモデルを調べ、それらがシステムと対話する順番を待つ間、アンシラが待ち受けられるようにします。 アンシラは待つ間、個々のオープンダイナミクスを経ることができるため、例えばデコヘア(decohere)を引き起こす可能性がある。 キューでサーバの役割を担っているこのシステムは、アイドル状態であるたびに、独自のオープンなダイナミクスを実行することもできる。 この枠組みは、量子衝突モデルに対する既存のアプローチを大幅に一般化し、決定論的および確率的定式化を適切な極限で回復することを示す。 次に、待ち行列力学と量子衝突の組み合わせが、位相遷移や待ち行列統計への急激な依存を含むリッチな動的現象をいかに導入するかを示す。

Collision models describe the sequential interactions of a system with independent ancillas. Motivated by recent advances in neutral atom arrays, in this Letter we investigate a model where the ancillas are governed by a classical controller that allows them to queue up while they wait for their turn to interact with the system. The ancillas can undergo individual open dynamics while they wait, which could cause them to, e.g., decohere. The system, which plays the role of the server in the queue, can also undergo its own open dynamics whenever it is idle. We show that this framework greatly generalizes existing approaches for quantum collision models, recovering the deterministic and stochastic formulations in the appropriate limits. Next, we show how the combination of queueing dynamics with quantum collisions introduces rich dynamical phenomena, including phase transitions and a sharp dependence on the queue statistics.
翻訳日:2024-09-18 02:35:35 公開日:2024-09-16
# ウェイクアップラジオを用いたニューロモルフィックスプリットコンピューティング:デジタルツインニングによるアーキテクチャと設計

Neuromorphic Split Computing with Wake-Up Radios: Architecture and Design via Digital Twinning ( http://arxiv.org/abs/2404.01815v3 )

ライセンス: Link先を確認
Jiechen Chen, Sangwoo Park, Petar Popovski, H. Vincent Poor, Osvaldo Simeone, (参考訳) ニューロモルフィックコンピューティングは、時間データの間隔を利用して、各ステップでニューロンとシナプスの小さなサブセットを活性化することで、処理エネルギーを削減する。 エッジベースシステムにおけるスプリットコンピューティングのためにデプロイされると、リモートニューロモルフィック処理ユニット(NPU)はスパースインパルス電波(IR)波形を用いて非同期に通信することで通信電力予算を削減できる。 このように、入力信号の間隔は計算と通信の両面で直接省エネに変換される。 しかし、IR伝送では、エネルギー消費全体への主な貢献は、主無線を継続するために必要な電力である。 本研究は,遠隔・無線接続型NPUからなる分割計算機システムに,覚醒無線機構を統合した新しいアーキテクチャを提案する。 覚醒無線に基づくニューロモルフィックスプリットコンピューティングシステムの設計における重要な課題は、検知、覚醒信号検出、意思決定のためのしきい値の選択である。 この問題に対処するため、第2のコントリビューションとして、物理システムのシミュレータであるデジタルツイン(DT)と、理論的信頼性を保証するためのLearning Then Test(LTT)と呼ばれるシーケンシャルな統計的テスト手法を併用した、新しい方法論を提案する。 提案したDT-LTT法は他の設計問題にも広く適用でき、神経形通信にも応用できる。 実験結果は,信頼性の保証と信頼性,エネルギー消費,意思決定の伝達性に関するトレードオフを検証し,設計と分析を検証した。

Neuromorphic computing leverages the sparsity of temporal data to reduce processing energy by activating a small subset of neurons and synapses at each time step. When deployed for split computing in edge-based systems, remote neuromorphic processing units (NPUs) can reduce the communication power budget by communicating asynchronously using sparse impulse radio (IR) waveforms. This way, the input signal sparsity translates directly into energy savings both in terms of computation and communication. However, with IR transmission, the main contributor to the overall energy consumption remains the power required to maintain the main radio on. This work proposes a novel architecture that integrates a wake-up radio mechanism within a split computing system consisting of remote, wirelessly connected, NPUs. A key challenge in the design of a wake-up radio-based neuromorphic split computing system is the selection of thresholds for sensing, wake-up signal detection, and decision making. To address this problem, as a second contribution, this work proposes a novel methodology that leverages the use of a digital twin (DT), i.e., a simulator, of the physical system, coupled with a sequential statistical testing approach known as Learn Then Test (LTT) to provide theoretical reliability guarantees. The proposed DT-LTT methodology is broadly applicable to other design problems, and is showcased here for neuromorphic communications. Experimental results validate the design and the analysis, confirming the theoretical reliability guarantees and illustrating trade-offs among reliability, energy consumption, and informativeness of the decisions.
翻訳日:2024-09-18 02:35:35 公開日:2024-09-16
# スタイル伝達を伴うfMRIにおける解析的変動の緩和

Mitigating analytical variability in fMRI results with style transfer ( http://arxiv.org/abs/2404.03703v2 )

ライセンス: Link先を確認
Elodie Germani, Camille Maumet, Elisa Fromont, (参考訳) 本稿では,異なる機能的MRIパイプライン間で統計マップを変換することで,ニューロイメージング結果の再現性を向上させる新しい手法を提案する。 我々は,fMRI統計マップの計算に使用されるパイプラインをスタイルコンポーネントとみなすことができると仮定し,GAN(Generative Adversarial Networks)とDM(Diffusion Models)という,異なる生成モデルを用いて,異なるパイプラインをまたいだ統計マップを変換する手法を提案する。 我々は、複数のGANフレームワークの性能について検討し、教師なしマルチドメインスタイルトランスファーのための新しいDMフレームワークを設計する。 我々は,異なるパイプラインから統計マップを識別する補助分類器の潜在空間を用いた3次元fMRI統計マップの生成を制約し,DMにおける従来のサンプリング手法を拡張して遷移性能を向上させる。 パイプラインは実際にスタイルコンポーネントとして転送可能であり、将来の医学研究に重要なデータ拡張源を提供する。

We propose a novel approach to improve the reproducibility of neuroimaging results by converting statistic maps across different functional MRI pipelines. We make the assumption that pipelines used to compute fMRI statistic maps can be considered as a style component and we propose to use different generative models, among which, Generative Adversarial Networks (GAN) and Diffusion Models (DM) to convert statistic maps across different pipelines. We explore the performance of multiple GAN frameworks, and design a new DM framework for unsupervised multi-domain styletransfer. We constrain the generation of 3D fMRI statistic maps using the latent space of an auxiliary classifier that distinguishes statistic maps from different pipelines and extend traditional sampling techniques used in DM to improve the transition performance. Our experiments demonstrate that our proposed methods aresuccessful: pipelines can indeed be transferred as a style component, providing animportant source of data augmentation for future medical studies.
翻訳日:2024-09-18 02:35:35 公開日:2024-09-16
# 半教師付きランドマーク検出のための自己学習の再考:選択不要アプローチ

Rethinking Self-training for Semi-supervised Landmark Detection: A Selection-free Approach ( http://arxiv.org/abs/2404.04556v2 )

ライセンス: Link先を確認
Haibo Jin, Haoxuan Che, Hao Chen, (参考訳) 自己学習は、半教師付き学習においてシンプルだが効果的な方法であり、疑似ラベルの選択は、確認バイアスを扱う上で重要な役割を果たす。 その人気にもかかわらず、ランドマーク検出に自己学習を適用することは、3つの問題に直面している。 1) 選択された確実な疑似ラベルには、しばしばデータバイアスが含まれており、それがモデルの性能を損なう可能性がある。 2) 局所化作業がうるさい擬似ラベルに敏感であるため, サンプル選択の適切なしきい値を決定するのは容易ではない。 3) 座標回帰は信頼性を出力せず, 選択に基づく自己学習が不可能である。 上記の課題に対処するために,明示的な擬似ラベル選択を必要としない自己評価型ランドマーク検出法(STLD)を提案する。 代わりにSTLDは、確認バイアスに対処するタスクカリキュラムを構築する。 前者はより良いモデル初期化を提供するためのカリキュラムの最初のタスクであり、後者は後段のラウンドでさらに追加され、擬似ラベルを粗い方法で直接活用する。 3つの顔と1つの医学的ランドマーク検出ベンチマークの実験は、STLDが半教師付き設定と全監督型設定の両方で既存の手法を一貫して上回っていることを示している。 コードはhttps://github.com/jhb86253817/STLDで公開されている。

Self-training is a simple yet effective method for semi-supervised learning, during which pseudo-label selection plays an important role for handling confirmation bias. Despite its popularity, applying self-training to landmark detection faces three problems: 1) The selected confident pseudo-labels often contain data bias, which may hurt model performance; 2) It is not easy to decide a proper threshold for sample selection as the localization task can be sensitive to noisy pseudo-labels; 3) coordinate regression does not output confidence, making selection-based self-training infeasible. To address the above issues, we propose Self-Training for Landmark Detection (STLD), a method that does not require explicit pseudo-label selection. Instead, STLD constructs a task curriculum to deal with confirmation bias, which progressively transitions from more confident to less confident tasks over the rounds of self-training. Pseudo pretraining and shrink regression are two essential components for such a curriculum, where the former is the first task of the curriculum for providing a better model initialization and the latter is further added in the later rounds to directly leverage the pseudo-labels in a coarse-to-fine manner. Experiments on three facial and one medical landmark detection benchmark show that STLD outperforms the existing methods consistently in both semi- and omni-supervised settings. The code is available at https://github.com/jhb86253817/STLD.
翻訳日:2024-09-18 02:35:35 公開日:2024-09-16
# 概念の深さを探る: 大規模言語モデルはどのように異なる層で知識を取得するか?

Exploring Concept Depth: How Large Language Models Acquire Knowledge at Different Layers? ( http://arxiv.org/abs/2404.07066v3 )

ライセンス: Link先を確認
Mingyu Jin, Qinkai Yu, Jingyuan Huang, Qingcheng Zeng, Zhenting Wang, Wenyue Hua, Haiyan Zhao, Kai Mei, Yanda Meng, Kaize Ding, Fan Yang, Mengnan Du, Yongfeng Zhang, (参考訳) 大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを示している。 しかし、これらのモデルが様々な複雑さのタスクを符号化するメカニズムは、いまだに理解されていない。 本稿では,LLMが異なる層における様々な複雑な概念を処理しているという仮説を考察し,より複雑な概念がより深い層で獲得されることを示唆する「概念深度」の概念を紹介した。 具体的には、概念を抽象化のレベルに基づいて分類し、現実的、感情的、推論的なタスクにおいて複雑さを増す順に定義する。 タスクの3つの領域にまたがる様々なデータセット上で,様々なLLMファミリー(Gemma, LLaMA, Qwen)のレイヤワイズ表現を用いた広範囲な探索実験を行った。 我々の研究結果によると、モデルでは浅い層で単純なタスクの探索を効率的に行うことができ、より複雑なタスクは正確な理解のためにより深い層を必要とする。 さらに、入力にノイズを加え、モデルの重みを定量化するような外部要因が、層ワイド表現にどのように影響するかを検討する。 以上の結果から, これらの因子は, より深い層を探索するまで, LLMの概念的理解の発達を妨げることが示唆された。 提案する概念と実験的な洞察により,LSMの基盤となるメカニズムの理解が促進されることを期待する。 私たちのコードは \url{https://github.com/Luckfort/CD} で利用可能です。

Large language models (LLMs) have shown remarkable performances across a wide range of tasks. However, the mechanisms by which these models encode tasks of varying complexities remain poorly understood. In this paper, we explore the hypothesis that LLMs process concepts of varying complexities in different layers, introducing the idea of ``Concept Depth'' to suggest that more complex concepts are typically acquired in deeper layers. Specifically, we categorize concepts based on their level of abstraction, defining them in the order of increasing complexity within factual, emotional, and inferential tasks. We conduct extensive probing experiments using layer-wise representations across various LLM families (Gemma, LLaMA, Qwen) on various datasets spanning the three domains of tasks. Our findings reveal that models could efficiently conduct probing for simpler tasks in shallow layers, and more complex tasks typically necessitate deeper layers for accurate understanding. Additionally, we examine how external factors, such as adding noise to the input and quantizing the model weights, might affect layer-wise representations. Our findings suggest that these factors can impede the development of a conceptual understanding of LLMs until deeper layers are explored. We hope that our proposed concept and experimental insights will enhance the understanding of the mechanisms underlying LLMs. Our codes are available at \url{https://github.com/Luckfort/CD}.
翻訳日:2024-09-18 02:35:35 公開日:2024-09-16
# PMB5: ベンチマークによるニューラルセマンティックパースへの洞察向上

PMB5: Gaining More Insight into Neural Semantic Parsing with Challenging Benchmarks ( http://arxiv.org/abs/2404.08354v4 )

ライセンス: Link先を確認
Xiao Zhang, Chunliu Wang, Rik van Noord, Johan Bos, (参考訳) Parallel Meaning Bank (PMB) はセマンティック処理のためのコーパスとして機能し、セマンティック解析とテキスト生成に重点を置いている。 現在、我々はPMBにおけるニューラルパーサーとジェネレータの優れたパフォーマンスを目撃している。 これは、このようなセマンティックな処理タスクが、大きく解決されたことを示唆するかもしれない。 PMBにおける過去のパフォーマンススコアは、最適でないデータ分割とテストセットによって膨らませられている、と我々は主張する。 これに応えて、いくつかの変更を加えます。 まず、事前のランダム分割の代わりに、標準的なテストデータの信頼性を向上させるために、より体系的な分割手法を提案する。 第二に、標準的なテストセットを除いて、談話構造を含む長いテキストを持つものと、構成的一般化に対処するものという2つの課題セットを提案する。 意味解析と意味テキスト生成のための5つのニューラルモデルを評価する。 以上の結果から,モデルの性能は(場合によっては)課題セットで低下し,このような課題に直面する際のニューラルネットワークの限界が明らかになった。

The Parallel Meaning Bank (PMB) serves as a corpus for semantic processing with a focus on semantic parsing and text generation. Currently, we witness an excellent performance of neural parsers and generators on the PMB. This might suggest that such semantic processing tasks have by and large been solved. We argue that this is not the case and that performance scores from the past on the PMB are inflated by non-optimal data splits and test sets that are too easy. In response, we introduce several changes. First, instead of the prior random split, we propose a more systematic splitting approach to improve the reliability of the standard test data. Second, except for the standard test set, we also propose two challenge sets: one with longer texts including discourse structure, and one that addresses compositional generalization. We evaluate five neural models for semantic parsing and meaning-to-text generation. Our results show that model performance declines (in some cases dramatically) on the challenge sets, revealing the limitations of neural models when confronting such challenges.
翻訳日:2024-09-18 02:25:37 公開日:2024-09-16
# NeuroLGP-SM: ディープニューラルネットワークのためのスケーラブルなサロゲート支援神経進化

NeuroLGP-SM: Scalable Surrogate-Assisted Neuroevolution for Deep Neural Networks ( http://arxiv.org/abs/2404.08786v4 )

ライセンス: Link先を確認
Fergal Stapleton, Edgar Galván, (参考訳) 進化的アルゴリズム(EA)は、神経進化として知られるプロセスであるArtificial Deep Neural Networks(DNN)のアーキテクチャ構成とトレーニングにおいて重要な役割を果たす。 しかし、神経進化は、その固有の計算コストによって妨げられ、複数の世代、多数の人口、多くのエポックを必要としている。 最も計算集約的な側面は、単一の候補解の適合関数を評価することである。 この課題に対処するため、我々はSurrogate-assisted EAs (SAEAs) を採用する。 神経進化においていくつかのSAEAアプローチが提案されているが、難解な情報利用のような問題のため、真のDNNには適用されていない。 本研究では、遺伝的プログラミングのセマンティクスからインスピレーションを得て、DNNから出力される表現型距離ベクトルと、これらの大きなベクトルを扱うのに有効なKPLS(Partial Least Squares)とを併用し、探索に適した手法を提案する。 提案手法はニューロLinear Genetic Programming surrogate model (NeuroLGP-SM) と名付けられ, 完全評価を必要とせず, DNNの適合性を効率的に正確に推定する。 NeuroLGP-SMは、SMを持たないNeuroLGP、畳み込みニューラルネットワーク、サポートベクターマシン、オートエンコーダなど、他の12の方法と比較して、競合的または優れた結果を示す。 また、NeuroLGP-SMはNeuroLGPよりも25%エネルギー効率が高い。 この効率性は,提案したNeuroLGP-SMが大規模DNNの構成を最適化する際の全体的な魅力を増す。

Evolutionary Algorithms (EAs) play a crucial role in the architectural configuration and training of Artificial Deep Neural Networks (DNNs), a process known as neuroevolution. However, neuroevolution is hindered by its inherent computational expense, requiring multiple generations, a large population, and numerous epochs. The most computationally intensive aspect lies in evaluating the fitness function of a single candidate solution. To address this challenge, we employ Surrogate-assisted EAs (SAEAs). While a few SAEAs approaches have been proposed in neuroevolution, none have been applied to truly large DNNs due to issues like intractable information usage. In this work, drawing inspiration from Genetic Programming semantics, we use phenotypic distance vectors, outputted from DNNs, alongside Kriging Partial Least Squares (KPLS), an approach that is effective in handling these large vectors, making them suitable for search. Our proposed approach, named Neuro-Linear Genetic Programming surrogate model (NeuroLGP-SM), efficiently and accurately estimates DNN fitness without the need for complete evaluations. NeuroLGP-SM demonstrates competitive or superior results compared to 12 other methods, including NeuroLGP without SM, convolutional neural networks, support vector machines, and autoencoders. Additionally, it is worth noting that NeuroLGP-SM is 25% more energy-efficient than its NeuroLGP counterpart. This efficiency advantage adds to the overall appeal of our proposed NeuroLGP-SM in optimising the configuration of large DNNs.
翻訳日:2024-09-18 02:25:37 公開日:2024-09-16
# 大規模言語モデルと言語意図性

Large language models and linguistic intentionality ( http://arxiv.org/abs/2404.09576v2 )

ライセンス: Link先を確認
Jumbly Grindrod, (参考訳) Chat-GPTやLLaMaのような大きな言語モデルは、それらが生成する単語を有意義に使用していますか? それとも、統計的に妥当なテキストを生成することで、言語の使用をシミュレートする、単なる巧妙な予測マシンなのだろうか? 精神内容のメタセマンティック理論に従って、これらのモデルが有意義な状態に入るための基準を満たしていることを示すことで、この問題に対処する試みは、すでにいくつかある。 本稿では,言語モデルが言語内容の最高のメタセマンティック理論によって与えられる基準を満たすか否かを考慮すべきである,という別のアプローチについて論じる。 ガレス・エヴァンス(1982年)の命名慣行の説明とルース・ミリカン(1984年、2004年、2005年)の遠隔操作論である。 このようにして、LLMが精神的な意図性に対して妥当な条件を満たせなかったことが、そのアウトプットを無意味にし、言語意図性の区別された特徴である、既存の言語システムへの依存は、LLMのアウトプットが有意義な結果をもたらすと考えるのは間違いである。

Do large language models like Chat-GPT or LLaMa meaningfully use the words they produce? Or are they merely clever prediction machines, simulating language use by producing statistically plausible text? There have already been some initial attempts to answer this question by showing that these models meet the criteria for entering meaningful states according to metasemantic theories of mental content. In this paper, I will argue for a different approach - that we should instead consider whether language models meet the criteria given by our best metasemantic theories of linguistic content. In that vein, I will illustrate how this can be done by applying two such theories to the case of language models: Gareth Evans' (1982) account of naming practices and Ruth Millikan's (1984, 2004, 2005) teleosemantics. In doing so, I will argue that it is a mistake to think that the failure of LLMs to meet plausible conditions for mental intentionality thereby renders their outputs meaningless, and that a distinguishing feature of linguistic intentionality - dependency on a pre-existing linguistic system - allows for the plausible result LLM outputs are meaningful.
翻訳日:2024-09-18 02:25:37 公開日:2024-09-16
# オープンソースソフトウェア開発ツールのインストール - 初心者開発者にとっての課題と戦略

Open Source Software Development Tool Installation: Challenges and Strategies For Novice Developers ( http://arxiv.org/abs/2404.14637v2 )

ライセンス: Link先を確認
Larissa Salerno, Christoph Treude, Patanamon Thongtatunam, (参考訳) テクノロジーの世界が進むにつれ、ソフトウェア開発者が新しいプログラムを作るために使うツールも増えていく。 近年、ソフトウェア開発ツールの人気が高まっており、開発者はより効率的に作業し、高品質なソフトウェアを作成できるようになっている。 それでも、このようなツールのインストールは、初心者開発者にとってキャリアの初期段階において、互換性の問題(例えば、オペレーティングシステム)のような問題に直面しているため、難しい場合がある。 そこで本研究の目的は,ソフトウェア開発ツールのインストールにおいて,初心者開発者が直面する課題を調査することである。 そこで我々は,24回のライブソフトウェアインストールセッションの分析を行い,課題を観察し,その対処方法,適用戦略,課題に遭遇する際の情報ソースの種類を把握した。 調査の結果,インストール手順やインストールプロセス中のフィードバックの不十分といった不明瞭なドキュメントは,初心者開発者が直面する一般的な課題であることがわかった。 さらに、検索クエリの改定と非公式文書への依存は、課題を克服するための戦略の一部であった。 この結果に基づき,ツールベンダ,ツールユーザ,研究者に対して,実践的なレコメンデーションを提供する。

As the world of technology advances, so do the tools that software developers use to create new programs. In recent years, software development tools have become more popular, allowing developers to work more efficiently and produce higher-quality software. Still, installing such tools can be challenging for novice developers at the early stage of their careers, as they may face challenges, such as compatibility issues (e.g., operating systems). Therefore, this work aims to investigate the challenges novice developers face in software development when installing software development tools. To investigate these, we conducted an analysis of 24 live software installation sessions to observe challenges and comprehend their actions, the strategies they apply, and the type of source of information they consult when encountering challenges. Our findings show that unclear documentation, such as installation instructions, and inadequate feedback during the installation process are common challenges faced by novice developers. Moreover, reformulating search queries and relying on non-official documentation were some of the strategies employed to overcome challenges. Based on our findings, we provide practical recommendations for tool vendors, tool users, and researchers.
翻訳日:2024-09-18 02:25:37 公開日:2024-09-16
# 共変量シフト下における等角予測系

Conformal Predictive Systems Under Covariate Shift ( http://arxiv.org/abs/2404.15018v2 )

ライセンス: Link先を確認
Jef Jonkers, Glenn Van Wallendael, Luc Duchateau, Sofie Van Hoecke, (参考訳) Conformal Predictive Systems (CPS) は、予測分布を構築するための汎用的なフレームワークを提供する。 しかしながら、それらの適用性は、独立分散IID(Independent and Identically Distributed)モデルの仮定に固執するシナリオに限られている。 本稿では,共変量シフトを特徴とするシナリオに対応するため,CPSを拡張した。 そこで我々は,重み付きCPS(Weighted CPS, Weighted Conformal Prediction, WCP)を提案する。 この拡張により、共変量シフトを扱うことができる非パラメトリック予測分布の構築が可能になる。 本稿では,WCPSの有効性と有効性に関する理論的根拠と予想について述べる。 シミュレーション実験により,WCPSは共変量シフトの下で確率的に校正されていることが示された。

Conformal Predictive Systems (CPS) offer a versatile framework for constructing predictive distributions, allowing for calibrated inference and informative decision-making. However, their applicability has been limited to scenarios adhering to the Independent and Identically Distributed (IID) model assumption. This paper extends CPS to accommodate scenarios characterized by covariate shifts. We therefore propose Weighted CPS (WCPS), akin to Weighted Conformal Prediction (WCP), leveraging likelihood ratios between training and testing covariate distributions. This extension enables the construction of nonparametric predictive distributions capable of handling covariate shifts. We present theoretical underpinnings and conjectures regarding the validity and efficacy of WCPS and demonstrate its utility through empirical evaluations on both synthetic and real-world datasets. Our simulation experiments indicate that WCPS are probabilistically calibrated under covariate shift.
翻訳日:2024-09-18 02:25:37 公開日:2024-09-16
# CBMAP:次元減少のためのクラスタリングに基づく多様体近似と射影

CBMAP: Clustering-based manifold approximation and projection for dimensionality reduction ( http://arxiv.org/abs/2404.17940v2 )

ライセンス: Link先を確認
Berat Dogan, (参考訳) 次元性低減法は、機械学習の性能向上や、2次元または3次元空間におけるデータの可視化を容易にするために用いられる。 これらの手法は通常、特徴選択と特徴変換の2つのカテゴリに分類される。 特徴選択は重要な特徴を保ち、特徴変換はデータを線形および非線形な方法で低次元空間に投影する。 非線形手法は局所構造を保存し、非線形関係を捉えるのに優れているが、大域構造を解釈するのに苦労し、計算的に集約することができる。 t-SNE、UMAP、TriMap、PaCMAPといった最近のアルゴリズムは、しばしばグローバルな構造を正確に表現するために、局所的な構造を保存することを優先している。 さらに、これらの手法はハイパーパラメータに大きく依存しており、パラメータ設定に敏感である。 これらの制約に対処するために, CBMAP (Clustering-based Manifold Approximation and Projection) というクラスタリングに基づく手法を導入する。 CBMAPは、大域的構造と局所的構造の両方を保存することを目的としており、低次元空間のクラスターが高次元空間のクラスタと密接に類似していることを保証する。 ベンチマークデータセットの実験的評価はCBMAPの有効性を示し、スピード、スケーラビリティ、ハイパーパラメータへの最小依存を提供する。 重要なことは、CBMAPはテストデータの低次元投影を可能にし、機械学習アプリケーションにおける重要なニーズに対処する。 CBMAPはhttps://github.com/doganlab/cbmapで無料で利用可能であり、Python Package Directory (PyPI)ソフトウェアリポジトリからインストールすることができる。

Dimensionality reduction methods are employed to decrease data dimensionality, either to enhance machine learning performance or to facilitate data visualization in two or three-dimensional spaces. These methods typically fall into two categories: feature selection and feature transformation. Feature selection retains significant features, while feature transformation projects data into a lower-dimensional space, with linear and nonlinear methods. While nonlinear methods excel in preserving local structures and capturing nonlinear relationships, they may struggle with interpreting global structures and can be computationally intensive. Recent algorithms, such as the t-SNE, UMAP, TriMap, and PaCMAP prioritize preserving local structures, often at the expense of accurately representing global structures, leading to clusters being spread out more in lower-dimensional spaces. Moreover, these methods heavily rely on hyperparameters, making their results sensitive to parameter settings. To address these limitations, this study introduces a clustering-based approach, namely CBMAP (Clustering-Based Manifold Approximation and Projection), for dimensionality reduction. CBMAP aims to preserve both global and local structures, ensuring that clusters in lower-dimensional spaces closely resemble those in high-dimensional spaces. Experimental evaluations on benchmark datasets demonstrate CBMAP's efficacy, offering speed, scalability, and minimal reliance on hyperparameters. Importantly, CBMAP enables low-dimensional projection of test data, addressing a critical need in machine learning applications. CBMAP is made freely available at https://github.com/doganlab/cbmap and can be installed from the Python Package Directory (PyPI) software repository with the command pip install cbmap.
翻訳日:2024-09-18 02:25:36 公開日:2024-09-16
# 多変量政策学習による多目的勧告

Multi-Objective Recommendation via Multivariate Policy Learning ( http://arxiv.org/abs/2405.02141v2 )

ライセンス: Link先を確認
Olivier Jeunen, Jatin Mandav, Ivan Potapov, Nakul Agarwal, Sourabh Vaid, Wenzhe Shi, Aleksei Ustimenko, (参考訳) 現実世界のレコメンデーションシステムは、ユーザに提示するレコメンデーションを決定する際に、複数の目的のバランスを取る必要があることが多い。 これには行動信号(例えばクリック、共有、居住時間)や、より広い目的(例えば多様性、公平性)が含まれる。 このバランス作業では、目的ごとの報酬信号の重み付け平均が最終スコアを決定する。 もちろん、これらの重みが正確に計算されることは、あらゆるオンラインプラットフォームにとって成功の鍵となる。 私たちはこれを意思決定のタスクとして捉えており、スカラー化の重み付けは、ノーススター全体の報酬(例えば、長期のユーザー維持や成長)を最大化するための行動である。 既存の政策学習手法を連続多変量行動領域に拡張し、学習ポリシーがもたらすノーススター報酬の悲観的な下限を最大化することを提案する。 通常の近似に基づく典型的な下限は、カバー不足に悩まされ、これに対する効率的かつ効果的なポリシー依存の補正を提案する。 我々は、確率的データ収集ポリシーを設計するためのガイダンスと、高感度な報酬信号を提供する。 シミュレーション、オフラインおよびオンライン実験による経験的観察は、我々のデプロイされたアプローチの有効性を浮き彫りにする。

Real-world recommender systems often need to balance multiple objectives when deciding which recommendations to present to users. These include behavioural signals (e.g. clicks, shares, dwell time), as well as broader objectives (e.g. diversity, fairness). Scalarisation methods are commonly used to handle this balancing task, where a weighted average of per-objective reward signals determines the final score used for ranking. Naturally, how these weights are computed exactly, is key to success for any online platform. We frame this as a decision-making task, where the scalarisation weights are actions taken to maximise an overall North Star reward (e.g. long-term user retention or growth). We extend existing policy learning methods to the continuous multivariate action domain, proposing to maximise a pessimistic lower bound on the North Star reward that the learnt policy will yield. Typical lower bounds based on normal approximations suffer from insufficient coverage, and we propose an efficient and effective policy-dependent correction for this. We provide guidance to design stochastic data collection policies, as well as highly sensitive reward signals. Empirical observations from simulations, offline and online experiments highlight the efficacy of our deployed approach.
翻訳日:2024-09-18 02:15:45 公開日:2024-09-16
# 短期的・長期的リワードのバランスをとるための政策学習

Policy Learning for Balancing Short-Term and Long-Term Rewards ( http://arxiv.org/abs/2405.03329v2 )

ライセンス: Link先を確認
Peng Wu, Ziyu Shen, Feng Xie, Zhongyao Wang, Chunchen Liu, Yan Zeng, (参考訳) 様々な領域にまたがる実証的な研究者や意思決定者は、介入の長期的な影響について深い洞察を求めることが多い。 長期的な成果の重要性は否定できないが、それらに対する過度の強調は必然的に短期的な利益を覆す可能性がある。 そこで本研究では,長期的報酬と短期的報酬を効果的にバランスする最適な政策を学習するための新たな枠組みを定式化する。 特に、まず、軽度の仮定で両報酬の同一性を示す。 次に、半パラメトリック効率境界を、それらの推定器の整合性と漸近正規性とともに導出する。 また、短期的な成果が関連する場合、長期的な報奨の見積りの改善に寄与することを明らかにする。 提案した推定値に基づいて,原則的政策学習手法を開発し,さらに,学習した方針に付随する後悔と推定誤差の収束率を導出する。 提案手法の有効性を検証し,その有効性を実証するための実験を行った。

Empirical researchers and decision-makers spanning various domains frequently seek profound insights into the long-term impacts of interventions. While the significance of long-term outcomes is undeniable, an overemphasis on them may inadvertently overshadow short-term gains. Motivated by this, this paper formalizes a new framework for learning the optimal policy that effectively balances both long-term and short-term rewards, where some long-term outcomes are allowed to be missing. In particular, we first present the identifiability of both rewards under mild assumptions. Next, we deduce the semiparametric efficiency bounds, along with the consistency and asymptotic normality of their estimators. We also reveal that short-term outcomes, if associated, contribute to improving the estimator of the long-term reward. Based on the proposed estimators, we develop a principled policy learning approach and further derive the convergence rates of regret and estimation errors associated with the learned policy. Extensive experiments are conducted to validate the effectiveness of the proposed method, demonstrating its practical applicability.
翻訳日:2024-09-18 02:15:45 公開日:2024-09-16
# オープン量子系における二部構造OTOC : 情報スクランブルと可逆性

Bipartite OTOC in open quantum systems: information scrambling and irreversibility ( http://arxiv.org/abs/2405.03810v2 )

ライセンス: Link先を確認
Baibhab Bose, Devvrat Tiwari, Subhashish Banerjee, (参考訳) 情報スクランブルの分野は、過去10年間で著しい成長を遂げており、そこでは、時間外順序付き相関器(OTOC)が、それを調査するための顕著なツールとして登場した。 本研究では、OTOCの特定の形態である二部体OTOCを用いて、原子-磁場相互作用モデルと傾斜磁場と相互作用するイジングスピン鎖のモデルにおける情報スクランブルについて研究する。 これはオープン量子系の影響を考慮して行われる。 両部類OTOCを用いた情報スクランブルとエントロピー生成を用いた不可逆性の関係を,ユニタリダイナミクスの下で調査する。 演算子エンタングルメントを持つ二部式OTOCの同値性はイジングモデルに対して明示的に示される。

The field of information scrambling has seen significant growth over the last decade, where the out-of-time-ordered correlator (OTOC) has emerged as a prominent tool to probe it. In this work, we use bipartite OTOC, a particular form of OTOC, to study information scrambling in the atom-field interaction models and the model of the Ising spin chain interacting with a tilted magnetic field. This is done considering the effects of open quantum systems. A relationship between information scrambling, using bipartite OTOC, and irreversibility, using entropy production, is probed under unitary dynamics. The equivalence of bipartite OTOC with operator entanglement is explicitly shown for the Ising model.
翻訳日:2024-09-18 02:15:45 公開日:2024-09-16
# Surf-Deformer: 適応変形による表面コード上の動的欠陥の軽減

Surf-Deformer: Mitigating Dynamic Defects on Surface Code via Adaptive Deformation ( http://arxiv.org/abs/2405.06941v3 )

ライセンス: Link先を確認
Keyi Yin, Xiang Fang, Yunong Shi, Travis Humble, Ang Li, Yufei Ding, (参考訳) 本稿では,適応的欠陥軽減機能を現在のコードワークフローにシームレスに統合するコード変形フレームワークであるSurf-Deformerを紹介する。 基本的なゲージ変換に基づく基本的な変形命令を複数作成し、従来の方法よりも大きな設計空間を探索するために組み合わせることができる。 これにより、特定の欠陥状況に合わせてより最適化された変形プロセスが可能になり、最小のキュービットリソースで変形したコードのQEC能力をより効率的に復元することができる。 さらに、論理演算の効率的な実行を確保しつつ、欠陥軽減戦略に対応する適応的なコードレイアウトを設計する。 評価の結果,Surf-Deformerは,従来の手法に比べて約50%の量子ビットリソースしか必要とせず,様々な量子プログラムのエンドツーエンドの故障率を35倍から70倍に低下させることで,従来の手法よりも優れていた。 アブレーション研究により、Surf-DeformerはQEC能力の維持において従来の欠陥除去手法を超越し、ほぼ最適スループットを達成し、表面コード通信を容易にすることが示されている。

In this paper, we introduce Surf-Deformer, a code deformation framework that seamlessly integrates adaptive defect mitigation functionality into the current surface code workflow. It crafts several basic deformation instructions based on fundamental gauge transformations, which can be combined to explore a larger design space than previous methods. This enables more optimized deformation processes tailored to specific defect situations, restoring the QEC capability of deformed codes more efficiently with minimal qubit resources. Additionally, we design an adaptive code layout that accommodates our defect mitigation strategy while ensuring efficient execution of logical operations. Our evaluation shows that Surf-Deformer outperforms previous methods by significantly reducing the end-to-end failure rate of various quantum programs by 35x to 70x, while requiring only about 50% of the qubit resources compared to the previous method to achieve the same level of failure rate. Ablation studies show that Surf-Deformer surpasses previous defect removal methods in preserving QEC capability and facilitates surface code communication by achieving nearly optimal throughput.
翻訳日:2024-09-18 02:15:45 公開日:2024-09-16
# NGD-SLAM:GPUなしでリアルタイム動的SLAMを目指す

NGD-SLAM: Towards Real-Time Dynamic SLAM without GPU ( http://arxiv.org/abs/2405.07392v2 )

ライセンス: Link先を確認
Yuhao Zhang, Mihai Bujanca, Mikel Luján, (参考訳) 既存のSLAM(Simultaneous Localization and Mapping)アルゴリズムは、ディープラーニング技術を用いて動的物体を識別することにより、動的環境における顕著な局所化精度を実現している。 しかし、彼らは通常、リアルタイムに運用するためにGPUを必要とします。 そこで本稿では,マスク予測機構を組み込むことで,CPU上でのみ動作するオープンソースのリアルタイム動的SLAMシステムを提案する。 我々のSLAMシステムは、さらに2段階の光フロー追跡手法を導入し、光学フローとORBのハイブリッド利用を活用し、計算資源を入力フレームに選択的に割り当てることにより、効率と堅牢性を向上する。 従来の手法と比較して,ラップトップCPU上でのトラッキングフレームレート56FPSを実現しつつ,動的環境における高いローカライズ精度を維持し,GPUサポートなしの動的SLAMに対して深層学習が実現可能であることを証明した。 私たちの知る限りでは、これがこれを実現する最初のSLAMシステムです。

Existing SLAM (Simultaneous Localization and Mapping) algorithms have achieved remarkable localization accuracy in dynamic environments by using deep learning techniques to identify dynamic objects. However, they usually require GPUs to operate in real-time. Therefore, this paper proposes an open-source real-time dynamic SLAM system that runs solely on CPU by incorporating a mask prediction mechanism, which allows the deep learning method and the camera tracking to run entirely in parallel at different frequencies. Our SLAM system further introduces a dual-stage optical flow tracking approach and employs a hybrid usage of optical flow and ORB features, enhancing efficiency and robustness by selectively allocating computational resources to input frames. Compared with previous methods, our system maintains high localization accuracy in dynamic environments while achieving a tracking frame rate of 56 FPS on a laptop CPU, proving that deep learning methods are feasible for dynamic SLAM without GPU support. To the best of our knowledge, this is the first SLAM system to achieve this.
翻訳日:2024-09-18 02:15:45 公開日:2024-09-16
# ホップ代数からの一般化クラスター状態:非可逆対称性とホップテンソルネットワーク表現

Generalized cluster states from Hopf algebras: non-invertible symmetry and Hopf tensor network representation ( http://arxiv.org/abs/2405.09277v5 )

ライセンス: Link先を確認
Zhian Jia, (参考訳) クラスタ状態は、測定ベースの量子計算(MBQC)にとって重要なリソースである。 対称性保護トポロジカル秩序(SPT)を示すため、トポロジカルフェーズの研究にも重要な役割を果たしている。 ホップ代数に基づくクラスター状態の構成について述べる。 有限群値quditをホップ代数値quditに一般化し、ホップ代数の正則作用に基づく一般化されたパウリ-X作用素を導入し、ホップ代数上の既約表現作用に基づく一般化されたパウリ-Z作用素を導入することにより、ホップ量子の包括的理論を開発する。 ホップ四重項に対して非可逆対称性が自然に現れることを示す。 その後、クラスタグラフと呼ばれる二部グラフに対して、同一性状態と自明な表現状態はそれぞれ偶数頂点と奇数頂点に割り当てる。 エッジアンタングルを制御された正規動作として導入し、ホップクラスター状態の一般的な構成を提供する。 エッジエンタングルの可換性を確保するために,任意の三角形多様体に対してクラスタ格子を構築する手法を提案する。 構築を説明する例として,1dクラスタ状態の例を例に挙げる。 これはSPT相の有望な候補として機能するため、このシナリオのためにギャップ付きハミルトン多様体を構築し、その非可逆対称性について詳細な議論を行う。 1dクラスタ状態モデルが,1つの粗い境界と1つの滑らかな境界を持つ準1dホップ量子二重モデルと等価であることを示す。 また、対称性トポロジカル場理論によるホップクラスタ状態モデルのホップはしごモデルへの一般化についても論じる。 さらに,構造定数のテンソル表現とホップ代数の弦図を統合することにより,ホップクラスタ状態のホップテンソルネットワーク表現を導入する。

Cluster states are crucial resources for measurement-based quantum computation (MBQC). It exhibits symmetry-protected topological (SPT) order, thus also playing a crucial role in studying topological phases. We present the construction of cluster states based on Hopf algebras. By generalizing the finite group valued qudit to a Hopf algebra valued qudit and introducing the generalized Pauli-X operator based on the regular action of the Hopf algebra, as well as the generalized Pauli-Z operator based on the irreducible representation action on the Hopf algebra, we develop a comprehensive theory of Hopf qudits. We demonstrate that non-invertible symmetry naturally emerges for Hopf qudits. Subsequently, for a bipartite graph termed the cluster graph, we assign the identity state and trivial representation state to even and odd vertices, respectively. Introducing the edge entangler as controlled regular action, we provide a general construction of Hopf cluster states. To ensure the commutativity of the edge entangler, we propose a method to construct a cluster lattice for any triangulable manifold. We use the 1d cluster state as an example to illustrate our construction. As this serves as a promising candidate for SPT phases, we construct the gapped Hamiltonian for this scenario and provide a detailed discussion of its non-invertible symmetries. We demonstrate that the 1d cluster state model is equivalent to the quasi-1d Hopf quantum double model with one rough boundary and one smooth boundary. We also discuss the generalization of the Hopf cluster state model to the Hopf ladder model through symmetry topological field theory. Furthermore, we introduce the Hopf tensor network representation of Hopf cluster states by integrating the tensor representation of structure constants with the string diagrams of the Hopf algebra, which can be used to solve the Hopf cluster state model.
翻訳日:2024-09-18 02:15:45 公開日:2024-09-16
# $Δ\text{-}{\rm OPE}$:Pairs of Policiesによるオフポリティ推定

$Δ\text{-}{\rm OPE}$: Off-Policy Estimation with Pairs of Policies ( http://arxiv.org/abs/2405.10024v2 )

ライセンス: Link先を確認
Olivier Jeunen, Aleksei Ustimenko, (参考訳) オフ・ポリティクスのパラダイムは、リコメンデーションを反ファクトな意思決定タスクとみなし、実践者はオフラインデータを使用してオンラインメトリクスを不公平に見積もることができる。 これは効果的な評価指標と、オンラインの成功を直接最適化する学習手順につながります。 それにもかかわらず、偏りが伴う高い分散は、通常、実践的な応用を複雑にするくちばしである。 重要な洞察は、政策値の違いが正の共分散を持つ場合、大きな分散を減らして推定されることがしばしばあるということである。 これにより、ペアワイズなオフポリティ推定タスクを定式化できます。 $\Delta\text{-}{\rm OPE}$は、確率的なロギングポリシによって収集されたデータを使用して、プロダクションポリシーに対する学習ポリシーの改善を推定する一般的なユースケースを仮定する。 Inverse Propensity Scoring estimatorとその拡張をベースにした$\Delta\text{-}{\rm OPE}$メソッドを紹介した。 さらに,より効率を向上する分散最適加法制御バリアイトを特徴付ける。 シミュレーション,オフライン,オンライン実験により,本手法は評価タスクと学習タスクの両方のパフォーマンスを著しく向上させることが示された。

The off-policy paradigm casts recommendation as a counterfactual decision-making task, allowing practitioners to unbiasedly estimate online metrics using offline data. This leads to effective evaluation metrics, as well as learning procedures that directly optimise online success. Nevertheless, the high variance that comes with unbiasedness is typically the crux that complicates practical applications. An important insight is that the difference between policy values can often be estimated with significantly reduced variance, if said policies have positive covariance. This allows us to formulate a pairwise off-policy estimation task: $\Delta\text{-}{\rm OPE}$. $\Delta\text{-}{\rm OPE}$ subsumes the common use-case of estimating improvements of a learnt policy over a production policy, using data collected by a stochastic logging policy. We introduce $\Delta\text{-}{\rm OPE}$ methods based on the widely used Inverse Propensity Scoring estimator and its extensions. Moreover, we characterise a variance-optimal additive control variate that further enhances efficiency. Simulated, offline, and online experiments show that our methods significantly improve performance for both evaluation and learning tasks.
翻訳日:2024-09-18 02:15:45 公開日:2024-09-16
# 電気通信のための大規模言語モデル(LLM:Large Language Model: 原則,鍵技術,機会に関する総合的な調査

Large Language Model (LLM) for Telecommunications: A Comprehensive Survey on Principles, Key Techniques, and Opportunities ( http://arxiv.org/abs/2405.10825v2 )

ライセンス: Link先を確認
Hao Zhou, Chengming Hu, Ye Yuan, Yufei Cui, Yili Jin, Can Chen, Haolun Wu, Dun Yuan, Li Jiang, Di Wu, Xue Liu, Charlie Zhang, Xianbin Wang, Jiangchuan Liu, (参考訳) 大規模言語モデル (LLM) は、その卓越した理解力と推論能力から近年注目されており、多くの分野で大きな進歩を遂げている。 LLM技術の進歩はまた、テレコミュニケーション(テレコム)分野における多くのタスクを自動化する有望な機会を提供する。 事前訓練と微調整の後、LLMは人間の指示に基づいて様々な下流タスクを実行でき、人工知能(AGI)対応の6Gへの道を歩むことができる。 LLM 技術の可能性を考えると,本研究は LLM 対応通信網を網羅的に概観することを目的としている。 特に,まず,モデルアーキテクチャ,事前学習,微調整,推論と利用,モデル評価,テレコム展開など,LCMの基本概念を提示する。 次に, LLM 対応キー技術とテレコムを, 生成, 分類, 最適化, 予測問題の観点から導入する。 具体的には、LLM対応のアプリケーションには、テレコムドメイン知識、コード、ネットワーク構成生成が含まれる。 その後、LLMベースの分類アプリケーションには、ネットワークセキュリティ、テキスト、画像、トラフィックの分類の問題が含まれる。 さらに、強化学習のための自動報酬関数設計や言語強化学習など、複数のLLM対応最適化技術も導入されている。 さらに,LLMを用いた予測問題に対して,時系列予測モデルとテレコムのマルチモーダリティ予測問題について議論した。 最後に,LLM対応通信ネットワークの課題と今後の方向性を明らかにする。

Large language models (LLMs) have received considerable attention recently due to their outstanding comprehension and reasoning capabilities, leading to great progress in many fields. The advancement of LLM techniques also offers promising opportunities to automate many tasks in the telecommunication (telecom) field. After pre-training and fine-tuning, LLMs can perform diverse downstream tasks based on human instructions, paving the way to artificial general intelligence (AGI)-enabled 6G. Given the great potential of LLM technologies, this work aims to provide a comprehensive overview of LLM-enabled telecom networks. In particular, we first present LLM fundamentals, including model architecture, pre-training, fine-tuning, inference and utilization, model evaluation, and telecom deployment. Then, we introduce LLM-enabled key techniques and telecom applications in terms of generation, classification, optimization, and prediction problems. Specifically, the LLM-enabled generation applications include telecom domain knowledge, code, and network configuration generation. After that, the LLM-based classification applications involve network security, text, image, and traffic classification problems. Moreover, multiple LLM-enabled optimization techniques are introduced, such as automated reward function design for reinforcement learning and verbal reinforcement learning. Furthermore, for LLM-aided prediction problems, we discussed time-series prediction models and multi-modality prediction problems for telecom. Finally, we highlight the challenges and identify the future directions of LLM-enabled telecom networks.
翻訳日:2024-09-18 02:15:45 公開日:2024-09-16
# LightningDrag: 高速で正確なドラッグベースの画像編集

LightningDrag: Lightning Fast and Accurate Drag-based Image Editing Emerging from Videos ( http://arxiv.org/abs/2405.13722v2 )

ライセンス: Link先を確認
Yujun Shi, Jun Hao Liew, Hanshu Yan, Vincent Y. F. Tan, Jiashi Feng, (参考訳) 精度とスピードは、画像編集タスクにおいて重要である。 Panらは、GAN(Generative Adversarial Networks)を使用したピクセルレベルの制御を実現する、ドラッグベースの画像編集フレームワークを導入した。 その後の研究は、大規模な拡散モデルを活用することで、このフレームワークの一般性を高めた。 しかし、これらの手法は不規則に長い処理時間(編集1分あたり1分)と成功率の低下に悩まされることが多い。 この問題に先んじて、LightningDragを紹介します。これは高速なアプローチで、1秒以内で高速なドラッグベースの画像編集を可能にします。 従来の方法とは異なり、条件生成タスクとしてドラッグベースの編集を再定義し、推論中に時間を要する遅延最適化や勾配に基づくガイダンスを不要にします。 さらに,パイプラインの設計により,オブジェクト翻訳,ポーズや向きの変更,ズームインやズームアウトなど,リッチな動作情報を含む大規模ビデオフレーム上でモデルをトレーニングすることが可能になった。 ビデオから学習することで,従来の手法よりも精度と一貫性が大幅に向上する。 トレーニングデータ(例えば、髪の伸長、虹のねじれなど)に表示されない局所的な形状変形を行うため、ビデオのみにトレーニングされているにもかかわらず、我々のモデルは十分に一般化されている。 ベンチマークデータセットの大規模な質的および定量的評価は、我々のアプローチの優位性を裏付けるものである。 コードとモデルはhttps://github.com/magic-research/LightningDrag.comでリリースされる。

Accuracy and speed are critical in image editing tasks. Pan et al. introduced a drag-based image editing framework that achieves pixel-level control using Generative Adversarial Networks (GANs). A flurry of subsequent studies enhanced this framework's generality by leveraging large-scale diffusion models. However, these methods often suffer from inordinately long processing times (exceeding 1 minute per edit) and low success rates. Addressing these issues head on, we present LightningDrag, a rapid approach enabling high quality drag-based image editing in ~1 second. Unlike most previous methods, we redefine drag-based editing as a conditional generation task, eliminating the need for time-consuming latent optimization or gradient-based guidance during inference. In addition, the design of our pipeline allows us to train our model on large-scale paired video frames, which contain rich motion information such as object translations, changing poses and orientations, zooming in and out, etc. By learning from videos, our approach can significantly outperform previous methods in terms of accuracy and consistency. Despite being trained solely on videos, our model generalizes well to perform local shape deformations not presented in the training data (e.g., lengthening of hair, twisting rainbows, etc.). Extensive qualitative and quantitative evaluations on benchmark datasets corroborate the superiority of our approach. The code and model will be released at https://github.com/magic-research/LightningDrag.
翻訳日:2024-09-18 02:05:48 公開日:2024-09-16
# 優れたモデリングソフトウェアプラクティス

Good Modelling Software Practices ( http://arxiv.org/abs/2405.21051v3 )

ライセンス: Link先を確認
Carsten Lemmen, Philipp Sebastian Sommer, (参考訳) 社会環境科学において、モデルはしばしばこれらの複雑なシステムの振る舞いを表現、理解、予測するためのツールとして使用される。 モデリングチェーンとともに、Good Modelling Practicesは、モデルが透明で、その結果が複製可能であることを確実にする進化を遂げています。 このようなモデルがソフトウェアで表現されるたびに、グッド・モデリングは、トラクターブルな開発ワークフロー、良いコード、協調開発とガバナンス、継続的インテグレーションとデプロイメントのようなグッド・ソフトウェア・プラクティスに出会い、著作権の帰属、知的財産の承認、ソフトウェア・ペーパーの発行、アーカイブといったグッド・サイエンティフィック・プラクティスと出会う。 既存の社会環境モデルソフトウェアでは、これらのプラクティスは後になってのみ考慮すべきアドオンと見なされてきました。 ここでは、モデルライフサイクルの実装の初期段階において、単純で簡単なプラクティスのリストに従う習慣について論じます。 我々は,グッド・モデリング・プラクティスを支援するために,チェリーピックとハンズオンの実践を文脈的に検討し,その適用例を,バイブル・ノース海水産社会生態システムモデルの例に示す。

Frequently in socio-environmental sciences, models are used as tools to represent, understand, project and predict the behaviour of these complex systems. Along the modelling chain, Good Modelling Practices have been evolving that ensure -- amongst others -- that models are transparent and their results replicable. Whenever such models are represented in software, Good Modelling meet Good Software Practices, such as a tractable development workflow, good code, collaborative development and governance, continuous integration and deployment; and they meet Good Scientific Practices, such as attribution of copyrights and acknowledgement of intellectual property, publication of a software paper and archiving. Too often in existing socio-environmental model software, these practices have been regarded as an add-on to be considered at a later stage only; modellers have shied away from publishing their model as open source out of fear that having to add good practices is too demanding. We here argue for making a habit of following a list of simple and not so simple practices early on in the implementation of the model life cycle. We contextualise cherry-picked and hands-on practices for supporting Good Modelling Practice, and we demonstrate their application in the example context of the Viable North Sea fisheries socio-ecological systems model.
翻訳日:2024-09-18 02:05:48 公開日:2024-09-16
# スケーリングによる適応性のある局所的手法

Local Methods with Adaptivity via Scaling ( http://arxiv.org/abs/2406.00846v3 )

ライセンス: Link先を確認
Savelii Chezhegov, Sergey Skorik, Nikolas Khachaturov, Danil Shalagin, Aram Avetisyan, Martin Takáč, Yaroslav Kholodov, Aleksandr Beznosikov, (参考訳) 機械学習とディープラーニングの急速な開発により、対処しなければならない、ますます複雑な最適化課題がもたらされた。 実際、分散環境で複数の計算ノードを活用することなく、最新の高度なモデルをトレーニングすることは困難になっている。 分散最適化は、フェデレートラーニングのような新興分野にも不可欠である。 具体的には、コミュニケーションによって失われた時間を最小化するために、トレーニングプロセスの組織化が必要である。 コミュニケーションボトルネックを軽減するために広く使われ、広く研究されている技術は、コミュニケーションの前に局所的なトレーニングを実行することである。 このアプローチは私たちの論文の焦点です。 同時に、アダムが主導するスケーリングを取り入れた適応的手法も近年大きな人気を集めている。 そこで本研究では,局所学習手法と適応的アプローチを融合して,効率的な分散学習手法を開発することを目的とする。 従来のローカルSGD法について検討し,スケーリング機能により拡張する。 重要なのは、スケーリングが汎用的に記述され、Adam、RMSProp、OASISなど、さまざまなアプローチを統一的に分析できることです。 理論的解析に加えて,ニューラルネットワークのトレーニングにより,本手法の有効性を検証した。

The rapid development of machine learning and deep learning has introduced increasingly complex optimization challenges that must be addressed. Indeed, training modern, advanced models has become difficult to implement without leveraging multiple computing nodes in a distributed environment. Distributed optimization is also fundamental to emerging fields such as federated learning. Specifically, there is a need to organize the training process to minimize the time lost due to communication. A widely used and extensively researched technique to mitigate the communication bottleneck involves performing local training before communication. This approach is the focus of our paper. Concurrently, adaptive methods that incorporate scaling, notably led by Adam, have gained significant popularity in recent years. Therefore, this paper aims to merge the local training technique with the adaptive approach to develop efficient distributed learning methods. We consider the classical Local SGD method and enhance it with a scaling feature. A crucial aspect is that the scaling is described generically, allowing us to analyze various approaches, including Adam, RMSProp, and OASIS, in a unified manner. In addition to theoretical analysis, we validate the performance of our methods in practice by training a neural network.
翻訳日:2024-09-18 01:55:54 公開日:2024-09-16
# 大規模ASRモデルの活用による自己教師付き学習による話者検証の性能向上に向けて

Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models ( http://arxiv.org/abs/2406.02285v2 )

ライセンス: Link先を確認
Victor Miara, Theo Lepage, Reda Dehak, (参考訳) 近年の自己監視学習(SSL)の進歩は話者検証(SV)において有望な結果を示している。 しかし、教師付きシステムによるパフォーマンスギャップを狭めることは、現在も進行中の課題である。 いくつかの研究は、大規模ASRモデルからの音声表現が貴重な話者情報を含んでいることを観察している。 この研究は、エンドツーエンドアプローチでSSLのコントラスト目的を使用して、SV用にこれらのモデルを微調整する際の制限について検討する。 そこで我々は,擬似ラベルを用いた教師付き損失で事前学習したWavLMを微調整することにより,SSLコンテキストで話者表現を学習するフレームワークを提案する。 初期擬似ラベルはSSL DINOベースのモデルから派生し、モデルの埋め込みをクラスタリングすることで反復的に洗練される。 提案手法はVoxCeleb1-O上で0.99%のEERを達成し,自己教師型SVにおける新たな最先端技術を確立した。 このパフォーマンスは、0.94%のEERの教師付きベースラインに近いので、このコントリビューションは、SSLによるSVの教師付きパフォーマンスへのステップになります。

Recent advancements in Self-Supervised Learning (SSL) have shown promising results in Speaker Verification (SV). However, narrowing the performance gap with supervised systems remains an ongoing challenge. Several studies have observed that speech representations from large-scale ASR models contain valuable speaker information. This work explores the limitations of fine-tuning these models for SV using an SSL contrastive objective in an end-to-end approach. Then, we propose a framework to learn speaker representations in an SSL context by fine-tuning a pre-trained WavLM with a supervised loss using pseudo-labels. Initial pseudo-labels are derived from an SSL DINO-based model and are iteratively refined by clustering the model embeddings. Our method achieves 0.99% EER on VoxCeleb1-O, establishing the new state-of-the-art on self-supervised SV. As this performance is close to our supervised baseline of 0.94% EER, this contribution is a step towards supervised performance on SV with SSL.
翻訳日:2024-09-18 01:55:54 公開日:2024-09-16
# ニューラル熱力学統合:エネルギーベース拡散モデルからの自由エネルギー

Neural Thermodynamic Integration: Free Energies from Energy-based Diffusion Models ( http://arxiv.org/abs/2406.02313v3 )

ライセンス: Link先を確認
Bálint Máté, François Fleuret, Tristan Bereau, (参考訳) 熱力学積分(TI)は、補間コンフォメーションアンサンブルを補間することで、自由エネルギー差を推定するための厳密な方法を提供する。 しかし、TI計算は計算コストが高く、多くの中間アンサンブルを十分なコンフォメーション空間オーバーラップでサンプリングする必要があるため、通常は少数の自由度を結合することに制限される。 本研究では、トレーニング可能なニューラルネットワークで表されるアルケミカル経路に沿ってTIを実行することを提案する。 臨界的に、相互作用系と非相互作用系の間の時間依存ハミルトン補間をパラメトリズし、スコアマッチング目的を用いて勾配を最適化する。 すべての中間アンサンブルをサンプリングするエネルギーベース拡散モデルの能力により、単一の参照計算からTIを実行することができる。 我々はこの手法をレナード・ジョーンズ流体に適用し、過剰な化学ポテンシャルの正確な計算を報告し、Neural TIがハミルトニアンを補間するシミュレーションを必要とせずに自由エネルギーの変化を再現することを示した。

Thermodynamic integration (TI) offers a rigorous method for estimating free-energy differences by integrating over a sequence of interpolating conformational ensembles. However, TI calculations are computationally expensive and typically limited to coupling a small number of degrees of freedom due to the need to sample numerous intermediate ensembles with sufficient conformational-space overlap. In this work, we propose to perform TI along an alchemical pathway represented by a trainable neural network, which we term Neural TI. Critically, we parametrize a time-dependent Hamiltonian interpolating between the interacting and non-interacting systems, and optimize its gradient using a score matching objective. The ability of the resulting energy-based diffusion model to sample all intermediate ensembles allows us to perform TI from a single reference calculation. We apply our method to Lennard-Jones fluids, where we report accurate calculations of the excess chemical potential, demonstrating that Neural TI reproduces the underlying changes in free energy without the need for simulations at interpolating Hamiltonians.
翻訳日:2024-09-18 01:55:54 公開日:2024-09-16
# Npix2Cpix: 歴史的文書画像からのウォーターマーク検索のための検索分類統合を備えたGANベースの画像変換ネットワーク

Npix2Cpix: A GAN-Based Image-to-Image Translation Network With Retrieval- Classification Integration for Watermark Retrieval From Historical Document Images ( http://arxiv.org/abs/2406.03556v3 )

ライセンス: Link先を確認
Utsab Saha, Sawradip Saha, Shaikh Anowarul Fattah, Mohammad Saquib, (参考訳) 古代の透かしの識別と復元は、長い間、コーディコロジーと歴史の主要なトピックであった。 透かしに基づく歴史文書の分類は、その多様性、ノイズのあるサンプル、複数の表現モード、クラスとクラス内変異の微妙な区別により困難である。 本稿では,Npix2Cpixと命名されたU-netベースの条件付き逆数生成ネットワーク(GAN)を改良し,劣化した(ノイズの多い)ピクセルからクリーンなピクセルへの画像変換を行うことにより,ノイズの多い歴史的透かし画像からクリーンで手書きの透かしのない透かし画像に変換する。 画像と画像の変換と敵対学習を用いて、透かしの復元と分類のためのクラッタフリーな画像を生成する。 提案したGANのジェネレータと判別器は、画像間の距離に基づいて2つの損失関数を用いて訓練し、入力ノイズ画像から出力クリーン画像へのマッピングを学習する。 提案したGANを用いて、ノイズの多い透かし画像の事前処理を行った後、シームズをベースとしたワンショット学習が透かし分類に使用される。 大規模な歴史的透かしデータセットの実験結果は、ノイズの多い透かし画像のクリーニングが、高いワンショット分類精度を達成するのに役立つことを証明している。 得られた透かし画像の質的,定量的評価は,提案手法の有効性を明らかにするものである。

The identification and restoration of ancient watermarks have long been a major topic in codicology and history. Classifying historical documents based on watermarks is challenging due to their diversity, noisy samples, multiple representation modes, and minor distinctions between classes and intra-class variations. This paper proposes a modified U-net-based conditional generative adversarial network (GAN) named Npix2Cpix to translate noisy raw historical watermarked images into clean, handwriting-free watermarked images by performing image translation from degraded (noisy) pixels to clean pixels. Using image-to-image translation and adversarial learning, the network creates clutter-free images for watermark restoration and categorization. The generator and discriminator of the proposed GAN are trained using two separate loss functions, each based on the distance between images, to learn the mapping from the input noisy image to the output clean image. After using the proposed GAN to pre-process noisy watermarked images, Siamese-based one-shot learning is employed for watermark classification. Experimental results on a large-scale historical watermark dataset demonstrate that cleaning the noisy watermarked images can help to achieve high one-shot classification accuracy. The qualitative and quantitative evaluation of the retrieved watermarked image highlights the effectiveness of the proposed approach.
翻訳日:2024-09-18 01:55:54 公開日:2024-09-16
# LLM Whisperer: Bias LLMの反応に不都合な攻撃

LLM Whisperer: An Inconspicuous Attack to Bias LLM Responses ( http://arxiv.org/abs/2406.04755v2 )

ライセンス: Link先を確認
Weiran Lin, Anna Gerchanovsky, Omer Akgul, Lujo Bauer, Matt Fredrikson, Zifan Wang, (参考訳) 大規模言語モデル(LLM)の効果的なプロンプトを書くのは直感的で負担がかかる。 これを受けて、プロンプトの最適化や提案を行うサービスが登場した。 プロンプトプロバイダはプロンプトを微妙に操作して、非常に偏りのあるLSM応答を生成することができる。 本研究は, LLMが目標概念(ブランド, 政党, 国家など)に言及する可能性(最大78%)を, プロンプトにおける微妙な同義語置換が増加させることを示す。 ユーザスタディを通じて観察を裏付け, 逆転するプロンプトを提示する。 1)人間による変更されていないプロンプトとは区別できない。 2 LLM を目標概念をより頻繁に推奨するよう推進し、 3) ユーザーが疑念を抱くことなく、ターゲットコンセプトに気付く可能性が高くなる。 この攻撃の実用性は、ユーザーの自律性を損なう可能性がある。 その他の措置として、信頼できない当事者からのプロンプトの使用に対する警告の実施を推奨する。

Writing effective prompts for large language models (LLM) can be unintuitive and burdensome. In response, services that optimize or suggest prompts have emerged. While such services can reduce user effort, they also introduce a risk: the prompt provider can subtly manipulate prompts to produce heavily biased LLM responses. In this work, we show that subtle synonym replacements in prompts can increase the likelihood (by a difference up to 78%) that LLMs mention a target concept (e.g., a brand, political party, nation). We substantiate our observations through a user study, showing our adversarially perturbed prompts 1) are indistinguishable from unaltered prompts by humans, 2) push LLMs to recommend target concepts more often, and 3) make users more likely to notice target concepts, all without arousing suspicion. The practicality of this attack has the potential to undermine user autonomy. Among other measures, we recommend implementing warnings against using prompts from untrusted parties.
翻訳日:2024-09-18 01:55:54 公開日:2024-09-16
# プロンプトは本当にプロンプトか? ウィスパーの能力を理解するプロンプトを探る

Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper ( http://arxiv.org/abs/2406.05806v4 )

ライセンス: Link先を確認
Chih-Kai Yang, Kuan-Po Huang, Hung-yi Lee, (参考訳) 本研究は,ハイパフォーマンス音声認識モデルであるWhisperとプロンプトの情報がどのように相互作用するかを考察する。 我々は、正しい情報を持つプロンプトと誤った情報を持つプロンプトによるパフォーマンスの比較を行う。 結果から,Whisperは人為的に文章のプロンプトを理解できない可能性が示唆された。 さらに,テキストのプロンプトでトピック情報に強く依存しても,性能改善は保証されないことがわかった。 また、英語のプロンプトは、トレーニング前のシナリオとミスマッチしているにも関わらず、これらの言語のトレーニングデータ分布が異なるため、両方の言語のデータセットで一般的にマンダリンのプロンプトを上回っていることも指摘されている。 逆に,不正確な言語トークンを無視し,正しい言語トークンに注目することで,Whisperが言語トークンの誤解を招く情報を認識していることが判明した。 要約すると、我々はウィスパーの素早い理解と反直感的行動について洞察に富んだ疑問を提起する。 我々はさらなる研究を奨励する。

This research explores how the information of prompts interacts with the high-performing speech recognition model, Whisper. We compare its performances when prompted by prompts with correct information and those corrupted with incorrect information. Our results unexpectedly show that Whisper may not understand the textual prompts in a human-expected way. Additionally, we find that performance improvement is not guaranteed even with stronger adherence to the topic information in textual prompts. It is also noted that English prompts generally outperform Mandarin ones on datasets of both languages, likely due to differences in training data distributions for these languages despite the mismatch with pre-training scenarios. Conversely, we discover that Whisper exhibits awareness of misleading information in language tokens by ignoring incorrect language tokens and focusing on the correct ones. In sum, We raise insightful questions about Whisper's prompt understanding and reveal its counter-intuitive behaviors. We encourage further studies.
翻訳日:2024-09-18 01:55:54 公開日:2024-09-16
# RAGに反対するマシン:Blockerドキュメントによる検索強化ジェネレーションのジャミング

Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents ( http://arxiv.org/abs/2406.05870v2 )

ライセンス: Link先を確認
Avital Shafran, Roei Schuster, Vitaly Shmatikov, (参考訳) Retrieval-augmented Generation (RAG)システムは、関連する文書を知識データベースから検索し、検索した文書にLSMを適用して回答を生成する。 我々は、信頼できないコンテンツを持つデータベースで運用するRAGシステムが、私たちがジャミングと呼ぶ新しいタイプのサービス拒否攻撃に弱いことを実証した。 データベースに単一の ``blocker'' ドキュメントを追加すると、特定のクエリに応答して検索され、結果としてRAGシステムがこのクエリに応答しない。 我々は,ブラックボックス最適化に基づく新しい手法を含む,ブロッカ文書を生成するためのいくつかの手法の有効性を記述し,評価する。 この方法(1)は命令注入に依存しず、(2)ターゲットRAGシステムで使用される埋め込みやLDMを知るために敵を必要とせず、(3)補助LDMを使用してブロッカ文書を生成する。 我々は,複数のLLMに対するジャミング攻撃と組込み攻撃を評価し,既存のLLMの安全性指標がジャミングの脆弱性を捉えていないことを実証した。 次に、ブロッカ文書に対する防御について論じる。

Retrieval-augmented generation (RAG) systems respond to queries by retrieving relevant documents from a knowledge database, then generating an answer by applying an LLM to the retrieved documents. We demonstrate that RAG systems that operate on databases with untrusted content are vulnerable to a new class of denial-of-service attacks we call jamming. An adversary can add a single ``blocker'' document to the database that will be retrieved in response to a specific query and result in the RAG system not answering this query - ostensibly because it lacks the information or because the answer is unsafe. We describe and measure the efficacy of several methods for generating blocker documents, including a new method based on black-box optimization. This method (1) does not rely on instruction injection, (2) does not require the adversary to know the embedding or LLM used by the target RAG system, and (3) does not use an auxiliary LLM to generate blocker documents. We evaluate jamming attacks on several LLMs and embeddings and demonstrate that the existing safety metrics for LLMs do not capture their vulnerability to jamming. We then discuss defenses against blocker documents.
翻訳日:2024-09-18 01:55:54 公開日:2024-09-16
# Beyond Bare Queries: 3D Scene Graphによるオープンボキャブラリオブジェクトグラウンド

Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph ( http://arxiv.org/abs/2406.07113v3 )

ライセンス: Link先を確認
Sergey Linok, Tatiana Zemskova, Svetlana Ladanova, Roman Titkov, Dmitry Yudin, Maxim Monastyrny, Aleksei Valenkov, (参考訳) 自然言語で記述されたオブジェクトの配置は、自律的なエージェントにとって重要な課題である。 既存のCLIPベースのオープン語彙法は、単純な(悪い)クエリで3Dオブジェクトグラウンドを実行することに成功したが、オブジェクト関係の理解を要求する曖昧な記述には対処できない。 この問題を解決するために,BBQ (Beyond Bare Queries) と呼ばれるモジュール方式を提案する。この手法は,3次元シーングラフ表現をメトリとセマンティックエッジで構築し,提案アルゴリズムを用いて,大規模言語モデルを人対エージェントインタフェースとして利用する。 BBQは、3Dオブジェクト中心のマップを構築するためにDINOを使ったロバストなアソシエーションと、2Dビジョン言語モデルによる高度なレイキャストアルゴリズムを用いてグラフノードとして記述する。 ReplicaとScanNetのデータセットでは、BBQは他のゼロショット法と比較してオープンな3Dセマンティックセマンティックセグメンテーションにおいて、BBQが第一位であることを示した。 また,同じ意味クラスの複数の実体を含む場面において,空間的関係の活用が特に有効であることを示す。 Sr3D+、Nr3D、ScanReferのベンチマークに挑戦する上で、提案手法は、他の最先端手法と比較して、複雑なクエリによるオブジェクトのグラウンド化を可能にする、大幅な改善を示す。 設計選択とソフトウェア実装の組み合わせにより,ロボット搭載コンピュータの実験において,データ処理速度が著しく向上した。 この有望なパフォーマンスは、インテリジェントなロボティクスプロジェクトにおける私たちのアプローチの適用を可能にします。 コードをhttps://linukc.github.io/BeyondBareQueries/で公開しました。

Locating objects described in natural language presents a significant challenge for autonomous agents. Existing CLIP-based open-vocabulary methods successfully perform 3D object grounding with simple (bare) queries, but cannot cope with ambiguous descriptions that demand an understanding of object relations. To tackle this problem, we propose a modular approach called BBQ (Beyond Bare Queries), which constructs 3D scene graph representation with metric and semantic edges and utilizes a large language model as a human-to-agent interface through our deductive scene reasoning algorithm. BBQ employs robust DINO-powered associations to construct 3D object-centric map and an advanced raycasting algorithm with a 2D vision-language model to describe them as graph nodes. On the Replica and ScanNet datasets, we have demonstrated that BBQ takes a leading place in open-vocabulary 3D semantic segmentation compared to other zero-shot methods. Also, we show that leveraging spatial relations is especially effective for scenes containing multiple entities of the same semantic class. On challenging Sr3D+, Nr3D and ScanRefer benchmarks, our deductive approach demonstrates a significant improvement, enabling objects grounding by complex queries compared to other state-of-the-art methods. The combination of our design choices and software implementation has resulted in significant data processing speed in experiments on the robot on-board computer. This promising performance enables the application of our approach in intelligent robotics projects. We made the code publicly available at https://linukc.github.io/BeyondBareQueries/.
翻訳日:2024-09-18 01:46:04 公開日:2024-09-16
# ChatGPTにおける言語バイアス:言語モデルによる方言識別の強化

Linguistic Bias in ChatGPT: Language Models Reinforce Dialect Discrimination ( http://arxiv.org/abs/2406.08818v2 )

ライセンス: Link先を確認
Eve Fleisig, Genevieve Smith, Madeline Bossi, Ishita Rustagi, Xavier Yin, Dan Klein, (参考訳) 本稿では,ChatGPTが英語の方言10種類(スタンダード・アメリカン・イングリッシュ(Standard American English),スタンダード・イングリッシュ(Standard British English),および世界中から広く話されている8種類の非標準的方言)をカバーする言語バイアスについて,大規模な研究を行った。 GPT-3.5 Turbo と GPT-4 を各品種の母語話者のテキストで誘導し,詳細な言語的特徴アノテーションと母語話者評価を用いて応答を解析した。 ネイティブ話者による評価に基づいて、非標準型に対するモデル応答は、ステレオタイピング(標準型よりも19%悪い)、コンテンツ重視(25%悪い)、理解の欠如(9%悪い)、譲歩応答(15%悪い)といった問題に一貫して現れている。 また、これらのモデルが「標準」でない品種のプロンプトの書体スタイルを模倣するよう要求された場合、入力の理解度が低く、特にステレオタイピングが困難であるテキストを生成する。 GPT-4は、理解、温かさ、親和性の点でGPT-3.5を改善するが、ステレオタイピング(+18%)の顕著な増加を示す。 その結果, GPT-3.5 Turbo と GPT-4 は非標準型話者に対する言語的識別を持続的に行うことができた。

We present a large-scale study of linguistic bias exhibited by ChatGPT covering ten dialects of English (Standard American English, Standard British English, and eight widely spoken non-"standard" varieties from around the world). We prompted GPT-3.5 Turbo and GPT-4 with text by native speakers of each variety and analyzed the responses via detailed linguistic feature annotation and native speaker evaluation. We find that the models default to "standard" varieties of English; based on evaluation by native speakers, we also find that model responses to non-"standard" varieties consistently exhibit a range of issues: stereotyping (19% worse than for "standard" varieties), demeaning content (25% worse), lack of comprehension (9% worse), and condescending responses (15% worse). We also find that if these models are asked to imitate the writing style of prompts in non-"standard" varieties, they produce text that exhibits lower comprehension of the input and is especially prone to stereotyping. GPT-4 improves on GPT-3.5 in terms of comprehension, warmth, and friendliness, but also exhibits a marked increase in stereotyping (+18%). The results indicate that GPT-3.5 Turbo and GPT-4 can perpetuate linguistic discrimination toward speakers of non-"standard" varieties.
翻訳日:2024-09-18 01:46:04 公開日:2024-09-16
# 視覚状態空間モデルのロバスト性評価に向けて

Towards Evaluating the Robustness of Visual State Space Models ( http://arxiv.org/abs/2406.09407v2 )

ライセンス: Link先を確認
Hashmat Shadab Malik, Fahad Shamshad, Muzammal Naseer, Karthik Nandakumar, Fahad Shahbaz Khan, Salman Khan, (参考訳) 視覚状態空間モデル(VSSM)は、リカレントニューラルネットワークと潜伏変数モデルの強みを組み合わせた新しいアーキテクチャであり、長距離依存を効率的にキャプチャし、複雑な視覚力学をモデル化することにより、視覚知覚タスクにおいて顕著なパフォーマンスを示した。 しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。 本稿では,オクルージョン,イメージ構造,共通汚職,敵対的攻撃など,様々な摂動シナリオ下でのVSSMの頑健さを包括的に評価し,その性能をトランスフォーマーや畳み込みニューラルネットワークなどの確立したアーキテクチャと比較する。 さらに、複雑な視覚シーンにおけるモデル性能をテストするために設計された高度なベンチマークにおいて、VSSMのオブジェクト指向合成変化に対するレジリエンスについて検討する。 また、実世界のシナリオを模倣した破損したデータセットを用いて、オブジェクトの検出とセグメンテーションタスクに対するロバスト性を評価する。 我々は,VSSMの対向的堅牢性をより深く理解するために,周波数に基づく対向的攻撃の解析を行い,低周波および高周波摂動に対する性能評価を行った。 我々の発見は、複雑な視覚的汚職を扱うVSSMの長所と短所を強調し、将来の研究に有用な洞察を提供する。 私たちのコードとモデルはhttps://github.com/HashmatShadab/MambaRobustness.comで公開されます。

Vision State Space Models (VSSMs), a novel architecture that combines the strengths of recurrent neural networks and latent variable models, have demonstrated remarkable performance in visual perception tasks by efficiently capturing long-range dependencies and modeling complex visual dynamics. However, their robustness under natural and adversarial perturbations remains a critical concern. In this work, we present a comprehensive evaluation of VSSMs' robustness under various perturbation scenarios, including occlusions, image structure, common corruptions, and adversarial attacks, and compare their performance to well-established architectures such as transformers and Convolutional Neural Networks. Furthermore, we investigate the resilience of VSSMs to object-background compositional changes on sophisticated benchmarks designed to test model performance in complex visual scenes. We also assess their robustness on object detection and segmentation tasks using corrupted datasets that mimic real-world scenarios. To gain a deeper understanding of VSSMs' adversarial robustness, we conduct a frequency-based analysis of adversarial attacks, evaluating their performance against low-frequency and high-frequency perturbations. Our findings highlight the strengths and limitations of VSSMs in handling complex visual corruptions, offering valuable insights for future research. Our code and models will be available at https://github.com/HashmatShadab/MambaRobustness.
翻訳日:2024-09-18 01:46:04 公開日:2024-09-16
# トレーディング・デビル:確率的投資モデルとベイズ的アプローチによるロバストなバックドア攻撃

Trading Devil: Robust backdoor attack via Stochastic investment models and Bayesian approach ( http://arxiv.org/abs/2406.10719v4 )

ライセンス: Link先を確認
Orson Mengara, (参考訳) 音声アクティベーションシステムや音声認識技術の利用の増加に伴い、音声データに対するバックドア攻撃の危険性は大幅に増大している。 本研究では、確率的投資に基づくバックドア攻撃(MarketBack)と呼ばれる特定の種類の攻撃について検討する。 マシンラーニングモデルのセキュリティと整合性は、オーディオアプリケーションやシステムの信頼性を維持するために、バックドア攻撃によって深刻な脅威を受けています。 実験結果から,MarketBackは,トレーニングデータの1%未満を中毒した場合の7つのモデルにおいて,平均攻撃成功率を100%近く達成できることが示された。

With the growing use of voice-activated systems and speech recognition technologies, the danger of backdoor attacks on audio data has grown significantly. This research looks at a specific type of attack, known as a Stochastic investment-based backdoor attack (MarketBack), in which adversaries strategically manipulate the stylistic properties of audio to fool speech recognition systems. The security and integrity of machine learning models are seriously threatened by backdoor attacks, in order to maintain the reliability of audio applications and systems, the identification of such attacks becomes crucial in the context of audio data. Experimental results demonstrated that MarketBack is feasible to achieve an average attack success rate close to 100% in seven victim models when poisoning less than 1% of the training data.
翻訳日:2024-09-18 01:46:04 公開日:2024-09-16
# 空の目:衛星画像を用いたレンガキルンの検出とコンプライアンスモニタリング

Eye in the Sky: Detection and Compliance Monitoring of Brick Kilns using Satellite Imagery ( http://arxiv.org/abs/2406.10723v3 )

ライセンス: Link先を確認
Rishabh Mondal, Shataxi Dubey, Vannsh Jani, Shrimay Shah, Suraj Jaiswal, Zeel B Patel, Nipun Batra, (参考訳) 大気汚染は年間700万人が死亡している。 レンガ製造産業は人口密度の高いインド・ガンゲティック平野の大気汚染の8%-14%を占めている。 レンガのキルンが組織化されていないため、ヒトの生息地に近いような政策違反の検出は依然として困難である。 従来の研究では、衛星画像からのブロックキルン検出にコンピュータビジョンベースの機械学習手法を使用していたが、プロプライエタリな衛星データを利用しており、政府のポリシーに準拠することはめったにない。 本研究では,ブロックキルン検出と自動コンプライアンス監視のためのスケーラブルなフレームワークを提案する。 Google Maps Static APIを使って衛星画像をダウンロードし、YOLOv8xモデルで検出します。 印欧平野の9つの州にまたがる19579個の新しいれんがを同定し,手作業で検証した。 さらに,ヒトの生息地,河川,病院に影響を及ぼす政策の遵守を自動化し,検証する。 以上の結果から,かなりの数のレンガキルンがコンプライアンス要件を満たしていないことが示唆された。 我々の枠組みは、世界中の政府にとって、ブロックキルンに関する政策規制を自動化し、実施するための貴重なツールを提供し、重要な環境と公衆衛生の懸念に対処する。

Air pollution kills 7 million people annually. The brick manufacturing industry accounts for 8%-14% of air pollution in the densely populated Indo-Gangetic plain. Due to the unorganized nature of brick kilns, policy violation detection, such as proximity to human habitats, remains challenging. While previous studies have utilized computer vision-based machine learning methods for brick kiln detection from satellite imagery, they utilize proprietary satellite data and rarely focus on compliance with government policies. In this research, we introduce a scalable framework for brick kiln detection and automatic compliance monitoring. We use Google Maps Static API to download the satellite imagery followed by the YOLOv8x model for detection. We identified and hand-verified 19579 new brick kilns across 9 states within the Indo-Gangetic plain. Furthermore, we automate and test the compliance to the policies affecting human habitats, rivers and hospitals. Our results show that a substantial number of brick kilns do not meet the compliance requirements. Our framework offers a valuable tool for governments worldwide to automate and enforce policy regulations for brick kilns, addressing critical environmental and public health concerns.
翻訳日:2024-09-18 01:46:04 公開日:2024-09-16
# マルチLLMシステムの中央アンサーモデリング

Central Answer Modeling for an Embodied Multi-LLM System ( http://arxiv.org/abs/2406.10918v4 )

ライセンス: Link先を確認
Bhrij Patel, Vishnu Sashank Dorbala, Amrit Singh Bedi, Dinesh Manocha, (参考訳) EQA(Embodied Question Answering)は,ユーザの質問に答える環境を探索するエージェントが関与する重要な問題である。 既存の文献では、EQAは単一のエージェントのシナリオでのみ研究されており、探索には時間と費用がかかる。 本研究では,複数の大規模言語モデル(LLM)をベースとしたエージェントが家庭環境に関する質問に独立して答えるマルチエージェントフレームワークのEQAについて検討する。 各クエリに対して1つの回答を生成するために、個々のレスポンスを使用して、堅牢な回答のためにレスポンスを集約するCAM(Central Answer Model)をトレーニングする。 質問回答(QA)の作業では,複数のLSM専門家の回答に基づく中央モジュールが使用されているが,このフレームワークをLLMエージェントの具体化に適用するためには,まず環境を物理的に探索し,質問に答えるために,それぞれの環境の専門家になる必要がある。 我々の研究は、未知の環境の探索に頼らなければならないエンボディエージェントを使った、最初の中央応答モデルフレームワークである。 質問の後に環境を探索するエージェントの代わりに、エージェントはまず、一定時間環境を探索し、次に一連の質問に答える。 CAM を用いて,投票方式や討論会など LLM の集約手法と比較すると,46 % の EQA 精度が得られた。 CAMはいかなる種類のエージェント通信も必要とせず、関連するコストから軽減する。 我々は,CAMを非線形(神経ネットワーク,ランダムフォレスト,決定木,XGBoost)および線形(論理回帰分類器,SVM)アルゴリズムで吸収する。 様々なトポロジカルグラフ環境を実験し、エージェントの1つが悪意があり、目的が間違っていると信じている応答に寄与している場合を調べる。

Embodied Question Answering (EQA) is an important problem, which involves an agent exploring the environment to answer user queries. In the existing literature, EQA has exclusively been studied in single-agent scenarios, where exploration can be time-consuming and costly. In this work, we consider EQA in a multi-agent framework involving multiple large language models (LLM) based agents independently answering queries about a household environment. To generate one answer for each query, we use the individual responses to train a Central Answer Model (CAM) that aggregates responses for a robust answer. While prior Question Answering (QA) work has used a central module based on answers from multiple LLM-based experts, we specifically look at applying this framework to embodied LLM-based agents that must physically explore the environment first to become experts on their given environment to answer questions. Our work is the first to utilize a central answer model framework with embodied agents that must rely on exploring an unknown environment. We set up a variation of EQA where instead of the agents exploring the environment after the question is asked, the agents first explore the environment for a set amount of time and then answer a set of queries. Using CAM, we observe a $46\%$ higher EQA accuracy when compared against aggregation methods for ensemble LLM, such as voting schemes and debates. CAM does not require any form of agent communication, alleviating it from the associated costs. We ablate CAM with various nonlinear (neural network, random forest, decision tree, XGBoost) and linear (logistic regression classifier, SVM) algorithms. We experiment in various topological graph environments and examine the case where one of the agents is malicious and purposes contribute responses it believes to be wrong.
翻訳日:2024-09-18 01:46:04 公開日:2024-09-16
# ターゲット言語テキスト0.01GBでLLMの語彙を効果的に拡張するには?

How Can We Effectively Expand the Vocabulary of LLMs with 0.01GB of Target Language Text? ( http://arxiv.org/abs/2406.11477v2 )

ライセンス: Link先を確認
Atsuki Yamaguchi, Aline Villavicencio, Nikolaos Aletras, (参考訳) 大きな言語モデル(LLM)は、英語以外の多くの言語で顕著な能力を示している。 しかし、LLMは英語中心のトークン化器や語彙に依存しているため、非英語のテキストを生成する際により多くの推論ステップを必要とするため、非英語話者には高い使用コストがかかる。 ターゲット言語トークンによる語彙拡張は、この問題を改善するために広く使われている言語間語彙適応手法である。 推論高速化の有効性にもかかわらず、従来の語彙拡張の研究は、大量のターゲット言語データにアクセスして新しいトークンの埋め込みを効果的に初期化し、LLMをターゲット言語に適応させるという、高リソース設定に重点を置いてきた。 しかし、低リソース設定での語彙拡張はまだ検討されていない。 本稿では,組込み初期化手法と継続事前学習戦略を考慮し,低リソース環境における語彙拡張について検討する。 入力言語,タスク,モデルにまたがる広範な実験を通じて,より高速な推論のために語彙拡張を行うための一連の戦略を確立し,ターゲット言語からの30K文($0.01GBテキストデータ)のみをベースラインに競合的なダウンストリーム性能を維持する。

Large language models (LLMs) have shown remarkable capabilities in many languages beyond English. Yet, LLMs require more inference steps when generating non-English text due to their reliance on English-centric tokenizers and vocabulary, resulting in higher usage costs to non-English speakers. Vocabulary expansion with target language tokens is a widely used cross-lingual vocabulary adaptation approach to remedy this issue. Despite its effectiveness in inference speedup, previous work on vocabulary expansion has focused on high-resource settings assuming access to a substantial amount of target language data to effectively initialize the embeddings of the new tokens and adapt the LLM to the target language. However, vocabulary expansion in low-resource settings has yet to be explored. In this paper, we investigate vocabulary expansion in low-resource settings by considering embedding initialization methods and continual pre-training strategies. Through extensive experiments across typologically diverse languages, tasks and models, we establish a set of strategies to perform vocabulary expansion for faster inference, maintaining competitive downstream performance to baselines with only 30K sentences ($\sim$0.01GB text data) from the target language.
翻訳日:2024-09-18 01:46:04 公開日:2024-09-16
# オーバー・ザ・エア・フェデレーション・メタラーニングによる事前学習とパーソナライズされたファインチューニング:収束・一般化貿易

Pre-Training and Personalized Fine-Tuning via Over-the-Air Federated Meta-Learning: Convergence-Generalization Trade-Offs ( http://arxiv.org/abs/2406.11569v3 )

ライセンス: Link先を確認
Haifeng Wen, Hong Xing, Osvaldo Simeone, (参考訳) 大規模言語モデル(LLM)のような現代の人工知能(AI)アプリケーションでは、トレーニングパラダイムは、最近、事前トレーニングに移行し、微調整されている。 さらに、データのオープンリポジトリの縮小や、AIモデルへのアクセスを民主化する努力のおかげで、事前トレーニングは、現在の集中型デプロイメントからフェデレートドラーニング(FL)実装への移行がますます進むことが期待されている。 メタラーニングは、事前学習と微調整を形式化するための一般的なフレームワークを提供する。 メタラーニングに基づくパーソナライズFL(meta-pFL)は、新しいエージェントやタスクへの一般化を目標にすることで、基本的なパーソナライズ以上のものとなる。 本稿では、学習前段階(メタラーニング)に参加するエージェントが共有無線チャンネルを介してサーバに接続される無線環境におけるメタpFLの一般化性能について検討する。 オーバー・ザ・エア・コンピューティングを採用することで,新しいエージェントやタスクへの一般化と,一方で収束のトレードオフについて検討する。 このトレードオフは、チャネル障害が収束を低下させながら一般化を促進するという事実から生じる。 膨大な数値が理論を検証している。

For modern artificial intelligence (AI) applications such as large language models (LLMs), the training paradigm has recently shifted to pre-training followed by fine-tuning. Furthermore, owing to dwindling open repositories of data and thanks to efforts to democratize access to AI models, pre-training is expected to increasingly migrate from the current centralized deployments to federated learning (FL) implementations. Meta-learning provides a general framework in which pre-training and fine-tuning can be formalized. Meta-learning-based personalized FL (meta-pFL) moves beyond basic personalization by targeting generalization to new agents and tasks. This paper studies the generalization performance of meta-pFL for a wireless setting in which the agents participating in the pre-training phase, i.e., meta-learning, are connected via a shared wireless channel to the server. Adopting over-the-air computing, we study the trade-off between generalization to new agents and tasks, on the one hand, and convergence, on the other hand. The trade-off arises from the fact that channel impairments may enhance generalization, while degrading convergence. Extensive numerical results validate the theory.
翻訳日:2024-09-18 01:46:04 公開日:2024-09-16
# カリキュラム学習による時空間量子予測の時空間化

Enhancing Spatio-temporal Quantile Forecasting with Curriculum Learning: Lessons Learned ( http://arxiv.org/abs/2406.12709v2 )

ライセンス: Link先を確認
Du Yin, Jinliang Deng, Shuang Ao, Zechen Li, Hao Xue, Arian Prabowo, Renhe Jiang, Xuan Song, Flora Salim, (参考訳) 時空間データ(ST)データのトレーニングモデルは、データ自体の複雑で多様な性質のため、オープンな問題を引き起こす。 さまざまなトレーニングデータを制限することで、トレーニングが容易になる一方で、モデルに関する知識や情報が不足しているため、パフォーマンスが低下する可能性がある。 この課題に対処するために,空間的,時間的,量的な視点を対象とする3種類のカリキュラム学習を取り入れた,革新的なパラダイムを紹介した。 さらに,本フレームワークは,3種類のカリキュラム学習から多種多様な情報を組み合わせた積み重ね融合モジュールを組み込んで,強力かつ徹底的な学習プロセスを実現する。 このフレームワークの有効性を実証的な評価で実証し、複雑なST課題に対処する上での優れた性能を強調した。 カリキュラムの有効性を調査し,STデータにおける学習効率の向上にどのように貢献するかを説明するために,徹底的なアブレーション研究を行った。

Training models on spatio-temporal (ST) data poses an open problem due to the complicated and diverse nature of the data itself, and it is challenging to ensure the model's performance directly trained on the original ST data. While limiting the variety of training data can make training easier, it can also lead to a lack of knowledge and information for the model, resulting in a decrease in performance. To address this challenge, we presented an innovative paradigm that incorporates three separate forms of curriculum learning specifically targeting from spatial, temporal, and quantile perspectives. Furthermore, our framework incorporates a stacking fusion module to combine diverse information from three types of curriculum learning, resulting in a strong and thorough learning process. We demonstrated the effectiveness of this framework with extensive empirical evaluations, highlighting its better performance in addressing complex ST challenges. We provided thorough ablation studies to investigate the effectiveness of our curriculum and to explain how it contributes to the improvement of learning efficiency on ST data.
翻訳日:2024-09-18 01:46:04 公開日:2024-09-16
# マルチホップ質問応答のための検索機能付きジェネレーションゲーム

Generate-then-Ground in Retrieval-Augmented Generation for Multi-hop Question Answering ( http://arxiv.org/abs/2406.14891v2 )

ライセンス: Link先を確認
Zhengliang Shi, Weiwei Sun, Shen Gao, Pengjie Ren, Zhumin Chen, Zhaochun Ren, (参考訳) MHQA(Multi-Hop Question Answering)タスクは、大量の知識を必要とするため、大規模言語モデル(LLM)にとって大きな課題となる。 Retrieval-Augmented Generationのような現在のソリューションは、通常、外部のコーパスから潜在的なドキュメントを取得して、回答を読む。 しかし、この検索テーマのパラダイムの性能は、検索者によって制約され、検索された文書のノイズは避けられない。 これらの課題を軽減するために,LLMと外部文書のパラメトリック知識を相乗化して,マルチホップ問題を解決する新しい生成テーマ(GenGround)フレームワークを導入する。 GenGroundは、最終回答が導出されるまでLLMに2つのフェーズを交互に行う権限を与えている: 1) より単純でシングルホップな質問を定式化し、直接回答を生成する; (2) 検索した文書に質問と回答のペアを接地し、答えの間違った予測を修正する。 また,本手法をより小さなモデルに一般化する指導的接地蒸留法を提案する。 4つのデータセットで実施した大規模な実験は,本手法の優位性を示している。

Multi-Hop Question Answering (MHQA) tasks present a significant challenge for large language models (LLMs) due to the intensive knowledge required. Current solutions, like Retrieval-Augmented Generation, typically retrieve potential documents from an external corpus to read an answer. However, the performance of this retrieve-then-read paradigm is constrained by the retriever and the inevitable noise in the retrieved documents. To mitigate these challenges, we introduce a novel generate-then-ground (GenGround) framework, synergizing the parametric knowledge of LLMs and external documents to solve a multi-hop question. GenGround empowers LLMs to alternate two phases until the final answer is derived: (1) formulate a simpler, single-hop question and directly generate the answer; (2) ground the question-answer pair in retrieved documents, amending any wrong predictions in the answer. We also propose an instructional grounding distillation method to generalize our method into smaller models. Extensive experiments conducted on four datasets illustrate the superiority of our method.
翻訳日:2024-09-18 01:36:14 公開日:2024-09-16
# 医学応用における因果学習 : ベンチマーク

Causal Learning in Biomedical Applications: A Benchmark ( http://arxiv.org/abs/2406.15189v2 )

ライセンス: Link先を確認
Petr Ryšavý, Xiaoyu He, Jakub Mareček, (参考訳) 変数の集合間の因果関係を学習することは、コンピュータ科学において難しい問題である。 多くの既存の人工ベンチマークデータセットは因果モデルからのサンプリングに基づいており、${R} ^2$-sortability が識別できる残留情報を含んでいる。 本稿では時系列を用いた因果学習手法のベンチマークを示す。 提示されたデータセットは${R}^2$-sortableではなく、セルでエネルギーを放出するために使用されるKrebsサイクルの現実シナリオに基づいている。 短い時系列を含む4つの学習シナリオを提供し、ユーザ間でテストが統一されるようにガイダンスを提供する。

Learning causal relationships between a set of variables is a challenging problem in computer science. Many existing artificial benchmark datasets are based on sampling from causal models and thus contain residual information that the ${R} ^2$-sortability can identify. Here, we present a benchmark for methods in causal learning using time series. The presented dataset is not ${R}^2$-sortable and is based on a real-world scenario of the Krebs cycle that is used in cells to release energy. We provide four scenarios of learning, including short and long time series, and provide guidance so that testing is unified between possible users.
翻訳日:2024-09-18 01:36:14 公開日:2024-09-16
# ギャップを緩和する:CLIPにおけるクロスモーダルアライメント改善のための調査アプローチ

Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP ( http://arxiv.org/abs/2406.17639v3 )

ライセンス: Link先を確認
Sedigheh Eslami, Gerard de Melo, (参考訳) コントラスト言語-画像事前学習(CLIP)は、ゼロショット分類とクロスモーダル視覚言語タスクにおいて顕著に改善されている。 しかし、幾何学的な観点から、CLIP埋め込み空間は明らかなモジュラリティギャップを持つことが判明した。 このギャップは埋め込み空間を過度にスパースし、非連結にし、異なるモジュラリティは超球面の異なる部分領域に密分布する。 本研究は,3つの質問に答えることを目的としている。 1.マルチモーダルエンコーダ間のパラメータ空間の共有はモダリティギャップを減少させるか? 2. モダリティ内分離によるユニモーダル埋め込みの分離によりギャップを緩和できるか? 3. このギャップ低減アプローチは下流のパフォーマンスにどのように影響しますか? 我々はこれらの疑問に答え、広範囲な実験を通じてAlignCLIPを設計し、組込みのクロスモーダルアライメントにおける顕著な拡張を実現し、それによってモダリティギャップを低減し、ゼロショットおよび微調整の下流評価における性能を改善した。

Contrastive Language--Image Pre-training (CLIP) has manifested remarkable improvements in zero-shot classification and cross-modal vision-language tasks. Yet, from a geometrical point of view, the CLIP embedding space has been found to have a pronounced modality gap. This gap renders the embedding space overly sparse and disconnected, with different modalities being densely distributed in distinct subregions of the hypersphere. In this work, we aim at answering three main questions: 1. Does sharing the parameter space between the multi-modal encoders reduce the modality gap? 2. Can the gap be mitigated by pushing apart the uni-modal embeddings via intra-modality separation? 3. How do these gap reduction approaches affect the downstream performance? We design AlignCLIP, in order to answer these questions and through extensive experiments, we show that AlignCLIP achieves noticeable enhancements in the cross-modal alignment of the embeddings, and thereby, reduces the modality gap, while improving the performance across several zero-shot and fine-tuning downstream evaluations.
翻訳日:2024-09-18 01:36:14 公開日:2024-09-16
# PointViG: 効率的なポイントクラウド分析のための軽量GNNベースモデル

PointViG: A Lightweight GNN-based Model for Efficient Point Cloud Analysis ( http://arxiv.org/abs/2407.00921v2 )

ライセンス: Link先を確認
Qiang Zheng, Yafei Qi, Chen Wang, Chao Zhang, Jian Sun, (参考訳) ポイントクラウド分析の分野では、複雑な3Dデータセットの管理におけるグラフニューラルネットワーク(GNN)の重大な機能にもかかわらず、既存のアプローチでは、高い計算コストや広範なシナリオでのスケーラビリティの問題といった課題に直面している。 これらの制限は、特にリソース制約のある環境でのGNNの実践的な展開を制限する。 これらの課題に対処するために, ポイントクラウド解析のための効率的なフレームワークである<b>Point<\b><b>Vi<\b>sion <b>G<\b>NN(PointViG)を紹介する。 PointViGには軽量なグラフ畳み込みモジュールが組み込まれている。 本研究では,大規模クラウドシーンに対して,セマンティックな相関関係に基づいて隣接ノードを探索する適応的拡張グラフ畳み込み手法を提案し,受容場の拡大と計算効率の確保を図る。 実験によると、PointViGはパフォーマンスと複雑さのバランスをとりながら、最先端のモデルに匹敵するパフォーマンスを達成する。 ModelNet40の分類タスクでは、PointViGは1.5Mパラメータで94.3%の精度を達成した。 S3DISセグメンテーションタスクでは、5.3Mパラメータで71.7%のmIoUを達成した。 これらの結果は点雲解析におけるPointViGの可能性と効率を裏付けるものである。

In the domain of point cloud analysis, despite the significant capabilities of Graph Neural Networks (GNNs) in managing complex 3D datasets, existing approaches encounter challenges like high computational costs and scalability issues with extensive scenarios. These limitations restrict the practical deployment of GNNs, notably in resource-constrained environments. To address these issues, this study introduce <b>Point<\b> <b>Vi<\b>sion <b>G<\b>NN (PointViG), an efficient framework for point cloud analysis. PointViG incorporates a lightweight graph convolutional module to efficiently aggregate local features and mitigate over-smoothing. For large-scale point cloud scenes, we propose an adaptive dilated graph convolution technique that searches for sparse neighboring nodes within a dilated neighborhood based on semantic correlation, thereby expanding the receptive field and ensuring computational efficiency. Experiments demonstrate that PointViG achieves performance comparable to state-of-the-art models while balancing performance and complexity. On the ModelNet40 classification task, PointViG achieved 94.3% accuracy with 1.5M parameters. For the S3DIS segmentation task, it achieved an mIoU of 71.7% with 5.3M parameters. These results underscore the potential and efficiency of PointViG in point cloud analysis.
翻訳日:2024-09-18 01:36:14 公開日:2024-09-16
# 私の部分はあなたのものより大きい -- 仲間のグループ内の評価

My part is bigger than yours -- assessment within a group of peers ( http://arxiv.org/abs/2407.01843v2 )

ライセンス: Link先を確認
Konrad Kułakowski, Jacek Szybowski, (参考訳) プロジェクト(例えば、共同研究論文を書くなど)は、しばしばグループ作業です。 最終的に、各コントリビュータは、しばしば口頭で、彼らのコントリビューションを特定します。 しかし、報酬は経済的に非常に多い。 これは、論文作成におけるシェア(パーセント)が個々の著者によるものであるかという問題に繋がる。 異なる著者が様々な意見を持っているかもしれないし、さらに悪いことに、彼らの意見は異なる関連性を持っているかもしれない。 本稿では,専門家の見解を集約するシンプルなモデルを提案し,その優先順位を他の専門家による評価と直接リンクする。 このアプローチでは、与えられた専門家の貢献がより重要になるほど、彼の意見の重要性が増す。 提案手法は,同プロジェクトに関わる仲間同士のコンセンサスを求める試みであると考えられる。 したがって、その応用は、科学論文を書くという提案された研究の例を超えるかもしれない。

A project (e.g., writing a collaborative research paper) is often a group effort. At the end, each contributor identifies their contribution, often verbally. The reward, however, is very frequently financial. It leads to the question of what (percentage) share in the creation of the paper is due to individual authors. Different authors may have various opinions on the matter; even worse, their opinions may have different relevance. In this paper, we present simple models that allow aggregation of experts' views, linking the priority of his preference directly to the assessment made by other experts. In this approach, the more significant the contribution of a given expert, the greater the importance of his opinion. The presented method can be considered an attempt to find consensus among peers involved in the same project. Hence, its applications may go beyond the proposed study example of writing a scientific paper.
翻訳日:2024-09-18 01:36:14 公開日:2024-09-16
# 神経の異質性と神経調節シグナルによるスパイキングニューラルネットワークの学習の促進

Enhancing learning in spiking neural networks through neuronal heterogeneity and neuromodulatory signaling ( http://arxiv.org/abs/2407.04525v2 )

ライセンス: Link先を確認
Alejandro Rodriguez-Garcia, Jie Mei, Srikanth Ramaswamy, (参考訳) 人工知能(AI)の最近の進歩は、神経科学の知見、特に人工ニューラルネットワーク(ANN)の開発によってもたらされている。 これにより、視覚や自然言語処理といった複雑な認知タスクの複製が大幅に向上した。 これらの進歩にもかかわらず、ANNは継続的な学習、適応可能な知識伝達、堅牢性、リソース効率に苦慮している。 特に、ANNは脳の機能的および形態的多様性を見落とし、計算能力を妨げていることが多い。 さらに、神経細胞の不均一性を伴うANNに細胞型特異的神経調節効果を組み込むことで、神経レベルでのスパイク行動と回路レベルでのシナプス可塑性の2つの空間スケールでの学習が可能となり、それによって学習能力が向上する可能性がある。 本稿では、最近のバイオインスパイアされたモデル、学習ルール、アーキテクチャを要約し、ANNの強化のための生物学的インフォームド・フレームワークを提案する。 提案手法は, 種々のスパイキング挙動をエミュレートするスパイキングニューラルネットワーク(SNN)や, 神経計算の形態的, 機能的多様性をシミュレートする樹状体コンパートメントの可能性を明らかにするものである。 最後に、提案手法が脳にインスパイアされたコンパートメントモデルとタスク駆動SNNを統合し、バイオインスピレーションと複雑性のバランスをとり、継続的な学習、適応性、堅牢性、リソース効率といったAI課題に対処するためのスケーラブルなソリューションを提供する方法について概説する。

Recent progress in artificial intelligence (AI) has been driven by insights from neuroscience, particularly with the development of artificial neural networks (ANNs). This has significantly enhanced the replication of complex cognitive tasks such as vision and natural language processing. Despite these advances, ANNs struggle with continual learning, adaptable knowledge transfer, robustness, and resource efficiency - capabilities that biological systems handle seamlessly. Specifically, ANNs often overlook the functional and morphological diversity of the brain, hindering their computational capabilities. Furthermore, incorporating cell-type specific neuromodulatory effects into ANNs with neuronal heterogeneity could enable learning at two spatial scales: spiking behavior at the neuronal level, and synaptic plasticity at the circuit level, thereby potentially enhancing their learning abilities. In this article, we summarize recent bio-inspired models, learning rules and architectures and propose a biologically-informed framework for enhancing ANNs. Our proposed dual-framework approach highlights the potential of spiking neural networks (SNNs) for emulating diverse spiking behaviors and dendritic compartments to simulate morphological and functional diversity of neuronal computations. Finally, we outline how the proposed approach integrates brain-inspired compartmental models and task-driven SNNs, balances bioinspiration and complexity, and provides scalable solutions for pressing AI challenges, such as continual learning, adaptability, robustness, and resource-efficiency.
翻訳日:2024-09-18 01:26:30 公開日:2024-09-16
# 人間ライクな運転に向けて:自律走行車制御におけるアクティブ推論

Towards Human-Like Driving: Active Inference in Autonomous Vehicle Control ( http://arxiv.org/abs/2407.07684v2 )

ライセンス: Link先を確認
Elahe Delavari, John Moore, Junho Hong, Jaerock Kwon, (参考訳) 本稿では,脳を予測機械として概念化する神経科学から派生した理論であるアクティブ推論を応用した,自律走行(AV)制御への新たなアプローチを提案する。 従来の自律運転システムは、適応性、一般化、計算効率に固有の制限があるモジュールパイプライン、模倣学習、強化学習に大きく依存している。 アクティブ推論は、知覚と行動のバランスをとる動的なモデルを通じて予測誤差(「サプライズ」と呼ばれる)を最小限にすることでこれらの課題に対処する。 提案手法は,深層学習と能動推論を統合してAVの側方制御を制御し,シミュレーション都市環境下での車線追従操作を可能にする。 我々は,その単純さに拘わらず,広範な再トレーニングを伴わずに,限られたデータから効果的に学習し,一般化し,計算要求を大幅に低減することを示した。 提案手法は、動的シナリオにおけるAVの適応性と性能を高めるだけでなく、環境変化を予測・適応するための生成モデルを利用して、人間のような運転行動と密接に一致させる。 CARLAシミュレーターにおける広範な実験の結果、適応性と効率の点で従来の手法よりも優れており、現実の自律運転アプリケーションにおけるアクティブな推論の可能性を高めている。

This paper presents a novel approach to Autonomous Vehicle (AV) control through the application of active inference, a theory derived from neuroscience that conceptualizes the brain as a predictive machine. Traditional autonomous driving systems rely heavily on Modular Pipelines, Imitation Learning, or Reinforcement Learning, each with inherent limitations in adaptability, generalization, and computational efficiency. Active inference addresses these challenges by minimizing prediction error (termed "surprise") through a dynamic model that balances perception and action. Our method integrates active inference with deep learning to manage lateral control in AVs, enabling them to perform lane following maneuvers within a simulated urban environment. We demonstrate that our model, despite its simplicity, effectively learns and generalizes from limited data without extensive retraining, significantly reducing computational demands. The proposed approach not only enhances the adaptability and performance of AVs in dynamic scenarios but also aligns closely with human-like driving behavior, leveraging a generative model to predict and adapt to environmental changes. Results from extensive experiments in the CARLA simulator show promising outcomes, outperforming traditional methods in terms of adaptability and efficiency, thereby advancing the potential of active inference in real-world autonomous driving applications.
翻訳日:2024-09-18 01:26:30 公開日:2024-09-16
# 再利用への学習 - LLMにおけるプライバシリスクの軽減に向けて

Learning to Refuse: Towards Mitigating Privacy Risks in LLMs ( http://arxiv.org/abs/2407.10058v2 )

ライセンス: Link先を確認
Zhenhua Liu, Tong Zhu, Chuanyuan Tan, Wenliang Chen, (参考訳) 大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。 しかし、これらのモデルは故意に個人情報を記憶し、重大なプライバシーリスクを生じさせる可能性がある。 本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。 実世界のpErsonal daTa UnleaRNingデータセットである‘return’を提案し、Wikipediaの2,492人の個人と関連するQAペアで構成され、現実的なシナリオで個人データを保護するための機械学習(MU)手法を評価する。 さらに、プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入し、他の無関係な個人に関する質問に答える能力に影響を与えることなく、どの個人の情報を保護するべきかを学習できるようにする。 実験の結果,NAUFは平均的未学習スコアを達成し,最高のベースライン法を5.65ポイント越え,対象個人の個人データを効果的に保護し,モデルの汎用性を維持した。

Large language models (LLMs) exhibit remarkable capabilities in understanding and generating natural language. However, these models can inadvertently memorize private information, posing significant privacy risks. This study addresses the challenge of enabling LLMs to protect specific individuals' private data without the need for complete retraining. We propose \return, a Real-world pErsonal daTa UnleaRNing dataset, comprising 2,492 individuals from Wikipedia with associated QA pairs, to evaluate machine unlearning (MU) methods for protecting personal data in a realistic scenario. Additionally, we introduce the Name-Aware Unlearning Framework (NAUF) for Privacy Protection, which enables the model to learn which individuals' information should be protected without affecting its ability to answer questions related to other unrelated individuals. Our extensive experiments demonstrate that NAUF achieves a state-of-the-art average unlearning score, surpassing the best baseline method by 5.65 points, effectively protecting target individuals' personal data while maintaining the model's general capabilities.
翻訳日:2024-09-18 01:26:30 公開日:2024-09-16
# シンキットフィンガープリント : Pythonにおける分子指紋の簡便かつ効率的な計算法

Scikit-fingerprints: easy and efficient computation of molecular fingerprints in Python ( http://arxiv.org/abs/2407.13291v2 )

ライセンス: Link先を確認
Jakub Adamczyk, Piotr Ludynia, (参考訳) 本研究では,化学情報学応用のための分子指紋計算のためのPythonパッケージである \skfp について述べる。 私たちのライブラリは業界標準のScikit-learnインターフェースを提供しており、直感的な使用と機械学習パイプラインとの統合が容易です。 また、大きな分子データセットの効率的な処理を可能にする並列計算を特徴とする高度に最適化されている。 現在、 \skfp~はオープンソースのPythonエコシステムで最も機能豊富なライブラリであり、30以上の分子指紋を提供している。 本ライブラリは,分子特性予測や仮想スクリーニングなど,分子指紋に基づくケモインフォマティクスタスクを簡略化する。 また、柔軟性があり、非常に効率的で、完全にオープンソースです。

In this work, we present \skfp, a Python package for computation of molecular fingerprints for applications in chemoinformatics. Our library offers an industry-standard scikit-learn interface, allowing intuitive usage and easy integration with machine learning pipelines. It is also highly optimized, featuring parallel computation that enables efficient processing of large molecular datasets. Currently, \skfp~stands as the most feature-rich library in the open source Python ecosystem, offering over 30 molecular fingerprints. Our library simplifies chemoinformatics tasks based on molecular fingerprints, including molecular property prediction and virtual screening. It is also flexible, highly efficient, and fully open source.
翻訳日:2024-09-18 01:26:30 公開日:2024-09-16
# 弱教師付き音素ベース多言語事前学習によるIu Mien言語に対する低音源音声認識

Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training ( http://arxiv.org/abs/2407.13292v2 )

ライセンス: Link先を確認
Lukuan Dong, Donghong Qin, Fengbo Bai, Fanhua Song, Yan Liu, Chen Xu, Zhijian Ou, (参考訳) 主流の自動音声認識(ASR)技術は通常、何百時間から何千時間もの注釈付き音声データを必要とする。 低リソースASRへの3つのアプローチは、音素またはサブワードに基づく教師付き事前学習と、多言語データに対する自己教師付き事前学習である。 イウ・ミエン語(Iu Mien language)は、中国におけるヤオ族の主要な民族言語であり、注釈付き言語が非常に限られているという意味では低資源である。 本研究は,10時間未満のIu Mien言語を用いて,Iu Mien音声認識における3つのアプローチについて検討・比較する。 我々の実験は、最近リリースされたCommonVoiceデータセット(CV-Lang10)から10言語で事前訓練された3つのバックボーンモデルに基づいています。 その結果,音素の監督はサブワードの監督や自己監督よりも優れた結果が得られ,高いデータ効率が得られることがわかった。 特に、弱い教師付き音素ベースの多言語事前学習によって得られるウィスルモデルが最も競争力のある結果を得る。

The mainstream automatic speech recognition (ASR) technology usually requires hundreds to thousands of hours of annotated speech data. Three approaches to low-resourced ASR are phoneme or subword based supervised pre-training, and self-supervised pre-training over multilingual data. The Iu Mien language is the main ethnic language of the Yao ethnic group in China and is low-resourced in the sense that the annotated speech is very limited. With less than 10 hours of transcribed Iu Mien language, this paper investigates and compares the three approaches for Iu Mien speech recognition. Our experiments are based on the recently released, three backbone models pretrained over the 10 languages from the CommonVoice dataset (CV-Lang10), which correspond to the three approaches for low-resourced ASR. It is found that phoneme supervision can achieve better results compared to subword supervision and self-supervision, thereby providing higher data-efficiency. Particularly, the Whistle models, i.e., obtained by the weakly-supervised phoneme-based multilingual pre-training, obtain the most competitive results.
翻訳日:2024-09-18 01:26:30 公開日:2024-09-16
# 広告識別器からグローバルプライバシコントロールへ:Androidにおける広告追跡のオプトアウトの現状と将来

From Ad Identifiers to Global Privacy Control: The Status Quo and Future of Opting Out of Ad Tracking on Android ( http://arxiv.org/abs/2407.14938v2 )

ライセンス: Link先を確認
Sebastian Zimmeck, Nishant Aggarwal, Zachary Liu, Konrad Kollnig, (参考訳) アプリとその統合されたサードパーティライブラリは、しばしば広告をパーソナライズするためにAndroidユーザーから個人情報を収集する。 この習慣はプライバシーを侵害する可能性がある。 さらに、カリフォルニア州消費者プライバシ法(CCPA)は、グローバルプライバシコントロール(GPC)を介してオプトアウト権を与える。 しかし、これらの2つのプライバシーコントロールはいずれも、Androidユーザーが法的に強制されたオプトアウト権の行使を手助けするかどうか、これまで研究されていない。 これに対し、米国Google Play Storeのトップフリーアプリリストの約70%で、CCPAオプトアウトの対象となるAndroidアプリ数を評価しました。 これらのリストから1,811のアプリを動的に分析したところ、AdID設定もGPCも、カリフォルニアにおける個人情報の売買や共有を効果的に防ぐことはできない。 例えば、米国プライバシ文字列を実装したデータセットでAdIDを無効にし、GPCシグナルを最も一般的な広告追跡ドメインに送ると、ドメインに接続するアプリのわずか4%がオプトアウト状態を示している。 この欠点を軽減するため、AndroidのAdID設定は、GoogleのPrivacy Sandboxの一部として、普遍的なGPC設定へと進化すべきである。

Apps and their integrated third-party libraries often collect personal information from Android users for personalizing ads. This practice can be privacy-invasive. Users can limit ad tracking on Android via the AdID setting; further, the California Consumer Privacy Act (CCPA) gives user an opt-out right via Global Privacy Control (GPC). However, neither of these two privacy controls have been studied before as to whether they help Android users exercise their legally mandated opt-out right. In response, we evaluate how many Android apps are subject to the CCPA opt-out right and find it applicable to approximately 70% of apps on the top free app lists of the US Google Play Store. Our dynamic analysis of 1,811 apps from these lists shows that neither the AdID setting nor GPC effectively prevents the selling and sharing of personal information in California. For example, when disabling the AdID and sending GPC signals to the most common ad tracking domain in our dataset that implements the US Privacy String, only 4% of apps connecting to the domain indicate the opt-out status. To mitigate this shortcoming, Android's AdID setting should be evolved towards a universal GPC setting as part of Google's Privacy Sandbox.
翻訳日:2024-09-18 01:16:44 公開日:2024-09-16
# ビデオモーメント検索のためのLLMエンコーディングと擬似イベントレギュレーションによる事前知識統合

Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval ( http://arxiv.org/abs/2407.15051v3 )

ライセンス: Link先を確認
Yiyang Jiang, Wengyu Zhang, Xulu Zhang, Xiaoyong Wei, Chang Wen Chen, Qing Li, (参考訳) 本稿では,ビデオモーメント検索(VMR)モデルにおいて,大規模言語モデル(LLM)を一般知識の統合や擬似イベントを時間的コンテンツ配信の先駆けとして活用する可能性について検討する。 この研究の背後にあるモチベーションは、離散テキスト記述を生成するデコーダとしてLLMを使うことの限界からきており、サリエンススコアやフレーム間の関係をキャプチャするフレーム間埋め込みといった連続的な出力への直接的適用を妨げる。 これらの制限を克服するために,デコーダの代わりにLLMエンコーダを提案する。 実現可能性研究を通じて,LLMエンコーダは,テキスト埋め込みの訓練を受けなくても,マルチモーダル埋め込みにおける概念間関係を効果的に洗練することを示した。 また,これらの埋め込みがCLIP埋め込みと類似した概念間類似パターンを示す限り,LLMエンコーダの精細化能力をBLIPやT5などの他の埋め込みに転送可能であることを示す。 LLMエンコーダを既存のVMRアーキテクチャ、特に核融合モジュールに組み込むための一般的なフレームワークを提案する。 実験により,VMRにおける最先端性能を実現することにより,提案手法の有効性を実証する。 ソースコードはhttps://github.com/fletcherjiang/LLMEPETでアクセスできる。

In this paper, we investigate the feasibility of leveraging large language models (LLMs) for integrating general knowledge and incorporating pseudo-events as priors for temporal content distribution in video moment retrieval (VMR) models. The motivation behind this study arises from the limitations of using LLMs as decoders for generating discrete textual descriptions, which hinders their direct application to continuous outputs like salience scores and inter-frame embeddings that capture inter-frame relations. To overcome these limitations, we propose utilizing LLM encoders instead of decoders. Through a feasibility study, we demonstrate that LLM encoders effectively refine inter-concept relations in multimodal embeddings, even without being trained on textual embeddings. We also show that the refinement capability of LLM encoders can be transferred to other embeddings, such as BLIP and T5, as long as these embeddings exhibit similar inter-concept similarity patterns to CLIP embeddings. We present a general framework for integrating LLM encoders into existing VMR architectures, specifically within the fusion module. Through experimental validation, we demonstrate the effectiveness of our proposed methods by achieving state-of-the-art performance in VMR. The source code can be accessed at https://github.com/fletcherjiang/LLMEPET.
翻訳日:2024-09-18 01:16:44 公開日:2024-09-16
# リスクの批判的評価による大規模言語モデルによるイノベーション中のロバストプライバシー

Robust Privacy Amidst Innovation with Large Language Models Through a Critical Assessment of the Risks ( http://arxiv.org/abs/2407.16166v2 )

ライセンス: Link先を確認
Yao-Shun Chuang, Atiquer Rahman Sarkar, Yu-Chun Hsu, Noman Mohammed, Xiaoqian Jiang, (参考訳) 本研究では, EHRとNLPを大規模言語モデル(LLM)と統合し, 医療データ管理と患者ケアを改善することを目的とした。 バイオメディカル研究のために、高度なモデルを使用して安全でHIPAAに準拠した合成患者ノートを作成することに焦点を当てている。 この研究は、GPT-3.5、GPT-4、Mistral 7BによるMIMIC IIIデータセットの同定と再同定を用いて合成ノートを生成する。 テキスト生成にはテンプレートとキーワード抽出が用いられ、比較のためにワンショット生成が用いられた。 プライバシアセスメントはPHIの発生を確認し,テキストユーティリティはICD-9符号化タスクを用いてテストした。 テキストの品質をROUGEとcosine類似度指標を用いて評価し、ソースノートとのセマンティック類似度を測定した。 ICD-9符号化タスクによるPHIの発生とテキストの有用性の分析により,キーワードベースの手法はリスクが低く,高い性能を示した。 ワンショット生成ではPHI曝露率が最も高く,特に地理的位置と日付のカテゴリーではPHIの同時発生率が高かった。 正規化ワンショット法は最も高い分類精度を達成した。 プライバシー分析は、データユーティリティとプライバシ保護の間に重要なバランスを示し、将来のデータ使用と共有に影響を与える。 再識別されたデータは、継続的に非識別されたデータより優れていた。 本研究は,データ使用性を維持し,臨床データ共有の実践を変革する可能性のある,プライバシ保護型臨床ノート作成におけるキーワードベースの手法の有効性を実証する。 再識別されたデータよりも優れたパフォーマンスは、ダミーPHIを使用してプライバシー攻撃を複雑にすることで、ユーティリティとプライバシを高める方法への移行を示唆している。

This study examines integrating EHRs and NLP with large language models (LLMs) to improve healthcare data management and patient care. It focuses on using advanced models to create secure, HIPAA-compliant synthetic patient notes for biomedical research. The study used de-identified and re-identified MIMIC III datasets with GPT-3.5, GPT-4, and Mistral 7B to generate synthetic notes. Text generation employed templates and keyword extraction for contextually relevant notes, with one-shot generation for comparison. Privacy assessment checked PHI occurrence, while text utility was tested using an ICD-9 coding task. Text quality was evaluated with ROUGE and cosine similarity metrics to measure semantic similarity with source notes. Analysis of PHI occurrence and text utility via the ICD-9 coding task showed that the keyword-based method had low risk and good performance. One-shot generation showed the highest PHI exposure and PHI co-occurrence, especially in geographic location and date categories. The Normalized One-shot method achieved the highest classification accuracy. Privacy analysis revealed a critical balance between data utility and privacy protection, influencing future data use and sharing. Re-identified data consistently outperformed de-identified data. This study demonstrates the effectiveness of keyword-based methods in generating privacy-protecting synthetic clinical notes that retain data usability, potentially transforming clinical data-sharing practices. The superior performance of re-identified over de-identified data suggests a shift towards methods that enhance utility and privacy by using dummy PHIs to perplex privacy attacks.
翻訳日:2024-09-18 01:16:44 公開日:2024-09-16
# SSTD:シングルポイント弱スーパービジョンを用いたStripeライクな空間ターゲット検出

SSTD: Stripe-Like Space Target Detection Using Single-Point Weak Supervision ( http://arxiv.org/abs/2407.18097v2 )

ライセンス: Link先を確認
Zijian Zhu, Ali Zia, Xuesong Li, Bingbing Dan, Yuebo Ma, Enhai Liu, Rujin Zhao, (参考訳) Stripeライクな宇宙目標検出(SSTD)は、宇宙状況の認識を高め、宇宙船の挙動を評価する上で重要な役割を果たしている。 このドメインは、公開データセットの欠如、成層圏の光や星からの干渉、ストライプのような標的の多様性という3つの課題に直面している。 そこで我々は,SSTDのための先駆的データセットである ‘AstroStripeSet’ を紹介し,学術資源のギャップを埋めることと,SSTDにおける研究を前進させることを目的としている。 さらに,手動ラベリングの課題に対する新たな解決策として,一点弱監督機能を備えた新しい教師学習型ラベリングフレームワークを提案する。 このフレームワークは、Segment Anything Model(SAM)のゼロショット機能を使って、一点設定で初期擬似ラベルを生成することから始まる。 その後、微調整されたStripeSAMが教師として、新しく開発されたStripeNetが学生として機能し、ラベルの進化を通じてセグメンテーション性能を継続的に改善し、これらのラベルを反復的に洗練する。 また、ストライプライクなターゲットの線形特性に合わせてカスタマイズされた新しい損失関数である「GeoDice」も導入する。 大規模な実験により,本手法は完全な教師付きアプローチと一致し,多様な空間ベースおよび地上ベース実世界の画像に対して強いゼロショットの一般化を示し,新しい最先端(SOTA)ベンチマークを設定できることがわかった。 AstroStripeSetデータセットとコードは公開されます。

Stripe-like space target detection (SSTD) plays a key role in enhancing space situational awareness and assessing spacecraft behaviour. This domain faces three challenges: the lack of publicly available datasets, interference from stray light and stars, and the variability of stripe-like targets, which makes manual labeling both inaccurate and labor-intensive. In response, we introduces `AstroStripeSet', a pioneering dataset designed for SSTD, aiming to bridge the gap in academic resources and advance research in SSTD. Furthermore, we propose a novel teacher-student label evolution framework with single-point weak supervision, providing a new solution to the challenges of manual labeling. This framework starts with generating initial pseudo-labels using the zero-shot capabilities of the Segment Anything Model (SAM) in a single-point setting. After that, the fine-tuned StripeSAM serves as the teacher and the newly developed StripeNet as the student, consistently improving segmentation performance through label evolution, which iteratively refines these labels. We also introduce `GeoDice', a new loss function customized for the linear characteristics of stripe-like targets. Extensive experiments show that our method matches fully supervised approaches, exhibits strong zero-shot generalization for diverse space-based and ground-based real-world images, and sets a new state-of-the-art (SOTA) benchmark. Our AstroStripeSet dataset and code will be made publicly available.
翻訳日:2024-09-18 01:16:44 公開日:2024-09-16
# 近端ブラックホールのエントロピーとスペクトル:非摂動問題に対する半古典的ブレーン解

Entropy and Spectrum of Near-Extremal Black Holes: semiclassical brane solutions to non-perturbative problems ( http://arxiv.org/abs/2407.20321v2 )

ライセンス: Link先を確認
Sergio Hernández-Cuenca, (参考訳) ブラックホールのエントロピーは指数的に低い温度で負の転回を観測され、極端にベケンシュタイン・ホーキングエントロピーである$S_0$は、しばしば非摂動効果の欠如に起因すると思われる。 実際、この負性性は、量子重力の効果的な理論をアンサンブル記述で表わさなければならない。 そのため、通常の重力エントロピーをアニールエントロピー$S_a$と同定し、基底状態エネルギーが超対称性で保護されている場合に限り、この値が極値でS_0$であることを証明する。 実際の熱力学的振る舞い量は平均または焼成エントロピー$S_q$であり、その計算は重力では理解されていない。 行列積分を用いて、重力相関器を支配する新しいインスタントンサドルを$T\sim e^{-S_0}$で見つけ、動的ブレーンを含む半古典的なワームホールに双対である。 これらのブレイン解は、極端に近いブラックホールに主要な寄与を与え、行列のアンサンブルとの双対性はそれらなしでは意味をなさない。 非BPSの場合、それらは$S_q$を非負にし、さらに$S_a$の負性を高めることが要求される。 我々は,D3-branes双対のWilsonループを$\mathcal{N}=4$ Super-YMで乗算するオンシェル作用に対して実測を行い,正確な一致を見いだした。 低エネルギーランダムマトリクススペクトルの解析は、超対称性理論におけるスペクトルギャップの起源も説明しており、BPS状態がゼロエネルギーで存在するだけでなく、純粋に非BPSスーパーマルチプレットに対しても説明できる。 前者では、BPS状態の縮退によるギャップの予測は、$\mathcal{N}=2$ Super-JT重みのギャップ付き多重項におけるR電荷のスケーリングと一致する。

The black hole entropy has been observed to generically turn negative at exponentially low temperatures $T\sim e^{-S_0}$ in the extremal Bekenstein-Hawking entropy $S_0$, a seeming pathology often attributed to missing non-perturbative effects. In fact, we show that this negativity must happen for any effective theory of quantum gravity with an ensemble description. To do so, we identify the usual gravitational entropy as an annealed entropy $S_a$, and prove that this quantity gives $S_0$ at extremality if and only if the ground-state energy is protected by supersymmetry, and diverges negatively otherwise. The actual thermodynamically-behaved quantity is the average or quenched entropy $S_q$, whose calculation is poorly understood in gravity: it involves replica wormholes in a regime where the topological expansion breaks down. Using matrix integrals we find new instanton saddles that dominate gravitational correlators at $T\sim e^{-S_0}$ and are dual to semiclassical wormholes involving dynamical branes. These brane solutions give the leading contribution to any black hole very near extremality, and a duality with matrix ensembles would not make sense without them. In the non-BPS case, they are required to make $S_q$ non-negative and also enhance the negativity of $S_a$, both effects consistent with matrix integrals evaluated exactly. Our instanton results are tested against the on-shell action of D3-branes dual to multiply wrapped Wilson loops in $\mathcal{N}=4$ super-YM, and a precise match is found. Our analysis of low-energy random matrix spectra also explains the origin of spectral gaps in supersymmetric theories, not only when there are BPS states at zero energy, but also for purely non-BPS supermultiplets. In the former, our prediction for the gap in terms of the degeneracy of BPS states agrees with the R-charge scaling in gapped multiplets of $\mathcal{N}=2$ super-JT gravity.
翻訳日:2024-09-18 01:06:42 公開日:2024-09-16
# スピングラス理論のレンズによる失われた景観の探索

Exploring Loss Landscapes through the Lens of Spin Glass Theory ( http://arxiv.org/abs/2407.20724v2 )

ライセンス: Link先を確認
Hao Liao, Wei Zhang, Zhanyi Huang, Zexiao Long, Mingyang Zhou, Xiaoqun Wu, Rui Mao, Chi Ho Yeung, (参考訳) 過去10年間で、ディープラーニングの大きな進歩は、多くの画期的な応用に繋がった。 これらの進歩にもかかわらず、ディープラーニングの高一般化性、特にそのような過度にパラメータ化された空間における理解は依然として限られている。 例えば、ディープニューラルネットワーク(DNN)では、内部表現、意思決定メカニズム、過度にパラメータ化された空間における過度な適合の欠如、より優れた一般化可能性など、理解されていないままである。 成功した応用は科学的な成果よりも経験的と見なされることが多い。 統計物理学におけるスピンガラスのレンズによるDNNの損失景観を考察する。DNNの動作を理解するための新しい視点として,多数の準安定状態を持つ複雑なエネルギー景観を特徴とするシステムである。 我々は,Rectified Linear Unit(ReLU)関数によって活性化される単一層ニューラルネットワークの損失状況を調査し,DNNとスピングラスの類似性を調べるためのプロトコルをいくつか導入した。 具体的には,(1)DNNのパラメータ空間をランダムに歩いたり,(2)隠れた層における置換対称性による損失ランドスケープ内の同一領域のコピー間の接続を研究するための置換補間プロトコル,(3)DNNのトレーニングされたソリューション間の階層構造を明らかにする階層的クラスタリング,(3)スピンガラスにおけるReplica Symmetry Breaking(RSB)現象(パリ溶液)を連想させる階層的クラスタリング,(4)DNNの損失ランドスケープの頑丈さと一般化性との関係について検討した。

In the past decade, significant strides in deep learning have led to numerous groundbreaking applications. Despite these advancements, the understanding of the high generalizability of deep learning, especially in such an over-parametrized space, remains limited. For instance, in deep neural networks (DNNs), their internal representations, decision-making mechanism, absence of overfitting in an over-parametrized space, superior generalizability, etc., remain less understood. Successful applications are often considered as empirical rather than scientific achievement. This paper delves into the loss landscape of DNNs through the lens of spin glass in statistical physics, a system characterized by a complex energy landscape with numerous metastable states, as a novel perspective in understanding how DNNs work. We investigated the loss landscape of single hidden layer neural networks activated by Rectified Linear Unit (ReLU) function, and introduced several protocols to examine the analogy between DNNs and spin glass. Specifically, we used (1) random walk in the parameter space of DNNs to unravel the structures in their loss landscape; (2) a permutation-interpolation protocol to study the connection between copies of identical regions in the loss landscape due to the permutation symmetry in the hidden layers; (3) hierarchical clustering to reveal the hierarchy among trained solutions of DNNs, reminiscent of the so-called Replica Symmetry Breaking (RSB) phenomenon (i.e. the Parisi solution) in spin glass; (4) finally, we examine the relationship between the ruggedness of DNN's loss landscape and its generalizability, showing an improvement of flattened minima.
翻訳日:2024-09-18 01:06:42 公開日:2024-09-16
# 大規模言語モンキー:反復サンプリングによる推論計算のスケーリング

Large Language Monkeys: Scaling Inference Compute with Repeated Sampling ( http://arxiv.org/abs/2407.21787v2 )

ライセンス: Link先を確認
Bradley Brown, Jordan Juravsky, Ryan Ehrlich, Ronald Clark, Quoc V. Le, Christopher Ré, Azalia Mirhoseini, (参考訳) 言語モデルのトレーニングに使用する計算量をスケールアップすることで、その能力は劇的に向上した。 しかし、推論に関して言えば、計算量は問題ごとの1回の試行に制限されることが多い。 そこで本研究では,生成サンプル数を増大させることにより,推論計算をスケーリングの別の軸として検討する。 複数のタスクやモデルにまたがって、あらゆる試みによって解決された問題のごく一部であるカバレッジは、4桁以上のサンプル数でスケールする。 すべての回答を自動的に検証できるコーディングや形式証明のようなドメインでは、カバレッジの増加は直接的にパフォーマンスの向上に変換される。 SWE-bench Liteに繰り返しサンプリングを適用すると、DeepSeek-V2-Coder-Instructで解決された問題の割合は15.9%に増加し、1サンプルで56%、250サンプルで56%に増加し、より有能なフロンティアモデルを用いた43%の単一回避状態よりも優れていた。 さらに、現在のAPI価格を使用すると、5つのサンプルでより安価なDeepSeekモデルを増幅する方がコスト効率が高く、GPT-4oやClaude 3.5 Sonnetから1つのサンプルに対してプレミアムを支払うよりも多くの問題を解決する。 興味深いことに、カバレッジとサンプル数の関係は、しばしば対数線形であり、指数化されたパワー法則でモデル化することができ、推論時スケーリング法則の存在を示唆している。 最後に、多くの世代から正しいサンプルを同定することは、自動検証のない領域における将来の研究にとって重要な方向であることがわかった。 GSM8KとMATHから数学語を解くと、Llama-3モデルのカバレッジは1万のサンプルで95%以上になる。 しかし、多数決や報奨モデルなど、サンプルコレクションから正しいソリューションを選択する一般的な方法は、数百のサンプルを超越し、サンプル予算で完全にスケールできない。

Scaling the amount of compute used to train language models has dramatically improved their capabilities. However, when it comes to inference, we often limit the amount of compute to only one attempt per problem. Here, we explore inference compute as another axis for scaling by increasing the number of generated samples. Across multiple tasks and models, we observe that coverage - the fraction of problems solved by any attempt - scales with the number of samples over four orders of magnitude. In domains like coding and formal proofs, where all answers can be automatically verified, these increases in coverage directly translate into improved performance. When we apply repeated sampling to SWE-bench Lite, the fraction of issues solved with DeepSeek-V2-Coder-Instruct increases from 15.9% with one sample to 56% with 250 samples, outperforming the single-attempt state-of-the-art of 43% which uses more capable frontier models. Moreover, using current API pricing, amplifying the cheaper DeepSeek model with five samples is more cost-effective and solves more issues than paying a premium for one sample from GPT-4o or Claude 3.5 Sonnet. Interestingly, the relationship between coverage and the number of samples is often log-linear and can be modelled with an exponentiated power law, suggesting the existence of inference-time scaling laws. Finally, we find that identifying correct samples out of many generations remains an important direction for future research in domains without automatic verifiers. When solving math word problems from GSM8K and MATH, coverage with Llama-3 models grows to over 95% with 10,000 samples. However, common methods to pick correct solutions from a sample collection, such as majority voting or reward models, plateau beyond several hundred samples and fail to fully scale with the sample budget.
翻訳日:2024-09-18 01:06:42 公開日:2024-09-16
# 積分可能量子回路の一般化力学

Generalized hydrodynamics of integrable quantum circuits ( http://arxiv.org/abs/2408.00474v3 )

ライセンス: Link先を確認
Friedrich Hübner, Eric Vernier, Lorenzo Piroli, (参考訳) 量子回路は、時間差$\tau$の離散トロッターステップを実装することで、多体ハミルトンの連続時間力学をシミュレートすることができる。 しかし、$\tau$が十分に大きい場合、離散力学は元の進化と比べて質的な違いを示し、新しい特徴と多体効果を示す可能性がある。 この現象の興味深い例として、原型可積分モデルであるXXZハイゼンベルクスピン鎖の可積分トロッター化を考える。 大規模システムの2つのハーフを異なるマクロ状態に準備し、突然結合し、非自明な非平衡力学をもたらす、よく知られた分割プロトコルに焦点を当てる。 積分可能モデルの最近の結果に基づいて一般化流体力学(GHD)を適用することにより、入力された左右のキュービットが2つの異なる積状態で初期化される明示的な1次元量子回路設定の大規模記述を開発する。 本稿では,GHD方程式によって予測される現象論について考察する。 パラメータ空間のいくつかの位相において、量子回路の大規模力学は連続時間進化と定性的に異なることを示す。 特に、単一量子ビットの付加のような接合部の単一顕微鏡欠陥は、遅く出現する非平衡マクロ状態を変化させる可能性がある。

Quantum circuits make it possible to simulate the continuous-time dynamics of a many-body Hamiltonian by implementing discrete Trotter steps of duration $\tau$. However, when $\tau$ is sufficiently large, the discrete dynamics exhibit qualitative differences compared to the original evolution, potentially displaying novel features and many-body effects. We study an interesting example of this phenomenon, by considering the integrable Trotterization of a prototypical integrable model, the XXZ Heisenberg spin chain. We focus on the well-known bipartition protocol, where two halves of a large system are prepared in different macrostates and suddenly joined together, yielding non-trivial nonequilibrium dynamics. Building upon recent results and adapting the generalized hydrodynamics (GHD) of integrable models, we develop an exact large-scale description of an explicit one-dimensional quantum-circuit setting, where the input left and right qubits are initialized in two distinct product states. We explore the phenomenology predicted by the GHD equations, which depend on the Trotter step and the gate parameters. In some phases of the parameter space, we show that the quantum-circuit large-scale dynamics is qualitatively different compared to the continuous-time evolution. In particular, we find that a single microscopic defect at the junction, such as the addition of a single qubit, may change the nonequilibrium macrostate appearing at late time.
翻訳日:2024-09-18 01:06:42 公開日:2024-09-16
# マルチモードコントラストマスクオートエンコーダを用いた2段階プログレッシブ事前学習

A Two-Stage Progressive Pre-training using Multi-Modal Contrastive Masked Autoencoders ( http://arxiv.org/abs/2408.02245v2 )

ライセンス: Link先を確認
Muhammad Abdullah Jamal, Omid Mohareri, (参考訳) 本稿では,RGB-Dデータセットを利用した画像理解タスクのための新しいプログレッシブ事前学習手法を提案する。 マルチモーダル・コントラスト・マスケッド・オートエンコーダとデノライズ技術を利用する。 提案手法は2段階からなる。 第一段階では、コントラスト学習を用いてモデルを事前学習し、クロスモーダル表現を学習する。 第2段階では、拡散モデルで用いられるマスク付き自己符号化と雑音予測を用いて、モデルをさらに事前訓練する。 Masked Autoencodingは、局所的な空間相関を用いて入力モダリティの欠落したパッチを再構成することに焦点を当て、denoisingは入力データの高周波成分を学習する。 さらに、第1段で得た知識を活用して、第2段でグローバル蒸留を取り入れている。 我々のアプローチはスケーラブルで堅牢で、RGB-Dデータセットを事前学習するのに適しています。 ScanNet、NYUv2、SUN RGB-Dといった複数のデータセットに対する大規模な実験は、我々のアプローチの有効性と優れた性能を示している。 具体的には、ScanNetセマンティックセグメンテーションにおけるMask3Dに対する+1.3% mIoUの改善を示す。 さらに,本手法の有効性を,最先端手法に対するセマンティックセグメンテーションタスクとして評価することで実証する。

In this paper, we propose a new progressive pre-training method for image understanding tasks which leverages RGB-D datasets. The method utilizes Multi-Modal Contrastive Masked Autoencoder and Denoising techniques. Our proposed approach consists of two stages. In the first stage, we pre-train the model using contrastive learning to learn cross-modal representations. In the second stage, we further pre-train the model using masked autoencoding and denoising/noise prediction used in diffusion models. Masked autoencoding focuses on reconstructing the missing patches in the input modality using local spatial correlations, while denoising learns high frequency components of the input data. Moreover, it incorporates global distillation in the second stage by leveraging the knowledge acquired in stage one. Our approach is scalable, robust and suitable for pre-training RGB-D datasets. Extensive experiments on multiple datasets such as ScanNet, NYUv2 and SUN RGB-D show the efficacy and superior performance of our approach. Specifically, we show an improvement of +1.3% mIoU against Mask3D on ScanNet semantic segmentation. We further demonstrate the effectiveness of our approach in low-data regime by evaluating it for semantic segmentation task against the state-of-the-art methods.
翻訳日:2024-09-18 01:06:42 公開日:2024-09-16
# ロボットのための深層強化学習 : 実世界における成功事例調査

Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes ( http://arxiv.org/abs/2408.03539v3 )

ライセンス: Link先を確認
Chen Tang, Ben Abbatematteo, Jiaheng Hu, Rohan Chandra, Roberto Martín-Martín, Peter Stone, (参考訳) Reinforcement Learning(RL)、特にDeep RL(DRL)と呼ばれるディープニューラルネットワークの組み合わせは、幅広いアプリケーションで大きな可能性を示しており、高度なロボット行動の開発を可能にする可能性を示唆している。 しかし、ロボットの問題は、物理世界との相互作用の複雑さとコストから、RLの適用に根本的な困難をもたらす。 本稿では、ロボット工学におけるDRLの近代的な調査について紹介し、DRLが達成した実世界の成功を、いくつかの重要なロボット能力の実現に焦点をあてる。 我々の分析は、これらのエキサイティングな成功の根底にある重要な要因を特定し、未探索領域を明らかにし、ロボット工学におけるDRLの現状を総合的に評価することを目的としている。 今後の課題として, 安定的でサンプル効率のよい実世界のRLパラダイムの必要性を強調し, 複雑な長期的, オープンワールド的な課題に対処するための様々な能力の発見と統合のための総合的なアプローチ, 開発と評価の原則を強調した。 この調査は、RLの能力を活用して一般的な実世界のロボットシステムを構築するための、RLの実践者とロボティクスの両方に洞察を提供するように設計されている。

Reinforcement learning (RL), particularly its combination with deep neural networks referred to as deep RL (DRL), has shown tremendous promise across a wide range of applications, suggesting its potential for enabling the development of sophisticated robotic behaviors. Robotics problems, however, pose fundamental difficulties for the application of RL, stemming from the complexity and cost of interacting with the physical world. This article provides a modern survey of DRL for robotics, with a particular focus on evaluating the real-world successes achieved with DRL in realizing several key robotic competencies. Our analysis aims to identify the key factors underlying those exciting successes, reveal underexplored areas, and provide an overall characterization of the status of DRL in robotics. We highlight several important avenues for future work, emphasizing the need for stable and sample-efficient real-world RL paradigms, holistic approaches for discovering and integrating various competencies to tackle complex long-horizon, open-world tasks, and principled development and evaluation procedures. This survey is designed to offer insights for both RL practitioners and roboticists toward harnessing RL's power to create generally capable real-world robotic systems.
翻訳日:2024-09-18 01:06:42 公開日:2024-09-16
# 再生核ヒルベルト空間における量子レグレッションによる確率エネルギー予測

Probabilistic energy forecasting through quantile regression in reproducing kernel Hilbert spaces ( http://arxiv.org/abs/2408.04405v3 )

ライセンス: Link先を確認
Luca Pernigo, Rohan Sen, Davide Baroli, (参考訳) 正確なエネルギー需要予測は持続的で回復力のあるエネルギー開発に不可欠である。 DACH諸国におけるネットゼロ代表集中経路(RCP)の4.5ドルのシナリオを満たすためには、再生可能エネルギー生産の増加、エネルギー貯蔵、商業建築の消費の削減が必要である。 このシナリオの成功は、水力発電能力と気候要因に依存する。 インフォームド決定は予測の不確実性を定量化する必要がある。 本研究では、エネルギー予測のためにカーネル量子レグレッション(カーネル量子レグレッション)として知られる \emph{re producer kernel Hilbert space (RKHS) に基づく非パラメトリック手法を探索する。 本実験は信頼性とシャープさを実証し,DACH領域の負荷および価格予測における最先端手法と比較した。 我々は、我々の研究の再現性を確保するために、追加のスクリプトと共に実装を提供します。

Accurate energy demand forecasting is crucial for sustainable and resilient energy development. To meet the Net Zero Representative Concentration Pathways (RCP) $4.5$ scenario in the DACH countries, increased renewable energy production, energy storage, and reduced commercial building consumption are needed. This scenario's success depends on hydroelectric capacity and climatic factors. Informed decisions require quantifying uncertainty in forecasts. This study explores a non-parametric method based on \emph{reproducing kernel Hilbert spaces (RKHS)}, known as kernel quantile regression, for energy prediction. Our experiments demonstrate its reliability and sharpness, and we benchmark it against state-of-the-art methods in load and price forecasting for the DACH region. We offer our implementation in conjunction with additional scripts to ensure the reproducibility of our research.
翻訳日:2024-09-18 00:56:51 公開日:2024-09-16
# PointMT: ハイブリッドMLP-Transformerアーキテクチャによる効率的なポイントクラウド分析

PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture ( http://arxiv.org/abs/2408.05508v2 )

ライセンス: Link先を確認
Qiang Zheng, Chao Zhang, Jian Sun, (参考訳) 近年,Transformerアーキテクチャに基づくポイントクラウド解析手法は,特に3Dモデリングや仮想現実,自律システムといったマルチメディアアプリケーションにおいて,大きな進歩を遂げている。 しかし、Transformerアーキテクチャの高度な計算リソース要求は、そのスケーラビリティ、リアルタイム処理能力、および限られた計算リソースを持つモバイルデバイスや他のプラットフォームへのデプロイを妨げる。 この制限は、デバイス上のインテリジェンスとマルチメディア処理を必要とするシナリオにおいて、実用上重要な障害である。 この課題に対処するために,効率的な点群解析アーキテクチャ, \textbf{Point} \textbf{M}LP-\textbf{T}ransformer (PointMT)を提案する。 本研究では,効率的な特徴集約のための線形複雑局所的注意機構を導入することにより,自己注意機構の二次的複雑さに取り組む。 さらに,トランスフォーマーは,チャネル差を無視しつつトークン差に着目し,各チャネルの注目重量分布を適応的に調整し,特徴集約の精度を高めるパラメータフリーチャネル温度適応機構を導入する。 ポイントクラウドデータセットの限られたスケールによるTransformerの緩やかな収束速度を改善するために,モデルの収束速度を大幅に向上させるMPP-Transformerハイブリッドモジュールを提案する。 さらに、ポイントトークンの特徴表現能力を向上するため、分類ヘッドを改良し、ポイントトークンが予測に直接参加できるようにする。 複数の評価ベンチマークによる実験結果から、PointMTは性能と精度の最適なバランスを維持しつつ、最先端の手法に匹敵する性能を達成することが示された。

In recent years, point cloud analysis methods based on the Transformer architecture have made significant progress, particularly in the context of multimedia applications such as 3D modeling, virtual reality, and autonomous systems. However, the high computational resource demands of the Transformer architecture hinder its scalability, real-time processing capabilities, and deployment on mobile devices and other platforms with limited computational resources. This limitation remains a significant obstacle to its practical application in scenarios requiring on-device intelligence and multimedia processing. To address this challenge, we propose an efficient point cloud analysis architecture, \textbf{Point} \textbf{M}LP-\textbf{T}ransformer (PointMT). This study tackles the quadratic complexity of the self-attention mechanism by introducing a linear complexity local attention mechanism for effective feature aggregation. Additionally, to counter the Transformer's focus on token differences while neglecting channel differences, we introduce a parameter-free channel temperature adaptation mechanism that adaptively adjusts the attention weight distribution in each channel, enhancing the precision of feature aggregation. To improve the Transformer's slow convergence speed due to the limited scale of point cloud datasets, we propose an MLP-Transformer hybrid module, which significantly enhances the model's convergence speed. Furthermore, to boost the feature representation capability of point tokens, we refine the classification head, enabling point tokens to directly participate in prediction. Experimental results on multiple evaluation benchmarks demonstrate that PointMT achieves performance comparable to state-of-the-art methods while maintaining an optimal balance between performance and accuracy.
翻訳日:2024-09-18 00:56:51 公開日:2024-09-16
# Hound: 深層学習を用いた非同期サイドチャネルトレースにおける暗号プリミティブの配置

Hound: Locating Cryptographic Primitives in Desynchronized Side-Channel Traces Using Deep-Learning ( http://arxiv.org/abs/2408.06296v2 )

ライセンス: Link先を確認
Davide Galli, Giuseppe Chiari, Davide Zoni, (参考訳) サイドチャネル攻撃は、部分的に計算されたデータと測定されたサイドチャネル信号とを関連付けて、暗号プリミティブから機密情報を抽出することができる。 生のサイドチャネルトレースから始めて、サイドチャネルトレースの前処理により、各暗号プリミティブが実行される時刻をピンポイントし、さらに、収集したデータをこの特定の時間に再調整することは、サイドチャネル攻撃を成功させる重要なステップを示す。 隠れテクニックの使用は、サイドチャネルトレースの事前処理を妨げるため、実際のシナリオでのサイドチャネル攻撃を制限するために、低コストのソリューションとして広く採用されている。 この研究は、動的周波数スケーリングアクチュエータを用いて導入されたトレース変形の存在下でも、サイドチャネルトレース内で暗号プリミティブの実行を検出するための、新しいディープラーニングベースのパイプラインであるHoundを紹介する。 Houndは、RISC-V CPUを内蔵したFPGAベースのシステムオンチップ上で実行される様々な暗号プリミティブに対する攻撃が成功し、動的周波数スケーリングがアクティブである。 DFSで変形した側チャネルトレースにおける暗号プリミティブの同定の可能性を示す実験結果が得られた。

Side-channel attacks allow to extract sensitive information from cryptographic primitives by correlating the partially known computed data and the measured side-channel signal. Starting from the raw side-channel trace, the preprocessing of the side-channel trace to pinpoint the time at which each cryptographic primitive is executed, and, then, to re-align all the collected data to this specific time represent a critical step to setup a successful side-channel attack. The use of hiding techniques has been widely adopted as a low-cost solution to hinder the preprocessing of side-channel traces thus limiting side-channel attacks in real scenarios. This work introduces Hound, a novel deep learning-based pipeline to locate the execution of cryptographic primitives within the side-channel trace even in the presence of trace deformations introduced by the use of dynamic frequency scaling actuators. Hound has been validated through successful attacks on various cryptographic primitives executed on an FPGA-based system-on-chip incorporating a RISC-V CPU, while dynamic frequency scaling is active. Experimental results demonstrate the possibility of identifying the cryptographic primitives in DFS-deformed side-channel traces.
翻訳日:2024-09-18 00:56:51 公開日:2024-09-16
# 最適量子アニールプロトコルのロバスト性

Robustness of optimal quantum annealing protocols ( http://arxiv.org/abs/2408.06782v2 )

ライセンス: Link先を確認
Niklas Funcke, Julian Berberich, (参考訳) 量子コンピューティングデバイスのノイズは、その実現に重要な課題をもたらす。 本稿では,現在の量子デバイスに有害な影響をもたらすハミルトニアン誤差であるコヒーレント制御誤差に対する最適量子アニールプロトコルのロバスト性について検討する。 ハミルトンのノルムはこれらの誤りに対するロバスト性を定量化し、コスト関数に追加の正規化項を導入する動機となっている。 我々はポントリャーギンの最大原理に基づいて、結果として生じるロバストな量子最適制御問題の最適条件を解析し、ロバストなプロトコルがより大きな滑らかなアニール断面積を持つことを示した。 このことは、量子近似最適化アルゴリズムのようなバンバン解と比較して、量子アニールはロバスト性を向上させることを示唆している。 最後に,解析結果を検証し,提案手法のロバスト性向上を実証するために数値シミュレーションを行った。

Noise in quantum computing devices poses a key challenge in their realization. In this paper, we study the robustness of optimal quantum annealing protocols against coherent control errors, which are multiplicative Hamlitonian errors causing detrimental effects on current quantum devices. We show that the norm of the Hamiltonian quantifies the robustness against these errors, motivating the introduction of an additional regularization term in the cost function. We analyze the optimality conditions of the resulting robust quantum optimal control problem based on Pontryagin's maximum principle, showing that robust protocols admit larger smooth annealing sections. This suggests that quantum annealing admits improved robustness in comparison to bang-bang solutions such as the quantum approximate optimization algorithm. Finally, we perform numerical simulations to verify our analytical results and demonstrate the improved robustness of the proposed approach.
翻訳日:2024-09-18 00:56:51 公開日:2024-09-16
# V2X-VLM:大規模視覚言語モデルによるエンドツーエンドV2X協調自動運転

V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models ( http://arxiv.org/abs/2408.09251v2 )

ライセンス: Link先を確認
Junwei You, Haotian Shi, Zhuoyu Jiang, Zilin Huang, Rui Gan, Keshu Wu, Xi Cheng, Xiaopeng Li, Bin Ran, (参考訳) 自動運転の進歩は、環境認識から車両のナビゲーションや制御に至るまで、運転タスクの全範囲を管理するエンドツーエンド(E2E)システムにますます焦点を絞っている。 本稿では、V2Xシステムと大型ビジョン言語モデル(VLM)を備えた、革新的なE2E車両・インフラ協調自動運転(VICAD)フレームワークであるV2X-VLMを紹介する。 V2X-VLMは、車両に搭載されたカメラ、インフラセンサー、およびテキスト情報からの多モデルデータを統合することで、状況認識、意思決定、究極の軌道計画を強化するように設計されている。 コントラスト学習法は、特徴識別を精細化し、運転環境の堅牢な表現を学習するモデルを支援することで、VLMを補完するためにさらに用いられる。 DAIR-V2Xデータセットの評価では、V2X-VLMは最先端の協調運転法よりも優れており、コーナーケースでのさらなるテストは、実世界の運転条件におけるその堅牢性を検証する。

Advancements in autonomous driving have increasingly focused on end-to-end (E2E) systems that manage the full spectrum of driving tasks, from environmental perception to vehicle navigation and control. This paper introduces V2X-VLM, an innovative E2E vehicle-infrastructure cooperative autonomous driving (VICAD) framework with Vehicle-to-Everything (V2X) systems and large vision-language models (VLMs). V2X-VLM is designed to enhance situational awareness, decision-making, and ultimate trajectory planning by integrating multimodel data from vehicle-mounted cameras, infrastructure sensors, and textual information. The contrastive learning method is further employed to complement VLM by refining feature discrimination, assisting the model to learn robust representations of the driving environment. Evaluations on the DAIR-V2X dataset show that V2X-VLM outperforms state-of-the-art cooperative autonomous driving methods, while additional tests on corner cases validate its robustness in real-world driving conditions.
翻訳日:2024-09-18 00:56:51 公開日:2024-09-16
# CLIPCleaner: CLIPによるノイズラベルのクリーン化

CLIPCleaner: Cleaning Noisy Labels with CLIP ( http://arxiv.org/abs/2408.10012v2 )

ライセンス: Link先を確認
Chen Feng, Georgios Tzimiropoulos, Ioannis Patras, (参考訳) Noisy labels(LNL)による学習は、機械学習コミュニティにとって大きな課題となる。 モデル自体(トレーニング中のモデル)が高い信頼性を持つクリーンなサンプルとして選択する最も広く使用されるアプローチのいくつかは、いわゆる‘自己確認’バイアスに悩まされる可能性がある。 このバイアスは、トレーニング中のモデルが少なくとも部分的にノイズラベルで訓練されているために生じる。 さらに分類の場合、ラベルノイズのいくつかは視覚的に非常に類似したクラス(`hard noise')の間にあるため、さらなる課題が生じる。 本稿では,効率的なオフライン,クリーンなサンプル選択のためのゼロショット分類器を構築するための強力なVision-Language (VL)モデルであるCLIPを利用する手法(\textit{CLIPCleaner})を提案することにより,これらの課題に対処する。 これは、サンプル選択がトレーニング中のモデルから切り離され、サンプル選択がCLIPのトレーニング方法によるクラス間の意味的および視覚的類似性を認識しているという利点がある。 従来の事前学習モデルと比較して,LNLに対するCLIPの利点を示す理論的正当性および実証的証拠を提供する。 反復的なサンプル選択と様々なテクニックを組み合わせる現在の方法と比較して、 \textit{CLIPCleaner} は、ベンチマークデータセット上での競合や優れたパフォーマンスを達成するための、単純で単一ステップのアプローチを提供する。 我々の知る限りでは、VLモデルがサンプル選択に使われ、LNL(Learning with Noisy Labels)の問題に対処し、ドメインにおけるVLの可能性を強調するのはこれが初めてである。

Learning with Noisy labels (LNL) poses a significant challenge for the Machine Learning community. Some of the most widely used approaches that select as clean samples for which the model itself (the in-training model) has high confidence, e.g., `small loss', can suffer from the so called `self-confirmation' bias. This bias arises because the in-training model, is at least partially trained on the noisy labels. Furthermore, in the classification case, an additional challenge arises because some of the label noise is between classes that are visually very similar (`hard noise'). This paper addresses these challenges by proposing a method (\textit{CLIPCleaner}) that leverages CLIP, a powerful Vision-Language (VL) model for constructing a zero-shot classifier for efficient, offline, clean sample selection. This has the advantage that the sample selection is decoupled from the in-training model and that the sample selection is aware of the semantic and visual similarities between the classes due to the way that CLIP is trained. We provide theoretical justifications and empirical evidence to demonstrate the advantages of CLIP for LNL compared to conventional pre-trained models. Compared to current methods that combine iterative sample selection with various techniques, \textit{CLIPCleaner} offers a simple, single-step approach that achieves competitive or superior performance on benchmark datasets. To the best of our knowledge, this is the first time a VL model has been used for sample selection to address the problem of Learning with Noisy Labels (LNL), highlighting their potential in the domain.
翻訳日:2024-09-18 00:56:51 公開日:2024-09-16
# LLMベースのコード補完ツールのセキュリティ攻撃

Security Attacks on LLM-based Code Completion Tools ( http://arxiv.org/abs/2408.11006v2 )

ライセンス: Link先を確認
Wen Cheng, Ke Sun, Xinyu Zhang, Wei Wang, (参考訳) 大規模言語モデル(LLM)の急速な開発により、コード補完機能が大幅に向上し、LCCT(LLM-based Code Completion Tools)が新たに登場した。 汎用LLMとは異なり、これらのツールは独自のワークフローを持ち、複数の情報ソースをインプットとして統合し、自然言語のインタラクションよりもコード提案を優先する。 さらに、LCCTはトレーニングのためにプロプライエタリなコードデータセットを頼りにし、機密データの潜在的な露出に関する懸念を提起することが多い。 本稿では,LCCTのこれらの特徴を利用して,Jailbreakingとトレーニングデータ抽出攻撃の2つの重要なセキュリティリスクを標的とした攻撃手法を開発する。 実験結果は、GitHub Copilotに対するジェイルブレイク攻撃の99.4%の成功率、Amazon Qでの46.3%の成功率など、LCCT内の重大な脆弱性を明らかにしています。さらに、54のリアルメールアドレスと314の物理的アドレスを含む、GitHub Copilotから機密性の高いユーザデータを抽出しました。 また,GPTシリーズなどの汎用LLMに対して,コードベースの攻撃手法が有効であることを示すとともに,現代のLLMによるコード処理において,より広範なセキュリティ上のミスアライメントが強調されている。 これらの知見は,LCCTに関連する重要なセキュリティ上の課題を浮き彫りにし,セキュリティフレームワークの強化に不可欠な方向性を示唆している。 我々の研究のコードと攻撃サンプルは、https://github.com/Sensente/Security-Attacks-on-LCCTsで提供されている。

The rapid development of large language models (LLMs) has significantly advanced code completion capabilities, giving rise to a new generation of LLM-based Code Completion Tools (LCCTs). Unlike general-purpose LLMs, these tools possess unique workflows, integrating multiple information sources as input and prioritizing code suggestions over natural language interaction, which introduces distinct security challenges. Additionally, LCCTs often rely on proprietary code datasets for training, raising concerns about the potential exposure of sensitive data. This paper exploits these distinct characteristics of LCCTs to develop targeted attack methodologies on two critical security risks: jailbreaking and training data extraction attacks. Our experimental results expose significant vulnerabilities within LCCTs, including a 99.4% success rate in jailbreaking attacks on GitHub Copilot and a 46.3% success rate on Amazon Q. Furthermore, We successfully extracted sensitive user data from GitHub Copilot, including 54 real email addresses and 314 physical addresses associated with GitHub usernames. Our study also demonstrates that these code-based attack methods are effective against general-purpose LLMs, such as the GPT series, highlighting a broader security misalignment in the handling of code by modern LLMs. These findings underscore critical security challenges associated with LCCTs and suggest essential directions for strengthening their security frameworks. The example code and attack samples from our research are provided at https://github.com/Sensente/Security-Attacks-on-LCCTs.
翻訳日:2024-09-18 00:56:51 公開日:2024-09-16
# タグにするか、タグにしないか: CのユニオンをRustのタグ付きユニオンに翻訳する

To Tag, or Not to Tag: Translating C's Unions to Rust's Tagged Unions ( http://arxiv.org/abs/2408.11418v2 )

ライセンス: Link先を確認
Jaemin Hong, Sukyoung Ryu, (参考訳) 自動C-to-Rust翻訳は、レガシーシステムソフトウェアの信頼性を高めるための有望な方法である。 しかし、産業的に開発されたトランスレータであるC2Rustは、安全でない特徴を持つRustコードを生成し、翻訳の目的を損なう。 C2Rust生成コードで安全でない機能を削除するためのテクニックが提案されているが、これらの取り組みは、安全でない機能の限られたサブセットのみを対象としている。 安全でない重要な機能のひとつがunionであり、同じメモリストレージを共有する複数のフィールドからなる型である。 プログラマは、最後に書き込まれたフィールドを記録するために、構造体にタグ付きのユニオンを置くことが多いが、それでも間違ったフィールドにアクセスすることができる。 対照的に、Rustのタグ付きユニオンは、タグとユニオンを言語レベルで組み合わせ、適切な値アクセスを保証する。 そこで本研究では,C-to-Rust翻訳において,ユニオンをタグ付きユニオンに置き換える手法を提案する。 我々は,タグフィールドと対応するタグ値を識別することで,そのような置換を容易にする静的解析を開発する。 この分析には、計算構造体の値とこれらの結果のヒューリスティック解釈が含まれる。 効率を向上させるために,我々は声道内機能解析を採用し,関数の選択的解析を可能にした。 実世界の36のCプログラムに対する評価は,(1)偽陽性のない74のタグフィールドと5つの偽陰性のみを同定し,(2)23のプログラムのうち17のプログラムがポストトランスフォーメーションに合格し,(3)効率が良く,141kLOCを4,910秒で解析・変換できることを示す。

Automatic C-to-Rust translation is a promising way to enhance the reliability of legacy system software. However, C2Rust, an industrially developed translator, generates Rust code with unsafe features, undermining the translation's objective. While researchers have proposed techniques to remove unsafe features in C2Rust-generated code, these efforts have targeted only a limited subset of unsafe features. One important unsafe feature remaining unaddressed is a union, a type consisting of multiple fields sharing the same memory storage. Programmers often place a union with a tag in a struct to record the last-written field, but they can still access wrong fields. In contrast, Rust's tagged unions combine tags and unions at the language level, ensuring correct value access. In this work, we propose techniques to replace unions with tagged unions during C-to-Rust translation. We develop a static analysis that facilitates such replacement by identifying tag fields and the corresponding tag values. The analysis involves a must-points-to analysis computing struct field values and a heuristic interpreting these results. To enhance efficiency, we adopt intraprocedural function-wise analysis, allowing selective analysis of functions. Our evaluation on 36 real-world C programs shows that the proposed approach is (1) precise, identifying 74 tag fields with no false positives and only five false negatives, (2) mostly correct, with 17 out of 23 programs passing tests post-transformation, and (3) efficient, capable of analyzing and transforming 141k LOC in 4,910 seconds.
翻訳日:2024-09-18 00:56:51 公開日:2024-09-16
# EasyControl:制御可能生成と補間のためのビデオ拡散への制御ネット

EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation ( http://arxiv.org/abs/2408.13005v2 )

ライセンス: Link先を確認
Cong Wang, Jiaxi Gu, Panwen Hu, Haoyu Zhao, Yuanfan Guo, Jianhua Han, Hang Xu, Xiaodan Liang, (参考訳) 安定拡散によるテキスト誘導画像生成技術の進歩に伴い,映像生成は学術界で注目を集めている。 しかし、動画は動画よりもリッチなコンテンツを含んでいるため、動画生成のためのテキストガイダンスのみに依存しているため、深刻な制限がある。 この情報は、平文で適切に記述されることがほとんどない。 幸運なことに、コンピュータビジョンでは、様々な視覚表現が生成を導くための追加の制御信号として機能する。 これらの信号の助けを借りて、ビデオ生成はより細部まで制御でき、異なるアプリケーションに対する柔軟性を高めることができる。 しかし、様々なコントロールを統合することは簡単ではない。 本稿では,EasyControlというユニバーサルフレームワークを提案する。 コンディションアダプタによるコンディション特徴の伝播と注入により,ユーザが単一のコンディションマップでビデオ生成を制御することができる。 本フレームワークでは, 生画素, 深度, HEDなどの様々な条件を, 異なるUnetベースの事前学習ビデオ拡散モデルに統合し, 実用的コストを低く抑えることができる。 我々は,公開データセットに関する総合的な実験を行い,定量的および定性的な結果から,本手法が最先端の手法より優れていることを示す。 EasyControlは、以前の作業と比べて、複数のバリデーションデータセットにわたるさまざまな評価指標を大幅に改善する。 具体的には、スケッチ・ツー・ビデオ生成タスクでは、VideoComposerと比較して、FVDで152.0、ISで19.9の改善がUCF101で達成されている。 その結果,他の画像・映像モデルと比較して,UCF101とMSR-VTTではFVDとISが高い結果が得られた。

Following the advancements in text-guided image generation technology exemplified by Stable Diffusion, video generation is gaining increased attention in the academic community. However, relying solely on text guidance for video generation has serious limitations, as videos contain much richer content than images, especially in terms of motion. This information can hardly be adequately described with plain text. Fortunately, in computer vision, various visual representations can serve as additional control signals to guide generation. With the help of these signals, video generation can be controlled in finer detail, allowing for greater flexibility for different applications. Integrating various controls, however, is nontrivial. In this paper, we propose a universal framework called EasyControl. By propagating and injecting condition features through condition adapters, our method enables users to control video generation with a single condition map. With our framework, various conditions including raw pixels, depth, HED, etc., can be integrated into different Unet-based pre-trained video diffusion models at a low practical cost. We conduct comprehensive experiments on public datasets, and both quantitative and qualitative results indicate that our method outperforms state-of-the-art methods. EasyControl significantly improves various evaluation metrics across multiple validation datasets compared to previous works. Specifically, for the sketch-to-video generation task, EasyControl achieves an improvement of 152.0 on FVD and 19.9 on IS, respectively, in UCF101 compared with VideoComposer. For fidelity, our model demonstrates powerful image retention ability, resulting in high FVD and IS in UCF101 and MSR-VTT compared to other image-to-video models.
翻訳日:2024-09-18 00:47:00 公開日:2024-09-16
# 固体中の個々の核スピンの全マイクロ波分光と偏光

All-microwave spectroscopy and polarization of individual nuclear spins in a solid ( http://arxiv.org/abs/2408.14282v2 )

ライセンス: Link先を確認
J. Travesedo, J. O'Sullivan, L. Pallegoix, Z. W. Huang, P. Hogan, P. Goldner, T. Chaneliere, S. Bertaina, D. Esteve, P. Abgrall, D. Vion, E. Flurin, P. Bertet, (参考訳) 我々は、ミリケルビン温度でマイクロ波蛍光を用いて検出した、隣接する常磁性中心に結合した結晶中の個々の核スピンの磁気共鳴分光測定を報告する。 核スピン状態のリアルタイム量子ジャンプは、個々の性質の証明である。 結合した電子-核スピン系の禁止遷移を駆動することにより、単スピン固体-効果動的核分極も達成する。 マイクロ波駆動とマイクロ波光子計数にのみ焦点をあてて、ここで報告される方法は原則として、多種多様な試料において多数の電子核スピン系に適用できる。

We report magnetic resonance spectroscopy measurements of individual nuclear spins in a crystal coupled to a neighbouring paramagnetic center, detected using microwave fluorescence at millikelvin temperatures. We observe real-time quantum jumps of the nuclear spin state, a proof of their individual nature. By driving the forbidden transitions of the coupled electron-nuclear spin system, we also achieve single-spin solid-effect dynamical nuclear polarization. Relying exclusively on microwave driving and microwave photon counting, the methods reported here are in principle applicable to a large number of electron-nuclear spin systems, in a wide variety of samples.
翻訳日:2024-09-18 00:47:00 公開日:2024-09-16
# ロボットハンドオーバのためのハンドヘルド透明物体の深さ復元

Depth Restoration of Hand-Held Transparent Objects for Human-to-Robot Handover ( http://arxiv.org/abs/2408.14997v2 )

ライセンス: Link先を確認
Ran Yu, Haixin Yu, Shoujie Li, Huang Yan, Ziwu Song, Wenbo Ding, (参考訳) 透明な物体は日常的に一般的であるが、その光学特性はRGB-Dカメラが正確な深度情報を捉えるための課題となる。 この問題は、これらのオブジェクトがハンドヘルドされるとさらに増幅される。 しかし、アシスタントロボットにとって、ハンドヘルドされた透明な物体を正確に知覚することは、人間とロボットの効果的な相互作用に不可欠である。 本稿では,1枚のRGB-D画像から暗黙的ニューラル表現関数を生成できるHADR法を提案する。 提案手法は手動姿勢を重要なガイダンスとして利用し,手動物体間相互作用の意味的および幾何学的情報を活用する。 提案手法を訓練し,評価するために,実数値データ生成方式を用いたTransHand-14Kという高忠実な合成データセットを作成する。 実験の結果,本手法は既存手法と比較して性能と一般化性が高いことがわかった。 さらに,HADRに基づく実世界の人間ロボットハンドオーバシステムを開発し,人間ロボットインタラクションへの応用の可能性を示す。

Transparent objects are common in daily life, while their optical properties pose challenges for RGB-D cameras to capture accurate depth information. This issue is further amplified when these objects are hand-held, as hand occlusions further complicate depth estimation. For assistant robots, however, accurately perceiving hand-held transparent objects is critical to effective human-robot interaction. This paper presents a Hand-Aware Depth Restoration (HADR) method based on creating an implicit neural representation function from a single RGB-D image. The proposed method utilizes hand posture as an important guidance to leverage semantic and geometric information of hand-object interaction. To train and evaluate the proposed method, we create a high-fidelity synthetic dataset named TransHand-14K with a real-to-sim data generation scheme. Experiments show that our method has better performance and generalization ability compared with existing methods. We further develop a real-world human-to-robot handover system based on HADR, demonstrating its potential in human-robot interaction applications.
翻訳日:2024-09-18 00:47:00 公開日:2024-09-16
# 光音楽認識における知識発見:インスタンスセグメンテーションによる情報検索の促進

Knowledge Discovery in Optical Music Recognition: Enhancing Information Retrieval with Instance Segmentation ( http://arxiv.org/abs/2408.15002v2 )

ライセンス: Link先を確認
Elona Shatri, George Fazekas, (参考訳) 光音楽認識(OMR)は、画像からMusicXML、MEI、MIDIなどの機械可読フォーマットに書き起こしを自動化し、手書き文字起こしのコストと時間を大幅に削減する。 本研究では,MAsk R-CNNを用いたサンプルセグメンテーションを適用してOMRにおける知識発見について検討し,楽譜中の記号の検出とデライン化を促進する。 光学文字認識(OCR)とは異なり、OMRは記号の意味が形、位置、文脈に依存する共通西洋音楽表記(CWMN)の複雑な意味を扱う必要がある。 本手法は,楽譜の密度と重なり合いの管理にインスタンスセグメンテーションを活用し,より正確な情報検索を容易にする。 DoReMi と MUSCIMA++ データセットの評価は,高密度シンボル環境において平均平均精度 (mAP) を59.70 % まで向上し,オブジェクト検出に匹敵する結果を得た。 さらに,従来のコンピュータビジョン技術を用いて,認識されたシンボルのピッチを推定するために,スタッフ検出のための並列ステップを追加する。 本研究は,OMRにおける知識発見に寄与する,正確な音楽記号認識における画素分割の役割を強調した。 以上の結果から,音節分割は,特に密集した楽譜において,より正確な記号表現を提供し,OMR技術の進歩が示唆された。 我々は、さらなる研究と開発を支援するために、実装、事前処理スクリプト、訓練済みモデル、および評価結果を公開しています。

Optical Music Recognition (OMR) automates the transcription of musical notation from images into machine-readable formats like MusicXML, MEI, or MIDI, significantly reducing the costs and time of manual transcription. This study explores knowledge discovery in OMR by applying instance segmentation using Mask R-CNN to enhance the detection and delineation of musical symbols in sheet music. Unlike Optical Character Recognition (OCR), OMR must handle the intricate semantics of Common Western Music Notation (CWMN), where symbol meanings depend on shape, position, and context. Our approach leverages instance segmentation to manage the density and overlap of musical symbols, facilitating more precise information retrieval from music scores. Evaluations on the DoReMi and MUSCIMA++ datasets demonstrate substantial improvements, with our method achieving a mean Average Precision (mAP) of up to 59.70\% in dense symbol environments, achieving comparable results to object detection. Furthermore, using traditional computer vision techniques, we add a parallel step for staff detection to infer the pitch for the recognised symbols. This study emphasises the role of pixel-wise segmentation in advancing accurate music symbol recognition, contributing to knowledge discovery in OMR. Our findings indicate that instance segmentation provides more precise representations of musical symbols, particularly in densely populated scores, advancing OMR technology. We make our implementation, pre-processing scripts, trained models, and evaluation results publicly available to support further research and development.
翻訳日:2024-09-18 00:47:00 公開日:2024-09-16
# LLMによる完全自律型研究に向けて:シミュレーションを事例として

Towards Fully Autonomous Research Powered by LLMs: Case Study on Simulations ( http://arxiv.org/abs/2408.15512v2 )

ライセンス: Link先を確認
Zhihan Liu, Yubo Chai, Jianfeng Li, (参考訳) LLM(Large Language Models)の出現は、実験プロセスと計算シミュレーションの両方にまたがる科学研究の自動化の新しい機会を生み出した。 本研究では,LLMを利用した自律型シミュレーションエージェント(ASA)の構築を,高度なAPI統合を通じて実現し,実験設計から遠隔アップロード・シミュレーション実行,データ解析,コンパイルの報告に至るまで,研究プロセス全体を自動化できる可能性について検討する。 高分子鎖配座のシミュレーション問題を事例として, GPT-4-Turboを含む各種LLMを用いたASAの性能評価を行った。 以上の結果から,ASA-GPT-4oは指定された研究ミッションにおいてほぼ不当な実行を達成し,LLMが自律的な科学的調査を完全管理する可能性を示唆した。 概説された自動化は、人間の介入なしに20サイクルまで反復的に実施することができ、大規模な自律的な研究のためのLSMの可能性について説明することができる。 さらに,多岐にわたるタスク管理におけるASAの本質的特徴について考察し,自己検証機構と局所的注意と世界的監視のバランスに着目した。

The advent of Large Language Models (LLMs) has created new opportunities for the automation of scientific research, spanning both experimental processes and computational simulations. This study explores the feasibility of constructing an autonomous simulation agent (ASA) powered by LLM, through sophisticated API integration, to automate the entire research process, from experimental design, remote upload and simulation execution, data analysis, to report compilation. Using a simulation problem of polymer chain conformations as a case study, we assessed the performance of ASAs powered by different LLMs including GPT-4-Turbo. Our findings revealed that ASA-GPT-4o achieved near-flawless execution on designated research missions, underscoring the potential of LLMs to manage complete scientific investigations autonomously. The outlined automation can be iteratively performed up to twenty cycles without human intervention, illustrating the potential of LLMs for large-scale autonomous research endeavors. Additionally, we discussed the intrinsic traits of ASAs in managing extensive tasks, focusing on self-validation mechanisms and the balance between local attention and global oversight.
翻訳日:2024-09-18 00:47:00 公開日:2024-09-16
# 逆攻撃時のパラメータ化非線形システム同定問題に対する厳密な回復保証

Exact Recovery Guarantees for Parameterized Non-linear System Identification Problem under Adversarial Attacks ( http://arxiv.org/abs/2409.00276v2 )

ライセンス: Link先を確認
Haixiang Zhang, Baturalp Yalcin, Javad Lavaei, Eduardo D. Sontag, (参考訳) 本研究では,逆攻撃下での基底関数を用いたパラメータ化非線形システムのシステム同定問題について検討する。 LASSO型推定器を用いて, 組込みの$\ell_1$-loss最小化問題の解法により発生する非滑らかな推定器の正確な回復特性を解析した。 まず, 推定器の厳密さと, 基礎となる最適化問題に対する大域的解の特異性について, 必要かつ十分な条件を導出する。 次に、基底関数の有界性とリプシッツ連続性の2つの異なるシナリオの下で、推定器の正確な回復保証を提供する。 非漸近的正確な回復は、クリーンデータよりもひどく破損したデータがある場合でも高い確率で保証される。 最後に、我々の理論の妥当性を数値的に説明する。 非線形システム同定問題に対する非滑らかな推定器のサンプル複雑性解析に関する最初の研究である。

In this work, we study the system identification problem for parameterized non-linear systems using basis functions under adversarial attacks. Motivated by the LASSO-type estimators, we analyze the exact recovery property of a non-smooth estimator, which is generated by solving an embedded $\ell_1$-loss minimization problem. First, we derive necessary and sufficient conditions for the well-specifiedness of the estimator and the uniqueness of global solutions to the underlying optimization problem. Next, we provide exact recovery guarantees for the estimator under two different scenarios of boundedness and Lipschitz continuity of the basis functions. The non-asymptotic exact recovery is guaranteed with high probability, even when there are more severely corrupted data than clean data. Finally, we numerically illustrate the validity of our theory. This is the first study on the sample complexity analysis of a non-smooth estimator for the non-linear system identification problem.
翻訳日:2024-09-17 22:48:25 公開日:2024-09-16
# SMAFormer: 医用画像分割のための相乗的マルチアテンション変換器

SMAFormer: Synergistic Multi-Attention Transformer for Medical Image Segmentation ( http://arxiv.org/abs/2409.00346v2 )

ライセンス: Link先を確認
Fuchen Zheng, Xuhang Chen, Weihuang Liu, Haolun Li, Yingtie Lei, Jiahui He, Chi-Man Pun, Shounjun Zhou, (参考訳) 医用画像のセグメンテーションでは、特に注意機構とスキップ接続を用いた残差ネットワークを基盤とした特殊なコンピュータビジョン技術が性能向上に役立っている。 それにもかかわらず、以前のモデルは小さな不規則な形状の腫瘍を分断する際にしばしば失敗する。 この目的のために,小型腫瘍や臓器のセグメンテーションを強化するための複数の注意機構を融合した,効率的なトランスフォーマーベースのアーキテクチャであるSMAFormerを紹介した。 SMAFormerは、医療画像セグメンテーションのローカル機能とグローバル機能の両方をキャプチャできる。 アーキテクチャは、2つの重要なコンポーネントから構成される。 まず,SMA (Synergistic Multi-Attention) Transformer Blockを提案する。 第2に、注意機構遷移と特徴融合の間に生じる情報損失の課題に対処し、特徴融合変調器を設計する。 このモジュールは、リシェイピングによって引き起こされる情報の減少を緩和することにより、チャネルと空間的注意の融合を促進する。 本手法を評価するため,多臓器,肝腫瘍,膀胱腫瘍の分節化など,様々な医療画像の分節化作業について広範な実験を行い,その結果を得た。 コードとモデルは以下の通りである。

In medical image segmentation, specialized computer vision techniques, notably transformers grounded in attention mechanisms and residual networks employing skip connections, have been instrumental in advancing performance. Nonetheless, previous models often falter when segmenting small, irregularly shaped tumors. To this end, we introduce SMAFormer, an efficient, Transformer-based architecture that fuses multiple attention mechanisms for enhanced segmentation of small tumors and organs. SMAFormer can capture both local and global features for medical image segmentation. The architecture comprises two pivotal components. First, a Synergistic Multi-Attention (SMA) Transformer block is proposed, which has the benefits of Pixel Attention, Channel Attention, and Spatial Attention for feature enrichment. Second, addressing the challenge of information loss incurred during attention mechanism transitions and feature fusion, we design a Feature Fusion Modulator. This module bolsters the integration between the channel and spatial attention by mitigating reshaping-induced information attrition. To evaluate our method, we conduct extensive experiments on various medical image segmentation tasks, including multi-organ, liver tumor, and bladder tumor segmentation, achieving state-of-the-art results. Code and models are available at: \url{https://github.com/CXH-Research/SMAFormer}.
翻訳日:2024-09-17 22:48:25 公開日:2024-09-16
# ランダム化ガウス過程の上層信頼境界のレグレト解析

Regret Analysis for Randomized Gaussian Process Upper Confidence Bound ( http://arxiv.org/abs/2409.00979v2 )

ライセンス: Link先を確認
Shion Takeno, Yu Inatsu, Masayuki Karasuyama, (参考訳) ガウス過程上信頼境界 (GP-UCB) はベイズ最適化 (BO) の理論的に確立されたアルゴリズムであり、目的関数 $f$ は GP に従うと仮定する。 GP-UCBの特筆すべき欠点は、反復とともに$\beta$が増加するという理論的な信頼パラメータが大きすぎることである。 この欠点を軽減するために, 指数関数分布から生じる信頼度パラメータを用いて, 改良された乱数化GP-UCB (IRGP-UCB) と呼ばれるGP-UCBのランダム化変種を解析した。 予測された後悔と条件付き後悔を分析し、予測と確率をそれぞれ$f$とノイズとBOアルゴリズムのランダム性で分析する。 両方の後悔解析において、IRGP-UCBは入力領域が有限であれば信頼パラメータを増大させることなく、サブ線形後悔上限を達成する。 最後に,合成およびベンチマーク関数と実世界のエミュレータを用いた数値実験を行った。

Gaussian process upper confidence bound (GP-UCB) is a theoretically established algorithm for Bayesian optimization (BO), where we assume the objective function $f$ follows GP. One notable drawback of GP-UCB is that the theoretical confidence parameter $\beta$ increased along with the iterations is too large. To alleviate this drawback, this paper analyzes the randomized variant of GP-UCB called improved randomized GP-UCB (IRGP-UCB), which uses the confidence parameter generated from the shifted exponential distribution. We analyze the expected regret and conditional expected regret, where the expectation and the probability are taken respectively with $f$ and noises and with the randomness of the BO algorithm. In both regret analyses, IRGP-UCB achieves a sub-linear regret upper bound without increasing the confidence parameter if the input domain is finite. Finally, we show numerical experiments using synthetic and benchmark functions and real-world emulators.
翻訳日:2024-09-17 22:48:25 公開日:2024-09-16
# FPGAをターゲットとしたサイドチャネル攻撃に対する実行時変動の影響

The Impact of Run-Time Variability on Side-Channel Attacks Targeting FPGAs ( http://arxiv.org/abs/2409.01881v2 )

ライセンス: Link先を確認
Davide Galli, Adriano Guarisco, William Fornaciari, Matteo Matteucci, Davide Zoni, (参考訳) サイドチャネル攻撃を打倒するために、近年の多くの対策は、クロックジッタ、周波数および電圧スケーリング、位相シフトの観点から、ターゲットのサイドチャネル抵抗を最大化するために異なるアクチュエータからのコントリビューションを組み合わせることで、ターゲットのコンピューティングプラットフォームにランダムな実行時変動を強制することである。 しかし、そのような解のロバスト性は、深度解析がまだ欠落しているいくつかのハイパーパラメータの影響を強く受けているように思われる。 本研究は,FPGAをターゲットとした暗号実装のサイドチャネル攻撃に対する実行時変動性と脆弱性との関係を明らかにすることを目的として,近年の非同期化対策の有効性を検討するために,微細な動的電圧と周波数スケーリングアクチュエータを提案する。 実ハードウェアから収集した結果の分析により、サイドチャネル攻撃に対する実行時変動対策によって提供される保護の包括的理解が可能となった。

To defeat side-channel attacks, many recent countermeasures work by enforcing random run-time variability to the target computing platform in terms of clock jitters, frequency and voltage scaling, and phase shift, also combining the contributions from different actuators to maximize the side-channel resistance of the target. However, the robustness of such solutions seems strongly influenced by several hyper-parameters for which an in-depth analysis is still missing. This work proposes a fine-grained dynamic voltage and frequency scaling actuator to investigate the effectiveness of recent desynchronization countermeasures with the goal of highlighting the link between the enforced run-time variability and the vulnerability to side-channel attacks of cryptographic implementations targeting FPGAs. The analysis of the results collected from real hardware allowed for a comprehensive understanding of the protection offered by run-time variability countermeasures against side-channel attacks.
翻訳日:2024-09-17 22:38:20 公開日:2024-09-16
# PMT-MAE: 効率的な点群分類のための蒸留による2分岐自己教師付き学習

PMT-MAE: Dual-Branch Self-Supervised Learning with Distillation for Efficient Point Cloud Classification ( http://arxiv.org/abs/2409.02007v2 )

ライセンス: Link先を確認
Qiang Zheng, Chao Zhang, Jian Sun, (参考訳) 自己教師型学習の進歩は、ポイントクラウド処理における特徴抽出と理解の強化に不可欠である。 本稿では,PMT-MAE(Point MLP-Transformer Masked Autoencoder)を紹介する。 PMT-MAEは、TransformerとMPPコンポーネントを統合し、リッチな機能をキャプチャするデュアルブランチアーキテクチャを備えている。 Transformerブランチは複雑な機能インタラクションにグローバルな自己アテンションを活用し、並列MLPブランチは共有された完全に接続されたレイヤを通じてトークンを処理し、補完的な機能変換パスを提供する。 融合機構はこれらの特徴を組み合わせることで、包括的な3D表現を学ぶためのモデルの能力を高める。 PMT-MAEは、高度な教師モデルであるPoint-M2AEによって指導され、事前訓練中の特徴蒸留と微調整時のロジット蒸留を含む蒸留戦略を採用し、効果的な知識伝達を保証する。 ModelNet40の分類タスクでは、投票戦略を使わずに93.6\%の精度を達成するため、PMT-MAEはベースラインのPoint-MAE (93.2\%) と教師のPoint-M2AE (93.4\%) を超越し、差別的な3Dポイントクラウド表現を学習する能力を示している。 さらに、このフレームワークは高い効率を示し、事前トレーニングと微調整の両方に40のエポックしか必要としない。 PMT-MAEの有効性と効率性は、計算資源が限られているシナリオに適しており、実用的なポイントクラウド分析のための有望なソリューションとして位置づけられている。

Advances in self-supervised learning are essential for enhancing feature extraction and understanding in point cloud processing. This paper introduces PMT-MAE (Point MLP-Transformer Masked Autoencoder), a novel self-supervised learning framework for point cloud classification. PMT-MAE features a dual-branch architecture that integrates Transformer and MLP components to capture rich features. The Transformer branch leverages global self-attention for intricate feature interactions, while the parallel MLP branch processes tokens through shared fully connected layers, offering a complementary feature transformation pathway. A fusion mechanism then combines these features, enhancing the model's capacity to learn comprehensive 3D representations. Guided by the sophisticated teacher model Point-M2AE, PMT-MAE employs a distillation strategy that includes feature distillation during pre-training and logit distillation during fine-tuning, ensuring effective knowledge transfer. On the ModelNet40 classification task, achieving an accuracy of 93.6\% without employing voting strategy, PMT-MAE surpasses the baseline Point-MAE (93.2\%) and the teacher Point-M2AE (93.4\%), underscoring its ability to learn discriminative 3D point cloud representations. Additionally, this framework demonstrates high efficiency, requiring only 40 epochs for both pre-training and fine-tuning. PMT-MAE's effectiveness and efficiency render it well-suited for scenarios with limited computational resources, positioning it as a promising solution for practical point cloud analysis.
翻訳日:2024-09-17 22:38:20 公開日:2024-09-16
# オフライン蒸留フレームワークと負重自己蒸留技術による効率的な点雲分類

Efficient Point Cloud Classification via Offline Distillation Framework and Negative-Weight Self-Distillation Technique ( http://arxiv.org/abs/2409.02020v2 )

ライセンス: Link先を確認
Qiang Zheng, Chao Zhang, Jian Sun, (参考訳) ポイントクラウド処理技術の急速な進歩により、高精度な分類を実現するための効率的でコンパクトなモデルの需要が大幅に増加した。 知識蒸留は強力なモデル圧縮技術として登場した。 しかし、従来のKDは、大規模な教師モデルの前方推定に広範な計算資源を必要とすることが多く、それによって学生モデルの訓練効率が低下し、リソース需要が増大する。 これらの課題に対処するため,教師モデルと学生モデルの両方の同時ロードを回避し,ハードウェア要求の低減を図る,革新的なオフライン記録戦略を導入する。 このアプローチは教師モデルに多数の追加サンプルを投入し、データ拡張パラメータと対応するロジット出力の両方を記録する。 ランダムなスケーリングや翻訳のような形状レベルの拡張操作を適用することで、ランダムなジッタリングのようなポイントレベルの操作を除外しながら、レコードのサイズを大幅に削減する。 さらに,教師モデルのアウトプットを過度に模倣し,最適でない解に収束する小学生モデルの問題を緩和するため,負の重み付き自己蒸留戦略を取り入れた。 実験結果から, 提案した蒸留方式により, 低パラメータ数を維持しつつ, 最先端モデルに匹敵する性能が得られることが示された。 このアプローチは、パフォーマンスと複雑性の最適なバランスをとっています。 本研究は,特に資源制約環境におけるポイントクラウド分類タスクに対する知識蒸留の最適化の可能性を強調し,効率的なポイントクラウド解析のための新しいソリューションを提供する。

The rapid advancement in point cloud processing technologies has significantly increased the demand for efficient and compact models that achieve high-accuracy classification. Knowledge distillation has emerged as a potent model compression technique. However, traditional KD often requires extensive computational resources for forward inference of large teacher models, thereby reducing training efficiency for student models and increasing resource demands. To address these challenges, we introduce an innovative offline recording strategy that avoids the simultaneous loading of both teacher and student models, thereby reducing hardware demands. This approach feeds a multitude of augmented samples into the teacher model, recording both the data augmentation parameters and the corresponding logit outputs. By applying shape-level augmentation operations such as random scaling and translation, while excluding point-level operations like random jittering, the size of the records is significantly reduced. Additionally, to mitigate the issue of small student model over-imitating the teacher model's outputs and converging to suboptimal solutions, we incorporate a negative-weight self-distillation strategy. Experimental results demonstrate that the proposed distillation strategy enables the student model to achieve performance comparable to state-of-the-art models while maintaining lower parameter count. This approach strikes an optimal balance between performance and complexity. This study highlights the potential of our method to optimize knowledge distillation for point cloud classification tasks, particularly in resource-constrained environments, providing a novel solution for efficient point cloud analysis.
翻訳日:2024-09-17 22:38:20 公開日:2024-09-16
# NeuroSpex:クロスモーダルアテンションを用いたニューロガイド型話者抽出

NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention ( http://arxiv.org/abs/2409.02489v2 )

ライセンス: Link先を確認
Dashanka De Silva, Siqi Cai, Saurav Pahuja, Tanja Schultz, Haizhou Li, (参考訳) 聴覚的注意研究において,脳波(EEG)で測定可能な,参加者の音声と誘発された神経反応との間には強い相関関係があることが判明した。 そのため、脳波信号内で利用可能な注意情報を用いて、カクテルパーティーにおける対象話者の抽出を計算的に導くことができる。 本稿では,脳神経誘導型話者抽出モデル,すなわちNeuroSpexについて,聴取者の脳波応答を単独の補助的基準キューとして用いて,単音混合音声から参加者音声を抽出する。 注目情報をキャプチャする新しい脳波信号エンコーダを提案する。 さらに、話者抽出マスクを生成することで、音声特徴表現を強化するクロスアテンション(CA)機構を提案する。 公開データセットを用いた実験結果から,提案モデルが各種評価指標において2つのベースラインモデルより優れていることが示された。

In the study of auditory attention, it has been revealed that there exists a robust correlation between attended speech and elicited neural responses, measurable through electroencephalography (EEG). Therefore, it is possible to use the attention information available within EEG signals to guide the extraction of the target speaker in a cocktail party computationally. In this paper, we present a neuro-guided speaker extraction model, i.e. NeuroSpex, using the EEG response of the listener as the sole auxiliary reference cue to extract attended speech from monaural speech mixtures. We propose a novel EEG signal encoder that captures the attention information. Additionally, we propose a cross-attention (CA) mechanism to enhance the speech feature representations, generating a speaker extraction mask. Experimental results on a publicly available dataset demonstrate that our proposed model outperforms two baseline models across various evaluation metrics.
翻訳日:2024-09-17 22:38:20 公開日:2024-09-16
# 紀元時間とボヘミア力学--測定できるものを決定する理論である

Arrival time and Bohmian Mechanics: It is the theory which decides what we can measure ( http://arxiv.org/abs/2409.04304v2 )

ライセンス: Link先を確認
Aurélien Drezet, (参考訳) 本研究では、ド・ブロイ・ボーム理論(またはボーム力学)の枠組みにおける量子粒子の到着時間分布を測定するダスとD\"{u}rr (DD) の最近の提案を分析する。 また、これらの同じ提案のGoldstein Tumulka と Zangh\`{i} (GTZ) による批判を分析し、各主人公が正当であることを示す。 詳しくは、DDの予想は原理的には測定可能であるが、それらはダスやモードリンの希望と矛盾してベルの定理で使われる符号なし定理に違反することはない。

In this work we analyze recent proposals by Das and D\"{u}rr (DD) to measure the arrival time distributions of quantum particles within the framework of de Broglie Bohm theory (or Bohmian mechanics). We also analyze the criticisms made by Goldstein Tumulka and Zangh\`{i} (GTZ) of these same proposals, and show that each protagonist is both right and wrong. In fine, we show that DD's predictions are indeed measurable in principle, but that they will not lead to violations of the no-signalling theorem used in Bell's theorem, in contradiction with some of Das and Maudlin's hopes.
翻訳日:2024-09-17 22:38:20 公開日:2024-09-16
# 感情分析と意味分析を用いた中国語翻訳におけるGoogle翻訳の評価

Evaluation of Google Translate for Mandarin Chinese translation using sentiment and semantic analysis ( http://arxiv.org/abs/2409.04964v2 )

ライセンス: Link先を確認
Xuechun Wang, Rodney Beard, Rohitash Chandra, (参考訳) 大規模言語モデル(LLM)を用いた機械翻訳は、コミュニケーションを容易にし、世界規模で大きな影響を与えている。 中国語は、中国の政府やメディアによる通信に用いられる公用語である。 本研究では、感情分析と意味分析を用いて、人間の専門家によるGoogle翻訳の翻訳品質の自動評価を行う。 この枠組みを実証するため、20世紀前半の古典的小説「Ah Qの真話」を中国語から英語への翻訳で選択した。 Google Translateを使って、与えられたテキストを英語に翻訳し、章ごとの感情分析と意味分析を行い、異なる翻訳間で抽出された感情を比較する。 以上の結果から,Google翻訳の精度は,人文翻訳と比較して意味的・感情的分析の両面で異なることが示唆された。 Google Translateは中国語の特定の単語やフレーズを翻訳できないことがわかりました。 この誤訳は、中国の文脈的重要性と歴史的知識の欠如による可能性がある。

Machine translation using large language models (LLMs) is having a significant global impact, making communication easier. Mandarin Chinese is the official language used for communication by the government and media in China. In this study, we provide an automated assessment of translation quality of Google Translate with human experts using sentiment and semantic analysis. In order to demonstrate our framework, we select the classic early twentieth-century novel 'The True Story of Ah Q' with selected Mandarin Chinese to English translations. We use Google Translate to translate the given text into English and then conduct a chapter-wise sentiment analysis and semantic analysis to compare the extracted sentiments across the different translations. Our results indicate that the precision of Google Translate differs both in terms of semantic and sentiment analysis when compared to human expert translations. We find that Google Translate is unable to translate some of the specific words or phrases in Chinese, such as Chinese traditional allusions. The mistranslations may be due to lack of contextual significance and historical knowledge of China.
翻訳日:2024-09-17 22:28:35 公開日:2024-09-16
# WinoPron: 一貫性、カバレッジ、文法ケースのための英語Winogenderスキーマの再検討

WinoPron: Revisiting English Winogender Schemas for Consistency, Coverage, and Grammatical Case ( http://arxiv.org/abs/2409.05653v2 )

ライセンス: Link先を確認
Vagrant Gautam, Julius Steuer, Eileen Bingert, Ray Johns, Anne Lauscher, Dietrich Klakow, (参考訳) コア参照解決におけるバイアスとロバスト性の測定は重要な目標ですが、そのような測定は、測定に使用するツールと同程度にしかありません。 ウィノゲンダースキーマ(Rudinger et al , 2018)は、基準解像度における性別バイアスを評価するために提案された影響力のあるデータセットであるが、より詳しくは、異なるプロノミナルフォームを等価として扱うこと、テンプレート制約の違反、タイポグラフィーエラーなど、信頼性評価に使用することを損なうデータに関する問題を明らかにする。 これらの問題を識別して修正し、新しいデータセットにコントリビュートする: WinoPron。 我々の変更は、最先端の教師付きコア参照解決システムと、言語モデルFLAN-T5のモデルサイズに影響を及ぼし、F1は平均10ポイント低下した。 また,2進法を超えているコア参照分解能の偏差を評価するための新しい手法を提案する。 本手法と, 文法的な場合のバランスをとる新たなデータセットを用いて, 差分特性が代名詞集合だけでなく, それらの集合の表面形状にも異なることを実証的に示す。

While measuring bias and robustness in coreference resolution are important goals, such measurements are only as good as the tools we use to measure them with. Winogender schemas (Rudinger et al., 2018) are an influential dataset proposed to evaluate gender bias in coreference resolution, but a closer look reveals issues with the data that compromise its use for reliable evaluation, including treating different pronominal forms as equivalent, violations of template constraints, and typographical errors. We identify these issues and fix them, contributing a new dataset: WinoPron. Our changes affect performance with state-of-the-art supervised coreference resolution systems as well as all model sizes of the language model FLAN-T5, with F1 dropping on average 10 percentage points. We also propose a new method to evaluate pronominal bias in coreference resolution that goes beyond the binary. With this method and our new dataset which is balanced for grammatical case, we empirically demonstrate that bias characteristics vary not just across pronoun sets, but also across surface forms of those sets.
翻訳日:2024-09-17 22:28:35 公開日:2024-09-16
# ウォームスタートEMを用いた大型ソフトマックスミキシングの学習

Learning large softmax mixtures with warm start EM ( http://arxiv.org/abs/2409.09903v1 )

ライセンス: Link先を確認
Xin Bing, Florentina Bunea, Jonathan Niles-Weed, Marten Wegkamp, (参考訳) 混合多項ロジット(mixed multinomial logits)は、数十年前に導入された異種集団において、$p$の候補から属性を選択する確率をモデル化するために導入された離散混合である。 このモデルは最近、ソフトマックス混合と呼ばれるAI文献において注目を集めており、ニューラルネットワークの最終層において、$\mathbb{R}^L$の大量のベクトルを確率ベクトルにマッピングするために日常的に使用される。 その適用性と経験的成功にもかかわらず、ランニングタイムが$L$で多項式スケールするアルゴリズムによって得られる混合パラメータの統計的に最適な推定器は知られていない。 本稿では, 大規模言語モデルなどの現代アプリケーションにおいて, 多数のサポートポイントが混在している場合や, 混合から観測されたサンプルのサイズが$N$である場合など, この問題に対する解決策を提供する。 提案手法は,モーメント法 (MoM) と予測最小化法 (EM) の2種類の古典的推定器を組み合わせる。 どちらの推定器タイプも理論的にはガウス混合については研究されているが、どちらの方法にもソフトマックス混合には同様の結果が存在しない。 我々は,我々のモデルに適合した潜在モーメント推定に基づく新しいMoMパラメータ推定器を開発し,軟質マックス混合物におけるMoMに基づくプロシージャの最初の理論的解析を行った。 整合性はあるものの、他の混合モデルと同様に、ソフトマックス混合物のMoMは低い数値性能を示す。 それでも、MoMは確実にターゲットの近傍にあるため、任意の反復アルゴリズムのウォームスタートとして使用できる。 EMアルゴリズムを詳細に研究し,ソフトマックス混合物の理論的解析を行った。 パラメータ推定のための最後の提案は、MoMウォームスタートを持つEMアルゴリズムである。

Mixed multinomial logits are discrete mixtures introduced several decades ago to model the probability of choosing an attribute from $p$ possible candidates, in heterogeneous populations. The model has recently attracted attention in the AI literature, under the name softmax mixtures, where it is routinely used in the final layer of a neural network to map a large number $p$ of vectors in $\mathbb{R}^L$ to a probability vector. Despite its wide applicability and empirical success, statistically optimal estimators of the mixture parameters, obtained via algorithms whose running time scales polynomially in $L$, are not known. This paper provides a solution to this problem for contemporary applications, such as large language models, in which the mixture has a large number $p$ of support points, and the size $N$ of the sample observed from the mixture is also large. Our proposed estimator combines two classical estimators, obtained respectively via a method of moments (MoM) and the expectation-minimization (EM) algorithm. Although both estimator types have been studied, from a theoretical perspective, for Gaussian mixtures, no similar results exist for softmax mixtures for either procedure. We develop a new MoM parameter estimator based on latent moment estimation that is tailored to our model, and provide the first theoretical analysis for a MoM-based procedure in softmax mixtures. Although consistent, MoM for softmax mixtures can exhibit poor numerical performance, as observed other mixture models. Nevertheless, as MoM is provably in a neighborhood of the target, it can be used as warm start for any iterative algorithm. We study in detail the EM algorithm, and provide its first theoretical analysis for softmax mixtures. Our final proposal for parameter estimation is the EM algorithm with a MoM warm start.
翻訳日:2024-09-17 17:00:44 公開日:2024-09-16
# 磁気計測による視覚慣性SLAMの強化

Enhancing Visual Inertial SLAM with Magnetic Measurements ( http://arxiv.org/abs/2409.09904v1 )

ライセンス: Link先を確認
Bharat Joshi, Ioannis Rekleitis, (参考訳) 本稿では,磁気センサの密結合融合による視覚慣性計測(VIO)の拡張について述べる。 キーフレームのスライドウィンドウは、再投射誤差、相対慣性誤差、相対磁力計の向き誤差を最小化することにより最適化される。 IMU配向伝搬の結果は、連続するフレーム間の相対的な配向制約を生じるフレーム間の磁気センサ測定を効率的に変換するために用いられる。 柔らかい鉄と硬い鉄の効果は楕円体フィッティングアルゴリズムを用いて校正される。 磁力計データの導入は、方位誤差を著しく低減し、また、磁北に関して真のヨー方向を回復させる結果となった。 提案するフレームワークは、主に屋外と水中で、遅い変化の磁場を持つ全環境で動作する。 我々は、特に水中洞窟において、狭い通路と乱流がループ閉鎖や局所化ドリフトのリセットを困難にしているため、水中領域に焦点を合わせてきた。 水中洞窟は、環境光の欠如と環境の制限された性質のため、VIOに挑戦する一方で、淡水の重要な源であり、貴重な歴史記録を提供する。 水中洞窟による実験結果は、提案したVIO拡張によって導入された精度とロバスト性の改善を示す。

This paper presents an extension to visual inertial odometry (VIO) by introducing tightly-coupled fusion of magnetometer measurements. A sliding window of keyframes is optimized by minimizing re-projection errors, relative inertial errors, and relative magnetometer orientation errors. The results of IMU orientation propagation are used to efficiently transform magnetometer measurements between frames producing relative orientation constraints between consecutive frames. The soft and hard iron effects are calibrated using an ellipsoid fitting algorithm. The introduction of magnetometer data results in significant reductions in the orientation error and also in recovery of the true yaw orientation with respect to the magnetic north. The proposed framework operates in all environments with slow-varying magnetic fields, mainly outdoors and underwater. We have focused our work on the underwater domain, especially in underwater caves, as the narrow passage and turbulent flow make it difficult to perform loop closures and reset the localization drift. The underwater caves present challenges to VIO due to the absence of ambient light and the confined nature of the environment, while also being a crucial source of fresh water and providing valuable historical records. Experimental results from underwater caves demonstrate the improvements in accuracy and robustness introduced by the proposed VIO extension.
翻訳日:2024-09-17 17:00:44 公開日:2024-09-16
# トランジット記述子としての大規模言語モデルによる潜在人格次元の再発見

Rediscovering the Latent Dimensions of Personality with Large Language Models as Trait Descriptors ( http://arxiv.org/abs/2409.09905v1 )

ライセンス: Link先を確認
Joseph Suh, Suhong Moon, Minwoo Kang, David M. Chan, (参考訳) 大きな言語モデル(LLM)を用いた性格特性の評価は、興味深い、そして困難な研究領域として現れてきた。 従来の手法では、人格のビッグファイブモデルからしばしば派生した明示的な質問票が用いられるが、次の質問応答をモデル化する際、LLMは暗黙的に人格の概念を符号化する。 そこで本稿では, 特徴記述形容詞の対数確率に特異値分解(SVD)を適用することによって, LLMにおける潜在人格次元を明らかにする手法を提案する。 実験の結果, LLM は外転, 一致性, 神経性, 開放性などの中核的性格特性を, 直接質問応答に頼ることなく「再発見」し, 最上位5因子は, 潜伏空間における74.3%のばらつきを説明できる。 さらに、導出した主成分を用いて、ビッグファイブ次元に沿った人格評価を行い、微調整モデルの人格予測精度を最大5%向上させ、LCMによる直接スコアリング技術よりも最大21%向上させることができる。

Assessing personality traits using large language models (LLMs) has emerged as an interesting and challenging area of research. While previous methods employ explicit questionnaires, often derived from the Big Five model of personality, we hypothesize that LLMs implicitly encode notions of personality when modeling next-token responses. To demonstrate this, we introduce a novel approach that uncovers latent personality dimensions in LLMs by applying singular value de-composition (SVD) to the log-probabilities of trait-descriptive adjectives. Our experiments show that LLMs "rediscover" core personality traits such as extraversion, agreeableness, conscientiousness, neuroticism, and openness without relying on direct questionnaire inputs, with the top-5 factors corresponding to Big Five traits explaining 74.3% of the variance in the latent space. Moreover, we can use the derived principal components to assess personality along the Big Five dimensions, and achieve improvements in average personality prediction accuracy of up to 5% over fine-tuned models, and up to 21% over direct LLM-based scoring techniques.
翻訳日:2024-09-17 17:00:44 公開日:2024-09-16
# 強い収束保証をもつ確率的非凸最適化のための可変化一階法

Variance-reduced first-order methods for deterministically constrained stochastic nonconvex optimization with strong convergence guarantees ( http://arxiv.org/abs/2409.09906v1 )

ライセンス: Link先を確認
Zhaosong Lu, Sanyou Mei, Yifeng Xiao, (参考訳) 本稿では,決定論的に制約された確率的最適化問題のクラスについて検討する。 既存の方法は、通常$\epsilon$-stochastic固定点を見つけることを目的としており、そこでは制約と1階の定常性の両方の期待された違反が$\epsilon$の所定の精度以内である。 しかし、多くの実践的応用において、制約がほぼ確実に満たされることが重要であり、そのような$\epsilon$-stochasticな定常点が、重大な制約違反のリスクのために望ましくない可能性がある。 そこで本研究では, 確率成分の確率勾配を, 確率成分の傾きを正確に計算しながら, 再帰的モーメントスキームか, 縮退的ポリアクモーメントスキームのいずれかを用いて計算する, 単一ループ分散帰納確率一階法を提案する。 パラメータ $\theta \geq 1$ や他の適切な仮定で誤差境界条件の下では、提案手法がサンプル複雑性と一階演算複雑性を$\widetilde O(\epsilon^{-\max\{4, 2\theta\}})$で達成し、より強い$\epsilon$-stochastic 定常点を求めるために、制約違反が$\epsilon$ 内にあり、期待される一階定常度が$\epsilon$ 内にあることを証明している。 我々の知る限りでは、これは証明可能な複雑性を保証する手法を開発し、ほぼすべての制約を確実性で満たすような問題の確率的定常点を見つけるための最初の試みである。

In this paper, we study a class of deterministically constrained stochastic optimization problems. Existing methods typically aim to find an $\epsilon$-stochastic stationary point, where the expected violations of both the constraints and first-order stationarity are within a prescribed accuracy of $\epsilon$. However, in many practical applications, it is crucial that the constraints be nearly satisfied with certainty, making such an $\epsilon$-stochastic stationary point potentially undesirable due to the risk of significant constraint violations. To address this issue, we propose single-loop variance-reduced stochastic first-order methods, where the stochastic gradient of the stochastic component is computed using either a truncated recursive momentum scheme or a truncated Polyak momentum scheme for variance reduction, while the gradient of the deterministic component is computed exactly. Under the error bound condition with a parameter $\theta \geq 1$ and other suitable assumptions, we establish that the proposed methods achieve a sample complexity and first-order operation complexity of $\widetilde O(\epsilon^{-\max\{4, 2\theta\}})$ for finding a stronger $\epsilon$-stochastic stationary point, where the constraint violation is within $\epsilon$ with certainty, and the expected violation of first-order stationarity is within $\epsilon$. To the best of our knowledge, this is the first work to develop methods with provable complexity guarantees for finding an approximate stochastic stationary point of such problems that nearly satisfies all constraints with certainty.
翻訳日:2024-09-17 16:50:37 公開日:2024-09-16
# セグメンテーションのための地球観測基礎モデルの迅速適応

Rapid Adaptation of Earth Observation Foundation Models for Segmentation ( http://arxiv.org/abs/2409.09907v1 )

ライセンス: Link先を確認
Karthick Panner Selvam, Raul Ramos-Pollan, Freddie Kalaitzis, (参考訳) 本研究では,洪水セグメンテーションのための微調整地球観測(EO)基礎モデルにおけるローランド適応(LoRA)の有効性について検討した。 パラメータ効率向上手法であるLoRAは,高性能を維持しながら,大規模EOモデルのこの重要な課題への適応を著しく促進できる,という仮説を立てる。 各種衛星画像に基づいて事前訓練された最先端のEO基盤モデルを,洪水イベントのキュレートデータセットを用いて微調整するためにLoRAを適用した。 その結果, 冷凍エンコーダのベースラインに比べてF1スコアが6.66ポイント向上し, IoUが0.11ポイント向上し, 計算コストが大幅に削減された。 特に、LoRAは完全な微調整よりも優れており、私たちのハードウェアでは計算不能であることが証明されている。 さらに、地理的に異なる洪水イベントにおいて、アウト・オブ・ディストリビューション(OOD)テストによる一般化を評価する。 LoRA構成では、ベースライン上でのOODパフォーマンスが改善されている。 本研究は, 災害管理における迅速な対応システムを実現するため, 特定EOタスクに対する基礎モデルの効率的な適応に関する研究に寄与する。 以上の結果から, 資源制約, 時間クリティカルなシナリオにおいて, 正確な洪水セグメンテーションモデルの迅速な展開を可能にする LoRA の可能性が示唆された。

This study investigates the efficacy of Low-Rank Adaptation (LoRA) in fine-tuning Earth Observation (EO) foundation models for flood segmentation. We hypothesize that LoRA, a parameter-efficient technique, can significantly accelerate the adaptation of large-scale EO models to this critical task while maintaining high performance. We apply LoRA to fine-tune a state-of-the-art EO foundation model pre-trained on diverse satellite imagery, using a curated dataset of flood events. Our results demonstrate that LoRA-based fine-tuning (r-256) improves F1 score by 6.66 points and IoU by 0.11 compared to a frozen encoder baseline, while significantly reducing computational costs. Notably, LoRA outperforms full fine-tuning, which proves computationally infeasible on our hardware. We further assess generalization through out-of-distribution (OOD) testing on a geographically distinct flood event. While LoRA configurations show improved OOD performance over the baseline. This work contributes to research on efficient adaptation of foundation models for specialized EO tasks, with implications for rapid response systems in disaster management. Our findings demonstrate LoRA's potential for enabling faster deployment of accurate flood segmentation models in resource-constrained, time-critical scenarios.
翻訳日:2024-09-17 16:50:37 公開日:2024-09-16
# 前腕超音波によるエッジ上のジェスチャー認識

Forearm Ultrasound based Gesture Recognition on Edge ( http://arxiv.org/abs/2409.09915v1 )

ライセンス: Link先を確認
Keshav Bimbraw, Haichong K. Zhang, Bashima Islam, (参考訳) 前腕の超音波像は手の動きの正確な分類に有意な可能性を秘めている。 この進歩にもかかわらず、モバイル、リアルタイム、よりユーザフレンドリーにするためのスタンドアロンのエンドツーエンドジェスチャー認識システムの開発に限定的な焦点が当てられている。 このギャップを埋めるために,前腕超音波を用いた手の動き認識のためのディープニューラルネットワークのエッジデバイスへの展開について検討する。 量子化技術を用いて,高精度かつ低レイテンシを維持しながら,モデルサイズを大幅に削減する。 我々の最良のモデルであるFloat16量子化は、Raspberry Piでテスト精度92%、推論時間0.31秒を達成する。 これらの結果は、リソース制限されたエッジデバイス上での効率的なリアルタイムジェスチャー認識の実現可能性を示し、ウェアラブル超音波システムへの道を開いた。

Ultrasound imaging of the forearm has demonstrated significant potential for accurate hand gesture classification. Despite this progress, there has been limited focus on developing a stand-alone end- to-end gesture recognition system which makes it mobile, real-time and more user friendly. To bridge this gap, this paper explores the deployment of deep neural networks for forearm ultrasound-based hand gesture recognition on edge devices. Utilizing quantization techniques, we achieve substantial reductions in model size while maintaining high accuracy and low latency. Our best model, with Float16 quantization, achieves a test accuracy of 92% and an inference time of 0.31 seconds on a Raspberry Pi. These results demonstrate the feasibility of efficient, real-time gesture recognition on resource-limited edge devices, paving the way for wearable ultrasound-based systems.
翻訳日:2024-09-17 16:50:37 公開日:2024-09-16
# SFR-RAG:環境に配慮したLLMを目指して

SFR-RAG: Towards Contextually Faithful LLMs ( http://arxiv.org/abs/2409.09916v1 )

ライセンス: Link先を確認
Xuan-Phi Nguyen, Shrey Pandit, Senthil Purushwalkam, Austin Xu, Hailin Chen, Yifei Ming, Zixuan Ke, Silvio Savarese, Caiming Xong, Shafiq Joty, (参考訳) Retrieval Augmented Generation(RAG)は、外部のコンテキスト情報をLLM(Big Language Model)と統合して、事実の正確性と関連性を高めるパラダイムであり、生成AIにおいて重要な領域として現れている。 RAG アプリケーションで使用される LLM は、提供されたコンテキストとユーザの質問を忠実に完全に理解し、幻覚を回避し、解決不可能で、偽善的、その他の低品質で無関係なコンテキストに対処し、複雑なマルチホップ推論を行い、信頼できる引用を生成する必要がある。 本稿では,SFR-RAG(SFR-RAG)について述べる。 我々はまた、HotpotQAやTriviaQAなど、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるContextualBenchを紹介し、モデルアセスメントにおける再現性と一貫性を確保するために一貫したRAG設定を提供する。 実験結果から,SFR-RAG-9BモデルはCommand-R+ (104B) や GPT-4o などの先行するベースラインよりも優れており,ContextualBench の7つのベンチマークのうち3つは,パラメータが大幅に少ない。 モデルはまた、文脈情報の変更に対する耐性を示し、関連するコンテキストが削除されたときに適切に振る舞う。 さらに、SFR-RAGモデルは、一般的な命令追従タスクと関数呼び出し機能における競合性能を維持している。

Retrieval Augmented Generation (RAG), a paradigm that integrates external contextual information with large language models (LLMs) to enhance factual accuracy and relevance, has emerged as a pivotal area in generative AI. The LLMs used in RAG applications are required to faithfully and completely comprehend the provided context and users' questions, avoid hallucination, handle unanswerable, counterfactual or otherwise low-quality and irrelevant contexts, perform complex multi-hop reasoning and produce reliable citations. In this paper, we introduce SFR-RAG, a small LLM that is instruction-tuned with an emphasis on context-grounded generation and hallucination minimization. We also present ContextualBench, a new evaluation framework compiling multiple popular and diverse RAG benchmarks, such as HotpotQA and TriviaQA, with consistent RAG settings to ensure reproducibility and consistency in model assessments. Experimental results demonstrate that our SFR-RAG-9B model outperforms leading baselines such as Command-R+ (104B) and GPT-4o, achieving state-of-the-art results in 3 out of 7 benchmarks in ContextualBench with significantly fewer parameters. The model is also shown to be resilient to alteration in the contextual information and behave appropriately when relevant context is removed. Additionally, the SFR-RAG model maintains competitive performance in general instruction-following tasks and function-calling capabilities.
翻訳日:2024-09-17 16:50:37 公開日:2024-09-16
# 古典回路を用いた工学的トポロジカル状態と量子インスピレーション情報処理

Engineering topological states and quantum-inspired information processing using classical circuits ( http://arxiv.org/abs/2409.09919v1 )

ライセンス: Link先を確認
Tian Chen, Weixuan Zhang, Deyuan Zou, Yifan Sun, Xiangdong Zhang, (参考訳) 回路ラプラシアン方程式とシュロディンガー方程式の対応に基づいて、最近の研究により、古典的な電気回路は様々な位相物理学とシュロディンガー方程式をシミュレートすることができることが示されている。 さらに、古典的な電気回路網を用いて、一連の量子インスパイアされた情報処理が実装されている。 本稿では,古典回路に基づくトポロジカル物理を導入し,ラプラシアン回路とハミルトン格子の類似性を解析することから始める。 続いて、古典回路を用いたトポロジカル量子コンピューティング、古典回路に基づく量子ウォーク、古典回路に基づく量子組合せ論理、高速量子探索の電子回路実現、ユニタリ変換の実装など、電気回路に基づく量子インスピレーション情報処理の研究の進展についてレビューする。

Based on the correspondence between circuit Laplacian and Schrodinger equation, recent investigations have shown that classical electric circuits can be used to simulate various topological physics and the Schrodinger's equation. Furthermore, a series of quantum-inspired information processing have been implemented by using classical electric circuit networks. In this review, we begin by analyzing the similarity between circuit Laplacian and lattice Hamiltonian, introducing topological physics based on classical circuits. Subsequently, we provide reviews of the research progress in quantum-inspired information processing based on the electric circuit, including discussions of topological quantum computing with classical circuits, quantum walk based on classical circuits, quantum combinational logics based on classical circuits, electric-circuit realization of fast quantum search, implementing unitary transforms and so on.
翻訳日:2024-09-17 16:50:37 公開日:2024-09-16
# 制御のためのマルチステップ埋め込み:貯水池シミュレーションにおけるサーロゲートモデリングのための新しい深層学習に基づくアプローチ

Multi-Step Embed to Control: A Novel Deep Learning-based Approach for Surrogate Modelling in Reservoir Simulation ( http://arxiv.org/abs/2409.09920v1 )

ライセンス: Link先を確認
Jungang Chen, Eduardo Gildin, John Killough, (参考訳) 縮小次数モデル(英: Reduced-order model)またはプロキシモデル(英: proxy model)またはサロゲートモデル(英: surrogate model)は、完全な記述モデルとは対照的に計算コストの低い近似モデルである。 機械学習の統合により、これらのモデルは近年研究の関心を集めている。 しかし, 予測誤差の蓄積による長期予測では, 組込み制御 (E2C) や組込み制御 (E2CO) など, 既存の縮小順序モデリング手法の多くが不足している。 この問題の一部は、E2CとE2COアーキテクチャに固有の一段階の予測フレームワークから生じている。 本稿では,長期予測性能を向上したプロキシモデル構築のための,多段階組込み制御モデルと呼ばれる深層学習に基づく代理モデルを提案する。 E2CやE2COとは異なり、提案するネットワークは、Koopman演算子を使用して、遅延空間における複数の前方遷移を一度に検討し、トレーニングフレーズ中に状態スナップショットのシーケンスを組み込むことができる。 さらに、この新しいアプローチの損失関数は、これらの複数の遷移に対応し、基礎となる物理原理を尊重するために再設計された。 提案手法の有効性を検証するため, 提案手法を2相(油および水)貯留層モデルに実装した。 比較分析により,提案モデルが長期シミュレーションシナリオにおいて従来のE2Cモデルよりも有意に優れていることが示された。 特に飽和プロファイルの予測において時間誤差が大幅に減少し,圧力予測精度が向上した。

Reduced-order models, also known as proxy model or surrogate model, are approximate models that are less computational expensive as opposed to fully descriptive models. With the integration of machine learning, these models have garnered increasing research interests recently. However, many existing reduced-order modeling methods, such as embed to control (E2C) and embed to control and observe (E2CO), fall short in long-term predictions due to the accumulation of prediction errors over time. This issue arises partly from the one-step prediction framework inherent in E2C and E2CO architectures. This paper introduces a deep learning-based surrogate model, referred as multi-step embed-to-control model, for the construction of proxy models with improved long-term prediction performance. Unlike E2C and E2CO, the proposed network considers multiple forward transitions in the latent space at a time using Koopman operator, allowing the model to incorporate a sequence of state snapshots during training phrases. Additionally, the loss function of this novel approach has been redesigned to accommodate these multiple transitions and to respect the underlying physical principles. To validate the efficacy of the proposed method, the developed framework was implemented within two-phase (oil and water) reservoir model under a waterflooding scheme. Comparative analysis demonstrate that the proposed model significantly outperforms the conventional E2C model in long-term simulation scenarios. Notably, there was a substantial reduction in temporal errors in the prediction of saturation profiles and a decent improvement in pressure forecasting accuracy.
翻訳日:2024-09-17 16:50:37 公開日:2024-09-16
# 屋外移動ロボット遠隔操作のための遅延補償映像フィードのリアルタイム生成に向けて

Towards Real-Time Generation of Delay-Compensated Video Feeds for Outdoor Mobile Robot Teleoperation ( http://arxiv.org/abs/2409.09921v1 )

ライセンス: Link先を確認
Neeloy Chakraborty, Yixiao Fang, Andre Schreiber, Tianchen Ji, Zhe Huang, Aganze Mihigo, Cassidy Wall, Abdulrahman Almana, Katherine Driggs-Campbell, (参考訳) 遠隔操作は、監督者が農業ロボットを遠隔操作できるようにする重要な技術である。 しかし、密集した作物列の環境要因とネットワークインフラの制限は、テレオペレーターにストリームされたデータの信頼性を妨げている。 これらの問題は、ロボットの実際の視点から大きく逸脱することが多い遅延し変動するフレームレートビデオフィードをもたらす。 本稿では,教師のための遅延補償画像をリアルタイムで生成するモジュール型学習ベースビジョンパイプラインを提案する。 大規模なオフライン評価により,我々の手法は,我々の設定における最先端のアプローチと比較して,より正確な画像を生成することが示された。 さらに,実際のロボットからのデータに基づく複雑な地形を有する屋外環境における遅延補償手法をリアルタイムに評価するための数少ない研究の1つである。 追加のビデオはhttps://sites.google.com/illinois.edu/comp-teleop.comで公開されている。

Teleoperation is an important technology to enable supervisors to control agricultural robots remotely. However, environmental factors in dense crop rows and limitations in network infrastructure hinder the reliability of data streamed to teleoperators. These issues result in delayed and variable frame rate video feeds that often deviate significantly from the robot's actual viewpoint. We propose a modular learning-based vision pipeline to generate delay-compensated images in real-time for supervisors. Our extensive offline evaluations demonstrate that our method generates more accurate images compared to state-of-the-art approaches in our setting. Additionally, we are one of the few works to evaluate a delay-compensation method in outdoor field environments with complex terrain on data from a real robot in real-time. Additional videos are provided at https://sites.google.com/illinois.edu/comp-teleop.
翻訳日:2024-09-17 16:50:37 公開日:2024-09-16
# マイクロチェンジによるコード変更の理解

Understanding Code Change with Micro-Changes ( http://arxiv.org/abs/2409.09923v1 )

ライセンス: Link先を確認
Lei Chen, Michele Lanza, Shinpei Hayashi, (参考訳) ソフトウェアのメンテナンスと進化において重要な活動は、プルリクエストを提出したり、リポジトリにコミットしたりする際に、開発者が行った変更の理解です。 通常、コードの変更はコード差分という形で表現され、テキスト表現は2つのファイルバージョンの違いを強調し、追加、削除、変更された行を描写する。 この単純化された表現は、開発者によって解釈され、より抽象的なレベルまで精神的に持ち上げられ、より自然言語の記述によく似ており、変化のメンタルモデルの作成を容易にする必要がある。 しかし、テキストdiffベースの表現は面倒で、リフトには相当なドメイン知識とプログラミングスキルが必要です。 本稿では,マイクロチェンジの概念に基づいて,これらの課題を克服し,コード差分を自然言語で記述可能な一連の事前定義された変更操作に変換するアプローチを提案する。 マイクロチェンジのカタログと自動マイクロチェンジ検出器について述べる。 提案手法を評価するため,我々のマイクロチェンジカタログのサブセット,すなわち条件論理に影響を及ぼす変化に関連するものに着目し,大規模なオープンソースリポジトリについて実証的研究を行った。 我々の検出器は、研究中のシステムで起きている変化の67%以上を説明できることがわかった。

A crucial activity in software maintenance and evolution is the comprehension of the changes performed by developers, when they submit a pull request and/or perform a commit on the repository. Typically, code changes are represented in the form of code diffs, textual representations highlighting the differences between two file versions, depicting the added, removed, and changed lines. This simplistic representation must be interpreted by developers, and mentally lifted to a higher abstraction level, that more closely resembles natural language descriptions, and eases the creation of a mental model of the changes. However, the textual diff-based representation is cumbersome, and the lifting requires considerable domain knowledge and programming skills. We present an approach, based on the concept of micro-change, to overcome these difficulties, translating code diffs into a series of pre-defined change operations, which can be described in natural language. We present a catalog of micro-changes, together with an automated micro-change detector. To evaluate our approach, we performed an empirical study on a large set of open-source repositories, focusing on a subset of our micro-change catalog, namely those related to changes affecting the conditional logic. We found that our detector is capable of explaining more than 67% of the changes taking place in the systems under study.
翻訳日:2024-09-17 16:50:37 公開日:2024-09-16
# 準粒子と二層系が超伝導量子ビット寿命の統計に与える影響を測る

Disentangling the Impact of Quasiparticles and Two-Level Systems on the Statistics of Superconducting Qubit Lifetime ( http://arxiv.org/abs/2409.09926v1 )

ライセンス: Link先を確認
Shaojiang Zhu, Xinyuan You, Ugur Alyanak, Mustafa Bal, Francesco Crisa, Sabrina Garattoni, Andrei Lunin, Roman Pilipenko, Akshay Murthy, Alexander Romanenko, Anna Grassellino, (参考訳) 超伝導量子ビット寿命の時間変動である$T_1$は、フォールトトレラントな量子コンピュータを構築する際のさらなる課題をもたらす。 正確なメカニズムは不明だが、T_1$のゆらぎは一般に、低周波数で熱的に変動する2レベルゆらぎ器(TLF)の集合とエネルギーを交換できるいくつかの近接共振2レベル系(TLS)との強い結合に起因する。 ここでは、温度の関数として、幾何学的フットプリントと表面誘電率の異なるキュービットについて、T_1$の測定を報告する。 量子ビット偏極速度のノイズスペクトルを$\Gamma_1 = 1/T_1$で解析することにより、TLS、非平衡準粒子(QP)、平衡(熱励起)QPが$\Gamma_1$の分散に与える影響を解離することができる。 小さいフットプリントの量子ビットにおける$\Gamma_1$の分散は、大きなフットプリントの量子ビットよりもQPやTLSの変動の影響を受けやすい。 さらに、全ての量子ビットにおけるQP誘起分散は、QP拡散とゆらぎの理論的枠組みと一致している。 これらの発見は将来の量子ビット設計と工学最適化に有用な洞察を与えることができることを示唆する。

Temporal fluctuations in the superconducting qubit lifetime, $T_1$, bring up additional challenges in building a fault-tolerant quantum computer. While the exact mechanisms remain unclear, $T_1$ fluctuations are generally attributed to the strong coupling between the qubit and a few near-resonant two-level systems (TLSs) that can exchange energy with an assemble of thermally fluctuating two-level fluctuators (TLFs) at low frequencies. Here, we report $T_1$ measurements on the qubits with different geometrical footprints and surface dielectrics as a function of the temperature. By analyzing the noise spectrum of the qubit depolarization rate, $\Gamma_1 = 1/T_1$, we can disentangle the impact of TLSs, non-equilibrium quasiparticles (QPs), and equilibrium (thermally excited) QPs on the variance in $\Gamma_1$. We find that $\Gamma_1$ variances in the qubit with a small footprint are more susceptible to the QP and TLS fluctuations than those in the large-footprint qubits. Furthermore, the QP-induced variances in all qubits are consistent with the theoretical framework of QP diffusion and fluctuation. We suggest these findings can offer valuable insights for future qubit design and engineering optimization.
翻訳日:2024-09-17 16:50:37 公開日:2024-09-16
# 最新の大規模言語モデルのデータ汚染検出に向けて - 制限,不整合,Oracleの課題

Towards Data Contamination Detection for Modern Large Language Models: Limitations, Inconsistencies, and Oracle Challenges ( http://arxiv.org/abs/2409.09927v1 )

ライセンス: Link先を確認
Vinay Samuel, Yue Zhou, Henry Peng Zou, (参考訳) 大規模言語モデルがますます印象的な結果を得るにつれて、そのようなパフォーマンスが一般化可能か単なるデータ記憶からかという疑問が生じる。 そこで,多くのデータ汚染検出手法が提案されている。 しかしながら、これらのアプローチは従来のベンチマークや早期のLSMで検証されることも多く、より困難なベンチマークの汚染について最先端のLSMを評価する際の有効性について不確実性を残している。 このギャップに対処し、SOTA LLM汚染状況と検出方法の堅牢性を両立させるため、現代のLLM評価によく用いられる8つの挑戦データセットに対して、4つの最先端LLMを用いた5つの汚染検出手法を評価した。 分析の結果,(1) 現状の手法は, 前提条件や実用条件において非自明な制限を負うこと,(2) 回答の増大による微調整時に発生する汚染の検出が困難であること,(3) SOTA 汚染検出技術間の限定的な相違があること,などが判明した。 これらの知見は, 先進LLMにおける汚染検出の複雑さと, 堅牢で汎用的な汚染評価のさらなる研究の必要性を浮き彫りにしている。 私たちのコードはhttps://github.com/vsamuel2003/data-contamination.comで利用可能です。

As large language models achieve increasingly impressive results, questions arise about whether such performance is from generalizability or mere data memorization. Thus, numerous data contamination detection methods have been proposed. However, these approaches are often validated with traditional benchmarks and early-stage LLMs, leaving uncertainty about their effectiveness when evaluating state-of-the-art LLMs on the contamination of more challenging benchmarks. To address this gap and provide a dual investigation of SOTA LLM contamination status and detection method robustness, we evaluate five contamination detection approaches with four state-of-the-art LLMs across eight challenging datasets often used in modern LLM evaluation. Our analysis reveals that (1) Current methods have non-trivial limitations in their assumptions and practical applications; (2) Notable difficulties exist in detecting contamination introduced during instruction fine-tuning with answer augmentation; and (3) Limited consistencies between SOTA contamination detection techniques. These findings highlight the complexity of contamination detection in advanced LLMs and the urgent need for further research on robust and generalizable contamination evaluation. Our code is available at https://github.com/vsamuel2003/data-contamination.
翻訳日:2024-09-17 16:50:37 公開日:2024-09-16
# 多変量時系列における値計算の欠如に対するスパークスネットワークのマイニング

Mining of Switching Sparse Networks for Missing Value Imputation in Multivariate Time Series ( http://arxiv.org/abs/2409.09930v1 )

ライセンス: Link先を確認
Kohei Obata, Koki Kawabata, Yasuko Matsubara, Yasushi Sakurai, (参考訳) 多変量時系列データは欠落した値の問題に悩まされ、多くの解析手法の適用を妨げる。 これらの欠落した値の正確な計算を実現するために、シーケンス間の関係(すなわちネットワーク)を利用して相互相関を利用するのは、通常、シーケンスが他のシーケンスと相関しているため、時間依存性を使用するのと同じくらい重要である。 また、ネットワークが時間とともに変化するため、時間に応じて適切なネットワークを利用する必要もある。 しかし、現実のシナリオでは、ネットワーク構造も、ネットワークが前もっていつ変化するかも、通常は分かっていません。 そこで本稿では、状態空間モデルによる時間依存性とスパースネットワークの切り替えによる相互相関を生かした多変量時系列、すなわちMissNetの欠落値計算法を提案する。 このネットワークは、特徴間の条件付き独立性を符号化し、インパルスの重要な関係を視覚的に理解するのに役立つ。 データ長を参照して線形にスケールするアルゴリズムでは,ネットワークを推定し,ネットワークのスイッチングを検知しながら,ネットワークを用いて欠落した値を埋める。 大規模な実験により、MissNetは多変量時系列計算のための最先端のアルゴリズムより優れ、解釈可能な結果を提供することを示した。

Multivariate time series data suffer from the problem of missing values, which hinders the application of many analytical methods. To achieve the accurate imputation of these missing values, exploiting inter-correlation by employing the relationships between sequences (i.e., a network) is as important as the use of temporal dependency, since a sequence normally correlates with other sequences. Moreover, exploiting an adequate network depending on time is also necessary since the network varies over time. However, in real-world scenarios, we normally know neither the network structure nor when the network changes beforehand. Here, we propose a missing value imputation method for multivariate time series, namely MissNet, that is designed to exploit temporal dependency with a state-space model and inter-correlation by switching sparse networks. The network encodes conditional independence between features, which helps us understand the important relationships for imputation visually. Our algorithm, which scales linearly with reference to the length of the data, alternatively infers networks and fills in missing values using the networks while discovering the switching of the networks. Extensive experiments demonstrate that MissNet outperforms the state-of-the-art algorithms for multivariate time series imputation and provides interpretable results.
翻訳日:2024-09-17 16:50:37 公開日:2024-09-16
# 固体特性予測のためのグラフニューラルネットワーク力場の一般化可能性

Generalizability of Graph Neural Network Force Fields for Predicting Solid-State Properties ( http://arxiv.org/abs/2409.09931v1 )

ライセンス: Link先を確認
Shaswat Mohanty, Yifan Wang, Wei Cai, (参考訳) 機械学習力場(MLFF)は、複雑な分子系に対するアブ初期シミュレーションの計算的に効率的な代替手段を提供する。 しかし, 固体材料の研究に広く応用するためには, トレーニングデータ以外の一般化性を確保することが重要である。 本研究では、Lenard-Jones Argonでトレーニングされたグラフニューラルネットワーク(GNN)ベースのMLFFを用いて、トレーニング中に明示的に含まれない固体現象を記述する能力について検討する。 完全面中心立方体(FCC)結晶構造における状態のフォノン密度(PDOS)を予測する際のMLFFの性能を,0温度と有限温度の両方で評価した。 さらに, 直接分子動力学シミュレーションと弦法を用いて不完全結晶中の空孔移動速度とエネルギー障壁を評価する。 特に、トレーニングデータには空き容量構成が欠落していた。 本研究はMLFFが参照データとよく一致した本質的な固体特性を捕捉する能力を示したものである。 また、MLFFの一般化性を高めるためのデータエンジニアリング戦略についても論じる。 完全かつ不完全な結晶を記述する際にMLFFの性能を評価するための一連のベンチマークテストとワークフローは、複雑な固体材料の研究におけるMLFFの信頼性の高い応用の道を開く。

Machine-learned force fields (MLFFs) promise to offer a computationally efficient alternative to ab initio simulations for complex molecular systems. However, ensuring their generalizability beyond training data is crucial for their wide application in studying solid materials. This work investigates the ability of a graph neural network (GNN)-based MLFF, trained on Lennard-Jones Argon, to describe solid-state phenomena not explicitly included during training. We assess the MLFF's performance in predicting phonon density of states (PDOS) for a perfect face-centered cubic (FCC) crystal structure at both zero and finite temperatures. Additionally, we evaluate vacancy migration rates and energy barriers in an imperfect crystal using direct molecular dynamics (MD) simulations and the string method. Notably, vacancy configurations were absent from the training data. Our results demonstrate the MLFF's capability to capture essential solid-state properties with good agreement to reference data, even for unseen configurations. We further discuss data engineering strategies to enhance the generalizability of MLFFs. The proposed set of benchmark tests and workflow for evaluating MLFF performance in describing perfect and imperfect crystals pave the way for reliable application of MLFFs in studying complex solid-state materials.
翻訳日:2024-09-17 16:50:37 公開日:2024-09-16
# 絡み合いエントロピー走査による位相遷移と基礎対称性の破れ

Probing phase transition and underlying symmetry breaking via entanglement entropy scanning ( http://arxiv.org/abs/2409.09942v1 )

ライセンス: Link先を確認
Zhe Wang, Zehui Deng, Zhiyan Wang, Yi-Ming Ding, Wenan Guo, Zheng Yan, (参考訳) エンタングルメントエントロピー(EE)を用いて、量子多体系における新しい相と相転移の内在物理学を探索することは、凝縮物質物理学において重要であるが挑戦的なトピックである。 新たに開発したバイパートイト・アニーリングアルゴリズムにより,2次元強相関系の第1および第2次相転移点付近のEE挙動を,これまで要求されていた膨大な計算資源のために非常に困難であった大きなパラメータ領域にわたって走査することで,系統的に研究することができる。 興味深いことに、EEまたはその誘導体は臨界点において分岐し、これは本質的に離散対称性または連続対称性の破れを含む相転移を明らかにする。 さらに、EE曲線のピークは、高対称性の破れ点における一階相転移を検出でき、低対称性の破れ点を持つ位相を分離することができる。 この挙動は、ランダウ・ギンズバーグ・ウィルソンのパラダイムを超えた関連する分解臨界度から創発的高次対称性が生じる2次元チェッカーボード$J-Q$モデルにおける対称性に富む一階相転移にも適用される。 この研究は、異なる相転移と基礎となる対称性の破れをよりよく識別するのに役立つ新しい現象やメカニズムを指摘する。

Using entanglement entropy (EE) to probe the intrinsic physics of the novel phases and phase transitions in quantum many-body systems is an important but challenging topic in condensed matter physics. Thanks to our newly developed bipartite-reweight-annealing algorithm, we can systematically study EE behaviors near both first and second-order phase transition points of two-dimensional strongly correlated systems by scanning the EE across a large parameter region, which was super difficult previously due to the huge computation resources demanded. Interestingly, we find that the EE or its derivative diverges at the critical point, which essentially reveals the phase transition involving discrete or continuous symmetry breaking. What's more, we observe that the peak of the EE curve can detect first-order phase transitions at high symmetry breaking points, separating phases with lower symmetry broken. This behavior also applies to the symmetry-enhanced first-order phase transition in the two-dimensional chequerboard $J-Q$ model, where the emergent higher symmetry arises from the related deconfined criticality beyond the Landau-Ginzburg-Wilson paradigm. This work points to new phenomena and mechanisms that can help us better identify different phase transitions and the underlying symmetry breaking.
翻訳日:2024-09-17 16:50:37 公開日:2024-09-16
# 機械学習を用いた誘導電動機の故障解析と予測保守

Fault Analysis And Predictive Maintenance Of Induction Motor Using Machine Learning ( http://arxiv.org/abs/2409.09944v1 )

ライセンス: Link先を確認
Kavana Venkatesh, Neethi M, (参考訳) 誘導電動機は最も重要な電気機器の1つであり、幅広い用途で産業で広く利用されている。 本稿では,3相電圧と電流を入力として,誘導電動機故障の検出と分類を行う機械学習モデルを提案する。 本研究の目的は、重要な電気成分を保護し、早期発見と診断による異常事象の進行を防止することである。 この研究は、過電圧、電圧下、単相、非平衡電圧、過負荷、地上欠陥など、一般的に発生する電気的欠陥のいくつかを検出するために、高速なフォワード人工ニューラルネットワークモデルを示す。 モータ自体がセンサのように動作し、監視された信号だけがモータに与えられる入力である独立したモデルフリー監視システムを提供する。 電流値と電圧値の制限は、分類器によって行われる故障および健全な条件に対して設定される。 0.33HP誘導電動機のリアルタイムデータは、ニューラルネットワークのトレーニングとテストに使用される。 このようなモデルにより、特定の瞬間に与えられる電圧と電流値を分析し、そのデータを障害や特定の障害に分類する。 その後、モデルは実際のモータとインターフェースされ、欠陥を正確に検知し分類し、さらなる必要なアクションを取ることができる。

Induction motors are one of the most crucial electrical equipment and are extensively used in industries in a wide range of applications. This paper presents a machine learning model for the fault detection and classification of induction motor faults by using three phase voltages and currents as inputs. The aim of this work is to protect vital electrical components and to prevent abnormal event progression through early detection and diagnosis. This work presents a fast forward artificial neural network model to detect some of the commonly occurring electrical faults like overvoltage, under voltage, single phasing, unbalanced voltage, overload, ground fault. A separate model free monitoring system wherein the motor itself acts like a sensor is presented and the only monitored signals are the input given to the motor. Limits for current and voltage values are set for the faulty and healthy conditions, which is done by a classifier. Real time data from a 0.33 HP induction motor is used to train and test the neural network. The model so developed analyses the voltage and current values given at a particular instant and classifies the data into no fault or the specific fault. The model is then interfaced with a real motor to accurately detect and classify the faults so that further necessary action can be taken.
翻訳日:2024-09-17 16:50:37 公開日:2024-09-16
# 2013-2020年米国における人工オピオイド危機の空間動態の人体移動型グラフニューラルネットワークによる追跡

Tracking the spatial dynamics of the synthetic opioid crisis in the USA, 2013-2020 using human mobility-based graph neural network ( http://arxiv.org/abs/2409.09945v1 )

ライセンス: Link先を確認
Zhiyue Xia, Kathleen Stewart, (参考訳) 合成オピオイド(英: Synthetic opioids)は、アメリカ合衆国で最も一般的な薬物である。 疾病予防管理センターは2018年、薬物過剰摂取死の約70%がオピオイド、オピオイド関連死亡の67%が合成オピオイドによるものであると報告した。 本研究は,2013年から2020年にかけてのアメリカにおける合成オピオイドの拡散について検討し,合成オピオイド関連死の時空間パターンと他の重要なオピオイド,ヘロインとの関連性を検討した。 郡間の空間的つながりをグラフ畳み込みニューラルネットワークモデルに組み込んで、合成オピオイド関連死の拡散を表現し分析し、ヘロイン関連死の文脈で分析した。

Synthetic opioids are the most common drugs involved in drug-involved overdose mortalities in the U.S. The Center for Disease Control and Prevention reported that in 2018, about 70% of all drug overdose deaths involved opioids and 67% of all opioid-involved deaths were accounted for by synthetic opioids. In this study, we investigated the spread of synthetic opioids between 2013 and 2020 in the U.S., and analyzed the relationship between the spatiotemporal pattern of synthetic opioid-involved deaths and another key opioid, heroin, and compared patterns of deaths involving these two types of drugs during this time period. Spatial connections between counties were incorporated into a graph convolutional neural network model to represent and analyze the spread of synthetic opioid-involved deaths, and in the context of heroin-involved deaths.
翻訳日:2024-09-17 16:50:37 公開日:2024-09-16
# ギャップか幻覚か : きめ細かいテキスト評価のための機械式法則解析への注視

Gaps or Hallucinations? Gazing into Machine-Generated Legal Analysis for Fine-grained Text Evaluations ( http://arxiv.org/abs/2409.09947v1 )

ライセンス: Link先を確認
Abe Bohan Hou, William Jurayj, Nils Holzenberger, Andrew Blair-Stanek, Benjamin Van Durme, (参考訳) LLM(Large Language Models)は、法律分析を行う専門家のための文書作成支援である。 しかし、LLMは、非専門職や既存のテキスト評価指標によって認識しにくい方法で、この設定で幻覚することが多い。 この研究で我々は、機械生成の法的な分析をいつ許容できるのかという疑問を提起する。 厳密な誤った意味での幻覚とは対照的に、中性的なギャップの概念を導入し、人間による記述と機械による法的な分析の違いを言及する。 ギャップは常に無効な生成に等しいとは限らない。 法の専門家と共同で,Hou et al (2024b) で提案された CLERC 生成タスクを考慮し,分類,ギャップカテゴリ予測のためのきめ細かい検出,自動評価のための注釈付きデータセットについて検討した。 我々の最良の検出器は、テストセットで67%のF1スコアと80%の精度を達成する。 この検出器をSOTA LLMの法則解析に基づく自動測定値として用いると、約80%に異なる種類の幻覚が含まれていることが分かる。

Large Language Models (LLMs) show promise as a writing aid for professionals performing legal analyses. However, LLMs can often hallucinate in this setting, in ways difficult to recognize by non-professionals and existing text evaluation metrics. In this work, we pose the question: when can machine-generated legal analysis be evaluated as acceptable? We introduce the neutral notion of gaps, as opposed to hallucinations in a strict erroneous sense, to refer to the difference between human-written and machine-generated legal analysis. Gaps do not always equate to invalid generation. Working with legal experts, we consider the CLERC generation task proposed in Hou et al. (2024b), leading to a taxonomy, a fine-grained detector for predicting gap categories, and an annotated dataset for automatic evaluation. Our best detector achieves 67% F1 score and 80% precision on the test set. Employing this detector as an automated metric on legal analysis generated by SOTA LLMs, we find around 80% contain hallucinations of different kinds.
翻訳日:2024-09-17 16:40:52 公開日:2024-09-16
# 解釈可能性のための最適アブレーション

Optimal ablation for interpretability ( http://arxiv.org/abs/2409.09951v1 )

ライセンス: Link先を確認
Maximilian Li, Lucas Janson, (参考訳) 解釈可能性の研究は、しばしば機械学習モデルを通して情報の流れをトレースして、興味のあるタスクのために関連する計算を実行する特定のモデルコンポーネントを特定する。 以前の作業では、特定のタスクにおけるモデルコンポーネントの重要性を定量化するために、そのコンポーネントに対するアブレーションの実行の影響を測定したり、コンポーネントを無効にしたモデル推論をシミュレートする。 そこで本研究では,OAをベースとしたコンポーネントの重要性が,他のアブレーション法よりも理論的,経験的優位性を持っていることを示す。 また、OAに基づくコンポーネントの重要性は、回路発見、事実リコールの局所化、潜時予測など、下流の解釈可能性タスクに有効であることを示す。

Interpretability studies often involve tracing the flow of information through machine learning models to identify specific model components that perform relevant computations for tasks of interest. Prior work quantifies the importance of a model component on a particular task by measuring the impact of performing ablation on that component, or simulating model inference with the component disabled. We propose a new method, optimal ablation (OA), and show that OA-based component importance has theoretical and empirical advantages over measuring importance via other ablation methods. We also show that OA-based component importance can benefit several downstream interpretability tasks, including circuit discovery, localization of factual recall, and latent prediction.
翻訳日:2024-09-17 16:40:52 公開日:2024-09-16
# アウト・オブ・ディストリビューション・アクション検出のための不確かさ誘導型外観運動アソシエーションネットワーク

Uncertainty-Guided Appearance-Motion Association Network for Out-of-Distribution Action Detection ( http://arxiv.org/abs/2409.09953v1 )

ライセンス: Link先を確認
Xiang Fang, Arvind Easwaran, Blaise Genest, (参考訳) アウト・オブ・ディストリビューション(OOD)検出ターゲットは、セマンティックシフトでテストサンプルを検出して拒否し、イン・ディストリビューション(ID)データセットでトレーニングされたモデルが信頼できない予測を生成するのを防ぐ。 既存の作業は、画像データセットの外観の特徴のみを抽出し、多くのモーション情報を持つ動的マルチメディアシナリオを処理できない。 そこで我々は,より現実的で困難なOOD検出タスクであるOODアクション検出(ODAD)を目標としている。 トリミングされていないビデオが与えられた後、ODADはまずIDアクションを分類し、OODアクションを認識し、次にIDアクションとOODアクションをローカライズする。 そこで本稿では,ODADにおける空間的・時間的相互対象間相互作用を推論するための外観特徴と動きコンテキストの両方を探索する,不確実性ガイド型外観運動アソシエーションネットワーク(UAAN)を提案する。 各枝において、外見誘導と運動駆動の物体間相互作用を推論する時空間グラフを構築する。 そこで我々は,最終動作検出のための外観と動作特徴を融合させる動作注意モジュールを設計した。 2つの挑戦的なデータセットの実験結果は、UAANが最先端の手法をかなりの差で打ち負かし、その効果を実証していることを示している。

Out-of-distribution (OOD) detection targets to detect and reject test samples with semantic shifts, to prevent models trained on in-distribution (ID) dataset from producing unreliable predictions. Existing works only extract the appearance features on image datasets, and cannot handle dynamic multimedia scenarios with much motion information. Therefore, we target a more realistic and challenging OOD detection task: OOD action detection (ODAD). Given an untrimmed video, ODAD first classifies the ID actions and recognizes the OOD actions, and then localizes ID and OOD actions. To this end, in this paper, we propose a novel Uncertainty-Guided Appearance-Motion Association Network (UAAN), which explores both appearance features and motion contexts to reason spatial-temporal inter-object interaction for ODAD.Firstly, we design separate appearance and motion branches to extract corresponding appearance-oriented and motion-aspect object representations. In each branch, we construct a spatial-temporal graph to reason appearance-guided and motion-driven inter-object interaction. Then, we design an appearance-motion attention module to fuse the appearance and motion features for final action detection. Experimental results on two challenging datasets show that UAAN beats state-of-the-art methods by a significant margin, illustrating its effectiveness.
翻訳日:2024-09-17 16:40:52 公開日:2024-09-16
# ラピッドトランジットシステムにおけるコンテキストアウェアなモデリングと応用

Context-aware Advertisement Modeling and Applications in Rapid Transit Systems ( http://arxiv.org/abs/2409.09956v1 )

ライセンス: Link先を確認
Afzal Ahmed, Muhammad Raees, (参考訳) 今日のビジネスでは、マーケティングが成長の中心となっている。 マーケティングの品質は、製品の品質と関連するメトリクスと同じくらい重要です。 マーケティングの質は、適切な人をターゲットにすることに依存します。 テクノロジーの適応は多くの分野において遅いが、人間生活のいくつかの側面を捉えて影響を与えた。 例えば、マーケティングにおいて、最近の開発はデータ駆動アプローチに大きくシフトした。 本稿では,行動分析と追跡分析を用いた広告モデルを提案する。 ユーザのプライバシー原則を尊重する行動データを抽出し、効果的な分析のためにデータ操作とパターンマイニングを行う。 本稿では,エージェント・ベース・モデリング(ABM)技術を用いたモデルを提案する。 また、ABMの概要、設計、詳細についても概説する。

In today's businesses, marketing has been a central trend for growth. Marketing quality is equally important as product quality and relevant metrics. Quality of Marketing depends on targeting the right person. Technology adaptations have been slow in many fields but have captured some aspects of human life to make an impact. For instance, in marketing, recent developments have provided a significant shift toward data-driven approaches. In this paper, we present an advertisement model using behavioral and tracking analysis. We extract users' behavioral data upholding their privacy principle and perform data manipulations and pattern mining for effective analysis. We present a model using the agent-based modeling (ABM) technique, with the target audience of rapid transit system users to target the right person for advertisement applications. We also outline the Overview, Design, and Details concept of ABM.
翻訳日:2024-09-17 16:40:52 公開日:2024-09-16
# ディープグラフ異常検出:サーベイと新しい展望

Deep Graph Anomaly Detection: A Survey and New Perspectives ( http://arxiv.org/abs/2409.09957v1 )

ライセンス: Link先を確認
Hezhe Qiao, Hanghang Tong, Bo An, Irwin King, Charu Aggarwal, Guansong Pang, (参考訳) グラフ異常検出(GAD)は、異常なグラフインスタンス(ノード、エッジ、サブグラフ、グラフ)を識別することを目的としている。 ディープラーニングアプローチ、特にグラフニューラルネットワーク(GNN)は、グラフデータ中の複雑な構造やノード属性をキャプチャする強力な能力のため、GADにとって有望なパラダイムとして現れています。 GNNベースのGADに提案されている多くの手法を考えると、既存のGAD研究における方法論と知見をまとめることが最重要であり、オープンGAD問題に対処するための効果的なモデル設計を特定できる。 そこで本研究では,GADのためのディープラーニングアプローチの総合的なレビューを行う。 既存のGAD調査はタスク固有の議論に重点を置いており、GADにおけるいくつかの固有の課題に対処する上で、既存のメソッドの技術的な洞察とその制限を理解することは困難である。 このギャップを埋めるために、まず、GADにおける問題複雑度とその結果として生じる課題について議論し、GNNバックボーン設計、GADのためのプロキシタスク設計、グラフ異常測定を含む方法論の3つの新しい視点から、現在の深いGADメソッドの体系的なレビューを行う。 さらに,モデル設計とその機能についてより詳細な知見を提供するために,これら3つの視点の下で,13の細粒度メソッドカテゴリの分類法を提案する。 実験と検証を容易にするため,広く利用されているGADデータセットの集合と経験的比較もまとめた。 さらに、より将来の高品質な研究を促すために、複数のオープンな問題を議論する。 データセットの継続的な更新、アルゴリズムのコードへのリンク、経験的比較はhttps://github.com/mala-lab/Awesome-Deep-Graph-Anomaly-Detectionで見ることができる。

Graph anomaly detection (GAD), which aims to identify unusual graph instances (nodes, edges, subgraphs, or graphs), has attracted increasing attention in recent years due to its significance in a wide range of applications. Deep learning approaches, graph neural networks (GNNs) in particular, have been emerging as a promising paradigm for GAD, owing to its strong capability in capturing complex structure and/or node attributes in graph data. Considering the large number of methods proposed for GNN-based GAD, it is of paramount importance to summarize the methodologies and findings in the existing GAD studies, so that we can pinpoint effective model designs for tackling open GAD problems. To this end, in this work we aim to present a comprehensive review of deep learning approaches for GAD. Existing GAD surveys are focused on task-specific discussions, making it difficult to understand the technical insights of existing methods and their limitations in addressing some unique challenges in GAD. To fill this gap, we first discuss the problem complexities and their resulting challenges in GAD, and then provide a systematic review of current deep GAD methods from three novel perspectives of methodology, including GNN backbone design, proxy task design for GAD, and graph anomaly measures. To deepen the discussions, we further propose a taxonomy of 13 fine-grained method categories under these three perspectives to provide more in-depth insights into the model designs and their capabilities. To facilitate the experiments and validation, we also summarize a collection of widely-used GAD datasets and empirical comparison. We further discuss multiple open problems to inspire more future high-quality research. A continuously updated repository for datasets, links to the codes of algorithms, and empirical comparison is available at https://github.com/mala-lab/Awesome-Deep-Graph-Anomaly-Detection.
翻訳日:2024-09-17 16:40:52 公開日:2024-09-16
# 制約付き多目的強化学習のためのオフライン適応フレームワーク

An Offline Adaptation Framework for Constrained Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2409.09958v1 )

ライセンス: Link先を確認
Qian Lin, Zongkai Liu, Danying Mo, Chao Yu, (参考訳) 近年,多目的強化学習(RL)研究において,各目的に対する嗜好を取り入れた多目的強化学習(RL)研究が著しい進歩を遂げている。 既存のほとんどの研究では、望まれるポリシーを明確に示すために、デプロイメント中に特定の嗜好を提供する必要がある。 しかしながら、これらの嗜好を設計することは人間の事前知識に大きく依存する。 本研究では,多目的RL問題に対する簡易かつ効果的なオフライン適応フレームワークを提案する。 さらに,安全基準が不明な場合でも,安全実証を利用して,安全クリティカルな目標に対する制約を満たすために,我々のフレームワークを自然に拡張できることを実証した。 オフラインの多目的・安全タスクにおける実証的な結果から、提案したデモによって示唆される制約を満たしながら、実際の嗜好と整合するポリシーを推論するフレームワークの能力を実証する。

In recent years, significant progress has been made in multi-objective reinforcement learning (RL) research, which aims to balance multiple objectives by incorporating preferences for each objective. In most existing studies, specific preferences must be provided during deployment to indicate the desired policies explicitly. However, designing these preferences depends heavily on human prior knowledge, which is typically obtained through extensive observation of high-performing demonstrations with expected behaviors. In this work, we propose a simple yet effective offline adaptation framework for multi-objective RL problems without assuming handcrafted target preferences, but only given several demonstrations to implicitly indicate the preferences of expected policies. Additionally, we demonstrate that our framework can naturally be extended to meet constraints on safety-critical objectives by utilizing safe demonstrations, even when the safety thresholds are unknown. Empirical results on offline multi-objective and safe tasks demonstrate the capability of our framework to infer policies that align with real preferences while meeting the constraints implied by the provided demonstrations.
翻訳日:2024-09-17 16:40:52 公開日:2024-09-16
# 獣医師国家医療システムにおける人工知能を用いた冠状カルシウムスクリーニング

Artificial Intelligence-Based Opportunistic Coronary Calcium Screening in the Veterans Affairs National Healthcare System ( http://arxiv.org/abs/2409.09968v1 )

ライセンス: Link先を確認
Raffi Hagopian, Timothy Strebel, Simon Bernatz, Gregory A Myers, Erik Offerman, Eric Zuniga, Cy Y Kim, Angie T Ng, James A Iwaz, Sunny P Singh, Evan P Carey, Michael J Kim, R Spencer Schaefer, Jeannie Yu, Amilcare Gentili, Hugo JWL Aerts, (参考訳) 冠動脈カルシウム (CAC) は心血管イベントの予測に有用である。 アメリカでは毎年数百万の胸部CTスキャンが実施されているが、CACは非心臓目的のスキャンから定期的に定量化されているわけではない。 CACを非コントラスト非ゲートCTスキャン(AI-CAC)で自動的に定量化するために,446のエキスパートセグメンテーションを用いてディープラーニングアルゴリズムを開発した。 これまでの研究と異なり、医療機関98の医療センターから、画像プロトコル、スキャナー、患者の広範な異質性を捉えながら、獣医省の国立医療システムにまたがる画像データを活用している。 非ゲートスキャンにおけるAI-CAC性能を,臨床標準ECG-gated CACスコアと比較した。 非ゲート型AI-CACは0対0と100対100以上のアガストンスコアを89.4%(F1 0.93)と87.3%(F1 0.89)と区別した。 非ゲート型AI-CACは10年ごとの死亡率(CAC 0 vs. >400 group: 25.4% vs. 60.2%、Cox HR 3.49, p < 0.005)と複合初回脳卒中、MI、死亡率(CAC 0 vs. >400 group: 33.5% vs. 63.8%、Cox HR 3.00, p < 0.005)を予測した。 低用量肺癌検診(LDCT)8,052例のスクリーニングデータセットでは,3,091/8,052例(38.4%)がAI-CAC >400例であった。 4人の心臓科医が400人以上のAI-CAC患者のランダムサンプルからLDCT画像を質的にレビューし、527/531 (99.2%) が脂質低下療法の恩恵を受けることを確認した。 我々の知る限り、これは全国的な医療システムで開発された最初の非ゲートCT CACアルゴリズムであり、複数のイメージングプロトコル上で、心内ハードウェアをフィルタリングすることなく、強力なゲートCT参照と比較する。 心内ハードウェア患者を含むペアゲートスキャンと比較し, 従来のCACアルゴリズムと比較して優れた性能を示した。

Coronary artery calcium (CAC) is highly predictive of cardiovascular events. While millions of chest CT scans are performed annually in the United States, CAC is not routinely quantified from scans done for non-cardiac purposes. A deep learning algorithm was developed using 446 expert segmentations to automatically quantify CAC on non-contrast, non-gated CT scans (AI-CAC). Our study differs from prior works as we leverage imaging data across the Veterans Affairs national healthcare system, from 98 medical centers, capturing extensive heterogeneity in imaging protocols, scanners, and patients. AI-CAC performance on non-gated scans was compared against clinical standard ECG-gated CAC scoring. Non-gated AI-CAC differentiated zero vs. non-zero and less than 100 vs. 100 or greater Agatston scores with accuracies of 89.4% (F1 0.93) and 87.3% (F1 0.89), respectively, in 795 patients with paired gated scans within a year of a non-gated CT scan. Non-gated AI-CAC was predictive of 10-year all-cause mortality (CAC 0 vs. >400 group: 25.4% vs. 60.2%, Cox HR 3.49, p < 0.005), and composite first-time stroke, MI, or death (CAC 0 vs. >400 group: 33.5% vs. 63.8%, Cox HR 3.00, p < 0.005). In a screening dataset of 8,052 patients with low-dose lung cancer-screening CTs (LDCT), 3,091/8,052 (38.4%) individuals had AI-CAC >400. Four cardiologists qualitatively reviewed LDCT images from a random sample of >400 AI-CAC patients and verified that 527/531 (99.2%) would benefit from lipid-lowering therapy. To the best of our knowledge, this is the first non-gated CT CAC algorithm developed across a national healthcare system, on multiple imaging protocols, without filtering intra-cardiac hardware, and compared against a strong gated CT reference. We report superior performance relative to previous CAC algorithms evaluated against paired gated scans that included patients with intra-cardiac hardware.
翻訳日:2024-09-17 16:40:52 公開日:2024-09-16
# 2S-ODIS:幾何歪み補正による2段階全方位画像合成

2S-ODIS: Two-Stage Omni-Directional Image Synthesis by Geometric Distortion Correction ( http://arxiv.org/abs/2409.09969v1 )

ライセンス: Link先を確認
Atsuya Nakata, Takao Yamanaka, (参考訳) バーチャルリアリティやSNS(Social Networking Services)など,さまざまなアプリケーションにおいて,Omni方向の画像の利用が増加している。 しかし、全方位撮影には特殊なカメラが必要であるため、通常の視野(NFoV)画像とは対照的に可利用性は比較的限られている。 その結果,全方位画像の合成にはGAN(Generative Adversarial Network)に基づくいくつかの手法が提案されている。 そこで本研究では,高品質な全方位画像を生成するが,トレーニング時間を劇的に短縮する2S-ODIS(Two-Stage Omni-Directional Image Synthesis)を提案する。 VQGAN(Vector Quantized GAN)モデルをImageNetなどの大規模NFoV画像データベース上で,微調整なしで事前学習することで実現した。 この事前学習モデルは、等角射影(ERP)における全方向像の歪みを表現しないので、ERPの全方向画像合成に直接適用することはできない。 そのため、まずERPで大域的な粗い画像を作成し、次に複数の局所NFoV画像を高分解能に統合することにより、ERPの歪みを補償する2段階構造を採用し、それぞれが事前訓練されたVQGANモデルに基づいている。 その結果,提案手法である2S-ODISは,OmniDreamerの14日間から高画質の4日間までのトレーニング時間を短縮した。

Omni-directional images have been increasingly used in various applications, including virtual reality and SNS (Social Networking Services). However, their availability is comparatively limited in contrast to normal field of view (NFoV) images, since specialized cameras are required to take omni-directional images. Consequently, several methods have been proposed based on generative adversarial networks (GAN) to synthesize omni-directional images, but these approaches have shown difficulties in training of the models, due to instability and/or significant time consumption in the training. To address these problems, this paper proposes a novel omni-directional image synthesis method, 2S-ODIS (Two-Stage Omni-Directional Image Synthesis), which generated high-quality omni-directional images but drastically reduced the training time. This was realized by utilizing the VQGAN (Vector Quantized GAN) model pre-trained on a large-scale NFoV image database such as ImageNet without fine-tuning. Since this pre-trained model does not represent distortions of omni-directional images in the equi-rectangular projection (ERP), it cannot be applied directly to the omni-directional image synthesis in ERP. Therefore, two-stage structure was adopted to first create a global coarse image in ERP and then refine the image by integrating multiple local NFoV images in the higher resolution to compensate the distortions in ERP, both of which are based on the pre-trained VQGAN model. As a result, the proposed method, 2S-ODIS, achieved the reduction of the training time from 14 days in OmniDreamer to four days in higher image quality.
翻訳日:2024-09-17 16:40:52 公開日:2024-09-16
# 個別レベルデータを用いた半パラメトリックデータ融合の統一理論に向けて

Towards a Unified Theory for Semiparametric Data Fusion with Individual-Level Data ( http://arxiv.org/abs/2409.09973v1 )

ライセンス: Link先を確認
Ellen Graham, Marco Carone, Andrea Rotnitzky, (参考訳) 本研究では,様々な独立した情報源からの個人レベルのデータを活用することで,滑らかな有限次元パラメータに関する推論を行うという目的に対処する。 近年の進歩により、異なるデータソースが結合対象分布の単一因数分解の条件分布の、おそらくは別個のサブセットと整合するシナリオを扱うことができる包括的理論が発展してきた。 この理論は多くの重要な文脈で有効であることが証明されているが、2サンプルの機器変数解析、疫学研究のデータと多様な設計(例えば、予見的コホートや再帰的ケースコントロール研究)を統合する設定、検証研究によって補足される誤差を計測する変数の研究など、ある種のデータ融合問題では不足している。 本稿では、上記の包括的理論を拡張し、対象分布の単一因数分解に対応しない条件分布に整合したソースからの個々のレベルデータの融合を可能にする。 条件分布と限界分布のアライメントを仮定すると、正規漸近線形推定器のすべての影響関数のクラスと、データソース数、特定のパラメータ、あるいはターゲット分布の統計モデルに関係なく、任意の経路微分可能なパラメータの効率的な影響関数を特徴付ける普遍的な結果を提供する。 この理論は、機械学習の偏りを抑え、半パラメトリックな効率的な推定方法である。

We address the goal of conducting inference about a smooth finite-dimensional parameter by utilizing individual-level data from various independent sources. Recent advancements have led to the development of a comprehensive theory capable of handling scenarios where different data sources align with, possibly distinct subsets of, conditional distributions of a single factorization of the joint target distribution. While this theory proves effective in many significant contexts, it falls short in certain common data fusion problems, such as two-sample instrumental variable analysis, settings that integrate data from epidemiological studies with diverse designs (e.g., prospective cohorts and retrospective case-control studies), and studies with variables prone to measurement error that are supplemented by validation studies. In this paper, we extend the aforementioned comprehensive theory to allow for the fusion of individual-level data from sources aligned with conditional distributions that do not correspond to a single factorization of the target distribution. Assuming conditional and marginal distribution alignments, we provide universal results that characterize the class of all influence functions of regular asymptotically linear estimators and the efficient influence function of any pathwise differentiable parameter, irrespective of the number of data sources, the specific parameter of interest, or the statistical model for the target distribution. This theory paves the way for machine-learning debiased, semiparametric efficient estimation.
翻訳日:2024-09-17 16:40:52 公開日:2024-09-16
# 信頼度V2Vチャネル予測のための文脈条件付き時空間予測学習

Context-Conditioned Spatio-Temporal Predictive Learning for Reliable V2V Channel Prediction ( http://arxiv.org/abs/2409.09978v1 )

ライセンス: Link先を確認
Lei Chu, Daoud Burghal, Michael Neuman, Andreas F. Molisch, (参考訳) 瞬時CSIに依存する下流タスクの最適化には,信頼性の高い多次元V2Vチャネル状態情報(CSI)の予測が不可欠である。 この研究は、時間、帯域幅、アンテナ(TX、RX)空間の予測を含む4次元(4D)CSIに焦点を当てることで、従来の予測アプローチを拡張した。 このような包括的枠組みは、知的輸送システムにおける移動環境の動的な性質に対処するために不可欠であり、多様な領域にわたる時間的および空間的依存関係の捕捉を必要とする。 この複雑さに対処するために,新しい文脈条件付き時空間予測学習法を提案する。 この方法は、因果畳み込み長短期記憶(CA-ConvLSTM)を利用して、4次元CSIデータ内の依存関係を効果的に捕捉し、時空間メモリ更新の効率を高めるためにコンテキスト条件付き注意機構を組み込む。 さらに,繰り返しネットワークに適した適応型メタラーニング手法を導入し,累積予測誤差の問題を緩和する。 提案手法は,3つの異なる幾何学的構成と移動シナリオにまたがる経験的研究によって検証される。 提案手法は, 従来の予測モデルよりも優れた性能を示し, 各種測地における優れた性能を実現している。 さらに、メタラーニングフレームワークは、高度に挑戦するクロスジオメトリ設定において、リカレントベースの予測モデルの性能を大幅に向上させ、その堅牢性と適応性を強調した。

Achieving reliable multidimensional Vehicle-to-Vehicle (V2V) channel state information (CSI) prediction is both challenging and crucial for optimizing downstream tasks that depend on instantaneous CSI. This work extends traditional prediction approaches by focusing on four-dimensional (4D) CSI, which includes predictions over time, bandwidth, and antenna (TX and RX) space. Such a comprehensive framework is essential for addressing the dynamic nature of mobility environments within intelligent transportation systems, necessitating the capture of both temporal and spatial dependencies across diverse domains. To address this complexity, we propose a novel context-conditioned spatiotemporal predictive learning method. This method leverages causal convolutional long short-term memory (CA-ConvLSTM) to effectively capture dependencies within 4D CSI data, and incorporates context-conditioned attention mechanisms to enhance the efficiency of spatiotemporal memory updates. Additionally, we introduce an adaptive meta-learning scheme tailored for recurrent networks to mitigate the issue of accumulative prediction errors. We validate the proposed method through empirical studies conducted across three different geometric configurations and mobility scenarios. Our results demonstrate that the proposed approach outperforms existing state-of-the-art predictive models, achieving superior performance across various geometries. Moreover, we show that the meta-learning framework significantly enhances the performance of recurrent-based predictive models in highly challenging cross-geometry settings, thus highlighting its robustness and adaptability.
翻訳日:2024-09-17 16:40:52 公開日:2024-09-16
# バイトからビットへ:国別機械学習モデルを使って飢餓を予測する

From Bytes to Bites: Using Country Specific Machine Learning Models to Predict Famine ( http://arxiv.org/abs/2409.09980v1 )

ライセンス: Link先を確認
Salloni Kapoor, Simeon Sayer, (参考訳) 飢餓の危機は、特に低所得国や発展途上国で、何百万もの人に影響を及ぼす重要な世界的な問題である。 本研究では、飢餓と飢餓の危機に関する意思決定を予測し、伝達するために機械学習をどのように利用できるかを検討する。 多様な変数(自然、経済、紛争関連)を活用することで、家庭栄養の重要な指標である食品消費スコアを予測するために、3つの機械学習モデル(Linear Regression、XGBoost、RandomForestRegressor)が採用された。 RandomForestRegressorは、平均予測誤差が10.6%の最も正確なモデルとして登場したが、精度は2%から30%を超える国で大きく変化した。 特に、経済指標は平均的な家庭の栄養の最も重要な予測因子であり、すべての地域で支配的な特徴は存在せず、包括的なデータ収集と国別モデルの必要性を強調した。 これらの知見は、飢餓予測を強化する機械学習、特にランダムフォレストの可能性を強調し、より効果的な飢餓予測には、継続的な研究とデータ収集の改善が不可欠であることを示唆している。

Hunger crises are critical global issues affecting millions, particularly in low-income and developing countries. This research investigates how machine learning can be utilized to predict and inform decisions regarding famine and hunger crises. By leveraging a diverse set of variables (natural, economic, and conflict-related), three machine learning models (Linear Regression, XGBoost, and RandomForestRegressor) were employed to predict food consumption scores, a key indicator of household nutrition. The RandomForestRegressor emerged as the most accurate model, with an average prediction error of 10.6%, though accuracy varied significantly across countries, ranging from 2% to over 30%. Notably, economic indicators were consistently the most significant predictors of average household nutrition, while no single feature dominated across all regions, underscoring the necessity for comprehensive data collection and tailored, country-specific models. These findings highlight the potential of machine learning, particularly Random Forests, to enhance famine prediction, suggesting that continued research and improved data gathering are essential for more effective global hunger forecasting.
翻訳日:2024-09-17 16:40:52 公開日:2024-09-16
# バッチサイズの増加と学習速度の低下を利用したシャープネスを考慮した最小化アルゴリズムの収束性

Convergence of Sharpness-Aware Minimization Algorithms using Increasing Batch Size and Decaying Learning Rate ( http://arxiv.org/abs/2409.09984v1 )

ライセンス: Link先を確認
Hinata Harada, Hideaki Iiduka, (参考訳) シャープネス認識最小化(SAM)アルゴリズムとその変種であるギャップガイドSAM(GSAM)は、訓練における経験的損失の平坦な局所最小値を見つけることにより、ディープニューラルネットワークモデルの一般化能力の向上に成功している。 一方, バッチサイズの増加や学習速度の低下は, 経験的損失の急激な局所的最小化を回避できることが理論的に, 実用的に証明されている。 本稿では,コサインアニールや線形学習率などのバッチサイズの増加や学習速度の低下を考慮したGSAMアルゴリズムについて考察し,その収束性を理論的に示す。 さらに,SAM(GSAM)とバッチサイズの増加の有無を数値的に比較した結果,バッチサイズの増加や学習速度の低下は,一定のバッチサイズや学習率よりも平坦な局所最小値を求めることがわかった。

The sharpness-aware minimization (SAM) algorithm and its variants, including gap guided SAM (GSAM), have been successful at improving the generalization capability of deep neural network models by finding flat local minima of the empirical loss in training. Meanwhile, it has been shown theoretically and practically that increasing the batch size or decaying the learning rate avoids sharp local minima of the empirical loss. In this paper, we consider the GSAM algorithm with increasing batch sizes or decaying learning rates, such as cosine annealing or linear learning rate, and theoretically show its convergence. Moreover, we numerically compare SAM (GSAM) with and without an increasing batch size and conclude that using an increasing batch size or decaying learning rate finds flatter local minima than using a constant batch size and learning rate.
翻訳日:2024-09-17 16:40:52 公開日:2024-09-16
# 感性分析に関する総合的研究:ルールベースから近代LLMシステムへ

Comprehensive Study on Sentiment Analysis: From Rule-based to modern LLM based system ( http://arxiv.org/abs/2409.09989v1 )

ライセンス: Link先を確認
Shailja Gupta, Rajesh Ranjan, Surya Narayan Singh, (参考訳) 本稿では,人工知能(AI)と大規模言語モデル(LLM)の文脈における感情分析を包括的に調査する。 自然言語処理(NLP)の重要な側面である知覚分析は、従来のルールベースの手法から高度なディープラーニング技術へと大きく進化してきた。 本研究では、感情分析の歴史的発展を考察し、レキシコンベースおよびパターンベースアプローチから、より洗練された機械学習およびディープラーニングモデルへの移行を強調した。 バイリンガルテキストの処理、皮肉の検出、バイアスへの対処など、主な課題が議論されている。 本稿は、最先端のアプローチをレビューし、新たなトレンドを特定し、今後の研究の方向性を概説する。 この調査は、現在の方法論を合成し、将来の機会を探ることにより、AIとLLMの文脈における感情分析を徹底的に理解することを目的としている。

This paper provides a comprehensive survey of sentiment analysis within the context of artificial intelligence (AI) and large language models (LLMs). Sentiment analysis, a critical aspect of natural language processing (NLP), has evolved significantly from traditional rule-based methods to advanced deep learning techniques. This study examines the historical development of sentiment analysis, highlighting the transition from lexicon-based and pattern-based approaches to more sophisticated machine learning and deep learning models. Key challenges are discussed, including handling bilingual texts, detecting sarcasm, and addressing biases. The paper reviews state-of-the-art approaches, identifies emerging trends, and outlines future research directions to advance the field. By synthesizing current methodologies and exploring future opportunities, this survey aims to understand sentiment analysis in the AI and LLM context thoroughly.
翻訳日:2024-09-17 16:40:52 公開日:2024-09-16
# Shire:強化学習における人間の直感によるサンプル効率の向上

SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning ( http://arxiv.org/abs/2409.09990v1 )

ライセンス: Link先を確認
Amogh Joshi, Adarsh Kumar Kosta, Kaushik Roy, (参考訳) ニューラルネットワークが、深度や光フローの推定、同時局所化とマッピング(SLAM)、自動制御といったロボット知覚と制御タスクを実行する能力は、近年広く採用されている。 深層強化学習(Deep Reinforcement Learning)は、教師あり学習に関連する持続不可能なトレーニングコストを持たないため、これらの設定で広く使用されている。 しかし、DeepRLはサンプル効率の低さ、すなわち許容できる解に収束するためには、多数の環境相互作用を必要とする。 Deep Q LearningやSoft Actor-Criticのような現代のRLアルゴリズムは、この欠点を解決しようとするが、自律ロボット工学のようなアプリケーションで必要とされる説明責任は提供できない。 人間はロボット工学に共通する長年の水平連続的なタスクを直感的に理解する。 このような直観を適切に利用すれば、RLポリシーはより説明しやすくなり、サンプル効率が向上する。 本稿では,確率的グラフィカルモデル(PGM)を用いて人間の直観を符号化し,サンプル効率を高めるためにDeep RLトレーニングパイプラインで使用するための新しいフレームワークであるShireを提案する。 我々のフレームワークは、評価対象環境の25~78%のサンプル効率を、無視可能なオーバーヘッドコストで達成する。 さらに、RLエージェントにコード化された初等行動を教えることで、政策説明可能性を高める。 実世界のデモでは、私たちのフレームワークを使ってトレーニングされたポリシーの有効性をさらに強調しています。

The ability of neural networks to perform robotic perception and control tasks such as depth and optical flow estimation, simultaneous localization and mapping (SLAM), and automatic control has led to their widespread adoption in recent years. Deep Reinforcement Learning has been used extensively in these settings, as it does not have the unsustainable training costs associated with supervised learning. However, DeepRL suffers from poor sample efficiency, i.e., it requires a large number of environmental interactions to converge to an acceptable solution. Modern RL algorithms such as Deep Q Learning and Soft Actor-Critic attempt to remedy this shortcoming but can not provide the explainability required in applications such as autonomous robotics. Humans intuitively understand the long-time-horizon sequential tasks common in robotics. Properly using such intuition can make RL policies more explainable while enhancing their sample efficiency. In this work, we propose SHIRE, a novel framework for encoding human intuition using Probabilistic Graphical Models (PGMs) and using it in the Deep RL training pipeline to enhance sample efficiency. Our framework achieves 25-78% sample efficiency gains across the environments we evaluate at negligible overhead cost. Additionally, by teaching RL agents the encoded elementary behavior, SHIRE enhances policy explainability. A real-world demonstration further highlights the efficacy of policies trained using our framework.
翻訳日:2024-09-17 16:40:52 公開日:2024-09-16
# 2つの原子量子ビット間のイオン媒介相互作用と制御相ゲート操作

Ion-mediated interaction and controlled phase gate operation between two atomic qubits ( http://arxiv.org/abs/2409.09991v1 )

ライセンス: Link先を確認
Subhra Mudli, Subhanka Mal, Sinchan Snigdha Rej, Anushree Dey, Bimalendu Deb, (参考訳) 量子コンピューティングのためのイオン-原子ハイブリッド量子システムの玩具モデルを提案する。 2つの大きく分離された光学的ツイーザの2つの原子量子ビットが、Rydbergの励起を通じて1つの閉じ込められたイオンと相互作用すると、直接原子間相互作用を超えるイオンを介する原子-原子相互作用が存在することを示す。 我々はこの相互作用を用いて、個々の原子量子ビットをレーザーで処理することにより、97 %の忠実度で2量子制御位相ゲートの動作を示す。

We propose a toy model of ion-atom hybrid quantum system for quantum computing. We show that when two atomic qubits in two largely separated optical tweezers interact with a single trapped ion through Rydberg excitation of the atoms, there exists an ion-mediated atom-atom interaction which exceeds the direct interatomic interaction. We employ this mediated interaction to demonstrate two-qubit control phase gate operation with 97\% fidelity by addressing the individual atomic qubits with lasers.
翻訳日:2024-09-17 16:40:52 公開日:2024-09-16
# FreeMark: ディープニューラルネットワークのための非侵襲的なホワイトボックス透かし

FreeMark: A Non-Invasive White-Box Watermarking for Deep Neural Networks ( http://arxiv.org/abs/2409.09996v1 )

ライセンス: Link先を確認
Yuzhang Chen, Jiangnan Zhu, Yujie Gu, Minoru Kuribayashi, Kouichi Sakurai, (参考訳) ディープニューラルネットワーク(DNN)は、現実世界のアプリケーションで大きな成功を収めています。 しかし、知的財産権(IP)の保護は依然として極めて困難である。 IP保護のための既存のDNN透かしは、しばしばDNNモデルの変更を必要とし、モデルの性能を低下させ、実用性を制限する。 本稿では,元のホストDNNモデルを変更することなく,暗号原理を活用する新しいDNN透かしフレームワークであるFreeMarkを紹介し,モデル性能の低下を回避する。 従来のDNNの透かし法とは異なり、FreeMarkは、勾配降下を用いた予め生成された透かしベクトルとホストモデルから秘密鍵を革新的な方法で生成する。 これらの秘密鍵は、モデルのアクティベーション値から透かしを抽出するために使用され、信頼できる第三者に確実に保管され、疑似モデルから信頼できる透かしを抽出することができる。 大規模な実験では、FreeMarkは高い透かし容量を維持しながら、様々な透かし除去攻撃に効果的に抵抗することを示した。

Deep neural networks (DNNs) have achieved significant success in real-world applications. However, safeguarding their intellectual property (IP) remains extremely challenging. Existing DNN watermarking for IP protection often require modifying DNN models, which reduces model performance and limits their practicality. This paper introduces FreeMark, a novel DNN watermarking framework that leverages cryptographic principles without altering the original host DNN model, thereby avoiding any reduction in model performance. Unlike traditional DNN watermarking methods, FreeMark innovatively generates secret keys from a pre-generated watermark vector and the host model using gradient descent. These secret keys, used to extract watermark from the model's activation values, are securely stored with a trusted third party, enabling reliable watermark extraction from suspect models. Extensive experiments demonstrate that FreeMark effectively resists various watermark removal attacks while maintaining high watermark capacity.
翻訳日:2024-09-17 16:30:58 公開日:2024-09-16
# SelECT-SQL: テキストからSQLへの自己修正型アンサンブルチェーン

SelECT-SQL: Self-correcting ensemble Chain-of-Thought for Text-to-SQL ( http://arxiv.org/abs/2409.10007v1 )

ライセンス: Link先を確認
Ke Shen, Mayank Kejriwal, (参考訳) 近年,自然言語処理とデータ管理研究の交わりにおいて,テキストからSQLへの質問の自動変換が重要な問題となっている。 大規模言語モデル(LLM)は、既製のパフォーマンスで使用する場合、素晴らしいパフォーマンスを提供するが、それでも期待される専門家レベルのパフォーマンスには著しく劣っている。 適切なText-to-SQL変換を行うために、データベーススキーマ、質問、SQL句のニュアンスな理解が必要な場合、エラーは特に起こり得る。 我々は、SelECT-SQLを紹介した。これは新しいコンテキスト内学習ソリューションで、CoT(Chain-of-Thought)プロンプト、自己補正、アンサンブルメソッドのアルゴリズムの組み合わせを使って、挑戦的なText-to-SQLベンチマークにおいて、新しい最先端の結果を得る。 具体的には、GPT-3.5-TurboをベースLLMとして使用する場合、SelECT-SQLは、他のベースラインのGPT-3.5-Turboベースのソリューション(81.1%)の最高の結果と、GPT-4の結果のピーク性能(83.5%)の両方を、Spiderのリーダーボードの開発セット上で84.2%の実行精度を達成する。

In recent years,Text-to-SQL, the problem of automatically converting questions posed in natural language to formal SQL queries, has emerged as an important problem at the intersection of natural language processing and data management research. Large language models (LLMs) have delivered impressive performance when used in an off-the-shelf performance, but still fall significantly short of expected expert-level performance. Errors are especially probable when a nuanced understanding is needed of database schemas, questions, and SQL clauses to do proper Text-to-SQL conversion. We introduce SelECT-SQL, a novel in-context learning solution that uses an algorithmic combination of chain-of-thought (CoT) prompting, self-correction, and ensemble methods to yield a new state-of-the-art result on challenging Text-to-SQL benchmarks. Specifically, when configured using GPT-3.5-Turbo as the base LLM, SelECT-SQL achieves 84.2% execution accuracy on the Spider leaderboard's development set, exceeding both the best results of other baseline GPT-3.5-Turbo-based solutions (81.1%), and the peak performance (83.5%) of the GPT-4 result reported on the leaderboard.
翻訳日:2024-09-17 16:30:58 公開日:2024-09-16
# 光共振器は普遍スピンシミュレータを構成する

Optical resonators constitute a universal spin simulator ( http://arxiv.org/abs/2409.10010v1 )

ライセンス: Link先を確認
Wouter Verstraelen, Timothy C. H. Liew, (参考訳) NPハード計算問題を有効スピンモデルの基底状態として効率的に再キャストすることができる。 しかし、今のところ、固定された問題のサイズであっても、それら全てを普遍的にシミュレートできる便利な設定は存在しない。 ここでは、最近導入された[Phys. Rev. Applied 21, 024057 (2024)]で導入された幾何学を用いて、鎖に配列された一連の光(または偏光)共振器を用いて、このような構成を示す。 シミュレーションがハミルトンサイクルと旅行セールスマンの問題をどのように解決するかを例に示し、任意の大きさのNPハード問題に一般化することを示す。

NP-hard computational problems can be efficiently recast as finding the ground state of an effective spin model. However, to date no convenient setup exists that can universally simulate all of them, even for a fixed problem size. Here we present such a setup, using a series of optical (or polaritonic) resonators arranged in a chain using the geometry recently introduced in [Phys. Rev. Applied 21, 024057 (2024)]. We demonstrate by example how the simulator solves Hamiltonian Cycle and traveling salesman problems, and show that it generalises to any NP-hard problem of arbitrary size.
翻訳日:2024-09-17 16:30:58 公開日:2024-09-16
# HALO:検索コンテキストを付加したLLMの指導的意思決定のための幻覚分析と学習最適化

HALO: Hallucination Analysis and Learning Optimization to Empower LLMs with Retrieval-Augmented Context for Guided Clinical Decision Making ( http://arxiv.org/abs/2409.10011v1 )

ライセンス: Link先を確認
Sumera Anjum, Hanzhi Zhang, Wenjun Zhou, Eun Jin Paek, Xiaopeng Zhao, Yunhe Feng, (参考訳) 大規模言語モデル(LLM)は、かなり高度な自然言語処理タスクを持つが、不正確な、または信頼できない応答を生じさせる可能性がある。 健康や医学などの重要な領域では、これらの幻覚は深刻なリスクを引き起こす可能性がある。 本稿では,幻覚の検出と緩和に着目し,QAシステムの精度と信頼性を高めるための新しいフレームワークであるHALOを紹介する。 提案手法は,LLMを用いて与えられたクエリの複数のバリエーションを生成し,外部のオープン知識ベースから関連する情報を取得し,コンテキストを豊かにする。 我々は,最大限界関連スコアを用いて検索した文脈を優先順位付けし,回答生成のためにLLMに提供し,幻覚のリスクを低減する。 LangChainの統合により、Llama-3.1 (44%から65%) やChatGPT (56%から70%) といったオープンソースと商用両方のLCMの精度が著しく向上した。 この枠組みは、医学的QAシステムにおける幻覚に対処することの重要性を強調し、最終的に臨床的意思決定と患者ケアを改善する。 オープンソースのHALOは、https://github.com/ResponsibleAILab/HALOで入手できる。

Large language models (LLMs) have significantly advanced natural language processing tasks, yet they are susceptible to generating inaccurate or unreliable responses, a phenomenon known as hallucination. In critical domains such as health and medicine, these hallucinations can pose serious risks. This paper introduces HALO, a novel framework designed to enhance the accuracy and reliability of medical question-answering (QA) systems by focusing on the detection and mitigation of hallucinations. Our approach generates multiple variations of a given query using LLMs and retrieves relevant information from external open knowledge bases to enrich the context. We utilize maximum marginal relevance scoring to prioritize the retrieved context, which is then provided to LLMs for answer generation, thereby reducing the risk of hallucinations. The integration of LangChain further streamlines this process, resulting in a notable and robust increase in the accuracy of both open-source and commercial LLMs, such as Llama-3.1 (from 44% to 65%) and ChatGPT (from 56% to 70%). This framework underscores the critical importance of addressing hallucinations in medical QA systems, ultimately improving clinical decision-making and patient care. The open-source HALO is available at: https://github.com/ResponsibleAILab/HALO.
翻訳日:2024-09-17 16:30:58 公開日:2024-09-16
# AceParse: 学術文献解析のための多言語構造化テキストを用いた総合データセット

AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing ( http://arxiv.org/abs/2409.10016v1 )

ライセンス: Link先を確認
Huawei Ji, Cheng Deng, Bo Xue, Zhouyang Jin, Jiaxin Ding, Xiaoying Gan, Luoyi Fu, Xinbing Wang, Chenghu Zhou, (参考訳) データ中心のAIの開発により、モデル駆動のアプローチからデータ品質の改善へと焦点が移った。 アカデミック文学は、重要なタイプの1つであり、主にPDF形式で保存されており、さらなる処理の前にテキストに解析する必要がある。 しかし、さまざまなテキスト構造をカバーするデータセットが不足しているため、学術文献で多種多様な構造化テキストを解析することは依然として困難である。 本稿では,式,表,リスト,アルゴリズム,組込み数式を含む幅広い構造化テキストの構文解析をサポートするために設計された,最初の包括的データセットであるAceParseを紹介する。 AceParserという名前のマルチモーダルモデルを微調整し、学術文献の様々な構造化テキストを正確に解析した。 このモデルはF1スコアで4.1%、Jaccard類似度で5%、学術文献解析におけるマルチモーダルモデルの可能性を示している。 私たちのデータセットはhttps://github.com/JHW5981/AceParseで公開されています。

With the development of data-centric AI, the focus has shifted from model-driven approaches to improving data quality. Academic literature, as one of the crucial types, is predominantly stored in PDF formats and needs to be parsed into texts before further processing. However, parsing diverse structured texts in academic literature remains challenging due to the lack of datasets that cover various text structures. In this paper, we introduce AceParse, the first comprehensive dataset designed to support the parsing of a wide range of structured texts, including formulas, tables, lists, algorithms, and sentences with embedded mathematical expressions. Based on AceParse, we fine-tuned a multimodal model, named AceParser, which accurately parses various structured texts within academic literature. This model outperforms the previous state-of-the-art by 4.1% in terms of F1 score and by 5% in Jaccard Similarity, demonstrating the potential of multimodal models in academic literature parsing. Our dataset is available at https://github.com/JHW5981/AceParse.
翻訳日:2024-09-17 16:30:58 公開日:2024-09-16
# LithoHoD:ICレイアウトホットスポット検出のためのLithoシミュレータ駆動フレームワーク

LithoHoD: A Litho Simulator-Powered Framework for IC Layout Hotspot Detection ( http://arxiv.org/abs/2409.10021v1 )

ライセンス: Link先を確認
Hao-Chiang Shao, Guan-Yu Chen, Yu-Hsien Lin, Chia-Wen Lin, Shao-Yun Fang, Pin-Yian Tsai, Yan-Hsiu Liu, (参考訳) 近年のVLSI製造技術の進歩は、ダイス収縮とレイアウト密度の増大をもたらし、高度なホットスポット検出技術への緊急な需要を生み出している。 しかし、物体検出ネットワークをバックボーンとすることで、最近の学習ベースのホットスポット検出器は、トレーニングデータ内の問題のあるレイアウトパターンのみを認識することを学ぶ。 この事実は、これらのホットスポット検出器を現実世界のシナリオに一般化することを困難にしている。 本稿では,この難易度を克服するために,リソグラフィーシミュレータを用いた新しいホットスポット検出フレームワークを提案する。 本フレームワークは,リソグラフィーシミュレータとオブジェクト検出バックボーンを統合し,よく設計されたクロスアテンションブロックを介して,シミュレータとオブジェクト検出器の両方から抽出した潜時特徴をマージする。 その結果、提案手法は、(I)リソグラフィーシミュレータによって推定される回路形状の変動の可能性、(i)既に知られている問題のあるレイアウトパターンの変動に基づいて、潜在的ホットスポット領域を検出するのに利用できる。 そこで,我々はRetinaNetを特徴ピラミッドネットワークをオブジェクト検出バックボーンとして利用し,LithoNetをリソグラフィシミュレータとして利用する。 提案したシミュレータ誘導ホットスポット検出フレームワークは,実世界のデータに対する従来の最先端手法よりも優れていた。

Recent advances in VLSI fabrication technology have led to die shrinkage and increased layout density, creating an urgent demand for advanced hotspot detection techniques. However, by taking an object detection network as the backbone, recent learning-based hotspot detectors learn to recognize only the problematic layout patterns in the training data. This fact makes these hotspot detectors difficult to generalize to real-world scenarios. We propose a novel lithography simulator-powered hotspot detection framework to overcome this difficulty. Our framework integrates a lithography simulator with an object detection backbone, merging the extracted latent features from both the simulator and the object detector via well-designed cross-attention blocks. Consequently, the proposed framework can be used to detect potential hotspot regions based on I) the variation of possible circuit shape deformation estimated by the lithography simulator, and ii) the problematic layout patterns already known. To this end, we utilize RetinaNet with a feature pyramid network as the object detection backbone and leverage LithoNet as the lithography simulator. Extensive experiments demonstrate that our proposed simulator-guided hotspot detection framework outperforms previous state-of-the-art methods on real-world data.
翻訳日:2024-09-17 16:30:58 公開日:2024-09-16
# 強化学習に基づくフレーバーからのアクシオンモデルの統計的探索戦略

Reinforcement learning-based statistical search strategy for an axion model from flavor ( http://arxiv.org/abs/2409.10023v1 )

ライセンス: Link先を確認
Satsuki Nishimura, Coh Miyao, Hajime Otsuka, (参考訳) 標準モデルを超えて新しい物理を探求するための強化学習に基づく探索戦略を提案する。 強化学習は、機械学習手法の一つであり、現象論的制約のあるモデルパラメータを見つけるための強力なアプローチである。 具体的な例として、大域的な$U(1)$フレーバー対称性を持つ最小のアクシオンモデルに焦点を当てる。 学習エージェントは、クォークとレプトンの代入として、標準模型のフレーバーと宇宙論のパズルを解くことに成功し、クォークセクターに対する150以上の現実的な解決策を見出した。 強化学習に基づく解析から得られた解について,自然に壊れた$U(1)$のNambu-Goldstoneボソンであるアクシオンの検出に対する将来の実験の感度について論じる。 また、従来の最適化手法と比較して、強化学習に基づく探索手法が最適な離散パラメータを見つける速度についても検討した。 結論として、強化学習に基づく戦略に基づく効率的なパラメータ探索により、アクシオンモデルに関連する広大なパラメータ空間の統計的解析をフレーバーから行うことができる。

We propose a reinforcement learning-based search strategy to explore new physics beyond the Standard Model. The reinforcement learning, which is one of machine learning methods, is a powerful approach to find model parameters with phenomenological constraints. As a concrete example, we focus on a minimal axion model with a global $U(1)$ flavor symmetry. Agents of the learning succeed in finding $U(1)$ charge assignments of quarks and leptons solving the flavor and cosmological puzzles in the Standard Model, and find more than 150 realistic solutions for the quark sector taking renormalization effects into account. For the solutions found by the reinforcement learning-based analysis, we discuss the sensitivity of future experiments for the detection of an axion which is a Nambu-Goldstone boson of the spontaneously broken $U(1)$. We also examine how fast the reinforcement learning-based searching method finds the best discrete parameters in comparison with conventional optimization methods. In conclusion, the efficient parameter search based on the reinforcement learning-based strategy enables us to perform a statistical analysis of the vast parameter space associated with the axion model from flavor.
翻訳日:2024-09-17 16:30:58 公開日:2024-09-16
# E2Map:言語モデルを用いた自己反射型ロボットナビゲーションのための経験・感情マップ

E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models ( http://arxiv.org/abs/2409.10027v1 )

ライセンス: Link先を確認
Chan Kim, Keonwoo Kim, Mintaek Oh, Hanbi Baek, Jiyang Lee, Donghwi Jung, Soojin Woo, Younkyung Woo, John Tucker, Roya Firoozi, Seung-Woo Seo, Mac Schwager, Seong-Woo Kim, (参考訳) 大型言語モデル (LLM) は、ロボット操作やナビゲーションを含む様々なタスクで言語命令を実行するためのエンボディエージェントを誘導する大きな可能性を示している。 しかし、既存の手法は主に静的環境向けに設計されており、エージェント自身の経験を生かして初期計画を洗練しない。 現実の環境は本質的に確率的であるため、LLMの一般的な知識のみに基づく初期計画は、静的シナリオとは異なり、目的達成に失敗する可能性がある。 この制限に対処するため、本研究では、LLM知識だけでなく、エージェントの現実世界の経験も統合し、人間の感情反応からインスピレーションを得るエクスペリエンス・アンド・感情マップ(E2Map)を紹介した。 提案手法はエージェントの経験に基づいてE2Mapを更新することでワンショット動作調整を可能にする。 シミュレーションと実世界のシナリオを含む確率的ナビゲーション環境における評価は,提案手法が従来のLCM手法と比較して確率的環境の性能を著しく向上することを示した。 コードと補足資料はhttps://e2map.github.io/.com/で入手できる。

Large language models (LLMs) have shown significant potential in guiding embodied agents to execute language instructions across a range of tasks, including robotic manipulation and navigation. However, existing methods are primarily designed for static environments and do not leverage the agent's own experiences to refine its initial plans. Given that real-world environments are inherently stochastic, initial plans based solely on LLMs' general knowledge may fail to achieve their objectives, unlike in static scenarios. To address this limitation, this study introduces the Experience-and-Emotion Map (E2Map), which integrates not only LLM knowledge but also the agent's real-world experiences, drawing inspiration from human emotional responses. The proposed methodology enables one-shot behavior adjustments by updating the E2Map based on the agent's experiences. Our evaluation in stochastic navigation environments, including both simulations and real-world scenarios, demonstrates that the proposed method significantly enhances performance in stochastic environments compared to existing LLM-based approaches. Code and supplementary materials are available at https://e2map.github.io/.
翻訳日:2024-09-17 16:30:58 公開日:2024-09-16
# AttnMod: 注意に基づく新しいアートスタイル

AttnMod: Attention-Based New Art Styles ( http://arxiv.org/abs/2409.10028v1 )

ライセンス: Link先を確認
Shih-Chieh Su, (参考訳) 拡散モデルの生成された写真を見て、そこから絵を作りたいという人間のアーティストを想像してみてほしい。 写真には、アーティストが強調したいいくつかの特徴、散らばる色、ねじるシルエット、あるいはシーンの一部が具体化されているかもしれない。 これらの意図は、解凍拡散中のUNetへのテキストプロンプトからのクロスアテンションの修正と見なすことができる。 この研究は、既存の拡散モデルから新しいプロンプタブルなアートスタイルを作成するために注意を向けるAttnModを提示する。 スタイル作成の振る舞いは、異なる設定で研究される。

Imagine a human artist looking at the generated photo of a diffusion model, and hoping to create a painting out of it. There could be some feature of the object in the photo that the artist wants to emphasize, some color to disperse, some silhouette to twist, or some part of the scene to be materialized. These intentions can be viewed as the modification of the cross attention from the text prompt onto UNet, during the desoising diffusion. This work presents AttnMod, to modify attention for creating new unpromptable art styles out of existing diffusion models. The style-creating behavior is studied across different setups.
翻訳日:2024-09-17 16:30:58 公開日:2024-09-16
# 高次元予測回帰に対するLASSO推論について

On LASSO Inference for High Dimensional Predictive Regression ( http://arxiv.org/abs/2409.10030v1 )

ライセンス: Link先を確認
Zhan Gao, Ji Hyung Lee, Ziwei Mei, Zhentao Shi, (参考訳) LASSOは推定係数に縮退バイアスを導入し、望まれる漸近的正規性に悪影響を及ぼし、$t$-statisticに基づいて標準推論手順を無効化する。 LASSOは、この問題に対するよく知られた治療法として登場した。 高次元の予測回帰の文脈では、分離されたLASSOは、非定常回帰器から生じるスタンボーバイアスという別の課題に直面している。 そこで本研究では,IVX分離LASSO (XDlasso) と呼ばれる新しい推定器を提案する。 XDlassoは収縮バイアスとスタンボーバイアスを同時に排除し、非定常および定常回帰器のアイデンティティに関する事前知識を必要としない。 仮説テストのためのXDlassoの漸近特性を確立し,モンテカルロシミュレーションによって理論的知見が裏付けられる。 制御変数の豊富なセットを含むFRED-MDデータベースから実世界のアプリケーションにメソッドを適用することで、2つの重要な経験的質問を調査します。 一 利益-物価比に基づく米国株のリターンの予測可能性及び (二)失業率による米国のインフレの予測可能性

LASSO introduces shrinkage bias into estimated coefficients, which can adversely affect the desirable asymptotic normality and invalidate the standard inferential procedure based on the $t$-statistic. The desparsified LASSO has emerged as a well-known remedy for this issue. In the context of high dimensional predictive regression, the desparsified LASSO faces an additional challenge: the Stambaugh bias arising from nonstationary regressors. To restore the standard inferential procedure, we propose a novel estimator called IVX-desparsified LASSO (XDlasso). XDlasso eliminates the shrinkage bias and the Stambaugh bias simultaneously and does not require prior knowledge about the identities of nonstationary and stationary regressors. We establish the asymptotic properties of XDlasso for hypothesis testing, and our theoretical findings are supported by Monte Carlo simulations. Applying our method to real-world applications from the FRED-MD database -- which includes a rich set of control variables -- we investigate two important empirical questions: (i) the predictability of the U.S. stock returns based on the earnings-price ratio, and (ii) the predictability of the U.S. inflation using the unemployment rate.
翻訳日:2024-09-17 16:30:58 公開日:2024-09-16
# GPT-O1は全バグを消せるか?

Can GPT-O1 Kill All Bugs? ( http://arxiv.org/abs/2409.10033v1 )

ライセンス: Link先を確認
Haichuan Hu, Ye Shang, Guolin Xu, Congqing He, Quanjun Zhang, (参考訳) ChatGPTは長年、自動プログラム修復(APR)に有効であることが証明されてきた。 ChatGPTの継続的なイテレーションとアップグレードにより、修正点におけるパフォーマンスは、すでに最先端レベルに達している。 しかし、APR上でのChatGPTの異なるバージョンの有効性とバリエーションを比較する研究はほとんどない。 本研究では,最新のChatGPT(O1-preview and O1-mini),ChatGPT-4o,およびAPRにおけるChatGPTの歴史的評価を行った。 複数の観点から,従来のChatGPTに比べてO1モデルの改善を検討した結果,O1の修復能力が従来のChatGPTよりも優れており,ベンチマークの40のバグの修正に成功していることがわかった。 我々の研究は、APRにおけるChatGPTの応用の詳細な調査の参考となる。

ChatGPT has long been proven to be effective in automatic program repair (APR). With the continuous iterations and upgrades of the ChatGPT version, its performance in terms of fixes has already reached state-of-the-art levels. However, there are few works comparing the effectiveness and variations of different versions of ChatGPT on APR. In this work, we evaluate the performance of the latest version of ChatGPT (O1-preview and O1-mini), ChatGPT-4o, and historical version of ChatGPT on APR. We study the improvements of the O1 model over traditional ChatGPT in terms of APR from multiple perspectives (repair success rate, repair cost, behavior patterns), and find that O1's repair capability exceeds that of traditional ChatGPT, successfully fixing all 40 bugs in the benchmark. Our work can serve as a reference for further in-depth exploration of the applications of ChatGPT in APR.
翻訳日:2024-09-17 16:30:58 公開日:2024-09-16
# 思考のダイアグラムについて

On the Diagram of Thought ( http://arxiv.org/abs/2409.10038v1 )

ライセンス: Link先を確認
Yifan Zhang, Yang Yuan, Andrew Chi-Chih Yao, (参考訳) 本研究では,大規模言語モデル (LLM) において反復推論をモデル化するフレームワークであるDiagram of Thought (DoT) を,1つのモデル内での有向非巡回グラフ (DAG) の構成として導入する。 推論を線形連鎖や木として表現する伝統的なアプローチとは異なり、DoTは命題、批評、洗練、検証を結合的なDAG構造に整理し、モデルが論理的整合性を維持しながら複雑な推論経路を探索できるようにする。 ダイアグラムの各ノードは提案、批判、洗練、検証された命題に対応しており、LLMは自然言語のフィードバックを通じて推論を反復的に改善することができる。 自動回帰的次トーケン予測とロール固有のトークンを活用することで、DoTはアイデアの提案と批判的な評価のシームレスな移行を促進し、バイナリ信号よりもリッチなフィードバックを提供する。 さらに、トポス理論を用いてDoTフレームワークを形式化し、推論過程における論理的一貫性と健全性を保証する数学的基盤を提供する。 このアプローチは、単一のLLM内のトレーニングプロセスと推論プロセスの両方を強化し、複数のモデルや外部制御機構の必要性を排除します。 DoTは、次世代の推論特化モデルを設計するための概念的フレームワークを提供し、トレーニング効率、堅牢な推論能力、理論的基礎付けを強調している。 コードはhttps://github.com/diagram-of- Thought/diagram-of- Thoughtで公開されている。

We introduce Diagram of Thought (DoT), a framework that models iterative reasoning in large language models (LLMs) as the construction of a directed acyclic graph (DAG) within a single model. Unlike traditional approaches that represent reasoning as linear chains or trees, DoT organizes propositions, critiques, refinements, and verifications into a cohesive DAG structure, allowing the model to explore complex reasoning pathways while maintaining logical consistency. Each node in the diagram corresponds to a proposition that has been proposed, critiqued, refined, or verified, enabling the LLM to iteratively improve its reasoning through natural language feedback. By leveraging auto-regressive next-token prediction with role-specific tokens, DoT facilitates seamless transitions between proposing ideas and critically evaluating them, providing richer feedback than binary signals. Furthermore, we formalize the DoT framework using Topos Theory, providing a mathematical foundation that ensures logical consistency and soundness in the reasoning process. This approach enhances both the training and inference processes within a single LLM, eliminating the need for multiple models or external control mechanisms. DoT offers a conceptual framework for designing next-generation reasoning-specialized models, emphasizing training efficiency, robust reasoning capabilities, and theoretical grounding. The code is available at https://github.com/diagram-of-thought/diagram-of-thought.
翻訳日:2024-09-17 16:30:58 公開日:2024-09-16
# DENSER:ダイナミックな都市環境を再現する3Dガウススプレイティング

DENSER: 3D Gaussians Splatting for Scene Reconstruction of Dynamic Urban Environments ( http://arxiv.org/abs/2409.10041v1 )

ライセンス: Link先を確認
Mahmud A. Mohamad, Gamal Elghazaly, Arthur Hubert, Raphael Frank, (参考訳) 本稿では,3次元ガウススプラッティング(3DGS)を有効利用した動的都市環境の再構築手法であるDENSERを提案する。 光写実的シーン表現のいくつかの手法は、暗黙的にニューラルラディアンス場(NeRF)を使用し、3DGSを明示的に使用することにより、比較的複雑な動的シーンのシーン再構成において有望な結果を示す一方で、前景オブジェクトのダイナミックな外観をモデル化することは困難であり、これらの手法の適用性は、シーンの微妙さや詳細、特に遠くのダイナミックなオブジェクトを捉えるために制限される。 この目的のために,動的オブジェクトの表現を大幅に強化し,運転シーンにおける動的オブジェクトの外観を正確にモデル化するフレームワークであるDENSERを提案する。 動的オブジェクトの外観をモデル化するために,Spherical Harmonics(SH)を直接使用する代わりに,ウェーブレットを用いてSHベースを動的に推定することを目的とした新しい手法を導入,統合し,空間と時間の両方で動的オブジェクトの外観を表現する。 オブジェクトの外観に加えて、DENSERは複数のシーンフレームにまたがる点雲の密度化を通じてオブジェクトの形状表現を強化し、モデルトレーニングのより高速な収束をもたらす。 KITTIデータセットの大規模な評価は,提案手法が最先端手法よりも広いマージンで大幅に優れていることを示している。 ソースコードとモデルは、このリポジトリ https://github.com/sntubix/denserにアップロードされる。

This paper presents DENSER, an efficient and effective approach leveraging 3D Gaussian splatting (3DGS) for the reconstruction of dynamic urban environments. While several methods for photorealistic scene representations, both implicitly using neural radiance fields (NeRF) and explicitly using 3DGS have shown promising results in scene reconstruction of relatively complex dynamic scenes, modeling the dynamic appearance of foreground objects tend to be challenging, limiting the applicability of these methods to capture subtleties and details of the scenes, especially far dynamic objects. To this end, we propose DENSER, a framework that significantly enhances the representation of dynamic objects and accurately models the appearance of dynamic objects in the driving scene. Instead of directly using Spherical Harmonics (SH) to model the appearance of dynamic objects, we introduce and integrate a new method aiming at dynamically estimating SH bases using wavelets, resulting in better representation of dynamic objects appearance in both space and time. Besides object appearance, DENSER enhances object shape representation through densification of its point cloud across multiple scene frames, resulting in faster convergence of model training. Extensive evaluations on KITTI dataset show that the proposed approach significantly outperforms state-of-the-art methods by a wide margin. Source codes and models will be uploaded to this repository https://github.com/sntubix/denser
翻訳日:2024-09-17 16:30:58 公開日:2024-09-16
# プロンプト最適化のための大規模言語モデルの不確かさのベンチマーク

Benchmarking Large Language Model Uncertainty for Prompt Optimization ( http://arxiv.org/abs/2409.10044v1 )

ライセンス: Link先を確認
Pei-Fu Guo, Yun-Da Tsai, Shou-De Lin, (参考訳) 大規模言語モデル(LLM)のプロンプト最適化アルゴリズムは、多段階推論において優れているが、効果的な不確実性推定を欠いている。 本稿では、アンサー、正確性、アレタリック、疫学不確実性に着目し、不確実性指標を評価するためのベンチマークデータセットを提案する。 GPT-3.5-TurboやMeta-Llama-3.1-8B-Instructのようなモデルの解析を通して、現在のメトリクスは、最適化対象のメトリクスの改善の必要性を強調し、迅速な最適化を導くために、出力の信頼性と多様性を反映するAnswer Uncertaintyとよく一致していることを示す。 私たちのコードとデータセットはhttps://github.com/0Frett/PO-Uncertainty-Benchmarking.orgで公開されています。

Prompt optimization algorithms for Large Language Models (LLMs) excel in multi-step reasoning but still lack effective uncertainty estimation. This paper introduces a benchmark dataset to evaluate uncertainty metrics, focusing on Answer, Correctness, Aleatoric, and Epistemic Uncertainty. Through analysis of models like GPT-3.5-Turbo and Meta-Llama-3.1-8B-Instruct, we show that current metrics align more with Answer Uncertainty, which reflects output confidence and diversity, rather than Correctness Uncertainty, highlighting the need for improved metrics that are optimization-objective-aware to better guide prompt optimization. Our code and dataset are available at https://github.com/0Frett/PO-Uncertainty-Benchmarking.
翻訳日:2024-09-17 16:30:58 公開日:2024-09-16
# チャネル状態情報を用いた潜時無線ダイナミクスの学習

Learning Latent Wireless Dynamics from Channel State Information ( http://arxiv.org/abs/2409.10045v1 )

ライセンス: Link先を確認
Charbel Bou Chaaya, Abanoub M. Girgis, Mehdi Bennis, (参考訳) 本研究では,潜在空間における無線伝搬環境のダイナミクスをモデル化し,予測するための,データ駆動型機械学習(ML)技術を提案する。 高次元チャネル状態情報(CSI)の圧縮表現を学習するチャネルチャートのアイデアを活用し、予測成分を組み込んで無線システムのダイナミクスを捉える。 そこで我々は,推定したCSIを適切な潜在空間にマッピングするチャネルエンコーダと,それらの表現間の関係をモデル化する予測器を共同で学習する。 したがって、我々は、CSIから無線ネットワークの潜伏ダイナミクスをシミュレートするJEPA(Joint-embedding predictive Architecture)のトレーニングに着目する。 本稿では,測定データに対する数値的な評価を行い,提案したJEPAがベンチマークよりも2倍の精度向上を示した。

In this work, we propose a novel data-driven machine learning (ML) technique to model and predict the dynamics of the wireless propagation environment in latent space. Leveraging the idea of channel charting, which learns compressed representations of high-dimensional channel state information (CSI), we incorporate a predictive component to capture the dynamics of the wireless system. Hence, we jointly learn a channel encoder that maps the estimated CSI to an appropriate latent space, and a predictor that models the relationships between such representations. Accordingly, our problem boils down to training a joint-embedding predictive architecture (JEPA) that simulates the latent dynamics of a wireless network from CSI. We present numerical evaluations on measured data and show that the proposed JEPA displays a two-fold increase in accuracy over benchmarks, for longer look-ahead prediction tasks.
翻訳日:2024-09-17 16:30:58 公開日:2024-09-16
# 説明可能な機械学習モデルに基づく地球規模の雷火火災予測と気候変動予測

Global Lightning-Ignited Wildfires Prediction and Climate Change Projections based on Explainable Machine Learning Models ( http://arxiv.org/abs/2409.10046v1 )

ライセンス: Link先を確認
Assaf Shmuel, Teddy Lazebnik, Oren Glickman, Eyal Heifetz, Colin Price, (参考訳) 森林火災は人口に重大な自然災害のリスクをもたらし、気候変動の加速に貢献している。 気候変動の影響も受けており、激しい山火事が頻発している。 人的活動によって引き起こされたものよりも世界中に発生する頻度は低いが、雷に照らされた山火事は、二酸化炭素排出量において重要な役割を担い、一部の地域では焼かれた地域の大半を占める。 既存の計算モデル(特に機械学習に基づくもの)は、雷に照らされた山火事を予測することを目的としているが、典型的には特有の特徴を持つ特定の地域に合わせて調整され、グローバルな適用性を制限する。 本研究では,世界規模で雷に照らされた山火事の特徴と予測を目的とした機械学習モデルを提案する。 我々のアプローチは、雷火と人為的な山火事を分類し、気象条件や植生など幅広い要因に基づいて、雷火が発火する確率を高精度に推定することである。 これらのモデルを用いて,雷に照らされた山火事の季節的・空間的傾向を解析し,この現象に対する気候変動の影響について考察した。 我々は、eXplainable Artificial Intelligence (XAI)フレームワークを用いて、様々な特徴がモデルに与える影響を分析する。 本研究は,人為的な山火事と稲妻が発火した山火事の国際的差異を顕著に示すものである。 さらに,10年足らずの短期間であっても,気候変動は着実に,雷に照らされた山火事の世界的なリスクを高めていることを実証した。 この区別は、特定の種類の山火事に合わせた、専用の予測モデルと火災予報の強制的な必要性を浮き彫りにしている。

Wildfires pose a significant natural disaster risk to populations and contribute to accelerated climate change. As wildfires are also affected by climate change, extreme wildfires are becoming increasingly frequent. Although they occur less frequently globally than those sparked by human activities, lightning-ignited wildfires play a substantial role in carbon emissions and account for the majority of burned areas in certain regions. While existing computational models, especially those based on machine learning, aim to predict lightning-ignited wildfires, they are typically tailored to specific regions with unique characteristics, limiting their global applicability. In this study, we present machine learning models designed to characterize and predict lightning-ignited wildfires on a global scale. Our approach involves classifying lightning-ignited versus anthropogenic wildfires, and estimating with high accuracy the probability of lightning to ignite a fire based on a wide spectrum of factors such as meteorological conditions and vegetation. Utilizing these models, we analyze seasonal and spatial trends in lightning-ignited wildfires shedding light on the impact of climate change on this phenomenon. We analyze the influence of various features on the models using eXplainable Artificial Intelligence (XAI) frameworks. Our findings highlight significant global differences between anthropogenic and lightning-ignited wildfires. Moreover, we demonstrate that, even over a short time span of less than a decade, climate changes have steadily increased the global risk of lightning-ignited wildfires. This distinction underscores the imperative need for dedicated predictive models and fire weather indices tailored specifically to each type of wildfire.
翻訳日:2024-09-17 16:21:11 公開日:2024-09-16
# 自然環境におけるヘッドオリエンテーションのための音声駆動強化学習

Audio-Driven Reinforcement Learning for Head-Orientation in Naturalistic Environments ( http://arxiv.org/abs/2409.10048v1 )

ライセンス: Link先を確認
Wessel Ledder, Yuzhen Qin, Kiki van der Heijden, (参考訳) 近年,音声信号処理における深部強化学習 (DRL) のアプローチは著しく進歩しているが,ナビゲーションや視線制御,人-ロボット相互作用の文脈における頭部方向制御といったタスクに対する音声駆動型DRLは注目されていない。 本稿では, ステレオ音声記録に基づく音声環境において, 話者を指向する自律エージェントを開発するために, 深層Q-ラーニングを利用した音声駆動型DRLフレームワークを提案する。 その結果,無響環境(つまり残響を伴わない)における音声セグメントの訓練において,エージェントがほぼ完璧にタスクを実行することを学習したことがわかった。 自然音環境における残響の存在は、エージェントのパフォーマンスに影響を及ぼしたが、エージェントは依然としてベースライン、ランダムに作用するエージェントよりもかなり優れていた。 最後に,自然音環境におけるDRL手法の一般化の度合いを定量化した。 実験の結果, 中・高残響環境において訓練されたエージェントが学習したポリシーは低残響環境に一般化されたが, 無響環境や低残響環境において訓練されたエージェントが学習したポリシーは中・高残響環境には一般化しなかった。 本研究は,ヘッドオリエンテーション制御などのタスクにおける音声駆動型DRLの可能性を示すとともに,実世界の音声駆動型DRLアプリケーションのための環境間の堅牢な一般化を実現するためのトレーニング戦略の必要性を強調した。

Although deep reinforcement learning (DRL) approaches in audio signal processing have seen substantial progress in recent years, audio-driven DRL for tasks such as navigation, gaze control and head-orientation control in the context of human-robot interaction have received little attention. Here, we propose an audio-driven DRL framework in which we utilise deep Q-learning to develop an autonomous agent that orients towards a talker in the acoustic environment based on stereo speech recordings. Our results show that the agent learned to perform the task at a near perfect level when trained on speech segments in anechoic environments (that is, without reverberation). The presence of reverberation in naturalistic acoustic environments affected the agent's performance, although the agent still substantially outperformed a baseline, randomly acting agent. Finally, we quantified the degree of generalization of the proposed DRL approach across naturalistic acoustic environments. Our experiments revealed that policies learned by agents trained on medium or high reverb environments generalized to low reverb environments, but policies learned by agents trained on anechoic or low reverb environments did not generalize to medium or high reverb environments. Taken together, this study demonstrates the potential of audio-driven DRL for tasks such as head-orientation control and highlights the need for training strategies that enable robust generalization across environments for real-world audio-driven DRL applications.
翻訳日:2024-09-17 16:21:11 公開日:2024-09-16
# 多体量子系における時間依存的強制に対するランダム・行列法

Random-matrix approach to time-dependent forcing in many-body quantum systems ( http://arxiv.org/abs/2409.10052v1 )

ライセンス: Link先を確認
Lennart Dabelow, Peter Reimann, (参考訳) パラメータのいくつかを時間とともに変更することは、孤立していない多体量子システムを平衡から駆逐するパラダイム的な方法であり、量子コンピュータやシミュレータを構築する上で重要な要素である。 ここでは、最近提案された非線形応答理論を、典型性とランダム行列法に基づいて、平衡外における様々なパラメトリック摂動系に適用する: 高速運転の2つの制限事例と、強・短距離エネルギー駆動の特性応答関数の解析的近似を導出する。 さらに、有限時間クエンチや、基礎となる非駆動系の保存則を破る時間依存強制を含む、一般的な応用への含意と予測について検討する。 最後に,全ての予測を数値的な例で検証し,理論の範囲と限界について議論する。

Changing some of its parameters over time is a paradigmatic way of driving an otherwise isolated many-body quantum system out of equilibrium, and a vital ingredient for building quantum computers and simulators. Here, we further develop a recently proposed nonlinear response theory which is based on typicality and random-matrix methods, and which is applicable to a wide variety of such parametrically perturbed systems in and out of equilibrium: We derive analytical approximations of the characteristic response function for the two limiting cases of fast driving and of strong and short-ranged-in-energy driving. Furthermore, we work out implications and predictions for common applications, including finite-time quenches and time-dependent forcing that breaks conservation laws of the underlying undriven system. Finally, we verify all predictions by numerical examples and discuss the theory's scope and limitations.
翻訳日:2024-09-17 16:21:11 公開日:2024-09-16
# 家庭の擬似回転:方向・方向の視点によるLCMの活性化編集への新しいアプローチ

Householder Pseudo-Rotation: A Novel Approach to Activation Editing in LLMs with Direction-Magnitude Perspective ( http://arxiv.org/abs/2409.10053v1 )

ライセンス: Link先を確認
Van-Cuong Pham, Thien Huu Nguyen, (参考訳) アクティベーション編集(Activation Editing)は、大規模言語モデル(LLM)の内部表現を直接編集して、その振る舞いを変更し、望ましい特性を達成することを含む、将来性のある研究領域として登場した。 既存の研究は主にLLMの活性化を空間上の点として扱い、ステアリングベクトルを追加して修正している。 しかし、このアプローチは、アクティベーションマグニチュードの必要な一貫性を維持しながら、より大きなパフォーマンス向上を達成する能力に制限されている。 そこで本稿では,これらの課題を克服するために,アクティベーションを方向や大きさで見る新しい編集手法を提案する。 提案手法は,HPR (Houseer Pseudo-Rotation) と呼ばれ,回転変換を模倣し,アクティベーション基準を保ち,様々な安全ベンチマークの性能を向上させる。

Activation Editing, which involves directly editting the internal representations of large language models (LLMs) to alter their behaviors and achieve desired properties, has emerged as a promising area of research. Existing works primarily treat LLMs' activations as points in space and modify them by adding steering vectors. However, this approach is limited in its ability to achieve greater performance improvement while maintaining the necessary consistency of activation magnitudes. To overcome these issues, we propose a novel editing method that views activations in terms of their directions and magnitudes. Our method, named Householder Pseudo-Rotation (HPR), mimics the rotation transformation, thus preserving activation norms and resulting in an improved performance on various safety benchmarks.
翻訳日:2024-09-17 16:21:11 公開日:2024-09-16
# 学習マトリックス製品状態の学習可能性と古典的シミュラビリティについて

On the Trainability and Classical Simulability of Learning Matrix Product States Variationally ( http://arxiv.org/abs/2409.10055v1 )

ライセンス: Link先を確認
Afrad Basheer, Yuan Feng, Christopher Ferrie, Sanjiang Li, Hakop Pashayan, (参考訳) 行列積状態のアンザッツのトレーニングにグローバルオブザーバブルを用いることで、局所オブザーバブルを用いることで、バレンプラトー(Barren Plateaus)として知られるすべての偏微分が消滅することを示した。 このアンザッツは量子機械学習において弱い絡み合った状態近似を学習するために広く用いられている。 さらに、多くの場合、目的関数はスパース演算子の内積であり、量子資源が少なく、古典的にそのような学習問題をシミュレートする可能性を強調している。 すべての結果は、様々なシナリオで実験的に検証されています。

We prove that using global observables to train the matrix product state ansatz results in the vanishing of all partial derivatives, also known as barren plateaus, while using local observables avoids this. This ansatz is widely used in quantum machine learning for learning weakly entangled state approximations. Additionally, we empirically demonstrate that in many cases, the objective function is an inner product of almost sparse operators, highlighting the potential for classically simulating such a learning problem with few quantum resources. All our results are experimentally validated across various scenarios.
翻訳日:2024-09-17 16:21:11 公開日:2024-09-16
# テストと環境の複雑さはフレキネスを高めるか? : SAP HANAの実証研究

Do Test and Environmental Complexity Increase Flakiness? An Empirical Study of SAP HANA ( http://arxiv.org/abs/2409.10062v1 )

ライセンス: Link先を確認
Alexander Berndt, Thomas Bach, Sebastian Baltes, (参考訳) 背景: テストのフレキネスはソフトウェア業界で大きな問題です。 不安定なテストはコードの変更なしにランダムに失敗し、継続的統合(CI)を阻害する。 一部の研究者は、全てのテストはフレキとみなすことができ、テストはフレキの失敗の頻度だけが異なると論じている。 Aims: テストフレキネスの負の影響を低減するための緩和戦略を開発することを目的として,テストフレキネスに影響を及ぼす可能性のあるテストの特性とテスト環境について検討した。 方法: SAP HANAのテスト結果に基づく2つのデータセットを12週間にわたって構築する。 本研究では, 試験環境特性と試験環境特性の相関解析を行い, フレキな試験故障の発生頻度に与える影響について検討した。 結果: 本研究では, テスト実行時間の平均は, テストフレキネス率 (r=0.79) と最も高い正の相関を示した。 高いフレキネスの潜在的な理由は、長時間実行されるテストのより大きなテスト範囲や、遅いテストインフラストラクチャ上でのテスト実行である。 興味深いことに、テストインフラストラクチャの負荷はテストのフレキネスと相関しなかった。 テストのフレキネスとテスト実行に必要なリソースの関係は決定的ではない。 結論: 結論として, 長期テストの分割は, テスト実行の並列化と再実行コストの削減を可能にするため, 実践者がテストフレキネスに対処する上で重要な手段である,と結論づける。 これにより、複雑なテスト環境におけるテストフレキネスの負の効果を効果的に減少させる。 しかし、長期にわたるテストを分割する場合、実践者はテスト分割の潜在的なテスト設定オーバーヘッドを考慮する必要がある。

Background: Test flakiness is a major problem in the software industry. Flaky tests fail seemingly at random without changes to the code and thus impede continuous integration (CI). Some researchers argue that all tests can be considered flaky and that tests only differ in their frequency of flaky failures. Aims: With the goal of developing mitigation strategies to reduce the negative impact of test flakiness, we study characteristics of tests and the test environment that potentially impact test flakiness. Method: We construct two datasets based on SAP HANA's test results over a 12-week period: one based on production data, the other based on targeted test executions from a dedicated flakiness experiment. We conduct correlation analysis for test and test environment characteristics with respect to their influence on the frequency of flaky test failures. Results: In our study, the average test execution time had the strongest positive correlation with the test flakiness rate (r = 0.79), which confirms previous studies. Potential reasons for higher flakiness include the larger test scope of long-running tests or test executions on a slower test infrastructure. Interestingly, the load on the testing infrastructure was not correlated with test flakiness. The relationship between test flakiness and required resources for test execution is inconclusive. Conclusions: Based on our findings, we conclude that splitting long-running tests can be an important measure for practitioners to cope with test flakiness, as it enables parallelization of test executions and also reduces the cost of re-executions. This effectively decreases the negative effects of test flakiness in complex testing environments. However, when splitting long-running tests, practitioners need to consider the potential test setup overhead of test splits.
翻訳日:2024-09-17 16:21:11 公開日:2024-09-16
# GlobalMapNet: ベクトル化されたグローバルHDマップ構築のためのオンラインフレームワーク

GlobalMapNet: An Online Framework for Vectorized Global HD Map Construction ( http://arxiv.org/abs/2409.10063v1 )

ライセンス: Link先を確認
Anqi Shi, Yuze Cai, Xiangyu Chen, Jian Pu, Zeyu Fu, Hong Lu, (参考訳) 高精細(HD)マップは自律運転システムに不可欠である。 伝統的に、スケーラビリティに制限のあるHDマップを構築するために、高価で労働集約的なパイプラインが実装されている。 近年、クラウドソーシングとオンラインマッピングが2つの代替手法として登場しているが、それぞれに制限がある。 本稿では,クラウドソーシングとオンラインマッピングの利点を生かして,ベクトル化されたグローバルマップを直接生成するための新しい手法,すなわちグローバルマップ構築法を提案する。 我々は,ベクトル化されたグローバルHDマップ構築のための最初のオンラインフレームワークであるGlobalMapNetを紹介した。 グローバルマップをゼロから生成するために,ローカルマップのマッチングとマージを連続的に行うGlobalMapBuilderを提案する。 我々は、重複マップ要素を除去し、クリーンマップを生成する新しいアルゴリズム、Map NMSを設計する。 また,過去の地図情報を集約し,予測の一貫性を向上させるため,GlobalMapFusionを提案する。 我々は、広く認識されているArgoverse2とnuScenesの2つのデータセット上でGlobalMapNetを調べ、我々のフレームワークがグローバルに一貫した結果を生成することができることを示す。

High-definition (HD) maps are essential for autonomous driving systems. Traditionally, an expensive and labor-intensive pipeline is implemented to construct HD maps, which is limited in scalability. In recent years, crowdsourcing and online mapping have emerged as two alternative methods, but they have limitations respectively. In this paper, we provide a novel methodology, namely global map construction, to perform direct generation of vectorized global maps, combining the benefits of crowdsourcing and online mapping. We introduce GlobalMapNet, the first online framework for vectorized global HD map construction, which updates and utilizes a global map on the ego vehicle. To generate the global map from scratch, we propose GlobalMapBuilder to match and merge local maps continuously. We design a new algorithm, Map NMS, to remove duplicate map elements and produce a clean map. We also propose GlobalMapFusion to aggregate historical map information, improving consistency of prediction. We examine GlobalMapNet on two widely recognized datasets, Argoverse2 and nuScenes, showing that our framework is capable of generating globally consistent results.
翻訳日:2024-09-17 16:21:11 公開日:2024-09-16
# MindGuard:Edge LLMによる、アクセシブルでシグマのないメンタルヘルス支援を目指す

MindGuard: Towards Accessible and Sitgma-free Mental Health First Aid via Edge LLM ( http://arxiv.org/abs/2409.10064v1 )

ライセンス: Link先を確認
Sijie Ji, Xinzhe Zheng, Jiawei Sun, Renqi Chen, Wei Gao, Mani Srivastava, (参考訳) メンタルヘルス障害は世界で最も多い疾患の一つであり、4人に1人近くに影響している。 広く影響されているにもかかわらず、介入率は25%以下であり、主に診断と介入の両方のために患者が必要とする重要な協力が原因である。 この低治療率の背景にある問題はスティグマ(stigma)です。 本稿では、メンタルヘルスの第一支援を目的とした、アクセス可能でスティグマフリーで専門的なモバイルメンタルヘルスシステムであるMindGuardについて述べる。 MindGuardの心臓は、プロのメンタルヘルス知識を備えた革新的なLLMで、客観的なモバイルセンサーデータと主観的な生態的モメンタリーアセスメント記録をシームレスに統合し、パーソナライズされたスクリーニングと介入の会話を提供する。 我々は,4年間にわたるオープンデータセットと,20名の被験者を対象とするさまざまなモバイルデバイスへの2週間にわたる実世界展開を用いて,MindGuardを広範囲に評価する。 注目すべきは、MindGuardがGPT-4に匹敵する結果を達成し、モデルサイズを10倍以上に上回っていることだ。 我々は、MindGuardがモバイルLLMアプリケーションへの道を開いたと信じており、セルフレポーティングと介入の会話を受動的で日常の監視と置き換えることで、アクセス可能でスティグマのないメンタルヘルスサポートを確保することで、メンタルヘルスプラクティスに革命をもたらす可能性がある。

Mental health disorders are among the most prevalent diseases worldwide, affecting nearly one in four people. Despite their widespread impact, the intervention rate remains below 25%, largely due to the significant cooperation required from patients for both diagnosis and intervention. The core issue behind this low treatment rate is stigma, which discourages over half of those affected from seeking help. This paper presents MindGuard, an accessible, stigma-free, and professional mobile mental healthcare system designed to provide mental health first aid. The heart of MindGuard is an innovative edge LLM, equipped with professional mental health knowledge, that seamlessly integrates objective mobile sensor data with subjective Ecological Momentary Assessment records to deliver personalized screening and intervention conversations. We conduct a broad evaluation of MindGuard using open datasets spanning four years and real-world deployment across various mobile devices involving 20 subjects for two weeks. Remarkably, MindGuard achieves results comparable to GPT-4 and outperforms its counterpart with more than 10 times the model size. We believe that MindGuard paves the way for mobile LLM applications, potentially revolutionizing mental healthcare practices by substituting self-reporting and intervention conversations with passive, integrated monitoring within daily life, thus ensuring accessible and stigma-free mental health support.
翻訳日:2024-09-17 16:21:11 公開日:2024-09-16
# LeGEND:大規模言語モデルによる自律走行システムのシナリオ生成のためのトップダウンアプローチ

LeGEND: A Top-Down Approach to Scenario Generation of Autonomous Driving Systems Assisted by Large Language Models ( http://arxiv.org/abs/2409.10066v1 )

ライセンス: Link先を確認
Shuncheng Tang, Zhenya Zhang, Jixiang Zhou, Lei Lei, Yuan Zhou, Yinxing Xue, (参考訳) 自律運転システム(ADS)は安全に重要であり、公道への配備前に包括的なテストが必要である。 既存のテストアプローチは主にシナリオの臨界性を目指していますが、異なる側面におけるシステムの欠陥を反映する上でも重要な、生成されたシナリオの多様性を見落としてしまうことが少なくありません。 このギャップを埋めるために、我々はLeGENDを提案し、それは、抽象的な機能シナリオから始まり、次に、シナリオの多様性を機能レベルで制御できるような論理的で具体的なシナリオへと下降する。 しかし、形式的に記述できる論理的シナリオとは異なり、関数的シナリオは自然言語(例えば事故報告)で文書化され、コンピュータによって正確に解析され、処理されることはない。 この問題を解決するため、LeGENDは大規模言語モデル(LLM)の最近の進歩を活用して、テキスト機能シナリオを形式論理シナリオに変換する。 機能シナリオ記述における無駄な情報の注意を和らげるために、中間言語の使用を特徴とする2相変換を考案し、機能シナリオから情報を抽出する2つのLLMと、抽出した情報を形式論理シナリオに変換する2つのLLMをLeGENDに導入する。 我々はBaiduの業界グレードADSであるApollo上でLeGENDを実験的に評価した。 評価の結果、LeGENDは重要なシナリオを効果的に特定でき、ベースラインアプローチと比較すると、生成シナリオの多様性において明らかな優位性を示す。 さらに, 2相変換フレームワークの利点と, 採用したLLMの精度も示す。

Autonomous driving systems (ADS) are safety-critical and require comprehensive testing before their deployment on public roads. While existing testing approaches primarily aim at the criticality of scenarios, they often overlook the diversity of the generated scenarios that is also important to reflect system defects in different aspects. To bridge the gap, we propose LeGEND, that features a top-down fashion of scenario generation: it starts with abstract functional scenarios, and then steps downwards to logical and concrete scenarios, such that scenario diversity can be controlled at the functional level. However, unlike logical scenarios that can be formally described, functional scenarios are often documented in natural languages (e.g., accident reports) and thus cannot be precisely parsed and processed by computers. To tackle that issue, LeGEND leverages the recent advances of large language models (LLMs) to transform textual functional scenarios to formal logical scenarios. To mitigate the distraction of useless information in functional scenario description, we devise a two-phase transformation that features the use of an intermediate language; consequently, we adopt two LLMs in LeGEND, one for extracting information from functional scenarios, the other for converting the extracted information to formal logical scenarios. We experimentally evaluate LeGEND on Apollo, an industry-grade ADS from Baidu. Evaluation results show that LeGEND can effectively identify critical scenarios, and compared to baseline approaches, LeGEND exhibits evident superiority in diversity of generated scenarios. Moreover, we also demonstrate the advantages of our two-phase transformation framework, and the accuracy of the adopted LLMs.
翻訳日:2024-09-17 16:21:11 公開日:2024-09-16
# 時空間共分散ニューラルネットワーク

Spatiotemporal Covariance Neural Networks ( http://arxiv.org/abs/2409.10068v1 )

ライセンス: Link先を確認
Andrea Cavallo, Mohammad Sabbaqi, Elvin Isufi, (参考訳) 多変量時系列における時空間相互作用のモデル化は、その効率的な処理の鍵であるが、その不規則でしばしば未知の構造のために困難である。 データの統計的特性は、相互依存性をモデル化するのに有用なバイアスを提供し、相関や共分散に基づくネットワーク、および主成分分析(PCA)に依存するパイプラインによって活用される。 しかし、PCAとその時間拡張は、対応する固有値が互いに近接している場合、共分散固有ベクトルの不安定さに悩まされ、動的およびストリーミングデータ設定への応用は困難である。 これらの問題に対処するために、PCAとグラフ畳み込みフィルタの類似を利用して、時系列のサンプル共分散行列上で動作し、結合時空間畳み込みを利用してデータをモデル化する関係学習モデルであるSpatioTemporal coVariance Neural Network (STVNN)を導入する。 ストリーミングと非定常設定を考慮し、パラメータとサンプル共分散行列のオンライン更新を検討する。 STVNNがこれらのオンライン推定によってもたらされる不確実性に対して安定であることが証明され、時間的PCAに基づく手法よりも改善される。 実験結果から,STVNNは多変量時系列処理に競争力があり,データ分布の変化に適応し,オンラインPCAよりも桁違いに安定であることが示された。

Modeling spatiotemporal interactions in multivariate time series is key to their effective processing, but challenging because of their irregular and often unknown structure. Statistical properties of the data provide useful biases to model interdependencies and are leveraged by correlation and covariance-based networks as well as by processing pipelines relying on principal component analysis (PCA). However, PCA and its temporal extensions suffer instabilities in the covariance eigenvectors when the corresponding eigenvalues are close to each other, making their application to dynamic and streaming data settings challenging. To address these issues, we exploit the analogy between PCA and graph convolutional filters to introduce the SpatioTemporal coVariance Neural Network (STVNN), a relational learning model that operates on the sample covariance matrix of the time series and leverages joint spatiotemporal convolutions to model the data. To account for the streaming and non-stationary setting, we consider an online update of the parameters and sample covariance matrix. We prove the STVNN is stable to the uncertainties introduced by these online estimations, thus improving over temporal PCA-based methods. Experimental results corroborate our theoretical findings and show that STVNN is competitive for multivariate time series processing, it adapts to changes in the data distribution, and it is orders of magnitude more stable than online temporal PCA.
翻訳日:2024-09-17 16:21:11 公開日:2024-09-16
# 異種・異種混在型合成異常生成による異常検出の促進

Enhancing Anomaly Detection via Generating Diversified and Hard-to-distinguish Synthetic Anomalies ( http://arxiv.org/abs/2409.10069v1 )

ライセンス: Link先を確認
Hyuntae Kim, Changhee Lee, (参考訳) 教師なし異常検出は、トレーニングデータからの正規性パターンにのみ依存し、テスト中に目に見えない異常を特定するため、大変な作業である。 近年のアプローチでは、通常のサンプルから合成異常を生成するためにドメイン固有の変換や摂動を活用することに重点を置いている。 ここでの目的は、正常なサンプルとこれらの工芸品の異常を区別することを学ぶことによって、正常なパターンに関する洞察を得ることである。 しかし、これらのアプローチは、表形式のデータのようにドメイン固有の変換が十分に特定されていない場合や、それらの区別が簡単になった場合、しばしば制限に直面する。 これらの問題に対処するために,条件付き摂動器と判別器を用いたドメインに依存しない新しい手法を提案する。 摂動器は入力依存摂動を生成するように訓練され、その後、合成異常を構築するために利用され、識別器は正常なサンプルを区別するために訓練される。 生成された異常が多様で、2つの重要な戦略によって区別が難しいことを保証します。 一 摂動を互いに直交するように指示し、 二 正常なサンプルに近づいたままの摂動を制限すること。 実世界のデータセットに関する実験を通じて、画像データだけでなく、ドメイン固有の変換がアクセスできない表データでも明らかな、最先端のベンチマークよりも、我々の手法が優れていることを示す。 さらに,本手法の半教師付き設定への適応性を実証的に確認し,さらに異常検出性能を高めるために教師付き信号を統合する能力を示す。

Unsupervised anomaly detection is a daunting task, as it relies solely on normality patterns from the training data to identify unseen anomalies during testing. Recent approaches have focused on leveraging domain-specific transformations or perturbations to generate synthetic anomalies from normal samples. The objective here is to acquire insights into normality patterns by learning to differentiate between normal samples and these crafted anomalies. However, these approaches often encounter limitations when domain-specific transformations are not well-specified such as in tabular data, or when it becomes trivial to distinguish between them. To address these issues, we introduce a novel domain-agnostic method that employs a set of conditional perturbators and a discriminator. The perturbators are trained to generate input-dependent perturbations, which are subsequently utilized to construct synthetic anomalies, and the discriminator is trained to distinguish normal samples from them. We ensure that the generated anomalies are both diverse and hard to distinguish through two key strategies: i) directing perturbations to be orthogonal to each other and ii) constraining perturbations to remain in proximity to normal samples. Throughout experiments on real-world datasets, we demonstrate the superiority of our method over state-of-the-art benchmarks, which is evident not only in image data but also in tabular data, where domain-specific transformation is not readily accessible. Additionally, we empirically confirm the adaptability of our method to semi-supervised settings, demonstrating its capacity to incorporate supervised signals to enhance anomaly detection performance even further.
翻訳日:2024-09-17 16:21:11 公開日:2024-09-16
# 音声言語理解タスクを用いた人文対話要約における忠実度の向上

Increasing faithfulness in human-human dialog summarization with Spoken Language Understanding tasks ( http://arxiv.org/abs/2409.10070v1 )

ライセンス: Link先を確認
Eunice Akani, Benoit Favre, Frederic Bechet, Romain Gemignani, (参考訳) 対話要約は、複数の話者間の会話の簡潔でコヒーレントな要約を提供することを目的としている。 近年の言語モデルの進歩により、このプロセスが強化されているが、話者の相互作用を理解し、関連する情報をキャプチャする必要があるため、対話を正確かつ忠実に要約することは困難である。 実際、ダイアログの要約に使用される抽象モデルは、矛盾を含む要約を生成する可能性がある。 本稿では,人間と機械の対話システムにおける音声言語理解(SLU)の実行に提案する意味情報を用いて,その課題についてより意味的に忠実な要約を得る。 本研究は,3つの重要な貢献を紹介する。まず,タスク関連情報を組み込むことによって,要約プロセスが向上し,より意味論的に正確な要約がもたらされることを示す。 そこで,タスクセマンティクスに基づく評価基準を導入する。 最後に,タスク指向対話要約の研究のために標準化された注釈付きデータを用いた新しいデータセットバージョンを提案する。 本研究では,コールセンタからの音声対話のコレクションであるDECODAコーパスを用いて,これらの手法を評価する。 その結果,タスク関連情報とモデルを統合することで,単語の誤り率が異なる場合でも要約精度が向上することがわかった。

Dialogue summarization aims to provide a concise and coherent summary of conversations between multiple speakers. While recent advancements in language models have enhanced this process, summarizing dialogues accurately and faithfully remains challenging due to the need to understand speaker interactions and capture relevant information. Indeed, abstractive models used for dialog summarization may generate summaries that contain inconsistencies. We suggest using the semantic information proposed for performing Spoken Language Understanding (SLU) in human-machine dialogue systems for goal-oriented human-human dialogues to obtain a more semantically faithful summary regarding the task. This study introduces three key contributions: First, we propose an exploration of how incorporating task-related information can enhance the summarization process, leading to more semantically accurate summaries. Then, we introduce a new evaluation criterion based on task semantics. Finally, we propose a new dataset version with increased annotated data standardized for research on task-oriented dialogue summarization. The study evaluates these methods using the DECODA corpus, a collection of French spoken dialogues from a call center. Results show that integrating models with task-related information improves summary accuracy, even with varying word error rates.
翻訳日:2024-09-17 16:21:11 公開日:2024-09-16
# 身体視ナビゲーションにおける物理的に再現可能な敵攻撃に向けて

Towards Physically-Realizable Adversarial Attacks in Embodied Vision Navigation ( http://arxiv.org/abs/2409.10071v1 )

ライセンス: Link先を確認
Meng Chen, Jiawei Tu, Chao Qi, Yonghao Dang, Feng Zhou, Wei Wei, Jianqin Yin, (参考訳) 安全クリティカルな環境におけるエンボディドナビゲーションエージェントの展開は、ディープニューラルネットワークに対する敵の攻撃に対する脆弱性に対する懸念を引き起こす。 しかし、現在の攻撃法は、デジタルから物理世界へ移行する際の課題により実用性に欠けることが多いが、既存の物体検出の物理的攻撃は、多視点の有効性と自然性の両方を達成できない。 そこで本研究では,学習可能なテクスチャと不透明度を対象物に付加することで,現実的なナビゲーション攻撃手法を提案する。 具体的には、様々な視点で有効性を確保するために、ナビゲーションモデルからのフィードバックを用いてパッチのテクスチャを最適化するオブジェクト認識サンプリングに基づく多視点最適化戦略を採用する。 このパッチを人間の観察者にとって目立たないものにするため、テクスチャ最適化後に不透明度を洗練させる2段階不透明度最適化機構を導入する。 実験の結果,我々の敵パッチは航法成功率を約40%削減し,実用性,有効性,自然性において従来の手法よりも優れていた。 コードは、[https://github.com/chen37058/Physical-Attacks-in-Embodied-Navigation]で入手できる。

The deployment of embodied navigation agents in safety-critical environments raises concerns about their vulnerability to adversarial attacks on deep neural networks. However, current attack methods often lack practicality due to challenges in transitioning from the digital to the physical world, while existing physical attacks for object detection fail to achieve both multi-view effectiveness and naturalness. To address this, we propose a practical attack method for embodied navigation by attaching adversarial patches with learnable textures and opacity to objects. Specifically, to ensure effectiveness across varying viewpoints, we employ a multi-view optimization strategy based on object-aware sampling, which uses feedback from the navigation model to optimize the patch's texture. To make the patch inconspicuous to human observers, we introduce a two-stage opacity optimization mechanism, where opacity is refined after texture optimization. Experimental results show our adversarial patches reduce navigation success rates by about 40%, outperforming previous methods in practicality, effectiveness, and naturalness. Code is available at: [https://github.com/chen37058/Physical-Attacks-in-Embodied-Navigation].
翻訳日:2024-09-17 16:21:11 公開日:2024-09-16
# 複素値データのためのシュタインメッツニューラルネットワーク

Steinmetz Neural Networks for Complex-Valued Data ( http://arxiv.org/abs/2409.10075v1 )

ライセンス: Link先を確認
Shyam Venkatasubramanian, Ali Pezeshki, Vahid Tarokh, (参考訳) 本研究では、並列実数値サブネットと結合出力からなるDNNを用いて、複素数値データを処理するための新しいアプローチを提案する。 提案するアーキテクチャのクラスはSteinmetz Neural Networksと呼ばれ、多視点学習を利用して、潜在空間内でより解釈可能な表現を構築する。 次に、Steinmetzニューラルネットワークの潜在空間における解析信号表現を促進する一貫性ペナルティを実装した分析ニューラルネットワークを提案する。 この罰は、実数成分と虚数成分の間の決定論的、直交的な関係を強制する。 情報理論的な構成を用いることで、解析的ニューラルネットワークによって提案される一般化誤差の上限が、スタインメッツニューラルネットワークの一般クラスよりも低いことを示す。 提案手法は,提案ネットワークがベンチマークデータセットと合成例を用いて提案した付加雑音に対する性能改善と頑健性を示す。

In this work, we introduce a new approach to processing complex-valued data using DNNs consisting of parallel real-valued subnetworks with coupled outputs. Our proposed class of architectures, referred to as Steinmetz Neural Networks, leverages multi-view learning to construct more interpretable representations within the latent space. Subsequently, we present the Analytic Neural Network, which implements a consistency penalty that encourages analytic signal representations in the Steinmetz neural network's latent space. This penalty enforces a deterministic and orthogonal relationship between the real and imaginary components. Utilizing an information-theoretic construction, we demonstrate that the upper bound on the generalization error posited by the analytic neural network is lower than that of the general class of Steinmetz neural networks. Our numerical experiments demonstrate the improved performance and robustness to additive noise, afforded by our proposed networks on benchmark datasets and synthetic examples.
翻訳日:2024-09-17 16:21:11 公開日:2024-09-16
# LLM-DER:中国石炭化学ドメインの大規模言語モデルに基づく名前付きエンティティ認識手法

LLM-DER:A Named Entity Recognition Method Based on Large Language Models for Chinese Coal Chemical Domain ( http://arxiv.org/abs/2409.10077v1 )

ライセンス: Link先を確認
Le Xiao, Yunfei Xu, Jing Zhao, (参考訳) ドメイン固有のエンティティとそのカテゴリを認識することを目的としているドメイン固有の名前付きエンティティ認識(NER)は、ドメイン知識グラフを構築するための重要なサポートを提供する。 現在、ディープラーニングベースの手法は、大規模なラベル付きデータに依存するため、NERタスクに広く使われ、効果的である。 その結果、特定の領域におけるラベル付きデータの不足は適用を制限し、これまで多くの研究が数発の手法を導入し、いくつかの成果を上げてきた。 しかし、特定のドメインのエンティティ構造はしばしば複雑であり、現在の数発の手法は複雑な特徴を持つNERタスクに適応することが困難である。例えば、中国石炭化学工業ドメインを例に挙げると、単一のエンティティを共有する複数のエンティティの複雑な構造と同一のエンティティの複数の関係があり、サンプルの少ない条件下でNERタスクに影響を与える。本論文では、LLMを通してエンティティタイプを含むエンティティの一覧を生成し、誤認識されたエンティティを効果的に解決するための可視性および整合性評価手法を設計し、本研究の結果、自己構築されたデータセットとLLM-DERは、既存のドメイン固有エンティティ認識問題に対して、LLM-DERを有効に活用するだけでなく、その実体情報を充実させ、かつ、その実体を具体化していることを示す。

Domain-specific Named Entity Recognition (NER), whose goal is to recognize domain-specific entities and their categories, provides an important support for constructing domain knowledge graphs. Currently, deep learning-based methods are widely used and effective in NER tasks, but due to the reliance on large-scale labeled data. As a result, the scarcity of labeled data in a specific domain will limit its application.Therefore, many researches started to introduce few-shot methods and achieved some results. However, the entity structures in specific domains are often complex, and the current few-shot methods are difficult to adapt to NER tasks with complex features.Taking the Chinese coal chemical industry domain as an example,there exists a complex structure of multiple entities sharing a single entity, as well as multiple relationships for the same pair of entities, which affects the NER task under the sample less condition.In this paper, we propose a Large Language Models (LLMs)-based entity recognition framework LLM-DER for the domain-specific entity recognition problem in Chinese, which enriches the entity information by generating a list of relationships containing entity types through LLMs, and designing a plausibility and consistency evaluation method to remove misrecognized entities, which can effectively solve the complex structural entity recognition problem in a specific domain.The experimental results of this paper on the Resume dataset and the self-constructed coal chemical dataset Coal show that LLM-DER performs outstandingly in domain-specific entity recognition, not only outperforming the existing GPT-3.5-turbo baseline, but also exceeding the fully-supervised baseline, verifying its effectiveness in entity recognition.
翻訳日:2024-09-17 16:21:11 公開日:2024-09-16
# DAE-Fuse:多モード画像融合のための適応型識別オートエンコーダ

DAE-Fuse: An Adaptive Discriminative Autoencoder for Multi-Modality Image Fusion ( http://arxiv.org/abs/2409.10080v1 )

ライセンス: Link先を確認
Yuchen Guo, Ruoxiang Xu, Rongcheng Li, Zhenghao Wu, Weifeng Su, (参考訳) 多モード画像融合は、異なる画像モダリティからの相補的なデータ情報を単一の画像に統合することを目的としている。 既存の方法では、細粒度のセマンティック情報を失うぼやけた融合画像や、入力から知覚的にトリミングされる不自然な融合画像を生成することが多い。 本研究では, DAE-Fuse と呼ばれる, 鮮明で自然な融合画像を生成する二相識別型自動符号化フレームワークを提案する。 逆方向の特徴抽出フェーズでは,エンコーダ・デコーダアーキテクチャに2つの識別ブロックを導入する。 2つの識別ブロックは、注意誘導の相互モード融合フェーズに適応し、融合出力とソース入力の間の構造的差異を識別し、結果により自然さを注入する。 一般の赤外可視、医用画像融合、下流オブジェクト検出データセットに関する大規模な実験は、定量的および定性評価の両方において、我々の方法の優位性と一般化性を示す。

Multi-modality image fusion aims to integrate complementary data information from different imaging modalities into a single image. Existing methods often generate either blurry fused images that lose fine-grained semantic information or unnatural fused images that appear perceptually cropped from the inputs. In this work, we propose a novel two-phase discriminative autoencoder framework, termed DAE-Fuse, that generates sharp and natural fused images. In the adversarial feature extraction phase, we introduce two discriminative blocks into the encoder-decoder architecture, providing an additional adversarial loss to better guide feature extraction by reconstructing the source images. While the two discriminative blocks are adapted in the attention-guided cross-modality fusion phase to distinguish the structural differences between the fused output and the source inputs, injecting more naturalness into the results. Extensive experiments on public infrared-visible, medical image fusion, and downstream object detection datasets demonstrate our method's superiority and generalizability in both quantitative and qualitative evaluations.
翻訳日:2024-09-17 16:09:48 公開日:2024-09-16
# 最適輸送のための地上距離学習へのリーマン的アプローチ

A Riemannian Approach to Ground Metric Learning for Optimal Transport ( http://arxiv.org/abs/2409.10085v1 )

ライセンス: Link先を確認
Pratik Jawanpuria, Dai Shi, Bamdev Mishra, Junbin Gao, (参考訳) 最適輸送(OT)理論は、機械学習や信号処理の応用において多くの注目を集めている。 OTは、ソースとターゲットデータポイントの確率分布間の距離の概念を定義する。 OTベースの距離に影響を与える重要な要因は、ソースとターゲットのデータポイントが位置する埋め込み空間の基底メートル法である。 そこで本研究では,対称正定値行列によってパラメータ化される適切な潜在基底測度を学習することを提案する。 対称正定行列のリッチリーマン幾何学を用いて、基底計量とともにOT距離を共同学習する。 実験結果は、OTベースのドメイン適応における学習された測定値の有効性を示す。

Optimal transport (OT) theory has attracted much attention in machine learning and signal processing applications. OT defines a notion of distance between probability distributions of source and target data points. A crucial factor that influences OT-based distances is the ground metric of the embedding space in which the source and target data points lie. In this work, we propose to learn a suitable latent ground metric parameterized by a symmetric positive definite matrix. We use the rich Riemannian geometry of symmetric positive definite matrices to jointly learn the OT distance along with the ground metric. Empirical results illustrate the efficacy of the learned metric in OT-based domain adaptation.
翻訳日:2024-09-17 16:09:48 公開日:2024-09-16
# 2量子系における偶数基底状態励起

Even-Balanced States Excitation in Two-Qubits System ( http://arxiv.org/abs/2409.10086v1 )

ライセンス: Link先を確認
Yoav Koral, Shilo Avraham, Manimuthu Periyasamy, Guy Deutscher, Shmuel E. Schacham, Eliyahu Farber, (参考訳) 量子コンピュータシステムを構築するための重要なステップは、2つの量子ビットを組み合わせることである。 この要素のこれまでの理論的分析は、主に短いスキーマ行列アプローチに基づいていた。 本研究では,2つのキュービットの組み合わせについて,理論的な枠組みとしてディラック画像法を実装した。 我々は、glAl量子ビットのパラメータを用いてシミュレーションを行い、2つの量子ビットを均等な量子状態に駆動する可能性を示す。 この研究は、所望の状態を達成する上でのディラック画像法の有効性を強調し、絡み合った状態の制御の改善と高度な量子コンピューティング研究を可能にする。 シミュレーション結果と理論計算は0.2%の範囲内で一致し、第4節の2つの例は、偶数平衡状態から6%の誤差のレベルに良い一致を示している。

An essential step in building a quantum computer system is combining two qubits. Previous theoretical analyses of this element have been based primarily on the short schematic matrix approaches. In the present work we extend the investigation to the combination of two qubits by implementing the Dirac picture method as a theoretical framework. We conduct simulations, using parameters of grAl qubits, to demonstrate the feasibility of driving two qubits into an even-balanced quantum state. The research highlights the effectiveness of the Dirac picture method in achieving the desired state, enabling improved control of entangled states and advanced quantum computing research. The simulation results and the theoretical calculations agree within of 0.2%, and the two examples at section IV, show a good agreement to the level of 6% error from the even balanced state
翻訳日:2024-09-17 16:09:48 公開日:2024-09-16
# 拡散モデルを用いたTOF-MRAからCTAへのクロスモダリティ画像合成

Cross-modality image synthesis from TOF-MRA to CTA using diffusion-based models ( http://arxiv.org/abs/2409.10089v1 )

ライセンス: Link先を確認
Alexander Koch, Orhun Utku Aydin, Adam Hilbert, Jana Rieger, Satoru Tanioka, Fujimaro Ishida, Dietmar Frey, (参考訳) 脳血管疾患は、正確な診断、治療、モニタリングのために複数の画像モダリティを必要とすることが多い。 Computed Tomography Angiography (CTA) と Time-of-Flight Magnetic Resonance Angiography (TOF-MRA) は2つの一般的な非侵襲的血管造影技術である。 CTAは、より速い取得時間と高い診断精度のために急性脳梗塞において広く用いられているが、放射線曝露やコントラスト剤関連健康リスクを避けるため、安全のためにTOF-MRAが好ましい。 臨床ワークフローにおけるCTAの主な役割にもかかわらず、オープンソースのCTAデータは不足しており、大血管閉塞検出や動脈瘤セグメンテーションといったタスクのためのAIモデルの研究と開発が制限されている。 そこで本研究では,TOF-MRA入力から合成CTA画像を生成するために,拡散に基づく画像から画像への変換モデルを提案する。 我々は,TOF-MRAからCTAへのモダリティ変換を実証し,従来のU-Netアプローチよりも拡散モデルの方が優れていることを示す。 我々の研究は、異なる最先端の拡散アーキテクチャとサンプルアーキテクチャを比較し、この相互モダリティ変換タスクにおいて最適なモデル性能を推奨する。

Cerebrovascular disease often requires multiple imaging modalities for accurate diagnosis, treatment, and monitoring. Computed Tomography Angiography (CTA) and Time-of-Flight Magnetic Resonance Angiography (TOF-MRA) are two common non-invasive angiography techniques, each with distinct strengths in accessibility, safety, and diagnostic accuracy. While CTA is more widely used in acute stroke due to its faster acquisition times and higher diagnostic accuracy, TOF-MRA is preferred for its safety, as it avoids radiation exposure and contrast agent-related health risks. Despite the predominant role of CTA in clinical workflows, there is a scarcity of open-source CTA data, limiting the research and development of AI models for tasks such as large vessel occlusion detection and aneurysm segmentation. This study explores diffusion-based image-to-image translation models to generate synthetic CTA images from TOF-MRA input. We demonstrate the modality conversion from TOF-MRA to CTA and show that diffusion models outperform a traditional U-Net-based approach. Our work compares different state-of-the-art diffusion architectures and samplers, offering recommendations for optimal model performance in this cross-modality translation task.
翻訳日:2024-09-17 16:09:48 公開日:2024-09-16
# MotionCom: LLMとビデオ拡散による自動・モーション対応画像合成

MotionCom: Automatic and Motion-Aware Image Composition with LLM and Video Diffusion Prior ( http://arxiv.org/abs/2409.10090v1 )

ライセンス: Link先を確認
Weijing Tao, Xiaofeng Yang, Miaomiao Cui, Guosheng Lin, (参考訳) この研究は、トレーニング不要なモーションアウェア拡散に基づく画像合成であるMotionComを、微調整や最適化なしに動的にコヒーレントな結果で、ターゲットオブジェクトを新しいシーンに自動的かつシームレスに統合することを可能にする。 この領域の伝統的なアプローチは、オブジェクト配置のための手動計画と、しばしば運動リアリズムを欠いた静的な構成を生成するという2つの重要な制限に悩まされている。 MotionComは、インテリジェントプランニングにLVLM(Large Vision Language Model)、モーション注入画像合成に先立つビデオ拡散を利用して、合成プロセスの合理化によってこれらの問題に対処する。 我々のマルチモーダルChain-of-Thought(CoT)はLVLMにより、シーン内の潜在的な動きや相互作用を考慮して、前景オブジェクトの戦略的配置計画を自動化する。 そこで本研究では,映像拡散モデルから映像拡散モデルから動き認識情報を抽出する手法であるMotionPaintを提案する。 広範に定量的かつ質的な結果は、MotionComの優位性を強調し、計画プロセスの合理化におけるその効率と、動きと相互作用を忠実に描写する作曲能力を示している。

This work presents MotionCom, a training-free motion-aware diffusion based image composition, enabling automatic and seamless integration of target objects into new scenes with dynamically coherent results without finetuning or optimization. Traditional approaches in this area suffer from two significant limitations: they require manual planning for object placement and often generate static compositions lacking motion realism. MotionCom addresses these issues by utilizing a Large Vision Language Model (LVLM) for intelligent planning, and a Video Diffusion prior for motion-infused image synthesis, streamlining the composition process. Our multi-modal Chain-of-Thought (CoT) prompting with LVLM automates the strategic placement planning of foreground objects, considering their potential motion and interaction within the scenes. Complementing this, we propose a novel method MotionPaint to distill motion-aware information from pretrained video diffusion models in the generation phase, ensuring that these objects are not only seamlessly integrated but also endowed with realistic motion. Extensive quantitative and qualitative results highlight MotionCom's superiority, showcasing its efficiency in streamlining the planning process and its capability to produce compositions that authentically depict motion and interaction.
翻訳日:2024-09-17 16:09:48 公開日:2024-09-16
# DDoS:アウト・オブ・ディストリビューション検出のための拡散分布類似性

DDoS: Diffusion Distribution Similarity for Out-of-Distribution Detection ( http://arxiv.org/abs/2409.10094v1 )

ライセンス: Link先を確認
Kun Fang, Qinghua Tao, Zuopeng Yang, Xiaolin Huang, Jie Yang, (参考訳) アウト・オブ・ディストリビューション(OoD)検出は、与えられたサンプルが分類器アンダープロテクト(In-Distribution)のトレーニング分布、すなわちIn-Distribution(InD)、または別のOoDからであるかどうかを決定する。 最近の研究は、OoD画像をInDに近い生成画像に転送することで、OoD検出を提唱するために、InDデータ上に事前トレーニングされた拡散モデルを導入している。 既存の拡散型検出器は、この2つの画像上の知覚的メトリクスを、そのような格差を測定するために採用しているが、基本的な事実を無視する: 知覚的メトリクスは、基本的に、低レベルの画像パターン、例えばテクスチャや色といった、人間によって知覚される類似性のために考案されており、異なる低レベルのパターンを持つ画像は同じ分布から来る可能性があるため、分布の差異を評価するには推奨できない。 この問題に対処するために,テスト画像と生成画像との分布類似性を考慮した拡散検出フレームワークを,情報的特徴空間における新しい固有類似度指標と,分類器アンダープロテクションによって学習された確率空間を用いて定式化する。 さらに、特徴空間における異常なOoD情報を除去し、その検出を容易にすることにより、そのような分布格差を拡大する異常除去戦略を提示する。 広汎な実験結果から,知覚的指標の欠如と分布類似性フレームワークの有効性が明らかにされた。

Out-of-Distribution (OoD) detection determines whether the given samples are from the training distribution of the classifier-under-protection, i.e., the In-Distribution (InD), or from a different OoD. Latest researches introduce diffusion models pre-trained on InD data to advocate OoD detection by transferring an OoD image into a generated one that is close to InD, so that one could capture the distribution disparities between original and generated images to detect OoD data. Existing diffusion-based detectors adopt perceptual metrics on the two images to measure such disparities, but ignore a fundamental fact: Perceptual metrics are devised essentially for human-perceived similarities of low-level image patterns, e.g., textures and colors, and are not advisable in evaluating distribution disparities, since images with different low-level patterns could possibly come from the same distribution. To address this issue, we formulate a diffusion-based detection framework that considers the distribution similarity between a tested image and its generated counterpart via a novel proper similarity metric in the informative feature space and probability space learned by the classifier-under-protection. An anomaly-removal strategy is further presented to enlarge such distribution disparities by removing abnormal OoD information in the feature space to facilitate the detection. Extensive empirical results unveil the insufficiency of perceptual metrics and the effectiveness of our distribution similarity framework with new state-of-the-art detection performance.
翻訳日:2024-09-17 16:09:48 公開日:2024-09-16
# 異なる運転視点のためのヒューマンインサイト駆動潜時空間:効率的なマルチタスク推論のための統一エンコーダ

Human Insights Driven Latent Space for Different Driving Perspectives: A Unified Encoder for Efficient Multi-Task Inference ( http://arxiv.org/abs/2409.10095v1 )

ライセンス: Link先を確認
Huy-Dung Nguyen, Anass Bairouk, Mirjana Maras, Wei Xiao, Tsun-Hsuan Wang, Patrick Chareyre, Ramin Hasani, Marc Blanchon, Daniela Rus, (参考訳) 自動運転は、人間のミスを最小限に抑え、渋滞を減らすことで、道路の安全と交通効率を変革する大きな可能性を秘めている。 この可能性を実現する上で重要な課題は、効果的な車両のナビゲーションと制御に不可欠である操舵角度の正確な推定である。 近年のディープラーニングのブレークスルーにより、生カメラ入力から直接ステアリング角を推定できるようになった。 しかし、限られたナビゲーションデータは最適な特徴学習を妨げ、複雑な運転シナリオにおけるシステムのパフォーマンスに影響を与える可能性がある。 本稿では,都市ナビゲーションに不可欠な複数のコンピュータビジョンタスク,例えば深度,ポーズ,3次元シーンフロー推定,セマンティック,パノプティクス,モーションセグメンテーションを訓練した共有エンコーダを提案する。 ナビゲーション中に人間が使用する多様な視覚情報を組み込むことで、この統一エンコーダは操舵角推定を強化することができる。 単一エンコーダ内で効果的なマルチタスク学習を実現するために,ポーズ推定のためのマルチスケール特徴ネットワークを導入し,深度学習を改善する。 さらに,これらのナビゲーションタスクで事前訓練されたマルチバックボーンモデルからの知識蒸留を用いて,トレーニングの安定化と性能の向上を図る。 その結果,多様な視覚的タスクを訓練した共有バックボーンは,全体的な知覚能力を提供することができることがわかった。 操舵角度推定の性能は既存の手法に匹敵するが、マルチタスク学習による人間のような知覚の統合は、自律走行システムの進歩に大きな可能性を秘めている。 詳細と事前訓練済みのモデルはhttps://hi- computervision.github.io/uni-encoder/で確認できる。

Autonomous driving holds great potential to transform road safety and traffic efficiency by minimizing human error and reducing congestion. A key challenge in realizing this potential is the accurate estimation of steering angles, which is essential for effective vehicle navigation and control. Recent breakthroughs in deep learning have made it possible to estimate steering angles directly from raw camera inputs. However, the limited available navigation data can hinder optimal feature learning, impacting the system's performance in complex driving scenarios. In this paper, we propose a shared encoder trained on multiple computer vision tasks critical for urban navigation, such as depth, pose, and 3D scene flow estimation, as well as semantic, instance, panoptic, and motion segmentation. By incorporating diverse visual information used by humans during navigation, this unified encoder might enhance steering angle estimation. To achieve effective multi-task learning within a single encoder, we introduce a multi-scale feature network for pose estimation to improve depth learning. Additionally, we employ knowledge distillation from a multi-backbone model pretrained on these navigation tasks to stabilize training and boost performance. Our findings demonstrate that a shared backbone trained on diverse visual tasks is capable of providing overall perception capabilities. While our performance in steering angle estimation is comparable to existing methods, the integration of human-like perception through multi-task learning holds significant potential for advancing autonomous driving systems. More details and the pretrained model are available at https://hi-computervision.github.io/uni-encoder/.
翻訳日:2024-09-17 16:09:48 公開日:2024-09-16
# 動的歪みリスク対策を用いたロバスト強化学習

Robust Reinforcement Learning with Dynamic Distortion Risk Measures ( http://arxiv.org/abs/2409.10096v1 )

ライセンス: Link先を確認
Anthony Coache, Sebastian Jaimungal, (参考訳) 強化学習(RL)では、エージェントの最適戦略は、トレーニング環境のリスク嗜好と基礎となるモデルダイナミクスに大きく依存する。 これらの2つの側面は、テスト環境に直面するとき、エージェントが適切にインフォームドされ、時間に一貫性のある意思決定を行う能力に影響を与える。 本研究では, 環境の不確かさとリスクを同時に考慮し, 動的に頑健な歪みリスク対策のクラスで, 頑健なリスク認識型RL問題を解決するための枠組みを考案する。 ロバスト性は、参照モデルを取り巻くワッサーシュタイン球内のすべてのモデルを考えることによってもたらされる。 本研究では,厳密なスコアリング関数を用いてニューラルネットワークを用いた動的ロバストリスク尺度を推定し,歪みリスク尺度の量子表現を用いたポリシー勾配式を導出し,このようなロバストリスク対応RL問題を解くためにアクタ批判アルゴリズムを構築した。 ポートフォリオ割り当ての例で,本アルゴリズムの性能を実演する。

In a reinforcement learning (RL) setting, the agent's optimal strategy heavily depends on her risk preferences and the underlying model dynamics of the training environment. These two aspects influence the agent's ability to make well-informed and time-consistent decisions when facing testing environments. In this work, we devise a framework to solve robust risk-aware RL problems where we simultaneously account for environmental uncertainty and risk with a class of dynamic robust distortion risk measures. Robustness is introduced by considering all models within a Wasserstein ball around a reference model. We estimate such dynamic robust risk measures using neural networks by making use of strictly consistent scoring functions, derive policy gradient formulae using the quantile representation of distortion risk measures, and construct an actor-critic algorithm to solve this class of robust risk-aware RL problems. We demonstrate the performance of our algorithm on a portfolio allocation example.
翻訳日:2024-09-17 16:09:48 公開日:2024-09-16
# アダプティブセグメンテーションに基づくエキスパート画像回帰のステアリングミキサーの初期化

Adaptive Segmentation-Based Initialization for Steered Mixture of Experts Image Regression ( http://arxiv.org/abs/2409.10101v1 )

ライセンス: Link先を確認
Yi-Hsin Li, Sebastian Knorr, Mårten Sjöström, Thomas Sikora, (参考訳) カーネル画像回帰法は、画像や光場圧縮、ガウススメッティング、デノナイジング、超解像など、多くの画像処理タスクにおいて優れた効率性をもたらすことが示されている。 これらの手法のパラメータ推定では、勾配降下反復最適化を用いることが多く、多くのアプリケーションで計算負荷が大きい。 本稿では、ステアード・ミクチャー・オブ・エキスパート(SMoE)ゲーティングネットワークと、ステアリングカーネルを用いたラジアル・バシス・ファンクション(RBF)ネットワークの最適化を目的とした、適応セグメンテーションに基づく新しい初期化手法を提案する。 新たな初期化法では、カーネルを予め計算された画像セグメントに割り当てる。 カーネルの最適数、カーネル位置、およびステアリングパラメータは、繰り返し最適化およびカーネルスペーサー化手順においてセグメント毎に導出される。 ローカル"セグメントからのカーネル情報は"グローバル"初期化に転送され、SMoE、RBF、および関連するカーネルイメージ回帰手法の反復最適化に使用できる。 その結果, 広範に使用されている正規格子の初期化やK-Meansの初期化, 以前に導入されたセグメンテーションに基づく初期化手法と比較して, 大幅な客観的および主観的品質改善が達成可能であるとともに, 回帰モデルの空間性を大幅に改善していることがわかった。 同じ品質の場合、新しい初期化は、約50%のカーネルを削減したモデルで生じる。 さらに、コンバージェンス時間の大幅な短縮が達成され、全体の実行時の節約率は最大50%となる。 セグメンテーションに基づく初期化戦略自体は、重い並列計算を認めており、理論的には、画像にセグメントが存在する限り多くのタスクに分割することができる。 4つの並列GPUにしかアクセスできないため、初期化に要する実行時の50%の節約が達成できる。

Kernel image regression methods have shown to provide excellent efficiency in many image processing task, such as image and light-field compression, Gaussian Splatting, denoising and super-resolution. The estimation of parameters for these methods frequently employ gradient descent iterative optimization, which poses significant computational burden for many applications. In this paper, we introduce a novel adaptive segmentation-based initialization method targeted for optimizing Steered-Mixture-of Experts (SMoE) gating networks and Radial-Basis-Function (RBF) networks with steering kernels. The novel initialization method allocates kernels into pre-calculated image segments. The optimal number of kernels, kernel positions, and steering parameters are derived per segment in an iterative optimization and kernel sparsification procedure. The kernel information from "local" segments is then transferred into a "global" initialization, ready for use in iterative optimization of SMoE, RBF, and related kernel image regression methods. Results show that drastic objective and subjective quality improvements are achievable compared to widely used regular grid initialization, "state-of-the-art" K-Means initialization and previously introduced segmentation-based initialization methods, while also drastically improving the sparsity of the regression models. For same quality, the novel initialization results in models with around 50% reduction of kernels. In addition, a significant reduction of convergence time is achieved, with overall run-time savings of up to 50%. The segmentation-based initialization strategy itself admits heavy parallel computation; in theory, it may be divided into as many tasks as there are segments in the images. By accessing only four parallel GPUs, run-time savings of already 50% for initialization are achievable.
翻訳日:2024-09-17 16:09:48 公開日:2024-09-16
# 検索型世代システムにおける信頼感:調査

Trustworthiness in Retrieval-Augmented Generation Systems: A Survey ( http://arxiv.org/abs/2409.10102v1 )

ライセンス: Link先を確認
Yujia Zhou, Yan Liu, Xiaoxi Li, Jiajie Jin, Hongjin Qian, Zheng Liu, Chaozhuo Li, Zhicheng Dou, Tsung-Yi Ho, Philip S. Yu, (参考訳) Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) の開発において、急速に重要なパラダイムへと成長してきた。 この分野における現在の研究の多くは、特に精度と効率の観点からパフォーマンス最適化に重点を置いているが、RAGシステムの信頼性はいまだ探究中である。 肯定的な観点から、RAGシステムは、巨大な外部データベースから有用かつ最新の知識を提供することで、LLMを強化することを約束しており、長期にわたる幻覚の問題を緩和している。 ネガティブな視点では、RAGシステムは、検索された情報が不適切であるか、あるいは不十分である場合、望ましくないコンテンツを生成するリスクがある。 これらの懸念に対処するため、我々は、現実性、堅牢性、公正性、透明性、説明責任、プライバシーの6つの主要な側面にわたるRAGシステムの信頼性を評価する統一的なフレームワークを提案する。 本フレームワークでは,各次元の既存文献を網羅的にレビューする。 さらに,6次元評価ベンチマークを作成し,各種プロプライエタリおよびオープンソースモデルの総合評価を行う。 最後に, 今後の研究課題について, 調査結果に基づいて検討する。 本研究は,今後の研究の基盤を築き,実世界のアプリケーションにおけるRAGシステムの信頼性を高めるための実践的な洞察を提供することを目的としている。

Retrieval-Augmented Generation (RAG) has quickly grown into a pivotal paradigm in the development of Large Language Models (LLMs). While much of the current research in this field focuses on performance optimization, particularly in terms of accuracy and efficiency, the trustworthiness of RAG systems remains an area still under exploration. From a positive perspective, RAG systems are promising to enhance LLMs by providing them with useful and up-to-date knowledge from vast external databases, thereby mitigating the long-standing problem of hallucination. While from a negative perspective, RAG systems are at the risk of generating undesirable contents if the retrieved information is either inappropriate or poorly utilized. To address these concerns, we propose a unified framework that assesses the trustworthiness of RAG systems across six key dimensions: factuality, robustness, fairness, transparency, accountability, and privacy. Within this framework, we thoroughly review the existing literature on each dimension. Additionally, we create the evaluation benchmark regarding the six dimensions and conduct comprehensive evaluations for a variety of proprietary and open-source models. Finally, we identify the potential challenges for future research based on our investigation results. Through this work, we aim to lay a structured foundation for future investigations and provide practical insights for enhancing the trustworthiness of RAG systems in real-world applications.
翻訳日:2024-09-17 16:09:48 公開日:2024-09-16
# 話者分散HuBERTに基づく自己監督型シラブル発見

Self-Supervised Syllable Discovery Based on Speaker-Disentangled HuBERT ( http://arxiv.org/abs/2409.10103v1 )

ライセンス: Link先を確認
Ryota Komatsu, Takahiro Shinozaki, (参考訳) 非転写音声から意味のある特徴を抽出するためには,自己教師付き音声表現学習が不可欠である。 近年の進歩は、言語単位と相関する特徴から離散記号を導出する可能性を強調しており、多様なタスクにまたがるテキストレストレーニングを可能にしている。 特に、事前訓練されたHuBERT(SD-HuBERT)の文レベルの自己蒸留は、中間変換器層から抽出された潜在音声フレーム表現内の音節構造を誘導する。 SD-HuBERTでは、特別なCLSトークンを使用して、自己アテンション層を通じて音声フレームの特徴から文レベルの表現を蓄積する。 しかし, CLSトークンに集約された情報は, 言語内容よりも話者識別と相関していることがわかった。 そこで本研究では,音節単位を話者情報から分離する,音声のみの自己教師型微調整手法を提案する。 提案手法では, 話者摂動をデータ拡張として導入し, CLSトークンがパラ言語情報の集約を防止するために, フレームレベルの学習目標を採用する。 実験結果から,本手法はLibrispeechの音節分割および音節単位品質指標において,現在最先端の手法を超越し,音声のみのモデルにおける音節構成の促進効果を実証した。

Self-supervised speech representation learning has become essential for extracting meaningful features from untranscribed audio. Recent advances highlight the potential of deriving discrete symbols from the features correlated with linguistic units, which enables text-less training across diverse tasks. In particular, sentence-level Self-Distillation of the pretrained HuBERT (SD-HuBERT) induces syllabic structures within latent speech frame representations extracted from an intermediate Transformer layer. In SD-HuBERT, sentence-level representation is accumulated from speech frame features through self-attention layers using a special CLS token. However, we observe that the information aggregated in the CLS token correlates more with speaker identity than with linguistic content. To address this, we propose a speech-only self-supervised fine-tuning approach that separates syllabic units from speaker information. Our method introduces speaker perturbation as data augmentation and adopts a frame-level training objective to prevent the CLS token from aggregating paralinguistic information. Experimental results show that our approach surpasses the current state-of-the-art method in most syllable segmentation and syllabic unit quality metrics on Librispeech, underscoring its effectiveness in promoting syllabic organization within speech-only models.
翻訳日:2024-09-17 16:09:48 公開日:2024-09-16
# 小型データを用いたオープンソースのコンピュータビジョンモデルの比較研究:CFRPテープレイイングの場合

A Comparative Study of Open Source Computer Vision Models for Application on Small Data: The Case of CFRP Tape Laying ( http://arxiv.org/abs/2409.10104v1 )

ライセンス: Link先を確認
Thomas Fraunholz, Dennis Rall, Tim Köhler, Alfons Schuster, Monika Mayer, Lars Larsen, (参考訳) 産業生産の領域では、人工知能(AI)は、既存のプロセスの自動化から新しい材料や技術開発への支援まで、ますます多くの役割を担っている。 しかし、このような小さなデータコンテキストでAIモデルをトレーニングする可能性に疑問を呈する、限られたトレーニングデータ可用性を特徴とする、小規模で実験的なプロセスにおいて、大きな課題が生じる。 本研究では,この課題に対処するためのトランスファーラーニングの可能性を探り,機能的AIモデルを開発するために必要な最小データ量について検討する。 本研究の目的は,光センサを用いた航空宇宙製造における炭素繊維強化ポリマー(CFRP)テープの品質管理のユースケースを検討することである。 トレーニングデータを連続的に低減した異なるオープンソースのコンピュータビジョンモデルの挙動について検討する。 以上の結果から,AIモデルをトレーニングするために必要なデータ量は大幅に削減され,より小さなモデルの使用が必ずしもパフォーマンスの低下につながるとは限らないことが示唆された。

In the realm of industrial manufacturing, Artificial Intelligence (AI) is playing an increasing role, from automating existing processes to aiding in the development of new materials and techniques. However, a significant challenge arises in smaller, experimental processes characterized by limited training data availability, questioning the possibility to train AI models in such small data contexts. In this work, we explore the potential of Transfer Learning to address this challenge, specifically investigating the minimum amount of data required to develop a functional AI model. For this purpose, we consider the use case of quality control of Carbon Fiber Reinforced Polymer (CFRP) tape laying in aerospace manufacturing using optical sensors. We investigate the behavior of different open-source computer vision models with a continuous reduction of the training data. Our results show that the amount of data required to successfully train an AI model can be drastically reduced, and the use of smaller models does not necessarily lead to a loss of performance.
翻訳日:2024-09-17 16:09:48 公開日:2024-09-16
# 産業 6.0 創生AIと異種ロボットの群れによる新世代の産業

Industry 6.0: New Generation of Industry driven by Generative AI and Swarm of Heterogeneous Robots ( http://arxiv.org/abs/2409.10106v1 )

ライセンス: Link先を確認
Artem Lykov, Miguel Altamirano Cabrera, Mikhail Konenkov, Valerii Serpiva, Koffivi Fid`ele Gbagbe, Ali Alabbas, Aleksey Fedoseev, Luis Moreno, Muhammad Haris Khan, Ziang Guo, Dzmitry Tsetserukou, (参考訳) 本稿では,ユーザが提供する自然言語記述に基づいて,製品設計および製造プロセス全体を自律的に処理する世界初の完全自動生産システムであるIndustrial 6.0について述べる。 生成AIを活用することで、製品設計、部品製造、物流、組み立てなど、生産の重要な側面を自動化する。 大型言語モデル(LLM)との統合により、それぞれ個別のAIを備えた異種ロボット群が生産プロセスを編成する。 ロボットシステムには、マニピュレータアーム、配達ドローン、組み立てブループリントを生成することのできる3Dプリンタが含まれる。 このシステムは商用およびオープンソースのLCMを使用して評価され、APIとローカルデプロイメントを介して機能する。 ユーザー調査により、このシステムは平均生産時間を119.10分に短縮し、熟練した開発者チームより大幅に上回り、平均528.64分(改善率4.4)を達成した。 さらに, 製品青写真化段階では, ヒトCAD演算子を前例のない47倍に上回り, 23.5分に比べ0.5分で完了した。 このブレークスルーは、完全に自律的な製造への大きな飛躍を表している。

This paper presents the concept of Industry 6.0, introducing the world's first fully automated production system that autonomously handles the entire product design and manufacturing process based on user-provided natural language descriptions. By leveraging generative AI, the system automates critical aspects of production, including product blueprint design, component manufacturing, logistics, and assembly. A heterogeneous swarm of robots, each equipped with individual AI through integration with Large Language Models (LLMs), orchestrates the production process. The robotic system includes manipulator arms, delivery drones, and 3D printers capable of generating assembly blueprints. The system was evaluated using commercial and open-source LLMs, functioning through APIs and local deployment. A user study demonstrated that the system reduces the average production time to 119.10 minutes, significantly outperforming a team of expert human developers, who averaged 528.64 minutes (an improvement factor of 4.4). Furthermore, in the product blueprinting stage, the system surpassed human CAD operators by an unprecedented factor of 47, completing the task in 0.5 minutes compared to 23.5 minutes. This breakthrough represents a major leap towards fully autonomous manufacturing.
翻訳日:2024-09-17 16:09:48 公開日:2024-09-16
# 遅延ラベル環境におけるインスタンスインクリメンタル対バッチ学習の有効性の評価:フレード検出のための語彙データストリーミングに関する実証的研究

Evaluating the Efficacy of Instance Incremental vs. Batch Learning in Delayed Label Environments: An Empirical Study on Tabular Data Streaming for Fraud Detection ( http://arxiv.org/abs/2409.10111v1 )

ライセンス: Link先を確認
Kodjo Mawuena Amekoe, Mustapha Lebbah, Gregoire Jaffre, Hanene Azzag, Zaineb Chelly Dagdia, (参考訳) 現実の表形式の学習シナリオでは、一般的にデータストリームが進化し、データが継続的に到着し、その分散が時間とともに変化する。 このような状況下では、教師付き学習に関する文献研究の多くは、データ分布の変化に適応できるため、インスタンスインクリメンタルアルゴリズムの使用を好んでいる。 これらのアルゴリズムを選択するもうひとつの重要な理由は、バッチインクリメンタルな設定で一般的に行われるように、‘textit{avoid storage observed in memory} である。 しかし、インクリメンタルアルゴリズムの設計は、しばしばラベルの即時利用を前提としており、これは楽観的な仮定である。 不正検出やクレジットスコアリングなど、現実世界の多くのシナリオでは、ラベルが遅れる可能性がある。 その結果、バッチインクリメンタルアルゴリズムは多くの実世界のタスクで広く利用されている。 遅延した設定では、予測性能と計算効率に関して、インクリメンタルな学習が最良の選択肢なのだろうか? 残念ながら、この問題は、おそらく遅延情報を含む実際のデータセットが不足しているため、深く研究されていない。 本研究では,実世界の不正検出問題と一般的に使用されているデータセットを用いて,この問題の包括的評価と分析を行う。 適応ランダムフォレスト(ARF)やXGBoostのような他のサイドバッチ学習モデルを考えると,インスタンスインクリメンタル学習が優れた選択肢ではないことが示唆されている。 さらに、学習システムの解釈可能性を考慮すると、バッチインクリメンタルなソリューションが好まれる傾向があります。 コード: \url{https://github.com/anselmeamekoe/delayedLabelStream}

Real-world tabular learning production scenarios typically involve evolving data streams, where data arrives continuously and its distribution may change over time. In such a setting, most studies in the literature regarding supervised learning favor the use of instance incremental algorithms due to their ability to adapt to changes in the data distribution. Another significant reason for choosing these algorithms is \textit{avoid storing observations in memory} as commonly done in batch incremental settings. However, the design of instance incremental algorithms often assumes immediate availability of labels, which is an optimistic assumption. In many real-world scenarios, such as fraud detection or credit scoring, labels may be delayed. Consequently, batch incremental algorithms are widely used in many real-world tasks. This raises an important question: "In delayed settings, is instance incremental learning the best option regarding predictive performance and computational efficiency?" Unfortunately, this question has not been studied in depth, probably due to the scarcity of real datasets containing delayed information. In this study, we conduct a comprehensive empirical evaluation and analysis of this question using a real-world fraud detection problem and commonly used generated datasets. Our findings indicate that instance incremental learning is not the superior option, considering on one side state-of-the-art models such as Adaptive Random Forest (ARF) and other side batch learning models such as XGBoost. Additionally, when considering the interpretability of the learning systems, batch incremental solutions tend to be favored. Code: \url{https://github.com/anselmeamekoe/DelayedLabelStream}
翻訳日:2024-09-17 16:09:48 公開日:2024-09-16
# PET/CT不均一性克服のためのデータ中心戦略:AutoPET III病変分割チャレンジから

Data-Centric Strategies for Overcoming PET/CT Heterogeneity: Insights from the AutoPET III Lesion Segmentation Challenge ( http://arxiv.org/abs/2409.10120v1 )

ライセンス: Link先を確認
Balint Kovacs, Shuhan Xiao, Maximilian Rokuss, Constantin Ulrich, Fabian Isensee, Klaus H. Maier-Hein, (参考訳) 第3のオートPETチャレンジは、新しいデータ中心タスクを導入し、モデル開発からデータ品質と処理戦略を通じてPET/CT画像の転移性病変セグメンテーションの改善へと焦点を移した。 そこで本研究では,PET/CT画像の特徴に合わせてセグメンテーション性能を向上させる手法を開発した。 私たちのアプローチには2つの重要な要素があります。 まず,CTとPETのアライメントの誤差と穿刺病変の有病率に対処するため,ベースラインデータ拡張スキームを改良し,誤修正を伴って拡張した。 この適応は、特に小さな転移性病変に対して、セグメンテーションの精度を改善することを目的としている。 第2に,画像次元の変動が予測時間に大きく影響することを示すため,動的エンハンブル・テスト時間拡張(TTA)戦略を実装した。 本手法は,5分間の予測時間制限内でのアンサンブルとTTAの使用を最適化し,小型画像と大型画像の両方に対する一般化ポテンシャルを効果的に活用する。 どちらのソリューションも、さまざまなトレーサや制度的な設定にまたがって堅牢に設計されています。 私たちは課題リポジトリを公開し、変更点を \url{https://github.com/MIC-DKFZ/miccai2024_autopet3_datacentric} で公開しました。

The third autoPET challenge introduced a new data-centric task this year, shifting the focus from model development to improving metastatic lesion segmentation on PET/CT images through data quality and handling strategies. In response, we developed targeted methods to enhance segmentation performance tailored to the characteristics of PET/CT imaging. Our approach encompasses two key elements. First, to address potential alignment errors between CT and PET modalities as well as the prevalence of punctate lesions, we modified the baseline data augmentation scheme and extended it with misalignment augmentation. This adaptation aims to improve segmentation accuracy, particularly for tiny metastatic lesions. Second, to tackle the variability in image dimensions significantly affecting the prediction time, we implemented a dynamic ensembling and test-time augmentation (TTA) strategy. This method optimizes the use of ensembling and TTA within a 5-minute prediction time limit, effectively leveraging the generalization potential for both small and large images. Both of our solutions are designed to be robust across different tracers and institutional settings, offering a general, yet imaging-specific approach to the multi-tracer and multi-institutional challenges of the competition. We made the challenge repository with our modifications publicly available at \url{https://github.com/MIC-DKFZ/miccai2024_autopet3_datacentric}.
翻訳日:2024-09-17 16:09:48 公開日:2024-09-16
# 非エルミートフォトニック格子における相関光子の量子ウォーク

Quantum walks of correlated photons in non-Hermitian photonic lattices ( http://arxiv.org/abs/2409.10130v1 )

ライセンス: Link先を確認
Mingyuan Gao, Chong Sheng, Yule Zhao, Runqiu He, Liangliang Lu, Wei Chen, Kun Ding, Shining Zhu, Hui Liu, (参考訳) エンタングルメントエントロピーは、多粒子の相関を特徴づけ、オープン量子系の重要な特徴を明らかにする。 しかし、非エルミート系における絡み合いの実験的実現は依然として困難である。 平行して、量子ウォークは、例外的な点、非エルミート皮膚効果、非ブロッホ相転移を含む非エルミート物理学の基礎的なメカニズムを研究する可能性を示唆している。 残念なことに、これらの研究は単一の粒子の挙動にのみ関与し、一般的に焦点を絞っている。 本稿では,工学的非エルミートフォトニック格子における2つの区別不可能な光子の量子ウォークを提案し,実験的に実現した。 我々は、皮膚効果によって引き起こされる端から遠く離れたバルクにおける量子ウォークの一方向の挙動を観察した。 さらに,非エルミート系における皮膚効果による絡み合いの抑制を実験的に明らかにした。 我々の研究は、熱平衡から程遠いオープン量子多体系における絡み合いの深い理解を促進するかもしれない。

Entanglement entropy characterizes the correlation of multi-particles and unveils the crucial features of open quantum systems. However, the experimental realization of exploring entanglement in non-Hermitian systems remains a challenge. In parallel, quantum walks have offered the possibility of studying the underlying mechanisms of non-Hermitian physics, which includes exceptional points, the non-Hermitian skin effect, and non-Bloch phase transitions. Unfortunately, these studies have only involved and prevailingly focused on the behavior of a single particle. Here, we propose and experimentally realize quantum walks of two indistinguishable photons in engineered non-Hermitian photonic lattices. We have successfully observed the unidirectional behavior of quantum walks in the bulk far from the edges induced by the skin effect. Moreover, we experimentally reveal the suppression of entanglement that is caused by the skin effect in non-Hermitian systems. Our study may facilitate a deep understanding of entanglement in open quantum many-body systems that are far from thermal equilibrium.
翻訳日:2024-09-17 16:00:03 公開日:2024-09-16
# StruEdit: 大規模言語モデルの高速かつ正確な知識編集を可能にする構造化出力

StruEdit: Structured Outputs Enable the Fast and Accurate Knowledge Editing for Large Language Models ( http://arxiv.org/abs/2409.10132v1 )

ライセンス: Link先を確認
Baolong Bi, Shenghua Liu, Yiwei Wang, Lingrui Mei, Hongcheng Gao, Junfeng Fang, Xueqi Cheng, (参考訳) 質問応答のための現代的なツールとして、大規模言語モデル(LLM)が、最新の知識で回答を提供することが期待されている。 このような理想的な質問応答システムを実現するために、自然言語出力における古くなった知識の配置と編集は、一般的な知識編集手法の一般的なターゲットである。 しかし、このターゲットは、どのトークンを推論ステップで編集するかを識別し、修正された推論チェーンの一貫性を確保することが困難なタスクであるため、困難である。 これらの課題は、自然言語出力の非構造的な性質に由来すると我々は主張する。 上記の課題に対処するため、知識編集のベースラインを改良した $\textbf{Stru}$ctural $\textbf{Edit}$ing$\textbf{StruEdit}$ing$を提案する。 まず LLM に対して, 推論三重項からなる構造出力を生成する。 そして、StruEditは、潜在的に時代遅れな知識を取り除き、構造化された出力を最新の情報で1ステップで効率的に補充する。 実験結果から,StruEditは,他の知識編集手法と比較して,低レイテンシで常に高い精度を実現していることがわかった。

As the modern tool of choice for question answering, large language models (LLMs) are expected to deliver answers with up-to-date knowledge. To achieve such ideal question-answering systems, locating and then editing outdated knowledge in the natural language outputs is a general target of popular knowledge editing methods. However, this target is challenging, as both identifying which tokens to edit in the reasoning steps and ensuring the coherence of the revised reasoning chain are difficult tasks. We argue that these challenges stem from the unstructured nature of natural language outputs. To address the above challenges, we propose $\textbf{Stru}$ctural $\textbf{Edit}$ing ($\textbf{StruEdit}$), an improved baseline for knowledge editing. We first prompt LLMs to produce structured outputs consisting of reasoning triplets. Then, StruEdit removes any potentially outdated knowledge and efficiently refills the structured outputs with up-to-date information in a single step. Experimental results show that StruEdit consistently delivers the highest accuracy with lowest latency compared with other knowledge editing methods.
翻訳日:2024-09-17 16:00:03 公開日:2024-09-16
# 湾曲時空における包装粒子

Packaging particles in curved spacetimes ( http://arxiv.org/abs/2409.10133v1 )

ライセンス: Link先を確認
Jesse Huhtala, Iiro Vilja, (参考訳) 曲線時空における散乱計算は技術的に複雑であり、一般的な時空計量の場合、非常に不可能である。 摂動散乱計算が可能である場合でも、どんな粒子が測定できるのかを注意する必要がある。 曲がった時空の量子場の理論は、平らな時空の理論よりも概念的には明確ではない。 本稿では,S行列の定義におけるウェーブパケットの利用という,この概念的混乱の側面について考察する。 ウェーブパケットは、ほとんどの標準の教科書処理で、粒子状態を構築し、S行列の定義において特定の特異点を取り除くために使われる。 この手法は、曲線化された時空において、まず一般的な方法で、次に特定のモデルによって完全には機能しないことを示す。 また、関連する効果について議論し、曲線時空散乱計算を行う方法を提案する。 我々の結論は、曲線時空における散乱計算の最も一般的な方法は、典型的には文献にない波のパケットを使う必要があるということである。

Scattering calculations in curved spacetime are technically complicated and, in the case of a general spacetime metric, quite impossible. Even in the cases where perturbative scattering calculations can be done one has to be careful about what kind of particles are sensible to measure. Curved spacetime quantum field theories are then less conceptually clear than those in flat spacetime. In this article, we investigate an aspect of this conceptual confusion - the use of wave packets in defining the S-matrix. Wave packets are used in most standard textbook treatments to construct particle states and remove certain singularities in the definition of the S-matrix. We show that this method does not completely work in curved spacetimes first in a general way and then by way of a specific model. We also discuss related effects and suggest a method for doing curved spacetime scattering calculations. Our conclusion is that the most general method for scattering calculations in curved spacetimes requires the use of wave packets, which are typically absent in the literature.
翻訳日:2024-09-17 16:00:03 公開日:2024-09-16
# 海洋デジタル双生児プラットフォームへの展開:南地中海における海面沿岸ラグーン生態系のモデル化

Advancing Towards a Marine Digital Twin Platform: Modeling the Mar Menor Coastal Lagoon Ecosystem in the South Western Mediterranean ( http://arxiv.org/abs/2409.10134v1 )

ライセンス: Link先を確認
Yu Ye, Aurora González-Vidal, Alejandro Cisterna-García, Angel Pérez-Ruzafa, Miguel A. Zamora Izquierdo, Antonio F. Skarmeta, (参考訳) 沿岸の海洋生態系は、人為的活動や気候変動からの圧力が増し、効率的な管理のために高度なモニタリングとモデリングのアプローチが必要である。 本稿では,マルメナール沿岸ラグーン生態系のモデル化を目的としたマリンデジタルツインプラットフォームの開発を開拓する。 このプラットフォームは人工知能を利用して複雑な水文学と生態学のモデルをエミュレートする。 パブリックソースからの多様なデータセットを統合し、ラグーンのダイナミクスの包括的なデジタル表現を構築する。 このプラットフォームのモジュラーデザインは、リアルタイムのステークホルダーの関与と、海洋管理における情報的意思決定を可能にする。 我々の研究は、革新的なデジタルツイン技術による海洋科学の進歩に関する議論に貢献する。

Coastal marine ecosystems face mounting pressures from anthropogenic activities and climate change, necessitating advanced monitoring and modeling approaches for effective management. This paper pioneers the development of a Marine Digital Twin Platform aimed at modeling the Mar Menor Coastal Lagoon Ecosystem in the Region of Murcia. The platform leverages Artificial Intelligence to emulate complex hydrological and ecological models, facilitating the simulation of what-if scenarios to predict ecosystem responses to various stressors. We integrate diverse datasets from public sources to construct a comprehensive digital representation of the lagoon's dynamics. The platform's modular design enables real-time stakeholder engagement and informed decision-making in marine management. Our work contributes to the ongoing discourse on advancing marine science through innovative digital twin technologies.
翻訳日:2024-09-17 16:00:03 公開日:2024-09-16
# ドメイン知識のない説明可能なデータ品質向上に向けて

Towards Explainable Automated Data Quality Enhancement without Domain Knowledge ( http://arxiv.org/abs/2409.10139v1 )

ライセンス: Link先を確認
Djibril Sarr, (参考訳) ビッグデータの時代、データセットの品質を保証することは、さまざまな領域でますます重要になっている。 テキストデータと数値データの両方に焦点をあて、特定の内容にかかわらず、任意のデータセットにおけるデータ品質問題を自動的に評価し、修正するための包括的なフレームワークを提案する。 私たちの主な目的は、欠如、冗長性、不整合という3つの基本的な欠陥に対処することです。 このアプローチの中心には、説明可能性と解釈可能性の両方に対する厳格な要求があり、データ異常の識別と修正の背後にある根拠が透明で理解可能であることを保証する。 これを実現するために、統計的手法と機械学習アルゴリズムを統合するハイブリッドアプローチを採用する。 実際、機械学習と並んで統計的手法を活用することで、精度と説明可能性のバランスを保ち、ユーザーが評価プロセスを信頼し理解できるようにする。 データ品質評価プロセスの自動化に関する課題、特に時間効率と精度の面では、我々は実用的戦略を採用しています。 公開データセットで実施した実践的な分析を通じて、説明可能性を維持しながらデータ品質を高めようとする際に生じる課題について説明する。 本研究は, 欠落値, 重複値, タイポグラフィーエラーの検出と修正におけるアプローチの有効性を実証し, また, 作業の制約の下で, 統計的外れ値と論理的誤りの類似した精度を達成するために, 対処すべき課題について述べる。

In the era of big data, ensuring the quality of datasets has become increasingly crucial across various domains. We propose a comprehensive framework designed to automatically assess and rectify data quality issues in any given dataset, regardless of its specific content, focusing on both textual and numerical data. Our primary objective is to address three fundamental types of defects: absence, redundancy, and incoherence. At the heart of our approach lies a rigorous demand for both explainability and interpretability, ensuring that the rationale behind the identification and correction of data anomalies is transparent and understandable. To achieve this, we adopt a hybrid approach that integrates statistical methods with machine learning algorithms. Indeed, by leveraging statistical techniques alongside machine learning, we strike a balance between accuracy and explainability, enabling users to trust and comprehend the assessment process. Acknowledging the challenges associated with automating the data quality assessment process, particularly in terms of time efficiency and accuracy, we adopt a pragmatic strategy, employing resource-intensive algorithms only when necessary, while favoring simpler, more efficient solutions whenever possible. Through a practical analysis conducted on a publicly provided dataset, we illustrate the challenges that arise when trying to enhance data quality while keeping explainability. We demonstrate the effectiveness of our approach in detecting and rectifying missing values, duplicates and typographical errors as well as the challenges remaining to be addressed to achieve similar accuracy on statistical outliers and logic errors under the constraints set in our work.
翻訳日:2024-09-17 16:00:03 公開日:2024-09-16
# PSHuman: クロススケール拡散を用いたフォトリアリスティック・シングルビューヒューマンコンストラクション

PSHuman: Photorealistic Single-view Human Reconstruction using Cross-Scale Diffusion ( http://arxiv.org/abs/2409.10141v1 )

ライセンス: Link先を確認
Peng Li, Wangguandong Zheng, Yuan Liu, Tao Yu, Yangguang Li, Xingqun Qi, Mengfei Li, Xiaowei Chi, Siyu Xia, Wei Xue, Wenhan Luo, Qifeng Liu, Yike Guo, (参考訳) 詳細でフォトリアリスティックな3Dモデリングは、様々なアプリケーションに不可欠であり、非常に進歩している。 しかし, 単眼のRGB画像からの全身再構成は, 問題の性質が不明確で, 自己閉塞性のある高度な衣料トポロジーのため, 依然として困難である。 本稿では,PSHumanを提案する。PSHumanは,マルチビュー拡散モデルから先行モデルを用いて,人間のメッシュを明示的に再構築する新しいフレームワークである。 単視点の人体画像に直接多視点拡散を適用すると、特に生成された顔に対して、厳密な幾何学的歪みが生じることが判明した。 そこで本研究では,グローバルな全体形状と局所的な顔特性の連立確率分布をモデル化し,幾何学的歪みを伴わずに,詳細かつアイデンティティを保った新規ビュー生成を実現するクロススケール拡散法を提案する。 さらに,ヒトのポーズの断面形状の整合性を高めるため,SMPL-Xなどのパラメトリックモデルに生成モデルを適用し,人間の解剖と矛盾する不自然な視線を防止する。 生成したマルチビューの正常画像とカラー画像を利用して,SMPLXを初期化した明示的な人間の彫刻を行い,現実的なテクスチャ化された人間のメッシュを効率よく再現する。 CAPEとTHuman2.1データセットの大規模な実験結果と定量的評価は、幾何学的詳細、テクスチャの忠実度、一般化能力においてPSHumansが優れていることを示している。

Detailed and photorealistic 3D human modeling is essential for various applications and has seen tremendous progress. However, full-body reconstruction from a monocular RGB image remains challenging due to the ill-posed nature of the problem and sophisticated clothing topology with self-occlusions. In this paper, we propose PSHuman, a novel framework that explicitly reconstructs human meshes utilizing priors from the multiview diffusion model. It is found that directly applying multiview diffusion on single-view human images leads to severe geometric distortions, especially on generated faces. To address it, we propose a cross-scale diffusion that models the joint probability distribution of global full-body shape and local facial characteristics, enabling detailed and identity-preserved novel-view generation without any geometric distortion. Moreover, to enhance cross-view body shape consistency of varied human poses, we condition the generative model on parametric models like SMPL-X, which provide body priors and prevent unnatural views inconsistent with human anatomy. Leveraging the generated multi-view normal and color images, we present SMPLX-initialized explicit human carving to recover realistic textured human meshes efficiently. Extensive experimental results and quantitative evaluations on CAPE and THuman2.1 datasets demonstrate PSHumans superiority in geometry details, texture fidelity, and generalization capability.
翻訳日:2024-09-17 16:00:03 公開日:2024-09-16
# AALF:ほぼ常に線形予測

AALF: Almost Always Linear Forecasting ( http://arxiv.org/abs/2409.10142v1 )

ライセンス: Link先を確認
Matthias Jakobs, Thomas Liebig, (参考訳) 近年の時系列予測の研究は、ディープラーニングモデルの高い予測力をますます活用している。 しかし、このモデル複雑さの増加により、基礎となるモデル決定プロセスの理解が欠如する。 同時に、線形モデルのような単純で解釈可能な予測手法は、Deep Learningアプローチで、時にはオンパーで、非常によく機能する。 我々は,単純なモデルではほとんどの時間で十分であり,特定の予測に対してのみDeep Learning法を選択することで予測性能を向上し,予測プロセスの全体的な解釈可能性を高めることができると主張している。 本稿では,メタラーニングを用いてこれらの予測を識別する新しいオンラインモデル選択フレームワークを提案する。 様々な実世界のデータセットに関する広範な実証研究により、我々の選択手法は、ほとんどの場合、最先端のオンラインモデル選択方法よりも優れていることが示された。 この結果から,時系列予測における不透明なブラックボックスモデルの必要性が,近年の成果よりも小さいことが示唆された。

Recent works for time-series forecasting more and more leverage the high predictive power of Deep Learning models. With this increase in model complexity, however, comes a lack in understanding of the underlying model decision process, which is problematic for high-stakes decision making. At the same time, simple, interpretable forecasting methods such as Linear Models can still perform very well, sometimes on-par, with Deep Learning approaches. We argue that simple models are good enough most of the time, and forecasting performance can be improved by choosing a Deep Learning method only for certain predictions, increasing the overall interpretability of the forecasting process. In this context, we propose a novel online model selection framework which uses meta-learning to identify these predictions and only rarely uses a non-interpretable, large model. An extensive empirical study on various real-world datasets shows that our selection methodology outperforms state-of-the-art online model selections methods in most cases. We find that almost always choosing a simple Linear Model for forecasting results in competitive performance, suggesting that the need for opaque black-box models in time-series forecasting is smaller than recent works would suggest.
翻訳日:2024-09-17 16:00:03 公開日:2024-09-16
# P2U-SLAM:ポイント不確かさとポス不確かさに基づく単眼広FoVSLAMシステム

P2U-SLAM: A Monocular Wide-FoV SLAM System Based on Point Uncertainty and Pose Uncertainty ( http://arxiv.org/abs/2409.10143v1 )

ライセンス: Link先を確認
Yufan Zhang, Kailun Yang, Ze Wang, Kaiwei Wang, (参考訳) 本稿では,広視野カメラを用いた視覚的局所化マッピング(SLAM)システムであるP2U-SLAMについて述べる。 広帯域のFoVは、クロスビュー特徴に対応するために、歴史的地図点の繰り返し観測を可能にするが、過去の地図点のデータ特性と歴史的なキーフレームのポーズは、最適化の過程で変化している。 データ特性の変化の無視は、最適化における部分情報行列の欠如を招き、長期位置決め性能劣化のリスクを引き起こす。 本研究の目的は、SLAMシステムに対する視野の広い視覚入力のリスクを低減することである。 条件付き確率モデルに基づいて、上記のデータ特性の変化が最適化プロセスに与える影響を明らかにし、点不確かさとして発展させ、不確かさを生じさせ、特定の数学的形式を与える。 P2U-SLAM はそれぞれ点不確かさを埋め込み、追跡モジュールと局所写像に不確かさを生じさせ、局所写像、マップマージ、ループ閉包を含む各最適化操作後にこれらの不確かさを更新する。 広FoV視覚入力を持つ2つの人気のある公開データセットから27のシーケンスを網羅的に評価する。 P2U-SLAMは他の最先端手法と比較して優れた性能を示す。 ソースコードはhttps://github.com/BambValley/P2U-SLAMで公開されている。

This paper presents P2U-SLAM, a visual Simultaneous Localization And Mapping (SLAM) system with a wide Field of View (FoV) camera, which utilizes pose uncertainty and point uncertainty. While the wide FoV enables considerable repetitive observations of historical map points for matching cross-view features, the data properties of the historical map points and the poses of historical keyframes have changed during the optimization process. The neglect of data property changes triggers the absence of a partial information matrix in optimization and leads to the risk of long-term positioning performance degradation. The purpose of our research is to reduce the risk of the wide field of view visual input to the SLAM system. Based on the conditional probability model, this work reveals the definite impact of the above data properties changes on the optimization process, concretizes it as point uncertainty and pose uncertainty, and gives a specific mathematical form. P2U-SLAM respectively embeds point uncertainty and pose uncertainty into the tracking module and local mapping, and updates these uncertainties after each optimization operation including local mapping, map merging, and loop closing. We present an exhaustive evaluation in 27 sequences from two popular public datasets with wide-FoV visual input. P2U-SLAM shows excellent performance compared with other state-of-the-art methods. The source code will be made publicly available at https://github.com/BambValley/P2U-SLAM.
翻訳日:2024-09-17 16:00:03 公開日:2024-09-16
# ランダム植立頂点被覆上の(1+1)進化アルゴリズムの固定パラメータトラクタビリティ

Fixed-Parameter Tractability of the (1+1) Evolutionary Algorithm on Random Planted Vertex Covers ( http://arxiv.org/abs/2409.10144v1 )

ライセンス: Link先を確認
Jack Kearney, Frank Neumann, Andrew M. Sutton, (参考訳) 本稿では,頂点被覆問題の分布に関する標準 (1+1) 進化的アルゴリズムの最初のパラメータ化解析について述べる。 植込み被覆が少なくとも対数的であれば、 (1+1) EA を $O(n \log n)$ ステップごとに再起動すると、十分に密集したランダムグラフに対して多項式時間で植込み被覆が少なくとも小さいカバーを見つけることが示される。 超対数被覆の場合、(1+1) EA が期待される固定パラメータのトラクタブル時間で解を見つけることが証明される。 我々はこれらの理論的研究を、植込みカバーサイズ、グラフ密度、実行時の相互作用を強調する多くの計算実験で補完する。

We present the first parameterized analysis of a standard (1+1) Evolutionary Algorithm on a distribution of vertex cover problems. We show that if the planted cover is at most logarithmic, restarting the (1+1) EA every $O(n \log n)$ steps will find a cover at least as small as the planted cover in polynomial time for sufficiently dense random graphs $p > 0.71$. For superlogarithmic planted covers, we prove that the (1+1) EA finds a solution in fixed-parameter tractable time in expectation. We complement these theoretical investigations with a number of computational experiments that highlight the interplay between planted cover size, graph density and runtime.
翻訳日:2024-09-17 16:00:03 公開日:2024-09-16
# LLMs4OL 2024: オントロジー学習のための第1次大規模言語モデルの概要

LLMs4OL 2024 Overview: The 1st Large Language Models for Ontology Learning Challenge ( http://arxiv.org/abs/2409.10146v1 )

ライセンス: Link先を確認
Hamed Babaei Giglou, Jennifer D'Souza, Sören Auer, (参考訳) 本稿では,Large Language Models for Ontology Learning Challengeの第1版であるLLMs4OL 2024の概要を紹介する。 LLMs4OLは、オントロジー学習(OL)における大規模言語モデル(LLM)の可能性を探るため、第23回国際セマンティックウェブ会議(ISWC)と共同で設立されたコミュニティ開発イニシアチブである。 LLMを活用することで、この課題は、セマンティックWebの目標と整合して、よりインテリジェントでユーザフレンドリなWebを作ることによって、OLの理解と革新を促進することを目的としています。 本稿では,LLMs4OLの2024年版の概要とコントリビューションについて概説する。

This paper outlines the LLMs4OL 2024, the first edition of the Large Language Models for Ontology Learning Challenge. LLMs4OL is a community development initiative collocated with the 23rd International Semantic Web Conference (ISWC) to explore the potential of Large Language Models (LLMs) in Ontology Learning (OL), a vital process for enhancing the web with structured knowledge to improve interoperability. By leveraging LLMs, the challenge aims to advance understanding and innovation in OL, aligning with the goals of the Semantic Web to create a more intelligent and user-friendly web. In this paper, we give an overview of the 2024 edition of the LLMs4OL challenge and summarize the contributions.
翻訳日:2024-09-17 16:00:03 公開日:2024-09-16
# AutoPET Challenge III: Whole-Body PET/CT画像からのFDGおよびPSMA病変分割のための一般Dice Focal Lossトレーニング3D残像UNetのロバスト性試験

AutoPET Challenge III: Testing the Robustness of Generalized Dice Focal Loss trained 3D Residual UNet for FDG and PSMA Lesion Segmentation from Whole-Body PET/CT Images ( http://arxiv.org/abs/2409.10151v1 )

ライセンス: Link先を確認
Shadab Ahamed, (参考訳) PET/CTスキャンにおける癌病変の自動分離は定量的画像解析における重要な第一歩である。 しかし, 高精度なセグメンテーションのための深層学習モデルの訓練は, 病変の大きさ, 形状, 放射線線量の変化により特に困難である。 これらの病変は身体の異なる部位に現れ、しばしば健康な器官の近くに現れ、かなりの吸収力を持ち、作業はさらに複雑になる。 その結果,日常的なPET/CT画像解析に有効なセグメンテーションモデルを作成することは困難である。 本研究では,3次元残差UNetモデルを用いて,一般Dice Focal Loss関数を用いてAutoPET Challenge 2024データセット上でモデルをトレーニングした。 5倍のクロスバリデーションを行い,5倍のモデルを用いて平均アンサンブル手法を用いた。 Task-1の予備試験段階では、平均アンサンブルは平均Dice similarity Coefficient(DSC)が0.6687、平均偽陰体積(FNV)が10.9522ml、平均偽正体積(FPV)が2.9684mlに達した。 アルゴリズムの詳細はGitHubリポジトリにある。 https://github.com/ahxmeds/autosegnet2024.git。 トレーニングコードはリポジトリ経由で共有されている。

Automated segmentation of cancerous lesions in PET/CT scans is a crucial first step in quantitative image analysis. However, training deep learning models for segmentation with high accuracy is particularly challenging due to the variations in lesion size, shape, and radiotracer uptake. These lesions can appear in different parts of the body, often near healthy organs that also exhibit considerable uptake, making the task even more complex. As a result, creating an effective segmentation model for routine PET/CT image analysis is challenging. In this study, we utilized a 3D Residual UNet model and employed the Generalized Dice Focal Loss function to train the model on the AutoPET Challenge 2024 dataset. We conducted a 5-fold cross-validation and used an average ensembling technique using the models from the five folds. In the preliminary test phase for Task-1, the average ensemble achieved a mean Dice Similarity Coefficient (DSC) of 0.6687, mean false negative volume (FNV) of 10.9522 ml and mean false positive volume (FPV) 2.9684 ml. More details about the algorithm can be found on our GitHub repository: https://github.com/ahxmeds/autosegnet2024.git. The training code has been shared via the repository: https://github.com/ahxmeds/autopet2024.git.
翻訳日:2024-09-17 16:00:03 公開日:2024-09-16
# BIに基づくヒープ操作による量子プログラムの推論

BI-based Reasoning about Quantum Programs with Heap Manipulations ( http://arxiv.org/abs/2409.10153v1 )

ライセンス: Link先を確認
Bonan Su, Li Zhou, Yuan Feng, Mingsheng Ying, (参考訳) 量子プログラミング言語Q While-hpにヒープ操作を施したセマンティクスを提供する。そこでは、割り当て文は汚いパターンに従っており、新たに割り当てられたキュービットは、任意初期状態を非決定的に仮定することができる。 量子環境でのヒープ操作を徹底的に特徴づけるために、含意を分離し(−\mkern-3mu*$)、接続を分離する(*$)という解釈を含む量子BIスタイルの論理を開発した。 次に、この量子BIスタイルの論理をアサーション言語として採用し、ヒープ制御された量子プログラムを推論し、健全で比較的完全である量子分離論理を提示する。 最後に,本フレームワークを用いて,各種量子プログラムの正当性を検証し,汚いアンシラ量子ビットの正当性を証明する。

We provide well-founded semantics for a quantum programming language Qwhile-hp with heap manipulations, where allocation statements follow a dirty pattern, meaning that newly allocated qubits can nondeterministically assume arbitrary initial states. To thoroughly characterize heap manipulations in the quantum setting, we develop a quantum BI-style logic that includes interpretations for separating implication ($-\mkern-3mu*$) and separating conjunction ($*$). We then adopt this quantum BI-style logic as an assertion language to reason about heap-manipulated quantum programs and present a quantum separation logic which is sound and relatively complete. Finally, we apply our framework to verify the correctness of various practical quantum programs and to prove the correct usage of dirty ancilla qubits.
翻訳日:2024-09-17 16:00:03 公開日:2024-09-16
# 古代ギリシア・パピルスにおける文字検出のコントラスト学習

Contrastive Learning for Character Detection in Ancient Greek Papyri ( http://arxiv.org/abs/2409.10156v1 )

ライセンス: Link先を確認
Vedasri Nakka, Andreas Fischer, Rolf Ingold, Lars Vogtlin, (参考訳) 本論文は,ギリシア文字認識におけるコントラスト学習手法であるSimCLRの有効性について考察する。 我々は、Alpubデータセット(トレーニングデータセット)を使用してSimCLRのバックボーンを事前トレーニングし、それを小さなICDARデータセット(ファインタニングデータセット)で微調整し、SimCLRのパフォーマンスを、クロスエントロピーとトリプルト損失関数を使用する従来のベースラインモデルと比較する。 さらに、SimCLRトレーニングプロセスに不可欠な、さまざまなデータ拡張戦略の役割についても検討する。 手法として,(1)クロスエントロピー損失を用いたベースラインモデル,(2)分類層を持つ三重項埋め込みモデル,(3)分類層を持つSimCLR事前学習モデル,の3つのアプローチを検討した。 当初、ICDARデータセットでResNet-18およびResNet-50ネットワーク上で93拡張を使用して、ベースライン、トリプレット、およびSimCLRモデルをトレーニングしました。 これらから、上位4つの拡張は統計t-testを用いて選択される。 SimCLRの事前トレーニングはAlpubデータセットで行われ、続いてICDARデータセットで微調整が行われる。 3重項損失モデルも同様のプロセスを実行し、ICDARで微調整する前に、上位4つのオーグメンテーションで事前訓練される。 実験の結果,SimCLRは文字認識タスクのベースラインを上回りません。 クロスエントロピー損失をもつベースラインモデルは、SimCLRと三重項損失モデルの両方よりも優れた性能を示す。 本研究は,従来の教師付き学習モデルの強みを強調しつつ,SimCLRの限界を強調し,文字認識のためのコントラスト学習の詳細な評価を行う。 我々は、SimCLRのトリミング戦略が入力画像のセマンティックシフトを引き起こし、大規模な事前トレーニングデータセットにもかかわらず、トレーニングの有効性を低下させると考えている。 私たちのコードはhttps://github.com/DIVA-DIA/MT_augmentation_and_contrastive_learning/で利用可能です。

This thesis investigates the effectiveness of SimCLR, a contrastive learning technique, in Greek letter recognition, focusing on the impact of various augmentation techniques. We pretrain the SimCLR backbone using the Alpub dataset (pretraining dataset) and fine-tune it on a smaller ICDAR dataset (finetuning dataset) to compare SimCLR's performance against traditional baseline models, which use cross-entropy and triplet loss functions. Additionally, we explore the role of different data augmentation strategies, essential for the SimCLR training process. Methodologically, we examine three primary approaches: (1) a baseline model using cross-entropy loss, (2) a triplet embedding model with a classification layer, and (3) a SimCLR pretrained model with a classification layer. Initially, we train the baseline, triplet, and SimCLR models using 93 augmentations on ResNet-18 and ResNet-50 networks with the ICDAR dataset. From these, the top four augmentations are selected using a statistical t-test. Pretraining of SimCLR is conducted on the Alpub dataset, followed by fine-tuning on the ICDAR dataset. The triplet loss model undergoes a similar process, being pretrained on the top four augmentations before fine-tuning on ICDAR. Our experiments show that SimCLR does not outperform the baselines in letter recognition tasks. The baseline model with cross-entropy loss demonstrates better performance than both SimCLR and the triplet loss model. This study provides a detailed evaluation of contrastive learning for letter recognition, highlighting SimCLR's limitations while emphasizing the strengths of traditional supervised learning models in this task. We believe SimCLR's cropping strategies may cause a semantic shift in the input image, reducing training effectiveness despite the large pretraining dataset. Our code is available at https://github.com/DIVA-DIA/MT_augmentation_and_contrastive_learning/.
翻訳日:2024-09-17 16:00:03 公開日:2024-09-16
# 近似等価分割による効率的なネットワーク埋め込み

Efficient Network Embedding by Approximate Equitable Partitions ( http://arxiv.org/abs/2409.10160v1 )

ライセンス: Link先を確認
Giuseppe Squillace, Mirco Tribastone, Max Tschaikowski, Andrea Vandin, (参考訳) 構造的ネットワーク埋め込みは、ノード間の類似性を保ちながら、ネットワークを低次元空間に投影することを目的とした複雑なシステムにおいて、効果的な下流タスクを実現するための重要なステップである。 等価パーティションの近似変分に基づく簡便で効率的な埋め込み手法を提案する。 この近似は、現実世界のネットワークでは見つからない正確な公平なパーティションに対して、厳密な条件を緩和するユーザチューニング可能なトレランスパラメータを導入することである。 我々はマルコフ連鎖の平衡分割と同値関係と常微分方程式の関係を利用して多項式時間で近似同値分割を計算する分割精算アルゴリズムを開発した。 提案手法をベンチマークネットワーク上での最先端の埋め込み技術と比較する。 プロトタイプ実装を用いて1~3桁のコストで, 可視化, 分類, 回帰タスクのパフォーマンスに匹敵する性能を報告し, 競合するほとんどの技術では効率的に処理できない大規模ネットワークの埋め込みを可能にする。

Structural network embedding is a crucial step in enabling effective downstream tasks for complex systems that aims to project a network into a lower-dimensional space while preserving similarities among nodes. We introduce a simple and efficient embedding technique based on approximate variants of equitable partitions. The approximation consists in introducing a user-tunable tolerance parameter relaxing the otherwise strict condition for exact equitable partitions that can be hardly found in real-world networks. We exploit a relationship between equitable partitions and equivalence relations for Markov chains and ordinary differential equations to develop a partition refinement algorithm for computing an approximate equitable partition in polynomial time. We compare our method against state-of-the-art embedding techniques on benchmark networks. We report comparable -- when not superior -- performance for visualization, classification, and regression tasks at a cost between one and three orders of magnitude smaller using a prototype implementation, enabling the embedding of large-scale networks which could not be efficiently handled by most of the competing techniques.
翻訳日:2024-09-17 16:00:03 公開日:2024-09-16
# SplatSim: ゼロショットSim2 ガウススティングを用いたRGB操作ポリシーのリアルタイム転送

SplatSim: Zero-Shot Sim2Real Transfer of RGB Manipulation Policies Using Gaussian Splatting ( http://arxiv.org/abs/2409.10161v1 )

ライセンス: Link先を確認
Mohammad Nomaan Qureshi, Sparsh Garg, Francisco Yandun, David Held, George Kantor, Abhishesh Silwal, (参考訳) Sim2Real転送、特にRGB画像に依存する操作ポリシーは、合成と実世界の視覚データ間のドメインシフトが著しいため、ロボット工学において重要な課題である。 本稿では,RGBベースの操作ポリシーにおけるSim2Realギャップを低減するために,ガウススティングを主レンダリングプリミティブとして活用する新しいフレームワークであるSplatSimを提案する。 従来のメッシュ表現をシミュレーターのガウスSplatに置き換えることにより、SplatSimはシミュレーションのスケーラビリティとコスト効率を保ちながら、高度にフォトリアリスティックな合成データを生成する。 我々は,SplatSim内の操作ポリシーを訓練し,それらをゼロショットで実世界で展開し,実世界のデータに基づいてトレーニングしたポリシーの97.5%に対して平均86.25%の成功率を達成することにより,我々のフレームワークの有効性を実証する。

Sim2Real transfer, particularly for manipulation policies relying on RGB images, remains a critical challenge in robotics due to the significant domain shift between synthetic and real-world visual data. In this paper, we propose SplatSim, a novel framework that leverages Gaussian Splatting as the primary rendering primitive to reduce the Sim2Real gap for RGB-based manipulation policies. By replacing traditional mesh representations with Gaussian Splats in simulators, SplatSim produces highly photorealistic synthetic data while maintaining the scalability and cost-efficiency of simulation. We demonstrate the effectiveness of our framework by training manipulation policies within SplatSim}and deploying them in the real world in a zero-shot manner, achieving an average success rate of 86.25%, compared to 97.5% for policies trained on real-world data.
翻訳日:2024-09-17 16:00:03 公開日:2024-09-16
# 非対称チャネルの量子符号:ZZY曲面符号

Quantum codes for asymmetric channels: ZZZY surface codes ( http://arxiv.org/abs/2409.10162v1 )

ライセンス: Link先を確認
Diego Forlivesi, Lorenzo Valentini, Marco Chiani, (参考訳) 非対称チャネル用に設計された新しい量子誤り訂正符号であるサーフェスZZY符号を導入する。 ジェネレータの調整による標準的な表面符号から派生したZZY符号は、最小重量完全マッチング(MWPM)アルゴリズムにより、適切な前処理フェーズで復号することができる。 結果としてデコーダは、追加の複雑さを導入することなく、修正されたジェネレータが提供する情報を利用する。 ZZZY符号は、チャネル非対称性を増大させながら、非分極チャネルに対して同じ補正能力を維持しながら、表面符号よりも大きな性能上の優位性を示す。

We introduce surface ZZZY codes, a novel family of quantum error-correcting codes designed for asymmetric channels. Derived from standard surface codes through tailored modification of generators, ZZZY codes can be decoded by the minimum weight perfect matching (MWPM) algorithm with a suitable pre-processing phase. The resulting decoder exploits the information provided by the modified generators without introducing additional complexity. ZZZY codes demonstrate a significant performance advantage over surface codes when increasing the channel asymmetry, while maintaining the same correction capability over depolarizing channel.
翻訳日:2024-09-17 15:50:18 公開日:2024-09-16
# 局所的な量子フィッシャー情報による非マルコビアン性の定量化

Quantifying non-Markovianity via local quantum Fisher information ( http://arxiv.org/abs/2409.10163v1 )

ライセンス: Link先を確認
Yassine Dakir, Abdallah Slaoui, Lalla Btissam Drissi, Rachid Ahl Laamara, (参考訳) オープン量子系における非マルコフ力学は、系の進化が環境との過去の相互作用の影響を受けているときに生じる。 本稿では,局所的な量子フィッシャー情報(LQFI)に基づく非マルコビアン性の定量化のための新しい指標を提案する。 提案手法は,既存の測度と異なる視点を提供し,システムと環境間の情報フローの深い理解を提供する。 LQFIに基づく測度とLQUに基づく測度を比較することにより、非マルコフ性の検出とその量子チャネルにおける非マルコフ的挙動の度合いを捉える能力の有効性を実証する。 さらに、LQFIの正の時間微分は、環境からシステムへの情報の流れを示し、非マルコフ力学の明確な解釈を提供する。 最後に、LQFIに基づく測度の計算効率は、多種多様な物理系における非マルコビアン性を特徴づける実用的なツールとなる。

Non-Markovian dynamics in open quantum systems arise when the system's evolution is influenced by its past interactions with the environment. Here, we present a novel metric for quantifying non-Markovianity based on local quantum Fisher information (LQFI). The proposed metric offers a distinct perspective compared to existing measures, providing a deeper understanding of information flow between the system and its environment. By comparing the LQFI-based measure to the LQU-based measure, we demonstrate its effectiveness in detecting non-Markovianity and its ability to capture the degree of non-Markovian behavior in various quantum channels. Furthermore, we show that a positive time derivative of LQFI signals the flow of information from the environment to the system, providing a clear interpretation of non-Markovian dynamics. Finally, the computational efficiency of the LQFI-based measure makes it a practical tool for characterizing non-Markovianity in diverse physical systems.
翻訳日:2024-09-17 15:50:18 公開日:2024-09-16
# RLHFにおける分布リワードモデルの量子回帰

Quantile Regression for Distributional Reward Models in RLHF ( http://arxiv.org/abs/2409.10164v1 )

ライセンス: Link先を確認
Nicolai Dorka, (参考訳) 人間のフィードバックからの強化学習(RLHF)は、報酬モデルを用いることで、大きな言語モデル(LLM)と人間の嗜好を整合させる重要な方法となっている。 しかし、伝統的な報酬モデルは通常、人間の価値と嗜好の多様性と複雑さを過度に単純化する点推定を生成する。 本稿では,1つのスカラー値の代わりに報酬の分布を学習する,報酬モデリングの新しいアプローチであるQuantile Reward Models(QRMs)を紹介する。 提案手法は量子レグレッションを用いて、より強力で曖昧な選好表現を提供するために、選好よりも完全な、潜在的に多モーダルな分布を推定する。 この分布的アプローチは、人間の値の多様性をよりよく捉え、ラベルのノイズに対処し、それらを分布の異なるモードとしてモデル化することで矛盾する好みに対応する。 実験の結果,QRMはRewardBench上での従来の点推定モデルよりも優れていた。 さらに、リスク認識強化学習などの下流アプリケーションにおいて、分布推定によって提供される付加情報が活用できることを示し、その結果、極端に負の反応を生じないLCMポリシーが生じることを示した。 私たちのコードとモデルはhttps://github.com/Nicolinho/QRM.comで公開されています。

Reinforcement learning from human feedback (RLHF) has become a key method for aligning large language models (LLMs) with human preferences through the use of reward models. However, traditional reward models typically generate point estimates, which oversimplify the diversity and complexity of human values and preferences. In this paper, we introduce Quantile Reward Models (QRMs), a novel approach to reward modeling that learns a distribution over rewards instead of a single scalar value. Our method uses quantile regression to estimate a full, potentially multimodal distribution over preferences, providing a more powerful and nuanced representation of preferences. This distributional approach can better capture the diversity of human values, addresses label noise, and accommodates conflicting preferences by modeling them as distinct modes in the distribution. Our experimental results show that QRM outperforms comparable traditional point-estimate models on RewardBench. Furthermore, we demonstrate that the additional information provided by the distributional estimates can be utilized in downstream applications, such as risk-aware reinforcement learning, resulting in LLM policies that generate fewer extremely negative responses. Our code and model are released at https://github.com/Nicolinho/QRM.
翻訳日:2024-09-17 15:50:18 公開日:2024-09-16
# 地域ごとのアルゴリズム行動:米国と南アフリカ間の新型コロナウイルスの誤報に関するYouTube検索の位置情報監査

Algorithmic Behaviors Across Regions: A Geolocation Audit of YouTube Search for COVID-19 Misinformation between the United States and South Africa ( http://arxiv.org/abs/2409.10168v1 )

ライセンス: Link先を確認
Hayoung Jung, Prerna Juneja, Tanushree Mitra, (参考訳) YouTubeは、オンラインの健康関連情報を見つけるのに欠かせないツールだが、新型コロナウイルス(COVID-19)の誤報を全世界に広めたとして批判を浴びている。 しかし、以前の監査研究は、しばしばグローバル・サウスを見下ろしながら、グローバル・ノースの文脈の中でYouTubeを主に調査してきた。 このギャップに対処するため,我々は,米国(US)と南アフリカ(SA)の検索結果における新型コロナウイルスの誤報の頻度を比較するために,YouTube上で10日間の総合的な位置情報ベースの監査を行った。 各国で3つのロケーションを選択し、ソックス・子犬(実際のユーザをエミュレートするボット)を配置し、48の検索クエリを4つの検索フィルタで10日間ソートし、915Kのデータセットを得た。 その結果、トップ10の検索結果の31.55%が、新型コロナウイルスの誤報が含まれていることがわかった。 上位10の検索結果のうち、SAのボットは、合衆国のボットよりもはるかに不正な検索結果に直面していた。 全体として、この研究は、2つの国間でのYouTube検索のアルゴリズム的振る舞いの対比を強調し、Globeのさまざまな領域で一貫してアルゴリズム的振る舞いを規制するプラットフォームの必要性を強調した。

Despite being an integral tool for finding health-related information online, YouTube has faced criticism for disseminating COVID-19 misinformation globally to its users. Yet, prior audit studies have predominantly investigated YouTube within the Global North contexts, often overlooking the Global South. To address this gap, we conducted a comprehensive 10-day geolocation-based audit on YouTube to compare the prevalence of COVID-19 misinformation in search results between the United States (US) and South Africa (SA), the countries heavily affected by the pandemic in the Global North and the Global South, respectively. For each country, we selected 3 geolocations and placed sock-puppets, or bots emulating "real" users, that collected search results for 48 search queries sorted by 4 search filters for 10 days, yielding a dataset of 915K results. We found that 31.55% of the top-10 search results contained COVID-19 misinformation. Among the top-10 search results, bots in SA faced significantly more misinformative search results than their US counterparts. Overall, our study highlights the contrasting algorithmic behaviors of YouTube search between two countries, underscoring the need for the platform to regulate algorithmic behavior consistently across different regions of the Globe.
翻訳日:2024-09-17 15:50:18 公開日:2024-09-16
# ニューラルネットワーク対応モデル予測制御のための安全で安定なクローズドループ学習

Safe and Stable Closed-Loop Learning for Neural-Network-Supported Model Predictive Control ( http://arxiv.org/abs/2409.10171v1 )

ライセンス: Link先を確認
Sebastian Hirt, Maik Pfefferkorn, Rolf Findeisen, (参考訳) 最適制御と強化学習の両方において、制御ポリシーの安全な学習は依然として困難である。 本稿では,基礎となるプロセスに関する不完全な情報とともに動作するパラメータ化予測制御器の安全学習について考察する。 この目的のために、閉ループデータから最適なパラメータを学習するためにベイズ最適化を用いる。 本手法は, クローズドループにおけるシステム全体の長期的性能を安全かつ安定に保ちながら重視する。 具体的には、フィードフォワードニューラルネットワークを用いて、MPCのステージコスト関数をパラメータ化する。 これにより、高レベルの柔軟性が実現され、システムはスーパーオーディネート尺度に関してより優れたクローズドループ性能を達成できる。 しかし、この柔軟性は特に閉ループ安定性に関して安全対策を必要とする。 この目的のために,ベイズ最適化に基づく学習手法に安定性情報を明示的に組み込むことにより,厳密な確率的安全保証を実現する。 提案手法は数値的な例を用いて説明する。

Safe learning of control policies remains challenging, both in optimal control and reinforcement learning. In this article, we consider safe learning of parametrized predictive controllers that operate with incomplete information about the underlying process. To this end, we employ Bayesian optimization for learning the best parameters from closed-loop data. Our method focuses on the system's overall long-term performance in closed-loop while keeping it safe and stable. Specifically, we parametrize the stage cost function of an MPC using a feedforward neural network. This allows for a high degree of flexibility, enabling the system to achieve a better closed-loop performance with respect to a superordinate measure. However, this flexibility also necessitates safety measures, especially with respect to closed-loop stability. To this end, we explicitly incorporated stability information in the Bayesian-optimization-based learning procedure, thereby achieving rigorous probabilistic safety guarantees. The proposed approach is illustrated using a numeric example.
翻訳日:2024-09-17 15:50:18 公開日:2024-09-16
# jina-embeddings-v3: Task LoRAによる多言語埋め込み

jina-embeddings-v3: Multilingual Embeddings With Task LoRA ( http://arxiv.org/abs/2409.10173v1 )

ライセンス: Link先を確認
Saba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao, (参考訳) 5億7000万のパラメータを持つ新しいテキスト埋め込みモデルであるjina-embeddings-v3を導入する。 このモデルは、クエリ文書検索、クラスタリング、分類、テキストマッチングのための高品質な埋め込みを生成するために、タスク固有のローランク適応(LoRA)アダプタのセットを含んでいる。 さらに、Matryoshka Representation Learningはトレーニングプロセスに統合され、パフォーマンスを損なうことなく埋め込み次元を柔軟に切り離すことができる。 MTEBベンチマークの評価によると、jina-embeddings-v3は、OpenAIとCohereの英語タスクへの最新のプロプライエタリな埋め込みよりも優れており、マルチリンガル-e5-大規模命令よりも優れたパフォーマンスを実現している。

We introduce jina-embeddings-v3, a novel text embedding model with 570 million parameters, achieves state-of-the-art performance on multilingual data and long-context retrieval tasks, supporting context lengths of up to 8192 tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA) adapters to generate high-quality embeddings for query-document retrieval, clustering, classification, and text matching. Additionally, Matryoshka Representation Learning is integrated into the training process, allowing flexible truncation of embedding dimensions without compromising performance. Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the latest proprietary embeddings from OpenAI and Cohere on English tasks, while achieving superior performance compared to multilingual-e5-large-instruct across all multilingual tasks.
翻訳日:2024-09-17 15:50:18 公開日:2024-09-16
# VideoRun2D:スプリントバイオメカニクスのためのコスト効果マーカーレスモーションキャプチャ

VideoRun2D: Cost-Effective Markerless Motion Capture for Sprint Biomechanics ( http://arxiv.org/abs/2409.10175v1 )

ライセンス: Link先を確認
Gonzalo Garrido-Lopez, Luis F. Gomez, Julian Fierrez, Aythami Morales, Ruben Tolosana, Javier Rueda, Enrique Navarro, (参考訳) スプリントは、特にチームスポーツにおいて決定的な能力である。 スプリントのキネマティクスは、人体バイオメカニクスを特化して開発された様々な手法を用いて過去に研究されてきた。 一方,近年の身体追跡性能に優れた機械学習のブレークスルーに基づいて,画素とボディトラッキングの汎用的手法が複数存在するが,これらの優れたトラッカーは現実的な人間のバイオメカニクスを概ね考慮していない。 この調査は、まずこれら2つの一般的なトラッカー(MoveNetとCoTracker)を現実的なバイオメカニカル分析に適用し、手動トラッキング(Kinoveaで手動でマークしたキーポイント)と比較して評価する。 我々は,特にスプリントバイオメカニクスに適応したマーカーレスボディトラッカーを VideoRun2D と呼ぶ。 The experimental development and Assessment of VideoRun2D is reported on forty sprints with a video camera from 5 individuals, focus our analysis in three key angles in sprint biomechanics: inclination of the trunk,flex extension of the hip and the knee。 CoTracker法は手動ラベリング法と比較して大きな違いを示した。 しかし、角度曲線は MoveNet 法で正確に推定され、3.2{\deg と 5.5{\deg の誤差が発見された。 結論として,MoveNet コアをベースとした VideoRun2D は,いくつかのシナリオでスプリントキネマティクスを評価する上で有用なツールであると思われる。 一方,この第1バージョンであるVideoRun2Dのマーカーレススプリント解析システムでは,高要求のアプリケーションでは十分な精度が得られていない。 この目的に向けた今後の研究線についても、後処理のトラッキングの改善とユーザと時間に依存した適応について論じている。

Sprinting is a determinant ability, especially in team sports. The kinematics of the sprint have been studied in the past using different methods specially developed considering human biomechanics and, among those methods, markerless systems stand out as very cost-effective. On the other hand, we have now multiple general methods for pixel and body tracking based on recent machine learning breakthroughs with excellent performance in body tracking, but these excellent trackers do not generally consider realistic human biomechanics. This investigation first adapts two of these general trackers (MoveNet and CoTracker) for realistic biomechanical analysis and then evaluate them in comparison to manual tracking (with key points manually marked using the software Kinovea). Our best resulting markerless body tracker particularly adapted for sprint biomechanics is termed VideoRun2D. The experimental development and assessment of VideoRun2D is reported on forty sprints recorded with a video camera from 5 different subjects, focusing our analysis in 3 key angles in sprint biomechanics: inclination of the trunk, flex extension of the hip and the knee. The CoTracker method showed huge differences compared to the manual labeling approach. However, the angle curves were correctly estimated by the MoveNet method, finding errors between 3.2{\deg} and 5.5{\deg}. In conclusion, our proposed VideoRun2D based on MoveNet core seems to be a helpful tool for evaluating sprint kinematics in some scenarios. On the other hand, the observed precision of this first version of VideoRun2D as a markerless sprint analysis system may not be yet enough for highly demanding applications. Future research lines towards that purpose are also discussed at the end: better tracking post-processing and user- and time-dependent adaptation.
翻訳日:2024-09-17 15:50:18 公開日:2024-09-16
# TCDformerを用いた長期スポーツ予測のためのモーメント転送モデル

TCDformer-based Momentum Transfer Model for Long-term Sports Prediction ( http://arxiv.org/abs/2409.10176v1 )

ライセンス: Link先を確認
Hui Liu, Jiacheng Gu, Xiyuan Huang, Junjie Shi, Tongtong Feng, Ning He, (参考訳) 正確なスポーツ予測は、効果的なトレーニング戦略と科学的競争戦術の開発を支援するプロのコーチにとって重要なスキルである。 従来の手法では、予測可能性を高めるために複雑な数学的統計手法を用いることが多いが、これはデータセットスケールによって制限されることが多く、特にポイントセット・マルチレベルマッチの予測において、変動分布による長期的な予測を扱うのが困難である。 本稿では, モーメントエンコーディングモジュールとモーメントトランスファーに基づく予測モジュールを含む, TCDformer を用いた長期スポーツ予測用モーメントムトランスファーモデル TM2 を提案する。 TM2は最初、局所線形スケーリング近似(LLSA)モジュールを用いて、大規模非構造化時系列のモーメントを符号化した。 そして、モーメントをトレンドと季節成分に移行した再構成された時系列を分解する。 最終予測結果は、トレンド成分の予測のための多層パーセプトロン(MLP)と季節成分のウェーブレットアテンション機構の付加的な組み合わせから導かれる。 総合的な実験の結果、2023年のウィンブルドン男子トーナメントのデータセットでは、TM2は既存のスポーツ予測モデルを大幅に上回っており、MSEは61.64%、MAEは63.64%減少している。

Accurate sports prediction is a crucial skill for professional coaches, which can assist in developing effective training strategies and scientific competition tactics. Traditional methods often use complex mathematical statistical techniques to boost predictability, but this often is limited by dataset scale and has difficulty handling long-term predictions with variable distributions, notably underperforming when predicting point-set-game multi-level matches. To deal with this challenge, this paper proposes TM2, a TCDformer-based Momentum Transfer Model for long-term sports prediction, which encompasses a momentum encoding module and a prediction module based on momentum transfer. TM2 initially encodes momentum in large-scale unstructured time series using the local linear scaling approximation (LLSA) module. Then it decomposes the reconstructed time series with momentum transfer into trend and seasonal components. The final prediction results are derived from the additive combination of a multilayer perceptron (MLP) for predicting trend components and wavelet attention mechanisms for seasonal components. Comprehensive experimental results show that on the 2023 Wimbledon men's tournament datasets, TM2 significantly surpasses existing sports prediction models in terms of performance, reducing MSE by 61.64% and MAE by 63.64%.
翻訳日:2024-09-17 15:50:18 公開日:2024-09-16
# 拡散検出による音声認識モデルの拡張

Augmenting Automatic Speech Recognition Models with Disfluency Detection ( http://arxiv.org/abs/2409.10177v1 )

ライセンス: Link先を確認
Robin Amann, Zhaolin Li, Barbara Bruno, Jan Niehues, (参考訳) 音声の拡散は、会話や自発的な発話でよく起こる。 しかし、標準的な自動音声認識(ASR)モデルは、典型的には流用文字で訓練されているため、これらの不一致を正確に認識するのに苦労する。 現在の研究は、主に、音声の正確な位置と持続時間を見越して、書き起こし中の不一致を検出することに焦点を当てている。 加えて、以前の作業ではモデル微調整がしばしば必要であり、限られた種類の分散に対処する。 本研究では,任意のASRモデルを拡張するための推論のみのアプローチを提案する。 まず、ASRモデルでは、音声不一致の書き起こしが難しいことを実証する。 次に, 単語レベルのタイムスタンプを効果的に把握しつつ, 単語レベルのタイムスタンプを予測するために, 改良されたコネクショニスト時間分類(CTC)に基づく強制アライメントアルゴリズムを提案する。 さらに、タイムスタンプ間のアライメントギャップを、不適切な音声や沈黙を含むものとして分類するモデルを開発する。 このモデルは精度81.62\%、F1スコア80.07\%を達成する。 分散データセット上でアライメントギャップの検出と分類の強化パイプラインをテストする。 以上の結果から,最初に書き起こしに失敗した単語の74.13 %を抽出し,下流タスクに対するパイプラインの可能性を示した。

Speech disfluency commonly occurs in conversational and spontaneous speech. However, standard Automatic Speech Recognition (ASR) models struggle to accurately recognize these disfluencies because they are typically trained on fluent transcripts. Current research mainly focuses on detecting disfluencies within transcripts, overlooking their exact location and duration in the speech. Additionally, previous work often requires model fine-tuning and addresses limited types of disfluencies. In this work, we present an inference-only approach to augment any ASR model with the ability to detect open-set disfluencies. We first demonstrate that ASR models have difficulty transcribing speech disfluencies. Next, this work proposes a modified Connectionist Temporal Classification(CTC)-based forced alignment algorithm from \cite{kurzinger2020ctc} to predict word-level timestamps while effectively capturing disfluent speech. Additionally, we develop a model to classify alignment gaps between timestamps as either containing disfluent speech or silence. This model achieves an accuracy of 81.62\% and an F1-score of 80.07\%. We test the augmentation pipeline of alignment gap detection and classification on a disfluent dataset. Our results show that we captured 74.13\% of the words that were initially missed by the transcription, demonstrating the potential of this pipeline for downstream tasks.
翻訳日:2024-09-17 15:50:18 公開日:2024-09-16
# ExelMap: 説明可能な要素ベースのHDマップ変更検出と更新

ExelMap: Explainable Element-based HD-Map Change Detection and Update ( http://arxiv.org/abs/2409.10178v1 )

ライセンス: Link先を確認
Lena Wild, Ludvig Ericson, Rafael Valencia, Patric Jensfelt, (参考訳) 自動走行のための高精細マップ(HD)を配置する上で、取得とメンテナンスは中心的な問題であり、現在の文献では2つの研究ラインが一般的である:オンラインHDマップ生成とHDマップ変更検出である。 しかし、生成したマップの品質は、現在安全な配置には不十分であり、多くの変更検出アプローチは、変更したマップ要素を正確にローカライズして抽出することができない。 本稿では,要素をベースとしたHDマップ変更検出と更新を行う新しいタスクを提案する。 HDマップ更新に先立って,時代遅れのマップを付加したオンラインマッピング技術を用いた最近のアプローチを拡張した上で,変更したマップ要素を具体的に識別する,説明可能な要素ベースのマップ更新戦略であるExelMapを紹介した。 この文脈では、現在使われているメトリクスがどのように変化検出性能を捉えるのに失敗しているかを議論するとともに、事前情報のないマップ生成手法と事前インフォームドマップ生成手法との不公平な比較を可能にする。 最後に,Argoverse 2 Map Change Datasetの歩行者横断に関する実世界変化に関する実験的検討を行った。 私たちの知る限りでは、これは、現実世界のエンドツーエンドの要素ベースのHDマップ変更の検出と更新に関する、初めての包括的な問題調査であり、ExelMapは、最初の提案されたソリューションである。

Acquisition and maintenance are central problems in deploying high-definition (HD) maps for autonomous driving, with two lines of research prevalent in current literature: Online HD map generation and HD map change detection. However, the generated map's quality is currently insufficient for safe deployment, and many change detection approaches fail to precisely localize and extract the changed map elements, hence lacking explainability and hindering a potential fleet-based cooperative HD map update. In this paper, we propose the novel task of explainable element-based HD map change detection and update. In extending recent approaches that use online mapping techniques informed with an outdated map prior for HD map updating, we present ExelMap, an explainable element-based map updating strategy that specifically identifies changed map elements. In this context, we discuss how currently used metrics fail to capture change detection performance, while allowing for unfair comparison between prior-less and prior-informed map generation methods. Finally, we present an experimental study on real-world changes related to pedestrian crossings of the Argoverse 2 Map Change Dataset. To the best of our knowledge, this is the first comprehensive problem investigation of real-world end-to-end element-based HD map change detection and update, and ExelMap the first proposed solution.
翻訳日:2024-09-17 15:50:18 公開日:2024-09-16
# 量子モエビウス-エッシャー-ペンローズハイパーグラフによる量子テクスチュアリティの探索

Exploring Quantum Contextuality with the Quantum Moebius-Escher-Penrose hypergraph ( http://arxiv.org/abs/2409.10179v1 )

ライセンス: Link先を確認
Mirko Navara, Karl Svozil, (参考訳) 本研究は、モエビウス・エッシャー=ペンローズハイパーグラフ(英語版)を示し、モエビウス・ストリップやペンローズの「不可能な物体」のようなパラドックス構造からインスピレーションを得ている。 ハイパーグラフはヒルベルト空間の忠実直交表現を用いて構築され、量子フレームワークにグラフを埋め込む。 さらに、準古典的実現は2つの値の状態と分割論理によって達成され、ブール代数に埋め込まれる。 この双対表現は古典的および量子的埋め込みの区別を、古典的および量子的確率によって量子化された排他的および完全性の違反によって強調される文脈性に焦点を当てて表現する。 この研究は、相関ポリトープを用いて、ブールの可能な経験条件の違反についても検討し、ハイパーグラフの本質的な文脈性を裏付ける。 これらの結果は、量子文脈性とその古典論理構造との複雑な関係に関する深い洞察を与える。

This study presents the quantum Moebius-Escher-Penrose hypergraph, drawing inspiration from paradoxical constructs such as the Moeobius strip and Penrose's `impossible objects'. The hypergraph is constructed using faithful orthogonal representations in Hilbert space, thereby embedding the graph within a quantum framework. Additionally, a quasi-classical realization is achieved through two-valued states and partition logic, leading to an embedding within Boolean algebra. This dual representation delineates the distinctions between classical and quantum embeddings, with a particular focus on contextuality, highlighted by violations of exclusivity and completeness, quantified through classical and quantum probabilities. The study also examines violations of Boole's conditions of possible experience using correlation polytopes, underscoring the inherent contextuality of the hypergraph. These results offer deeper insights into quantum contextuality and its intricate relationship with classical logic structures.
翻訳日:2024-09-17 15:50:18 公開日:2024-09-16
# RealDiff:自己監督拡散モデルを用いた実世界の3次元形状補完

RealDiff: Real-world 3D Shape Completion using Self-Supervised Diffusion Models ( http://arxiv.org/abs/2409.10180v1 )

ライセンス: Link先を確認
Başak Melis Öcal, Maxim Tatarchenko, Sezer Karaoglu, Theo Gevers, (参考訳) 点雲の完成は、部分的な観測から物体の完全な3次元形状を復元することを目的としている。 合成形状に依存したアプローチはこの領域で有望な結果を得たが、実際のデータに適用性や一般化性はまだ限られている。 この問題に対処するために,実世界の計測を直接的に条件付き生成問題としてポイントクラウド補完を定式化する自己教師型フレームワークであるRealDiffを提案する。 合成データのトレーニングに頼らずに、ノイズの多い観測をよりよく扱うためには、追加の幾何学的手がかりを活用する。 具体的には、RealDiffは、タスクのマルチモーダルな性質に対処するために部分入力の生成を条件付けながら、行方不明なオブジェクト部分での拡散プロセスをシミュレートする。 さらに,物体のシルエットと深度マップと,外部推定値とを一致させてトレーニングを調整した。 実験結果から,本手法は実世界のクラウド完成度において常に最先端の手法よりも優れていた。

Point cloud completion aims to recover the complete 3D shape of an object from partial observations. While approaches relying on synthetic shape priors achieved promising results in this domain, their applicability and generalizability to real-world data are still limited. To tackle this problem, we propose a self-supervised framework, namely RealDiff, that formulates point cloud completion as a conditional generation problem directly on real-world measurements. To better deal with noisy observations without resorting to training on synthetic data, we leverage additional geometric cues. Specifically, RealDiff simulates a diffusion process at the missing object parts while conditioning the generation on the partial input to address the multimodal nature of the task. We further regularize the training by matching object silhouettes and depth maps, predicted by our method, with the externally estimated ones. Experimental results show that our method consistently outperforms state-of-the-art methods in real-world point cloud completion.
翻訳日:2024-09-17 15:50:18 公開日:2024-09-16
# LLM推論によるRLの安全性向上

Enhancing RL Safety with Counterfactual LLM Reasoning ( http://arxiv.org/abs/2409.10188v1 )

ライセンス: Link先を確認
Dennis Gross, Helge Spieker, (参考訳) 強化学習(RL)ポリシーは、安全でない振る舞いを示し、説明が難しい。 我々は、RLポリシーのトレーニング後安全性を高めるために、反ファクトな大規模言語モデル推論を使用する。 我々のアプローチは改善され、RL政策の安全性を説明するのに役立ちます。

Reinforcement learning (RL) policies may exhibit unsafe behavior and are hard to explain. We use counterfactual large language model reasoning to enhance RL policy safety post-training. We show that our approach improves and helps to explain the RL policy safety.
翻訳日:2024-09-17 15:50:18 公開日:2024-09-16
# 無限粒子数極限におけるトラップ付き多種ボソニック混合物の性質:可解モデル

Properties of a trapped multiple-species bosonic mixture at the infinite-particle-number limit: A solvable model ( http://arxiv.org/abs/2409.10190v1 )

ライセンス: Link先を確認
O. E. Alon, L. S. Cederbaum, (参考訳) 正確に解ける多体モデルである$P$-species Harmononic-Interactionモデルを用いて,複数のP種からなるボース・アインシュタイン凝縮体の捕捉混合物について検討した。 この解はジャコビ座標の二重集合を利用することで容易にできる。 全粒子密度行列を統合するためのスキームを導出して実装する。 特に興味深いのは無限粒子数制限であり、これは相互作用パラメータを固定しながらボソンの数が無限大になるときに得られる。 まず、無限粒子数の極限で、この種は100\%$縮合されていることを証明した。 P$-種混合の平均場解も解析的に得られ、粒子当たりのエネルギーと粒子当たりの密度が多体理論で計算されたエネルギーは平均場に沸騰することを示すために用いられる。 これらのにもかかわらず、混合物の相関は無限粒子数極限に存在する。 この目的のために、無限粒子数極限における相関エネルギーと種の枯渇に対する閉形式式を得る。 種ごとの枯渇と相関エネルギーは、種数によって著しく異なることが示されている。 異なる興味を持つのは、1つのボソン種と他のP-1$種の間の絡み合いである。 興味深いことに、最も多くの種があり、ここでは、絡み合いが最大となる$P=3$である。 重要なことに、この種間の絡み合いが観測可能な状態にある可能性がある。 種間の絡み合いと相関して誘導され実証される他のP-1$種の存在下での1種の位置モメンタム不確実性産物である。 全体として、捕獲された多種のボソニック混合物の無限粒子数限界における相関関係が相互作用にどのように依存するか、そして種数とどのように進化するかを示し、説明する。

We investigate a trapped mixture of Bose-Einstein condensates consisting of a multiple number of P species using an exactly-solvable many-body model, the $P$-species harmonic-interaction model. The solution is facilitated by utilizing a double set of Jacoby coordinates. A scheme to integrate the all-particle density matrix is derived and implemented. Of particular interest is the infinite-particle-number limit, which is obtained when the numbers of bosons are taken to infinity while keeping the interaction parameters fixed. We first prove that at the infinite-particle-number limit {\it all} the species are $100\%$ condensed. The mean-field solution of the $P$-species mixture is also obtained analytically, and is used to show that the energy per particle and densities per particle computed at the many-body level of theory boil down to their mean-field counterparts. Despite these, correlations in the mixture exist at the infinite-particle-number limit. To this end, we obtain closed-form expressions for the correlation energy and the depletion of the species at the infinite-particle-number limit. The depletion and the correlation energy per species are shown to critically depend on the number of species. Of separate interest is the entanglement between one species of bosons and the other $P-1$ species. Interestingly, there is an optimal number of species, here $P=3$, where the entanglement is maximal. Importantly, the manifestation of this interspecies entanglement in an observable is possible. It is the position-momentum uncertainty product of one species in the presence of the other $P-1$ species which is derived and demonstrated to correlate with the interspecies entanglement. All in all, we show and explain how correlations at the infinite-particle-number limit of a trapped multiple-species bosonic mixture depend on the interactions, and how they evolve with the number of species.
翻訳日:2024-09-17 15:50:18 公開日:2024-09-16
# 臨床リスク予測のためのLSM

LLMs for clinical risk prediction ( http://arxiv.org/abs/2409.10191v1 )

ライセンス: Link先を確認
Mohamed Rezk, Patricia Cabanillas Silva, Fried-Michael Dahlweid, (参考訳) 本研究は, GPT-4 と clinalytix Medical AI の臨床的リスク予測における効果を比較検討した。 その結果, GPT-4は陽性症例の同定に有意な欠陥を示し, デリリウムリスクの確率推定に苦慮し, クリナリクス医療用AIは精度が優れていた。 大規模言語モデル(LLM)の詳細な解析は、これらの相違点の潜在的な原因を解明し、現存する文献で報告されている制限と一致させる。 これらの結果は、LCMが正確に診断し、複雑な臨床データを解釈する上で直面する課題を浮き彫りにしている。 LLMは医療において大きな可能性を秘めているが、現在は独立した臨床意思決定には適していない。 代わりに、彼らは臨床の専門知識を補完し、補助的な役割を担わなければならない。 患者と医療提供者の両方にとって最適な結果を確保するためには、引き続き人間の監視が不可欠である。

This study compares the efficacy of GPT-4 and clinalytix Medical AI in predicting the clinical risk of delirium development. Findings indicate that GPT-4 exhibited significant deficiencies in identifying positive cases and struggled to provide reliable probability estimates for delirium risk, while clinalytix Medical AI demonstrated superior accuracy. A thorough analysis of the large language model's (LLM) outputs elucidated potential causes for these discrepancies, consistent with limitations reported in extant literature. These results underscore the challenges LLMs face in accurately diagnosing conditions and interpreting complex clinical data. While LLMs hold substantial potential in healthcare, they are currently unsuitable for independent clinical decision-making. Instead, they should be employed in assistive roles, complementing clinical expertise. Continued human oversight remains essential to ensure optimal outcomes for both patients and healthcare providers.
翻訳日:2024-09-17 15:50:18 公開日:2024-09-16
# GPSデニッド環境における空中ロボット経路計画の相対的位置決め

Relative Positioning for Aerial Robot Path Planning in GPS Denied Environment ( http://arxiv.org/abs/2409.10193v1 )

ライセンス: Link先を確認
Farzad Sanati, (参考訳) オーストラリアの無人航空機(Unmanned Aerial Vehicles, UAV)と呼ばれるインテリジェントな航空ロボットの最も有用な応用の1つは、ブッシュファイアの監視と予測操作にあることが知られている。 ドローンや無人航空機の群れが、オンボードセンサーを使って火のパラメータをリアルタイムで観察するようにプログラムされている。 しかし、自律型UAVは、リモートネスやGPS信号が信頼性に欠ける厳しい気象条件など、重要なブッシュファイア条件における位置決めとナビゲーションにおいて深刻な課題に直面している。 本稿では、自律型UAVナビゲーションにおける最も重要な要素の一つ、すなわち、初期位置決め(Initial Positioning)をローカライゼーション(Localisation)と呼ぶ。 本稿では,自律型UAVのチームが運用基地に対する相対的な位置を確立することで,ブッシュファイアの影響を受けた地域でチーム検索と偵察を開始し,GPS信号の助けを借りずに基地に戻ることができる。

One of the most useful applications of intelligent aerial robots sometimes called Unmanned Aerial Vehicles (UAV) in Australia is known to be in bushfire monitoring and prediction operations. A swarm of autonomous drones/UAVs programmed to work in real-time observing the fire parameters using their onboard sensors would be valuable in reducing the life-threatening impact of that fire. However autonomous UAVs face serious challenges in their positioning and navigation in critical bushfire conditions such as remoteness and severe weather conditions where GPS signals could also be unreliable. This paper tackles one of the most important factors in autonomous UAV navigation, namely Initial Positioning sometimes called Localisation. The solution provided by this paper will enable a team of autonomous UAVs to establish a relative position to their base of operation to be able to commence a team search and reconnaissance in a bushfire-affected area and find their way back to their base without the help of GPS signals.
翻訳日:2024-09-17 15:40:35 公開日:2024-09-16
# NEUSIS: 複雑なUAV探索ミッションにおける自律的知覚、推論、計画のための合成ニューロシンボリックフレームワーク

NEUSIS: A Compositional Neuro-Symbolic Framework for Autonomous Perception, Reasoning, and Planning in Complex UAV Search Missions ( http://arxiv.org/abs/2409.10196v1 )

ライセンス: Link先を確認
Zhixi Cai, Cristian Rojas Cardenas, Kevin Leo, Chenyuan Zhang, Kal Backman, Hanbing Li, Boying Li, Mahsa Ghorbanali, Stavya Datta, Lizhen Qu, Julian Gutierrez Santiago, Alexey Ignatiev, Yuan-Fang Li, Mor Vered, Peter J Stuckey, Maria Garcia de la Banda, Hamid Rezatofighi, (参考訳) 本稿では,自律型無人機探索ミッションの課題に対処する。このミッションでは,無人機が時間制限内に特定の利害関係者(EOIs)を特定する必要がある。 UAVは限定的で不確実な情報で判断し、推論し、決定をしなければならない。 現実的なシナリオにおけるUAV探索とナビゲーションの解釈を目的とした合成ニューロシンボリックシステムであるNEUSISを提案する。 NEUSISは、ニューロシンボリックな視覚知覚、推論、接地(GRiD)を統合して生の感覚入力を処理し、環境表現のための確率論的世界モデルを維持し、効率的な経路計画のために階層的計画コンポーネント(SNaC)を使用する。 AirSimとUnreal Engineを用いた都市検索のシミュレーション実験の結果、NEUSISは成功率、探索効率、および3Dローカライゼーションにおいて、最先端(SOTA)ビジョン言語モデルとSOTA検索計画モデルより優れていることが示された。 これらの結果は,複雑な実世界のシナリオを扱う上で,我々の構成的ニューロシンボリックアプローチの有効性を示し,探索ミッションにおける自律型UAVシステムにとって有望な解決策となった。

This paper addresses the problem of autonomous UAV search missions, where a UAV must locate specific Entities of Interest (EOIs) within a time limit, based on brief descriptions in large, hazard-prone environments with keep-out zones. The UAV must perceive, reason, and make decisions with limited and uncertain information. We propose NEUSIS, a compositional neuro-symbolic system designed for interpretable UAV search and navigation in realistic scenarios. NEUSIS integrates neuro-symbolic visual perception, reasoning, and grounding (GRiD) to process raw sensory inputs, maintains a probabilistic world model for environment representation, and uses a hierarchical planning component (SNaC) for efficient path planning. Experimental results from simulated urban search missions using AirSim and Unreal Engine show that NEUSIS outperforms a state-of-the-art (SOTA) vision-language model and a SOTA search planning model in success rate, search efficiency, and 3D localization. These results demonstrate the effectiveness of our compositional neuro-symbolic approach in handling complex, real-world scenarios, making it a promising solution for autonomous UAV systems in search missions.
翻訳日:2024-09-17 15:40:35 公開日:2024-09-16
# Fit and Prune: マルチモーダル大規模言語モデルのための高速かつトレーニング不要なビジュアルトーケンプルーニング

Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models ( http://arxiv.org/abs/2409.10197v1 )

ライセンス: Link先を確認
Weihao Ye, Qiong Wu, Wenhao Lin, Yiyi Zhou, (参考訳) MLLM(Multimodal Large Language Models)の最近の進歩は、MLLMの視覚的欠点を補うために大きな画像トークンを使用することが多い。 トークンプルーニングはMLLMの高速化に有効なソリューションだが、トークンをいつ、どのようにドロップするかは依然として課題である。 本稿では,MLLMの効率的な視覚的トークンプルーニング(FitPrune)のための新規かつトレーニング不要なアプローチを提案し,事前定義された予算に従ってMLLMの完全なプルーニングレシピを迅速に作成できる。 具体的には、FitPruneはトークンプルーニングをMLLMの統計的問題とみなし、その目的は、プルーニング前後の注意分布のばらつきを最小限に抑える最適なプルーニング手法を見つけることである。 実際にFitPruneは、MLLMの高価な試行を避けるために、少量の推論データからの注意統計に基づいて迅速に達成できる。 プルーニングレシピによると、MLLMは推論中に異なる例の冗長な視覚トークンを直接削除することができる。 FitPruneを検証するために、LLaVA-1.5、LLaVA-HR、LLaVA-NEXTを含む最近のMLLMのセットに適用し、ベンチマークのセットで広範な実験を行う。 実験結果から,LLaVA-NEXTは0.5%の精度で高い性能,-54.9%のFLOPを保ちながら,計算複雑性を大幅に低減できることがわかった。 特に、プルーニングレシピを約5分で得ることができる。 私たちのコードはhttps://github.com/ywh187/FitPrune.comから入手可能です。

Recent progress in Multimodal Large Language Models(MLLMs) often use large image tokens to compensate the visual shortcoming of MLLMs, which not only exhibits obvious redundancy but also greatly exacerbates the already high computation. Token pruning is an effective solution for speeding up MLLMs, but when and how to drop tokens still remains a challenge. In this paper, we propose a novel and training-free approach for the effective visual token pruning of MLLMs, termed FitPrune, which can quickly produce a complete pruning recipe for MLLMs according to a pre-defined budget. Specifically, FitPrune considers token pruning as a statistical problem of MLLM and its objective is to find out an optimal pruning scheme that can minimize the divergence of the attention distributions before and after pruning. In practice, FitPrune can be quickly accomplished based on the attention statistics from a small batch of inference data, avoiding the expensive trials of MLLMs. According to the pruning recipe, an MLLM can directly remove the redundant visual tokens of different examples during inference. To validate FitPrune, we apply it to a set of recent MLLMs, including LLaVA-1.5, LLaVA-HR and LLaVA-NEXT, and conduct extensive experiments on a set of benchmarks. The experimental results show that our FitPrune can not only reduce the computational complexity to a large extent, while retaining high performance, e.g., -54.9% FLOPs for LLaVA-NEXT with only 0.5% accuracy drop. Notably, the pruning recipe can be obtained in about 5 minutes. Our code is available at https://github.com/ywh187/FitPrune.
翻訳日:2024-09-17 15:40:35 公開日:2024-09-16
# SteeredMarigold: 大規模不完全深度マップの深さ完了に向けてのステアリング拡散

SteeredMarigold: Steering Diffusion Towards Depth Completion of Largely Incomplete Depth Maps ( http://arxiv.org/abs/2409.10202v1 )

ライセンス: Link先を確認
Jakub Gregorek, Lazaros Nalpantidis, (参考訳) 実環境に展開されたRGB-Dセンサーが捉えた深度マップは、有効な深度測定をしていない大きな領域で特徴付けられることが多いが、ほとんどの深度補完法は、シーンのすべての領域をカバーする深さ値を想定している。 この制限に対処するために、大半不完全深度マップであっても、計量密度の深い深度を生成できる訓練不要ゼロショット深度補完法であるSteeredMarigoldを導入する。 SteeredMarigold氏は、利用可能なスパース深さ点を、微分確率モデル(英語版)(denoising diffusion probabilistic model)をステアリングする条件として利用することによって、これを達成している。 提案手法は,大面積の深度が得られないテストにおいて,NYUv2データセットの高精細度化手法よりも優れ,最先端性能を実現し,深度マップの不完全性に対する顕著な堅牢性を示す。 私たちのコードは公開されます。

Even if the depth maps captured by RGB-D sensors deployed in real environments are often characterized by large areas missing valid depth measurements, the vast majority of depth completion methods still assumes depth values covering all areas of the scene. To address this limitation, we introduce SteeredMarigold, a training-free, zero-shot depth completion method capable of producing metric dense depth, even for largely incomplete depth maps. SteeredMarigold achieves this by using the available sparse depth points as conditions to steer a denoising diffusion probabilistic model. Our method outperforms relevant top-performing methods on the NYUv2 dataset, in tests where no depth was provided for a large area, achieving state-of-art performance and exhibiting remarkable robustness against depth map incompleteness. Our code will be publicly available.
翻訳日:2024-09-17 15:40:35 公開日:2024-09-16
# 説明可能な機械学習による効率的なミル品質予測

Efficient Milling Quality Prediction with Explainable Machine Learning ( http://arxiv.org/abs/2409.10203v1 )

ライセンス: Link先を確認
Dennis Gross, Helge Spieker, Arnaud Gotlieb, Ricardo Knoblauch, Mohamed Elmansori, (参考訳) 本稿では,ミリングの表面粗さを予測するための機械学習(ML)手法を提案する。 この研究では、ミリング用アルミニウム合金2017Aのデータセットを用いて、ランダムな森林回帰モデルと特徴的重要性技術を用いている。 主な貢献は、様々な粗さの値を正確に予測するMLモデルの開発と、特に正常な切断力を測定するための冗長なセンサーの識別である。 実験の結果,特定のセンサを除去することで,予測精度を犠牲にすることなくコストを削減できることが判明した。

This paper presents an explainable machine learning (ML) approach for predicting surface roughness in milling. Utilizing a dataset from milling aluminum alloy 2017A, the study employs random forest regression models and feature importance techniques. The key contributions include developing ML models that accurately predict various roughness values and identifying redundant sensors, particularly those for measuring normal cutting force. Our experiments show that removing certain sensors can reduce costs without sacrificing predictive accuracy, highlighting the potential of explainable machine learning to improve cost-effectiveness in machining.
翻訳日:2024-09-17 15:40:35 公開日:2024-09-16
# 学習型ロボットによるソフトマニピュレーションにおける画像と画像の埋め込み変換

Embedded Image-to-Image Translation for Efficient Sim-to-Real Transfer in Learning-based Robot-Assisted Soft Manipulation ( http://arxiv.org/abs/2409.10204v1 )

ライセンス: Link先を確認
Jacinto Colan, Keisuke Sugita, Ana Davila, Yutaro Yamada, Yasuhisa Hasegawa, (参考訳) シミュレーションにおけるロボット学習の最近の進歩は、複雑な操作スキルの学習を加速させる顕著な成果を示している。 しかし、シミュレーションと現実の相違によって引き起こされるシム・トゥ・リアルギャップは、自律的な手術システムの効果的な展開に重大な課題をもたらす。 本研究では、画像翻訳モデルを用いて、ドメインミスマッチを緩和し、シミュレーション環境での効率的なロボットスキル学習を容易にする手法を提案する。 本手法では, コントラストのない画像から画像への変換を行うことで, 変換された画像から組込み表現を取得できる。 その後、これらの埋め込みは外科手術モデルの訓練効率を向上させるために使用される。 本研究では,従来の手法に比べてタスク成功率を大幅に向上させ,タスク完了に必要なステップを削減できることを実証し,提案手法の性能を評価する実験を行った。 以上の結果から,手術ロボットの自律性を最小限の侵襲的手順で向上するための堅牢な枠組みとして,シム・トゥ・リアルギャップを効果的に橋渡しできることが示唆された。

Recent advances in robotic learning in simulation have shown impressive results in accelerating learning complex manipulation skills. However, the sim-to-real gap, caused by discrepancies between simulation and reality, poses significant challenges for the effective deployment of autonomous surgical systems. We propose a novel approach utilizing image translation models to mitigate domain mismatches and facilitate efficient robot skill learning in a simulated environment. Our method involves the use of contrastive unpaired Image-to-image translation, allowing for the acquisition of embedded representations from these transformed images. Subsequently, these embeddings are used to improve the efficiency of training surgical manipulation models. We conducted experiments to evaluate the performance of our approach, demonstrating that it significantly enhances task success rates and reduces the steps required for task completion compared to traditional methods. The results indicate that our proposed system effectively bridges the sim-to-real gap, providing a robust framework for advancing the autonomy of surgical robots in minimally invasive procedures.
翻訳日:2024-09-17 15:40:35 公開日:2024-09-16
# マルチレベル注意によるガーメント属性操作

Garment Attribute Manipulation with Multi-level Attention ( http://arxiv.org/abs/2409.10206v1 )

ライセンス: Link先を確認
Vittorio Casula, Lorenzo Berlincioni, Luca Cultrera, Federico Becattini, Chiara Pero, Carmen Bisogni, Marco Bertini, Alberto Del Bimbo, (参考訳) オンラインファッションショッピングの分野では、よりパーソナライズされインタラクティブな画像検索システムの必要性が高まっている。 既存の方法では、特定の衣服の属性を正確に操作するのに、他人に不注意に影響を及ぼすことなく苦労することが多い。 この課題に対処するために,属性不整合表現と多段階アテンションベースアーキテクチャを統合する新しいフレームワークであるGAMMA(Garment Attribute Manipulation with Multi-level Attention)を提案する。 GAMMAは、ファッションイメージ属性をターゲットとする操作を可能にし、ユーザーは高い精度で検索を洗練できる。 デュアルエンコーダトランスとメモリブロックを活用することで、Shopping100kやDeepFashionといった一般的なデータセットで最先端のパフォーマンスを実現しています。

In the rapidly evolving field of online fashion shopping, the need for more personalized and interactive image retrieval systems has become paramount. Existing methods often struggle with precisely manipulating specific garment attributes without inadvertently affecting others. To address this challenge, we propose GAMMA (Garment Attribute Manipulation with Multi-level Attention), a novel framework that integrates attribute-disentangled representations with a multi-stage attention-based architecture. GAMMA enables targeted manipulation of fashion image attributes, allowing users to refine their searches with high accuracy. By leveraging a dual-encoder Transformer and memory block, our model achieves state-of-the-art performance on popular datasets like Shopping100k and DeepFashion.
翻訳日:2024-09-17 15:40:35 公開日:2024-09-16
# クロスモーダル・スーパービジョンを用いた顔面神経形態解析

Neuromorphic Facial Analysis with Cross-Modal Supervision ( http://arxiv.org/abs/2409.10213v1 )

ライセンス: Link先を確認
Federico Becattini, Luca Cultrera, Lorenzo Berlincioni, Claudio Ferrari, Andrea Leonardo, Alberto Del Bimbo, (参考訳) RGBフレームを解析するための従来のアプローチは、感情、ポーズ、形状、ランドマークを推測することで、異なる角度から顔のきめ細かい理解を提供することができる。 しかし、標準のRGBカメラは遅延が原因で微妙な動きが遅れる可能性があるため、被験者の本当の感情を推測するために、非常に情報に富んだ手がかりを持つ微小な動きを検出するのが難しくなる。 この問題に対処するためには、顔を分析するイベントカメラの使用が注目されている。 それでも、RGB処理で成熟したすべての専門知識は、強いドメインシフトとデータの表現方法に固有の違いがあるため、ニューロモルフィックデータに直接転送できない。 ラベル付きデータの欠如は、このギャップの主な原因の1つと見なすことができるが、Webからクロールすることはできず、ラベル付けフレームはイベント集約率を考慮すべきであり、静的な部分が特定のフレームで見えないという事実を考慮に入れなければならないため、イベントドメインではデータ収集が困難である。 本稿では、まず、RGBビデオとイベントストリームの両方からなるマルチモーダル時間同期顔データセットであるFACEMORPHICを提示する。 データは、顔のアクションユニットでビデオレベルにラベル付けされ、また3D形状の推定から唇読みまで、さまざまなアプリケーションを念頭に置いて収集されたストリームも含まれている。 次に、時間的同期がビデオに手動で注釈を付けることなく効果的なニューロモーフィックな顔分析を可能にすることを示す。

Traditional approaches for analyzing RGB frames are capable of providing a fine-grained understanding of a face from different angles by inferring emotions, poses, shapes, landmarks. However, when it comes to subtle movements standard RGB cameras might fall behind due to their latency, making it hard to detect micro-movements that carry highly informative cues to infer the true emotions of a subject. To address this issue, the usage of event cameras to analyze faces is gaining increasing interest. Nonetheless, all the expertise matured for RGB processing is not directly transferrable to neuromorphic data due to a strong domain shift and intrinsic differences in how data is represented. The lack of labeled data can be considered one of the main causes of this gap, yet gathering data is harder in the event domain since it cannot be crawled from the web and labeling frames should take into account event aggregation rates and the fact that static parts might not be visible in certain frames. In this paper, we first present FACEMORPHIC, a multimodal temporally synchronized face dataset comprising both RGB videos and event streams. The data is labeled at a video level with facial Action Units and also contains streams collected with a variety of applications in mind, ranging from 3D shape estimation to lip-reading. We then show how temporal synchronization can allow effective neuromorphic face analysis without the need to manually annotate videos: we instead leverage cross-modal supervision bridging the domain gap by representing face shapes in a 3D space.
翻訳日:2024-09-17 15:40:35 公開日:2024-09-16
# 強化学習政策の安全性と解釈

Safety-Oriented Pruning and Interpretation of Reinforcement Learning Policies ( http://arxiv.org/abs/2409.10218v1 )

ライセンス: Link先を確認
Dennis Gross, Helge Spieker, (参考訳) Pruning Neural Network(NN)はそれらを合理化するが、安全な強化学習(RL)ポリシから重要なパラメータを取り除くリスクがある。 本稿では,NNプルーニングとモデルチェックを併用して,解釈可能なRL安全性を確保する,VERINTERと呼ばれる解釈可能なRL手法を提案する。 VERINTERは、プルーニングの影響と神経接続が複雑な安全特性に与える影響を、安全測定の変化を分析することによって正確に定量化する。 本手法は, プルーニングされたRLポリシーの安全性を維持し, 複数のRL設定において有効であることが証明された, 安全性のダイナミクスの理解を高める。

Pruning neural networks (NNs) can streamline them but risks removing vital parameters from safe reinforcement learning (RL) policies. We introduce an interpretable RL method called VERINTER, which combines NN pruning with model checking to ensure interpretable RL safety. VERINTER exactly quantifies the effects of pruning and the impact of neural connections on complex safety properties by analyzing changes in safety measurements. This method maintains safety in pruned RL policies and enhances understanding of their safety dynamics, which has proven effective in multiple RL settings.
翻訳日:2024-09-17 15:40:35 公開日:2024-09-16
# Kerr QND測定のためのキャビティ内スクイーズ法

Intracavity squeezing for Kerr QND Measurement scheme ( http://arxiv.org/abs/2409.10222v1 )

ライセンス: Link先を確認
Dariya Salykina, Stepan Balybin, Farid Ya. Khalili, (参考訳) 参照。 [Phys. A 108, 053708], 光マイクロ共振器における共鳴的に強化されたKerr非線形性を用いた光量子の量子非破壊測定のスキーム, プローブビームの前処理, 検出前のパラメトリック増幅を理論的に解析した。 提案手法の感度を制限する主な要因は,光学損失の相互作用と非線形自己位相変調(SPM)効果である。 ここでは、この方式でプローブビームのキャビティ内スクイーズを用いることで、SPM効果をキャンセルできることを示す。 この場合、感度はポンプビームの利用可能な電力と信号ビームの入出力損失によって制限される。 我々の推定では、現在利用可能な最高の光マイクロ共振器を用いることで、キャビティ内光子数に対する単一光子感度が達成できる。 したがって、このスキームは光量子情報処理タスクにとって興味深いものである可能性がある。

In Ref. [Phys. Rev. A 108, 053708], the scheme of quantum non-demolition measurement of optical quanta that uses a resonantly enhanced Kerr nonlinearity in the optical microresonator, pre-squeezing of the probe beam, and its parametric amplification before the detection, was analyzed theoretically. It was shown that the main factor that limits the sensitivity of the considered scheme is the interplay of optical losses and the non-linear self-phase modulation (SPM) effect. Here we show that using the intracavity squeezing of the probe beam in this scheme, it is possible to cancel out the SPM effect. In this case, the sensitivity will be limited only by the available power in the pump beam and by the input/output losses in the signal beam. Our estimates show, that using the best optical microresonators currently available, the single-photon sensitivity for the intracavity photon number can be achieved. Therefore, this scheme could be of interest for optical quantum information processing tasks.
翻訳日:2024-09-17 15:40:35 公開日:2024-09-16
# DINOv2適応によるRobust Bird's Eye View Segmentation

Robust Bird's Eye View Segmentation by Adapting DINOv2 ( http://arxiv.org/abs/2409.10228v1 )

ライセンス: Link先を確認
Merve Rabia Barın, Görkay Aydemir, Fatma Güney, (参考訳) 複数のカメラ画像からBird's Eye View (BEV)表現を抽出することで、自律運転におけるLIDARベースのソリューションに代えて、低コストでスケーラブルな代替手段を提供する。 しかし、既存のBEV法の性能は、明るさや天候の変化、カメラの故障など様々な汚職の下で著しく低下する。 BEV知覚のロバスト性を改善するために,Low Rank Adaptation (LoRA) を用いたBEV推定に大規模な視覚基盤モデル DINOv2 を適用することを提案する。 我々のアプローチは、最先端フレームワークSimpleBEVにおけるBEVタスクに適応することで、DINOv2の強力な表現空間の上に構築されている。 実験の結果, 様々な汚職下でのBEV知覚の堅牢性は向上し, モデルのスケールアップや入力解像度の増大による利得も増大した。 また,適応表現の有効性を,学習可能なパラメータの少ないこと,学習中の収束の高速化の観点から示す。

Extracting a Bird's Eye View (BEV) representation from multiple camera images offers a cost-effective, scalable alternative to LIDAR-based solutions in autonomous driving. However, the performance of the existing BEV methods drops significantly under various corruptions such as brightness and weather changes or camera failures. To improve the robustness of BEV perception, we propose to adapt a large vision foundational model, DINOv2, to BEV estimation using Low Rank Adaptation (LoRA). Our approach builds on the strong representation space of DINOv2 by adapting it to the BEV task in a state-of-the-art framework, SimpleBEV. Our experiments show increased robustness of BEV perception under various corruptions, with increasing gains from scaling up the model and the input resolution. We also showcase the effectiveness of the adapted representations in terms of fewer learnable parameters and faster convergence during training.
翻訳日:2024-09-17 15:40:35 公開日:2024-09-16
# Silqを用いた高レベル量子アルゴリズムプログラミング

High-level quantum algorithm programming using Silq ( http://arxiv.org/abs/2409.10231v1 )

ライセンス: Link先を確認
Viktorija Bezganovic, Marco Lewis, Sadegh Soudjani, Paolo Zuliani, (参考訳) 量子コンピューティングは、その膨大なポテンシャルを持つが、基本的に量子力学の複雑さによって形作られ、その能力の強化と制約が図られている。 普遍的で堅牢な量子プログラミング言語の開発は、この急速に発展する分野において重要な研究の焦点となっている。 本稿では,最近の高レベル量子プログラミング言語であるSilkについて考察し,その強みとユニークな特徴について述べる。 我々は、Silqを用いた高レベル量子アルゴリズムの設計と実装に関する洞察を共有し、その実用的な応用と量子プログラミングの利点を実証することを目指している。

Quantum computing, with its vast potential, is fundamentally shaped by the intricacies of quantum mechanics, which both empower and constrain its capabilities. The development of a universal, robust quantum programming language has emerged as a key research focus in this rapidly evolving field. This paper explores Silq, a recent high-level quantum programming language, highlighting its strengths and unique features. We aim to share our insights on designing and implementing high-level quantum algorithms using Silq, demonstrating its practical applications and advantages for quantum programming.
翻訳日:2024-09-17 15:40:35 公開日:2024-09-16
# 4H-SiCにおける軸方向空隙と窒素空隙欠陥の光スピン分極の理論

Theory of optical spinpolarization of axial divacancy and nitrogen-vacancy defects in 4H-SiC ( http://arxiv.org/abs/2409.10233v1 )

ライセンス: Link先を確認
Guodong Bian, Gergő Thiering, Ádám Gali, (参考訳) 4H-ケイ素炭化物(SiC)の中性希釈と負に帯電した窒素空孔欠陥は、室温量子ビット(量子ビット)として機能し、電磁波を放射する最も顕著な候補の2つである。 それでもスピン分極ループにおける電子-フォノンカップリングの役割は未解明である。 本研究では,第1原理計算を用いた顕微鏡磁気光学特性とスピン依存光ループについて理論的に検討する。 まず,対称性解析による電子レベル構造を定量的に示す。 さらに、スピン軌道結合やスピン-スピン相互作用を含む微細相互作用は、多目的量子ビット関数パラメータを提供するために完全に特徴づけられる。 その後, 電子-フォノン結合について検討し, 系間遷移における動的および擬似Jahn-Teller効果について検討した。 さらに,光スピン偏光ループにおける大きな遷移速度に基づいて,発光PL寿命を解析した。 2つの有望な量子ビットを類似の電子的性質と比較するが、それぞれの速度は著しく異なる。 最後に、量子ビット演算のさらなる最適化のためのODMRコントラストのしきい値について詳述する。 この研究は、光スピンポーラライゼーションの基礎となるメカニズムを明らかにするだけでなく、ODMRプロトコルに基づいた量子情報処理タスクを最適化するための生産的な方法も提案している。

The neutral divacancy and the negatively charged nitrogen-vacancy defects in 4H-silicon carbide (SiC) are two of the most prominent candidates for functioning as room-temperature quantum bits (qubits) with telecommunication-wavelength emission. Nonetheless, the pivotal role of electron-phonon coupling in the spinpolarization loop is still unrevealed. In this work, we theoretically investigate the microscopic magneto-optical properties and spin-dependent optical loops utilizing the first-principles calculations. First, we quantitatively demonstrate the electronic level structure, assisted by symmetry analysis. Moreover, the fine interactions, including spin-orbit coupling and spin-spin interaction, are fully characterized to provide versatile qubit functional parameters. Subsequently, we explore the electron-phonon coupling, encompassing dynamics- and pseudo-Jahn--Teller effects in the intersystem crossing transition. In addition, we analyze the photoluminescence PL lifetime based on the major transition rates in the optical spinpolarization loop. We compare two promising qubits with similar electronic properties, but their respective rates differ substantially. Finally, we detail the threshold of ODMR contrast for further optimization of the qubit operation. This work not only reveals the mechanism underlying the optical spinpolarization but also proposes productive avenues for optimizing quantum information processing tasks based on the ODMR protocol.
翻訳日:2024-09-17 15:40:35 公開日:2024-09-16
# ヘッジは必要なものすべてではない:ハファザード入力によるオンライン学習のためのシンプルなベースライン

Hedging Is Not All You Need: A Simple Baseline for Online Learning Under Haphazard Inputs ( http://arxiv.org/abs/2409.10242v1 )

ライセンス: Link先を確認
Himanshu Buckchash, Momojit Biswas, Rohit Agarwal, Dilip K. Prasad, (参考訳) エッジデバイスのデータのような、ハファザードなストリーミングデータを扱うことは、難しい問題である。 時間が経つにつれて、受信したデータは一貫性がなくなり、欠落、欠陥、あるいは新しい入力が再び現れる。 そのため、信頼性の高いモデルが必要である。 この問題を解決するための最近の手法は、ヘッジベースのソリューションに依存し、補助的なドロップアウト、フォークアーキテクチャ、複雑なネットワーク設計のような特殊な要素を必要とする。 ヘッジは, 重み付き残差接続の特殊な症例に還元され, 通常の自己注意で近似する動機となった。 本研究では、スケーラブルで、オンラインのバックプロパゲーションを必要としない、多様な入力タイプに対応可能な、シンプルなベースラインであるHapNetを提案する。 提案手法は,すべて固定ウィンドウでのスケーリングに制限されるが,本手法では,データが位置的無相関になり,対処できない変数ウィンドウでスケーリングするより複雑な問題を導入する。 この複雑なシナリオにおいても,提案手法の変種が有効であることを示す。 提案手法を5つのベンチマークで広範囲に評価し,競争性能を確認した。

Handling haphazard streaming data, such as data from edge devices, presents a challenging problem. Over time, the incoming data becomes inconsistent, with missing, faulty, or new inputs reappearing. Therefore, it requires models that are reliable. Recent methods to solve this problem depend on a hedging-based solution and require specialized elements like auxiliary dropouts, forked architectures, and intricate network design. We observed that hedging can be reduced to a special case of weighted residual connection; this motivated us to approximate it with plain self-attention. In this work, we propose HapNet, a simple baseline that is scalable, does not require online backpropagation, and is adaptable to varying input types. All present methods are restricted to scaling with a fixed window; however, we introduce a more complex problem of scaling with a variable window where the data becomes positionally uncorrelated, and cannot be addressed by present methods. We demonstrate that a variant of the proposed approach can work even for this complex scenario. We extensively evaluated the proposed approach on five benchmarks and found competitive performance.
翻訳日:2024-09-17 15:40:35 公開日:2024-09-16
# テキストから絵文字へ:PEFTによるパーソナリティ操作がLLMの絵文字ポテンシャルをいかに引き起こすか

From Text to Emoji: How PEFT-Driven Personality Manipulation Unleashes the Emoji Potential in LLMs ( http://arxiv.org/abs/2409.10245v1 )

ライセンス: Link先を確認
Navya Jain, Zekun Wu, Cristian Munoz, Airlie Hilliard, Adriano Koshiyama, Emre Kazim, Philip Treleaven, (参考訳) LLMとの人間的な相互作用の需要が高まるにつれて、その性格特性を操作することへの関心も高まり、それが研究の重要領域として現れている。 インプロンプトベースのIn-Context Knowledge Editing (IKE) や勾配ベースのModel Editor Networks (MEND) などの手法が検討されているが、不規則性と変動性を示している。 IKEは、変化と感度をもたらすプロンプトに依存し、MENDは一貫性のない、およびジベリッシュな出力をもたらす。 そこで我々はPopinion QA based Parameter-Efficient Fine-Tuning (PEFT)、特にQuantized Low-Rank Adaptation (QLORA)を用いて、オープンネス、良心性、外転、アグレタブルネス、ニューロティズムといった5つの人格特性を操った。 PEFTの後、Mistral-7B-InstructやLlama-2-7B-chatのようなモデルはPEFTデータに欠けているにもかかわらず絵文字を生成し始めた。 例えば、Llama-2-7B-chatは99.5%で絵文字を生成し、Mistral-8B-Instructは92.5%でオープンネス関連のテストインスタンスを生成した。 説明可能性分析の結果、LLMはこれらの特徴を意図的に表現するために絵文字を使用していた。 本稿は、いくつかの新しい貢献について述べる。 第1に,PEFTによる人格操作のためのオピニオンQAデータセットの導入,第2に,人格操作においてPEFTがIKEよりも優れていること,第3に,機械的解釈可能性や文脈内学習説明可能性などの説明可能性手法による絵文字使用の分析と検証を行う。

As the demand for human-like interactions with LLMs continues to grow, so does the interest in manipulating their personality traits, which has emerged as a key area of research. Methods like prompt-based In-Context Knowledge Editing (IKE) and gradient-based Model Editor Networks (MEND) have been explored but show irregularity and variability. IKE depends on the prompt, leading to variability and sensitivity, while MEND yields inconsistent and gibberish outputs. To address this, we employed Opinion QA Based Parameter-Efficient Fine-Tuning (PEFT), specifically Quantized Low-Rank Adaptation (QLORA), to manipulate the Big Five personality traits: Openness, Conscientiousness, Extraversion, Agreeableness, and Neuroticism. After PEFT, models such as Mistral-7B-Instruct and Llama-2-7B-chat began generating emojis, despite their absence in the PEFT data. For instance, Llama-2-7B-chat generated emojis in 99.5% of extraversion-related test instances, while Mistral-8B-Instruct did so in 92.5% of openness-related test instances. Explainability analysis indicated that the LLMs used emojis intentionally to express these traits. This paper provides a number of novel contributions. First, introducing an Opinion QA dataset for PEFT-driven personality manipulation; second, developing metric models to benchmark LLM personality traits; third, demonstrating PEFT's superiority over IKE in personality manipulation; and finally, analyzing and validating emoji usage through explainability methods such as mechanistic interpretability and in-context learning explainability methods.
翻訳日:2024-09-17 15:40:35 公開日:2024-09-16
# FGR-Net:Deep Reconstruction Learningに基づくインタプリタブル・ファンドス画像グレーダビリティ分類

FGR-Net:Interpretable fundus imagegradeability classification based on deepreconstruction learning ( http://arxiv.org/abs/2409.10246v1 )

ライセンス: Link先を確認
Saif Khalid, Hatem A. Rashwan, Saddam Abdulwahab, Mohamed Abdel-Nasser, Facundo Manuel Quiroga, Domenec Puig, (参考訳) 網膜疾患に対する診断コンピュータ支援設計(CAD)システムの性能は、スクリーニングされる網膜画像の品質に依存する。 このようにして、網膜画像の品質を評価・評価するために多くの研究が進められている。 しかし、そのほとんどは、発達したモデルの精度と、分解性網膜像と非分解性網膜像の区別のための解釈可能性手法の可視化の質との関係を調査しなかった。 そこで本稿では,オートエンコーダネットワークと分類器ネットワークを融合することにより,基礎となる基盤画像の品質を自動評価し,解釈するFGR-Netという新しいフレームワークを提案する。 FGR-Netモデルは、可視化による解釈可能な品質評価も提供する。 特に、FGR-Netは、深層オートエンコーダを用いて入力画像の再構成を行い、自己教師付き学習に基づいて入力基礎画像の視覚的特徴を抽出する。 次に、オートエンコーダによって抽出された特徴をディープ分類器ネットワークに入力し、グラグラブルとアングラブルとを区別する。 FGR-Netは、異なる解釈可能性法を用いて評価され、オートエンコーダは、フォビア、光ディスク、顕著な血管などの基底画像の関連構造に焦点を絞る上で、分類器が重要な要素であることを示している。 さらに,眼科医が眼底画像の質をどう評価するかを理解するために,眼科医に視覚的フィードバックを提供することも可能である。 その結果,FGR-Netの精度は89%,F1スコアは87%であった。

The performance of diagnostic Computer-Aided Design (CAD) systems for retinal diseases depends on the quality of the retinal images being screened. Thus, many studies have been developed to evaluate and assess the quality of such retinal images. However, most of them did not investigate the relationship between the accuracy of the developed models and the quality of the visualization of interpretability methods for distinguishing between gradable and non-gradable retinal images. Consequently, this paper presents a novel framework called FGR-Net to automatically assess and interpret underlying fundus image quality by merging an autoencoder network with a classifier network. The FGR-Net model also provides an interpretable quality assessment through visualizations. In particular, FGR-Net uses a deep autoencoder to reconstruct the input image in order to extract the visual characteristics of the input fundus images based on self-supervised learning. The extracted features by the autoencoder are then fed into a deep classifier network to distinguish between gradable and ungradable fundus images. FGR-Net is evaluated with different interpretability methods, which indicates that the autoencoder is a key factor in forcing the classifier to focus on the relevant structures of the fundus images, such as the fovea, optic disk, and prominent blood vessels. Additionally, the interpretability methods can provide visual feedback for ophthalmologists to understand how our model evaluates the quality of fundus images. The experimental results showed the superiority of FGR-Net over the state-of-the-art quality assessment methods, with an accuracy of 89% and an F1-score of 87%.
翻訳日:2024-09-17 15:30:17 公開日:2024-09-16
# SOLVR: サブマップ指向のLiDAR-ビジュアル再ローカライゼーション

SOLVR: Submap Oriented LiDAR-Visual Re-Localisation ( http://arxiv.org/abs/2409.10247v1 )

ライセンス: Link先を確認
Joshua Knights, Sebastián Barbas Laina, Peyman Moghadam, Stefan Leutenegger, (参考訳) 本稿では,センサモード間で位置認識と6-DoFの登録を行う,LiDAR-Visual再ローカライゼーションに基づく統合パイプラインであるSOLVRを提案する。 ステレオ画像ストリームを利用してポーズ情報と距離深度予測を行い、さらに確率的占有フレームワークを用いて局所窓から複数のシーンビューを融合し、カメラの視野を限定的に拡大することで、入力センサのモダリティを整合させる戦略を提案する。 さらに、SOLVRは、異なるトレーニング損失のポジティブな例を構成するものを柔軟に定義し、場所認識と登録性能を同時に最適化する。 さらに、RANSACを、スパースキーポイント対応確率の推定値に適合する最小二乗を重み付けする登録関数に置き換え、クエリーと検索された場所の間の不整合率の低いシナリオにおける性能を向上させる。 KITTIとKITTI360データセットを用いた実験により、SOLVRはLiDAR-Visual Placeの認識と登録の最先端性能を達成し、特に検索と検索した場所のより広い距離での登録精度を向上させることが示された。

This paper proposes SOLVR, a unified pipeline for learning based LiDAR-Visual re-localisation which performs place recognition and 6-DoF registration across sensor modalities. We propose a strategy to align the input sensor modalities by leveraging stereo image streams to produce metric depth predictions with pose information, followed by fusing multiple scene views from a local window using a probabilistic occupancy framework to expand the limited field-of-view of the camera. Additionally, SOLVR adopts a flexible definition of what constitutes positive examples for different training losses, allowing us to simultaneously optimise place recognition and registration performance. Furthermore, we replace RANSAC with a registration function that weights a simple least-squares fitting with the estimated inlier likelihood of sparse keypoint correspondences, improving performance in scenarios with a low inlier ratio between the query and retrieved place. Our experiments on the KITTI and KITTI360 datasets show that SOLVR achieves state-of-the-art performance for LiDAR-Visual place recognition and registration, particularly improving registration accuracy over larger distances between the query and retrieved place.
翻訳日:2024-09-17 15:30:17 公開日:2024-09-16
# eWAPA: WebAssemblyランタイム用のeBPFベースのWASIパフォーマンス分析フレームワーク

eWAPA: An eBPF-based WASI Performance Analysis Framework for WebAssembly Runtimes ( http://arxiv.org/abs/2409.10252v1 )

ライセンス: Link先を確認
Chenxi Mao, Yuxin Su, Shiwen Shan, Dan Li, (参考訳) WebAssembly(Wasm)は、モダンなブラウザで実行できる低レベルのバイトコードフォーマットである。 スタンドアロンランタイムの開発とWebAssembly System Interface(WASI)の改善により、Wasmはさらに、サーバサイドアプリケーションに対してより完全なサンドボックス化されたランタイムエクスペリエンスを提供し、アプリケーションのシナリオを効果的に拡張した。 しかし、WASIの実装はランタイムによって異なり、最適なインターフェースの実装はランタイムとオペレーティングシステム間のインタラクションにおいてパフォーマンスが低下する可能性がある。 既存の研究は主にランタイムの性能評価に重点を置いているが、WASIの実装に関する研究は比較的少ない。 この問題に対処するため,eBPFに基づくWASI性能分析フレームワークを提案する。 実行時間、起動時間、WASI実行時間、syscall時間など、さまざまなI/O負荷条件下で実行時の重要なパフォーマンス指標を収集する。 ランタイムとオペレーティングシステムとのI/Oインタラクションのパフォーマンスを網羅的に分析することができる。 さらに,2つの特定のWASI性能異常の原因について詳細な解析を行った。 これらの分析結果は、スタンドアロンランタイムとWASI実装の最適化をガイドし、効率を向上します。

WebAssembly (Wasm) is a low-level bytecode format that can run in modern browsers. With the development of standalone runtimes and the improvement of the WebAssembly System Interface (WASI), Wasm has further provided a more complete sandboxed runtime experience for server-side applications, effectively expanding its application scenarios. However, the implementation of WASI varies across different runtimes, and suboptimal interface implementations can lead to performance degradation during interactions between the runtime and the operating system. Existing research mainly focuses on overall performance evaluation of runtimes, while studies on WASI implementations are relatively scarce. To tackle this problem, we propose an eBPF-based WASI performance analysis framework. It collects key performance metrics of the runtime under different I/O load conditions, such as total execution time, startup time, WASI execution time, and syscall time. We can comprehensively analyze the performance of the runtime's I/O interactions with the operating system. Additionally, we provide a detailed analysis of the causes behind two specific WASI performance anomalies. These analytical results will guide the optimization of standalone runtimes and WASI implementations, enhancing their efficiency.
翻訳日:2024-09-17 15:30:17 公開日:2024-09-16
# 2次元準周期系における多フラクタル臨界相の探索

Exploring Multifractal Critical Phases in Two-Dimensional Quasiperiodic Systems ( http://arxiv.org/abs/2409.10254v1 )

ライセンス: Link先を確認
Chao Yang, Weizhe Yang, Yongjian Wang, Yucheng Wang, (参考訳) マルチフラクタル臨界相(MCP)は、基本的に拡大および局所化相と異なり、位置空間と運動量空間の両方で非局在化分布を示す。 MCPの研究は、主に1次元の準周期系に焦点を当てている。 本稿では,MPPを用いた2次元(2次元)準周期モデルを提案する。 本稿では、その位相図を示し、このモデルに基づいて2次元システムのMSPの特性をウェーブパケット拡散・輸送の観点から検討する。 さらに, 次のアレスト近傍ホッピング導入に伴う位相境界の移動について, フィデリティの感受性を計算して検討した。 最後に,超伝導回路における研究モデルの実現について考察する。 我々の研究は、2DシステムでMPPを探索するための扉を開く。

The multifractal critical phase (MCP) fundamentally differs from extended and localized phases, exhibiting delocalized distributions in both position and momentum spaces. The investigation on the MCP has largely focused on one-dimensional quasiperiodic systems. Here, we introduce a two-dimensional (2D) quasiperiodic model with a MCP. We present its phase diagram and investigate the characteristics of the 2D system's MCP in terms of wave packet diffusion and transport based on this model. We further investigate the movement of the phase boundary induced by the introduction of next-nearest-neighbor hopping by calculating the fidelity susceptibility. Finally, we consider how to realize our studied model in superconducting circuits. Our work opens the door to exploring MCP in 2D systems.
翻訳日:2024-09-17 15:30:17 公開日:2024-09-16
# Kernel Descent - 変分量子アルゴリズムの新しい最適化法

Kernel Descent -- a Novel Optimizer for Variational Quantum Algorithms ( http://arxiv.org/abs/2409.10257v1 )

ライセンス: Link先を確認
Lars Simon, Holger Eble, Manuel Radons, (参考訳) 近年,ノイズのある中間規模量子(NISQ)デバイスを用いた短期量子優位性の候補として,変分量子アルゴリズムが注目されている。 本稿では、変動量子アルゴリズムの基礎となる関数を最小化するための新しいアルゴリズムであるカーネル降下について紹介する。 既存の手法と比較し、その効果を実証するために広範な実験を行う。 特に、カーネル降下が勾配降下と量子解析降下より優れるシナリオを示す。 このアルゴリズムは、目的関数に対する古典的局所近似を反復的に計算し、その後、前者に関していくつかの古典的最適化手順を実行するという、確立されたスキームに従う。 カーネル降下は、局所近似の構築において、再現されたカーネルヒルベルト空間技術(英語版)を使わずに、それ自体を分離し、観測された優位性をもたらす。

In recent years, variational quantum algorithms have garnered significant attention as a candidate approach for near-term quantum advantage using noisy intermediate-scale quantum (NISQ) devices. In this article we introduce kernel descent, a novel algorithm for minimizing the functions underlying variational quantum algorithms. We compare kernel descent to existing methods and carry out extensive experiments to demonstrate its effectiveness. In particular, we showcase scenarios in which kernel descent outperforms gradient descent and quantum analytic descent. The algorithm follows the well-established scheme of iteratively computing classical local approximations to the objective function and subsequently executing several classical optimization steps with respect to the former. Kernel descent sets itself apart with its employment of reproducing kernel Hilbert space techniques in the construction of the local approximations -- which leads to the observed advantages.
翻訳日:2024-09-17 15:30:17 公開日:2024-09-16
# 実環境に向けての分散音響センシングを利用した自己更新車両監視フレームワーク

Self-Updating Vehicle Monitoring Framework Employing Distributed Acoustic Sensing towards Real-World Settings ( http://arxiv.org/abs/2409.10259v1 )

ライセンス: Link先を確認
Xi Wang, Xin Liu, Songming Zhu, Zhanwen Li, Lina Gao, (参考訳) 近年のDAS(Distributed Acoustic Sensing)技術は,交通による地震データを効果的に捉えるのに役立っている。 交通による地震波は都市振動に顕著な寄与であり、都市探査と統治を進める上で重要な情報を含んでいる。 しかし、大量のノイズデータの中で車体の動きを特定することは大きな課題となる。 本研究では,都市環境に適したリアルタイム半教師付き車両監視フレームワークを提案する。 初期トレーニングにはわずかな手動ラベルしか必要とせず、モデル改善のためにラベル付けされていないデータを活用する。 さらに、このフレームワークは、新たに収集された未ラベルデータに自律的に適応することができる。 DASデータが空間情報を保存するために2次元画像としてオブジェクト検出を行う前に、包括的1次元信号前処理を利用してノイズを軽減した。 さらに,車体跡の形状を取り入れ,速度の異なる1台の車両を追尾する新たな先行損失を提案する。 モデルを評価するため,スタンフォード大学2DASアレーの地震データを用いて実験を行った。 その結果,本モデルでは,ベースラインモデルであるEfficient Teacherと,その教師付きモデルであるYOLO(You Only Look Once)の精度とロバスト性に優れていた。 ラベル付き画像35枚だけで, YOLOのmAP 0.5:0.95基準を18%上回り, 教師の効率が7%向上した。 自己更新のための複数の更新戦略を用いて比較実験を行い、最適なアプローチを特定した。 このアプローチは、すべてのデータで1回のパスで実施される過度なトレーニングのパフォーマンスを上回る。

The recent emergence of Distributed Acoustic Sensing (DAS) technology has facilitated the effective capture of traffic-induced seismic data. The traffic-induced seismic wave is a prominent contributor to urban vibrations and contain crucial information to advance urban exploration and governance. However, identifying vehicular movements within massive noisy data poses a significant challenge. In this study, we introduce a real-time semi-supervised vehicle monitoring framework tailored to urban settings. It requires only a small fraction of manual labels for initial training and exploits unlabeled data for model improvement. Additionally, the framework can autonomously adapt to newly collected unlabeled data. Before DAS data undergo object detection as two-dimensional images to preserve spatial information, we leveraged comprehensive one-dimensional signal preprocessing to mitigate noise. Furthermore, we propose a novel prior loss that incorporates the shapes of vehicular traces to track a single vehicle with varying speeds. To evaluate our model, we conducted experiments with seismic data from the Stanford 2 DAS Array. The results showed that our model outperformed the baseline model Efficient Teacher and its supervised counterpart, YOLO (You Only Look Once), in both accuracy and robustness. With only 35 labeled images, our model surpassed YOLO's mAP 0.5:0.95 criterion by 18% and showed a 7% increase over Efficient Teacher. We conducted comparative experiments with multiple update strategies for self-updating and identified an optimal approach. This approach surpasses the performance of non-overfitting training conducted with all data in a single pass.
翻訳日:2024-09-17 15:30:17 公開日:2024-09-16
# Hydra-SGG:1ステージのシーングラフ生成のためのハイブリッドリレーションアサインメント

Hydra-SGG: Hybrid Relation Assignment for One-stage Scene Graph Generation ( http://arxiv.org/abs/2409.10262v1 )

ライセンス: Link先を確認
Minghan Chen, Guikun Chen, Wenguan Wang, Yi Yang, (参考訳) DETRは、シーングラフ生成(SGG)のための単純化されたワンステージフレームワークを導入した。 しかし、DETRベースのSGGモデルは2つの課題に直面している。 一 それぞれの画像が典型的には10以上の関連アノテーションを含まないため、その一方で、100以上の関連クエリを使用する。 このあいまいさは、トレーニング中に各基底真理関係が1つのクエリにのみ割り当てられることから生じる。 二 偽陰性なサンプル。一つの根拠的真理関係は、類似のスコアを持つ複数のクエリを持つことができる。 これらのサブ最適化されたクエリは単に負のサンプルとして扱われ、貴重な監視信号が失われる。 その結果,Hydra-SGGはHydra-SGG法の一種であり,Hydra-SGG法とHydra-SGG法を組み合わせた。 この割り当ては、新しいIoUベースのワン・ツー・マニー・リレーション・アサインメントとワン・ツー・ワン・リレーション・アサインメントを組み合わせたものである。 具体的には、各基底真理は、高いIoU主対象箱を持つ複数の関係クエリに割り当てられる。 このハイブリッド・リレー・アサインメントは、ポジティブなトレーニングサンプルの数を増やし、スパース・インスペクションを緩和する。 さらに,関係クエリに対する自己注意が,重複関係予測の低減に有効であることを実証的に示す。 そこで我々は,自己アテンション層を持たないパラメータ共有補助デコーダHydra Branchを提案する。 この設計は、異なるクエリが同じ関係を予測できるようにすることで、一対多の関係割り当てを促進する。 Hydra-SGGはVG150で10.6 mR@20と16.0 mR@50で最先端のパフォーマンスを達成し、訓練期間は12時間に過ぎなかった。 また、Open Images V6とGQAに新たな最先端技術が設定されている。

DETR introduces a simplified one-stage framework for scene graph generation (SGG). However, DETR-based SGG models face two challenges: i) Sparse supervision, as each image typically contains fewer than 10 relation annotations, while the models employ over 100 relation queries. This sparsity arises because each ground truth relation is assigned to only one single query during training. ii) False negative samples, since one ground truth relation may have multiple queries with similar matching scores. These suboptimally matched queries are simply treated as negative samples, causing the loss of valuable supervisory signals. As a response, we devise Hydra-SGG, a one-stage SGG method that adopts a new Hybrid Relation Assignment. This assignment combines a One-to-One Relation Assignment with a newly introduced IoU-based One-to-Many Relation Assignment. Specifically, each ground truth is assigned to multiple relation queries with high IoU subject-object boxes. This Hybrid Relation Assignment increases the number of positive training samples, alleviating sparse supervision. Moreover, we, for the first time, empirically show that self-attention over relation queries helps reduce duplicated relation predictions. We, therefore, propose Hydra Branch, a parameter-sharing auxiliary decoder without a self-attention layer. This design promotes One-to-Many Relation Assignment by enabling different queries to predict the same relation. Hydra-SGG achieves state-of-the-art performance with 10.6 mR@20 and 16.0 mR@50 on VG150, while only requiring 12 training epochs. It also sets a new state-of-the-art on Open Images V6 and and GQA.
翻訳日:2024-09-17 15:30:17 公開日:2024-09-16
# 最小記述長に基づく階層型グラフポーリング

Hierarchical Graph Pooling Based on Minimum Description Length ( http://arxiv.org/abs/2409.10263v1 )

ライセンス: Link先を確認
Jan von Pichowski, Christopher Blöcker, Ingo Scholtes, (参考訳) グラフプーリングはディープグラフ表現学習の重要な部分である。 実世界のグラフの階層構造を考慮に入れた,原理的なプール演算子であるMapEqPoolを紹介する。 MapEqPoolは、Occamのカミソリを自然に実装する最小記述長原理と、モデルの複雑さと適合性のバランスに基づいて、コミュニティ検出のための情報理論の客観的関数であるMap equationに基づいている。 我々は,MapEqPoolの競合性能を,標準グラフ分類データセットのさまざまなベースラインに対して実証的に比較した。

Graph pooling is an essential part of deep graph representation learning. We introduce MapEqPool, a principled pooling operator that takes the inherent hierarchical structure of real-world graphs into account. MapEqPool builds on the map equation, an information-theoretic objective function for community detection based on the minimum description length principle which naturally implements Occam's razor and balances between model complexity and fit. We demonstrate MapEqPool's competitive performance with an empirical comparison against various baselines across standard graph classification datasets.
翻訳日:2024-09-17 15:30:17 公開日:2024-09-16
# 複数クラス分類によるパーソナライズされたレシピレコメンデーションの強化

Enhancing Personalized Recipe Recommendation Through Multi-Class Classification ( http://arxiv.org/abs/2409.10267v1 )

ライセンス: Link先を確認
Harish Neelam, Koushik Sai Veerella, (参考訳) 本稿では,料理嗜好の多様さの観点から,パーソナライズされたレシピレコメンデーションの課題に対処することを目的とする。 問題領域にはレシピレコメンデーションが含まれており、関連分析や分類といった手法を利用している。 関連分析は、ユーザエクスペリエンスを高めるために、異なる材料間の関係と関係を探索する。 一方、分類の側面は、ユーザーが定義した材料や好みに基づいてレシピを分類することである。 本論文の独特な側面は、料理の組み合わせの複雑さを認識しながら、複数のクラスに属するレシピや材料について考察することである。 これは、分類とレコメンデーションに対する洗練されたアプローチを必要とし、システムがレシピの分類の性質に適合することを保証します。 この論文は、レシピを推薦するだけでなく、正確でパーソナライズされたレコメンデーションを達成するためのプロセスを探究する。

This paper intends to address the challenge of personalized recipe recommendation in the realm of diverse culinary preferences. The problem domain involves recipe recommendations, utilizing techniques such as association analysis and classification. Association analysis explores the relationships and connections between different ingredients to enhance the user experience. Meanwhile, the classification aspect involves categorizing recipes based on user-defined ingredients and preferences. A unique aspect of the paper is the consideration of recipes and ingredients belonging to multiple classes, recognizing the complexity of culinary combinations. This necessitates a sophisticated approach to classification and recommendation, ensuring the system accommodates the nature of recipe categorization. The paper seeks not only to recommend recipes but also to explore the process involved in achieving accurate and personalized recommendations.
翻訳日:2024-09-17 15:30:17 公開日:2024-09-16
# BAFNet:都市リモートセンシング画像の軽量セマンティックセマンティックセグメンテーションのためのバイラテラルアテンションフュージョンネットワーク

BAFNet: Bilateral Attention Fusion Network for Lightweight Semantic Segmentation of Urban Remote Sensing Images ( http://arxiv.org/abs/2409.10269v1 )

ライセンス: Link先を確認
Wentao Wang, Xili Wang, (参考訳) 大規模セマンティックセグメンテーションネットワークは、しばしば高い性能を達成するが、サンプルサイズや計算資源の制限に直面した場合、その応用は困難である。 制限されたネットワークサイズと計算複雑性のシナリオでは、モデルは長距離依存関係をキャプチャし、画像の詳細な情報を復元する上で大きな課題に直面する。 本稿では,高分解能な都市リモートセンシング画像の分割を効率的に行うために,BAFNetと呼ばれる軽量な2国間セマンティックセマンティックセマンティクスネットワークを提案する。 モデルは2つのパス、すなわち依存性パスとリモートローカルパスで構成される。 依存関係パスは、イメージ内の長距離依存関係を取得するために、カーネルの注意を利用する。 また,マルチスケールのローカル・アテンションと効率的なリモート・アテンションは,リモート・ローカル・パスを構築するために設計されている。 最後に、機能集約モジュールは、2つのパスの異なる特徴を効果的に活用するように設計されている。 提案手法は,公共の高解像度都市リモートセンシングデータセットであるヴァイヒンゲンとポツダムで,mIoUはそれぞれ83.20%,86.53%に達した。 軽量セマンティックセグメンテーションモデルとして、BAFNetは高度な軽量モデルよりも精度が高く、浮動小数点演算の10倍のばらつきとネットワークパラメータの15倍の違いにもかかわらず、2つのデータセット上の非軽量な最先端手法に匹敵する性能を示す。

Large-scale semantic segmentation networks often achieve high performance, while their application can be challenging when faced with limited sample sizes and computational resources. In scenarios with restricted network size and computational complexity, models encounter significant challenges in capturing long-range dependencies and recovering detailed information in images. We propose a lightweight bilateral semantic segmentation network called bilateral attention fusion network (BAFNet) to efficiently segment high-resolution urban remote sensing images. The model consists of two paths, namely dependency path and remote-local path. The dependency path utilizes large kernel attention to acquire long-range dependencies in the image. Besides, multi-scale local attention and efficient remote attention are designed to construct remote-local path. Finally, a feature aggregation module is designed to effectively utilize the different features of the two paths. Our proposed method was tested on public high-resolution urban remote sensing datasets Vaihingen and Potsdam, with mIoU reaching 83.20% and 86.53%, respectively. As a lightweight semantic segmentation model, BAFNet not only outperforms advanced lightweight models in accuracy but also demonstrates comparable performance to non-lightweight state-of-the-art methods on two datasets, despite a tenfold variance in floating-point operations and a fifteenfold difference in network parameters.
翻訳日:2024-09-17 15:30:17 公開日:2024-09-16
# レコメンダシステムにおける因果発見の事例と考察

Causal Discovery in Recommender Systems: Example and Discussion ( http://arxiv.org/abs/2409.10271v1 )

ライセンス: Link先を確認
Emanuele Cavenaghi, Fabio Stella, Markus Zanker, (参考訳) 因果関係は人工知能と機械学習のコミュニティから注目を集めている。 本稿では,因果グラフを用いたレコメンデータシステム問題のモデル化例を示す。 具体的には,オープンソースデータセットからの観測データと事前知識を組み合わせ,因果グラフを学習するために因果探索タスクにアプローチした。 結果として得られた因果グラフは、分析されたフィードバック信号に効果的に影響を与える変数はわずかであることを示している。 これは、ニューラルネットワークのような大規模モデルにより多くの変数を含むという、機械学習コミュニティの最近のトレンドとは対照的である。

Causality is receiving increasing attention by the artificial intelligence and machine learning communities. This paper gives an example of modelling a recommender system problem using causal graphs. Specifically, we approached the causal discovery task to learn a causal graph by combining observational data from an open-source dataset with prior knowledge. The resulting causal graph shows that only a few variables effectively influence the analysed feedback signals. This contrasts with the recent trend in the machine learning community to include more and more variables in massive models, such as neural networks.
翻訳日:2024-09-17 15:30:16 公開日:2024-09-16
# リモートセンシングデータのオブジェクト検出とセグメンテーションにおける人間アノテーションの性能

Performance of Human Annotators in Object Detection and Segmentation of Remotely Sensed Data ( http://arxiv.org/abs/2409.10272v1 )

ライセンス: Link先を確認
Roni Blushtein-Livnon, Tal Svoray, Michael Dorman, (参考訳) 本研究では,アノテータの性能に及ぼすアノテーション戦略,不均衡データのレベル,事前経験の影響を評価する実験室実験を紹介する。 この実験は、長方形の物体のケーススタディとして選択された小さな太陽電池パネルを検出し、セグメンテーションするために、ArcGIS Proツールを使用して空中画像のラベル付けに重点を置いている。 この実験は0.15\textbf{$m$}のピクセルサイズを持つ画像を用いて行われ、専門家と非専門家の両方が異なるセットアップ戦略とターゲット/バックグラウンド比データセットにまたがって参加する。 以上の結果から,ヒトのアノテータは,一般的にセグメンテーションタスクよりもオブジェクト検出において効果的に機能することが示唆された。 偽陰性(False Negatives)や未検出オブジェクト(False Positives)よりも多くのタイプIIエラー(False Negatives、未検出オブジェクト)をコミットする顕著な傾向は、すべての実験的な設定と条件で観察され、検出とセグメンテーションプロセスにおける一貫したバイアスが示唆された。 目標/背景比が高いタスク(単位面積当たりのオブジェクト数)では、パフォーマンスが向上した。 以前の経験はパフォーマンスに大きな影響を与えず、場合によってはセグメンテーションの過大評価に繋がることもある。 これらの結果は、人間のアノテーターが比較的慎重であり、信頼しているときにのみ対象を識別し、過大評価よりも過小評価を優先する傾向があることを示す。 アノテーションのパフォーマンスはオブジェクトの不足の影響も受けており、極めて不均衡なデータセットとターゲット・ツー・バックグラウンドの比率の低い領域が減少している。 これらの知見は, セグメンテーションと検出モデルを改善するための高品質なトレーニングデータに対する要求が増大する時代において, 効率的なアノテータが不可欠である一方で, リモートセンシング研究のためのアノテーション戦略を強化する可能性がある。

This study introduces a laboratory experiment designed to assess the influence of annotation strategies, levels of imbalanced data, and prior experience, on the performance of human annotators. The experiment focuses on labeling aerial imagery, using ArcGIS Pro tools, to detect and segment small-scale photovoltaic solar panels, selected as a case study for rectangular objects. The experiment is conducted using images with a pixel size of 0.15\textbf{$m$}, involving both expert and non-expert participants, across different setup strategies and target-background ratio datasets. Our findings indicate that human annotators generally perform more effectively in object detection than in segmentation tasks. A marked tendency to commit more Type II errors (False Negatives, i.e., undetected objects) than Type I errors (False Positives, i.e. falsely detecting objects that do not exist) was observed across all experimental setups and conditions, suggesting a consistent bias in detection and segmentation processes. Performance was better in tasks with higher target-background ratios (i.e., more objects per unit area). Prior experience did not significantly impact performance and may, in some cases, even lead to overestimation in segmentation. These results provide evidence that human annotators are relatively cautious and tend to identify objects only when they are confident about them, prioritizing underestimation over overestimation. Annotators' performance is also influenced by object scarcity, showing a decline in areas with extremely imbalanced datasets and a low ratio of target-to-background. These findings may enhance annotation strategies for remote sensing research while efficient human annotators are crucial in an era characterized by growing demands for high-quality training data to improve segmentation and detection models.
翻訳日:2024-09-17 15:30:16 公開日:2024-09-16
# エンタングルメントRényi負性率の変動を追跡する:効率的な量子モンテカルロ法

Tracking the variation of entanglement Rényi negativity: an efficient quantum Monte Carlo method ( http://arxiv.org/abs/2409.10273v1 )

ライセンス: Link先を確認
Yi-Ming Ding, Yin Tang, Zhe Wang, Zhiyan Wang, Bin-Bin Mao, Zheng Yan, (参考訳) 量子モンテカルロ(QMC)による新しい位相と相転移を数値的に予測する絡み合いエントロピーは、量子多体系の純粋な基底状態において大きな成功を収めてきたが、ほとんどの実世界の系は非孤立であるにもかかわらず、混合状態に関する数値的な探索は限定的である。 一方、混合状態に対する計算不可能な絡み合いモノトンとしての絡み合いの負性は、2つの非連結領域を持つ系や消散系、あるいは有限温度における混合状態の絡み合いの特徴として重要である。 しかし、大規模かつ高次元のシステムでは、特に重要な振る舞いを研究するために特定のパラメータとどのように異なるかを知る必要がある場合、効率的な数値的なアプローチは、この量を計算するには不十分である。 重み付きアニーリングフレーム内では,特定のパラメータパス上でのR'enyiバージョンの絡み合いの変動を追跡するとともに,その値を達成することができる,アクセス可能かつ効率的なQMCアルゴリズムを提案する。 本アルゴリズムは,高次元の混合状態に対して,臨界点と異なる位相において絡み合いが果たす役割を直接的に研究することを可能にする。 また,コンピュータ上での並列化も容易である。 この方法では、同じ普遍クラスを持つ量子的および熱的臨界における異なる固有のメカニズムがR'enyiの負性に関する数値計算によって明らかにされている。

Although the entanglement entropy probing novel phases and phase transitions numerically via quantum Monte Carlo (QMC) has achieved huge success in pure ground states of quantum many-body systems, numerical explorations on mixed states remain limited, despite the fact that most real-world systems are non-isolated. Meanwhile, entanglement negativity, as a rarely computable entanglement monotone for mixed states, is significant in characterizing mixed-state entanglement, such as in systems with two disconnected regions, dissipation or at finite temperature. However, efficient numerical approaches are scarce to calculate this quantity in large-scale and high-dimensional systems, especially when we need to access how it varies with certain parameters to study critical behaviors. Within the reweight-annealing frame, we present an accessible and efficient QMC algorithm, which is able to achieve the values as well as tracking the variation of the R\'enyi version of entanglement negativity on some specified parameter path. Our algorithm makes it feasible to directly study the role that entanglement plays at the critical point and in different phases for mixed states in high dimensions numerically. In addition, this method is accessible and easy to parallelize on computers. Through this method, different intrinsic mechanisms in quantum and thermal criticalities with the same universal class have been revealed clearly through the numerical calculations on R\'enyi negativity.
翻訳日:2024-09-17 15:30:16 公開日:2024-09-16
# Cognitive Kernel: 汎用オートパイロットのためのオープンソースエージェントシステム

Cognitive Kernel: An Open-source Agent System towards Generalist Autopilots ( http://arxiv.org/abs/2409.10277v1 )

ライセンス: Link先を確認
Hongming Zhang, Xiaoman Pan, Hongwei Wang, Kaixin Ma, Wenhao Yu, Dong Yu, (参考訳) 我々は,ジェネラリストオートパイロットの目標に向けて,オープンソースのエージェントシステムであるCognitive Kernelを紹介する。 利用者に重要な状態情報(例えば、タスク記述)を提供し、質問に答えたり、コンテンツを自動補完するなどしてユーザーを支援するコパイロットシステムとは異なり、オートパイロットシステムは開始から終了までのタスクを独立に完了させなければならないため、システムは環境から状態情報を取得する必要がある。 これを実現するために、自動操縦システムでは、ユーザの意図を理解し、様々な現実世界の情報源から必要な情報を積極的に収集し、賢明な判断をする必要がある。 Cognitive Kernelはモデル中心の設計を採用する。 本実装では、ファイルのオープン化、ボタンのクリック、中間結果をメモリに保存したり、LCM自体を呼び出したりといったアトミックな動作の組み合わせを用いて、中央ポリシーモデル(微調整LDM)が環境とのインタラクションを開始する。 これは、事前に定義されたアクションを持つタスク固有の環境が固定され、ポリシーモデルは、与えられたオプションセットから正しいアクションを選択することに限定される、広く使われている環境中心の設計とは異なる。 我々の設計は、様々なソース間のシームレスな情報フローを促進し、より柔軟性を提供する。 我々は,リアルタイム情報管理,プライベート情報管理,長期記憶管理の3つのユースケースでシステムを評価する。 その結果,Cognitive Kernelはこれらのシナリオにおいて,他のクローズドソースシステムよりも優れた,あるいは同等のパフォーマンスを実現していることがわかった。 Cognitive Kernelは完全にダッカー化されており、全員がプライベートかつセキュアにデプロイできるようにしている。 LLM駆動自動操縦システムのさらなる研究を促進するため,本システムとバックボーンモデルをオープンソース化した。

We introduce Cognitive Kernel, an open-source agent system towards the goal of generalist autopilots. Unlike copilot systems, which primarily rely on users to provide essential state information (e.g., task descriptions) and assist users by answering questions or auto-completing contents, autopilot systems must complete tasks from start to finish independently, which requires the system to acquire the state information from the environments actively. To achieve this, an autopilot system should be capable of understanding user intents, actively gathering necessary information from various real-world sources, and making wise decisions. Cognitive Kernel adopts a model-centric design. In our implementation, the central policy model (a fine-tuned LLM) initiates interactions with the environment using a combination of atomic actions, such as opening files, clicking buttons, saving intermediate results to memory, or calling the LLM itself. This differs from the widely used environment-centric design, where a task-specific environment with predefined actions is fixed, and the policy model is limited to selecting the correct action from a given set of options. Our design facilitates seamless information flow across various sources and provides greater flexibility. We evaluate our system in three use cases: real-time information management, private information management, and long-term memory management. The results demonstrate that Cognitive Kernel achieves better or comparable performance to other closed-source systems in these scenarios. Cognitive Kernel is fully dockerized, ensuring everyone can deploy it privately and securely. We open-source the system and the backbone model to encourage further research on LLM-driven autopilot systems.
翻訳日:2024-09-17 15:30:16 公開日:2024-09-16
# ComplexCodeEval: より複雑なコードで大規模なコードモデルを評価するベンチマーク

ComplexCodeEval: A Benchmark for Evaluating Large Code Models on More Complex Code ( http://arxiv.org/abs/2409.10280v1 )

ライセンス: Link先を確認
Jia Feng, Jiachen Liu, Cuiyun Gao, Chun Yong Chong, Chaozheng Wang, Shan Gao, Xin Xia, (参考訳) 近年,大規模言語モデル(LLM)のコード関連タスクへの応用が注目されている。 しかし、既存の評価ベンチマークはコード生成や完了といった限られたシナリオに重点を置いていることが多く、これは開発者が現実世界のコンテキストで直面する様々な課題を反映していない。 これを解決するために、コード生成、補完、APIレコメンデーション、テストケース生成など、様々な開発タスクにおけるLCMを評価するために設計されたベンチマークであるComplexCodeEvalを紹介します。 その中には、3,897のJavaサンプルと7,184のPythonサンプルが含まれており、それぞれに関数シグネチャ、ドクストリング、実際の開発環境をシミュレートするAPIリファレンスが注釈付けされている。 10のLCMを対象とした実験では、コンテキストがパフォーマンスを向上し、データリークが過大評価につながることを示し、より正確な評価の必要性を強調しています。

In recent years, the application of large language models (LLMs) to code-related tasks has gained significant attention. However, existing evaluation benchmarks often focus on limited scenarios, such as code generation or completion, which do not reflect the diverse challenges developers face in real-world contexts. To address this, we introduce ComplexCodeEval, a benchmark designed to assess LCMs in various development tasks, including code generation, completion, API recommendation, and test case generation. It includes 3,897 Java samples and 7,184 Python samples from high-star GitHub repositories, each annotated with function signatures, docstrings, and API references to simulate real development environments. Our experiments across ten LCMs reveal that context improves performance and that data leakage can lead to overestimation, highlighting the need for more accurate evaluations.
翻訳日:2024-09-17 15:30:16 公開日:2024-09-16
# DreamHead: 音声駆動型トーキングヘッド合成のための階層拡散による時空間対応学習

DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis ( http://arxiv.org/abs/2409.10281v1 )

ライセンス: Link先を確認
Fa-Ting Hong, Yunfei Liu, Yu Li, Changyin Zhou, Fei Yu, Dan Xu, (参考訳) 音声駆動音声ヘッド合成は、提供された音声からライフライクなビデオポートレートを生成する。 拡散モデルは、その優れた品質と堅牢な一般化によって認識され、この課題のために検討されている。 しかし、時空間音声キューとそれに対応する空間的表情の拡散モデルとの堅牢な対応を確立することは、音声ヘッド生成において重要な課題である。 このギャップを埋めるために、モデル固有の品質と適応性を損なうことなく、音声頭合成における時空間対応を学習する階層的拡散フレームワークDreamHeadを提案する。 DreamHeadは、音声から密集した顔のランドマークを中間信号として予測し、空間的および時間的対応をモデル化する。 具体的には、オーディオ・ランドマーク拡散の第1階層は、まず、与えられた音声シーケンス信号の時間的スムーズで正確なランドマークシーケンスを予測するために設計されている。 次に、濃密な顔のランドマークと外観の間の空間的対応をモデル化することにより、空間的に一貫した顔像映像を生成するために、ランドマークとイメージの拡散の第2階層をさらに提案する。 広汎な実験により,提案したDreamHeadは,設計した階層的拡散による空間的時間的一貫性を効果的に学習し,複数のアイデンティティのための高忠実度音声駆動音声ヘッドビデオを生成することができた。

Audio-driven talking head synthesis strives to generate lifelike video portraits from provided audio. The diffusion model, recognized for its superior quality and robust generalization, has been explored for this task. However, establishing a robust correspondence between temporal audio cues and corresponding spatial facial expressions with diffusion models remains a significant challenge in talking head generation. To bridge this gap, we present DreamHead, a hierarchical diffusion framework that learns spatial-temporal correspondences in talking head synthesis without compromising the model's intrinsic quality and adaptability.~DreamHead learns to predict dense facial landmarks from audios as intermediate signals to model the spatial and temporal correspondences.~Specifically, a first hierarchy of audio-to-landmark diffusion is first designed to predict temporally smooth and accurate landmark sequences given audio sequence signals. Then, a second hierarchy of landmark-to-image diffusion is further proposed to produce spatially consistent facial portrait videos, by modeling spatial correspondences between the dense facial landmark and appearance. Extensive experiments show that proposed DreamHead can effectively learn spatial-temporal consistency with the designed hierarchical diffusion and produce high-fidelity audio-driven talking head videos for multiple identities.
翻訳日:2024-09-17 15:20:32 公開日:2024-09-16
# 合成データ拡張による小・不均衡データセットの画像分類の強化

Enhancing Image Classification in Small and Unbalanced Datasets through Synthetic Data Augmentation ( http://arxiv.org/abs/2409.10286v1 )

ライセンス: Link先を確認
Neil De La Fuente, Mireia Majó, Irina Luzko, Henry Córdova, Gloria Fernández-Esparrach, Jorge Bernal, (参考訳) 特に、利用可能な注釈付きデータセットが小さく、ターゲットクラス間で高い不均衡を示すアプリケーション領域では、正確な医用画像分類は難しい課題である。 データ取得が必ずしも実現可能とは限らないことを考えると、特に表現不足のクラスでは、クラス固有の変分オートエンコーダ(VAE)と潜在空間補間を用いた新しい合成拡張戦略を導入し、識別能力を向上させる。 特徴空間ギャップを埋めるリアルで多様な合成データを生成することにより、データの不足とクラス不均衡の問題に対処する。 本稿では,各クラス内の潜在表現の補間に依拠し,トレーニングセットを充実させ,モデルの一般化性と診断精度を向上させる。 提案手法は,エゾファゴガストロデュオ内視鏡画像の清潔度を自動評価する方法を訓練し,検証するために作成した321枚の画像の小さなデータセットで検証した。 実データと合成データを組み合わせることで,最も難易度の高いクラスを精度で18%以上増加させることができた。 提案した戦略は、不足しているクラスに恩恵を与えただけでなく、グローバルな精度と精度の65%向上など、他の指標の全般的な改善につながった。

Accurate and robust medical image classification is a challenging task, especially in application domains where available annotated datasets are small and present high imbalance between target classes. Considering that data acquisition is not always feasible, especially for underrepresented classes, our approach introduces a novel synthetic augmentation strategy using class-specific Variational Autoencoders (VAEs) and latent space interpolation to improve discrimination capabilities. By generating realistic, varied synthetic data that fills feature space gaps, we address issues of data scarcity and class imbalance. The method presented in this paper relies on the interpolation of latent representations within each class, thus enriching the training set and improving the model's generalizability and diagnostic accuracy. The proposed strategy was tested in a small dataset of 321 images created to train and validate an automatic method for assessing the quality of cleanliness of esophagogastroduodenoscopy images. By combining real and synthetic data, an increase of over 18\% in the accuracy of the most challenging underrepresented class was observed. The proposed strategy not only benefited the underrepresented class but also led to a general improvement in other metrics, including a 6\% increase in global accuracy and precision.
翻訳日:2024-09-17 15:20:32 公開日:2024-09-16
# ReflectDiffu: RL-Diffusion Frameworkによる情緒的反応生成のための感情内感染とミミリーの反射

ReflectDiffu: Reflect between Emotion-intent Contagion and Mimicry for Empathetic Response Generation via a RL-Diffusion Framework ( http://arxiv.org/abs/2409.10289v1 )

ライセンス: Link先を確認
Jiahao Yuan, Zixiang Di, Zhiqing Cui, Guisong Yang, Usman Naseem, (参考訳) 共感的反応生成は、意味のある相互作用を促進するために感情的および意図的なダイナミクスの統合を必要とする。 既存の研究は感情と意図の複雑な相互作用を無視し、共感の最適下制御に繋がるか、あるいは大きな言語モデル(LLM)に頼り、計算オーバーヘッドが大幅に増加する。 本稿では,共感応答生成のための軽量で包括的なフレームワークであるReflectDiffuを紹介する。 この枠組みは感情の伝染を組み込んで感情表現を増強し、感情表現マスクを用いて批判的な感情的要素を識別する。 さらに、拡散中の洗練のための強化学習に意図の模倣を統合する。 リフレクションディッフルは、探索・サンプリング・修正のメカニズムを2回反映して、感情的な意思決定を正確に意図の行動に変換することにより、感情的な誤認識に起因する共感的な反応の不一致に対処する。 リフレクションを通じて、このフレームワークは感情状態と意図をマッピングし、反応の共感と柔軟性の両方を著しく強化する。 総合的な実験により、リフレクションディッフルは、関連性、制御可能性、情報性に関する既存のモデルより優れており、自動評価と人的評価の両方において最先端の結果が得られていることが明らかとなった。

Empathetic response generation necessitates the integration of emotional and intentional dynamics to foster meaningful interactions. Existing research either neglects the intricate interplay between emotion and intent, leading to suboptimal controllability of empathy, or resorts to large language models (LLMs), which incur significant computational overhead. In this paper, we introduce ReflectDiffu, a lightweight and comprehensive framework for empathetic response generation. This framework incorporates emotion contagion to augment emotional expressiveness and employs an emotion-reasoning mask to pinpoint critical emotional elements. Additionally, it integrates intent mimicry within reinforcement learning for refinement during diffusion. By harnessing an intent twice reflect the mechanism of Exploring-Sampling-Correcting, ReflectDiffu adeptly translates emotional decision-making into precise intent actions, thereby addressing empathetic response misalignments stemming from emotional misrecognition. Through reflection, the framework maps emotional states to intents, markedly enhancing both response empathy and flexibility. Comprehensive experiments reveal that ReflectDiffu outperforms existing models regarding relevance, controllability, and informativeness, achieving state-of-the-art results in both automatic and human evaluations.
翻訳日:2024-09-17 15:20:32 公開日:2024-09-16
# ニューロモルフィックスピントロニクス

Neuromorphic Spintronics ( http://arxiv.org/abs/2409.10290v1 )

ライセンス: Link先を確認
Atreya Majumdar, Karin Everschor-Sitte, (参考訳) ニューロモルフィック・スピントロニクス(Neuromorphic spintronics)は、ニューロモルフィック・コンピューティングとスピントロニクスの2つの先進的な分野を組み合わせて、電子スピンのユニークな性質を利用する脳に触発された効率的な計算システムを構築する。 本章では、まず、ニューロモルフィックコンピューティングとスピントロニクスの両方の分野を紹介し、その後、ニューロモルフィック・スピントロニクスについて論じる。 本稿では, ゆらぎに基づく計算, 人工ニューラルネットワーク, 貯水池計算などを含む, ニューロモルフィック・スピントロニクスの具体的な例について論じ, 計算効率と機能に革命をもたらす可能性を明らかにする。

Neuromorphic spintronics combines two advanced fields in technology, neuromorphic computing and spintronics, to create brain-inspired, efficient computing systems that leverage the unique properties of the electron's spin. In this book chapter, we first introduce both fields - neuromorphic computing and spintronics and then make a case for neuromorphic spintronics. We discuss concrete examples of neuromorphic spintronics, including computing based on fluctuations, artificial neural networks, and reservoir computing, highlighting their potential to revolutionize computational efficiency and functionality.
翻訳日:2024-09-17 15:20:32 公開日:2024-09-16
# 解剖学的位置埋め込み

Anatomical Positional Embeddings ( http://arxiv.org/abs/2409.10291v1 )

ライセンス: Link先を確認
Mikhail Goncharov, Valentin Samokhin, Eugenia Soboleva, Roman Sokolov, Boris Shirokikh, Mikhail Belyaev, Anvar Kurmukov, Ivan Oseledets, (参考訳) 本稿では,個々の医用画像ボクセルの3次元解剖学的位置埋め込み(APE)を作成する自己教師型モデルを提案する。 APEは、ボクセルの解剖学的近接性、すなわち、同じ臓器または近くの臓器のボクセルをエンコードする。 従来の解剖学的位置埋め込みモデルとは対照的に,本手法では,体積入力画像全体のボクセル単位の埋め込みマップを効率よく作成できるため,異なる下流アプリケーションに最適である。 腹部, 胸部CT画像8400点を対象に, APEモデルを訓練した。 従来の解剖学的ランドマーク検索モデルと比較し,13の腹部臓器の軽微な局所化について検討した。 実用的応用として,APEを安価に訓練し,0.99リコールで異なる解剖学的領域に原像を収穫する方法を示すとともに,画像量を10~100倍に削減する方法を示す。 コードと事前トレーニングされた APE モデルは https://github.com/mishgon/ape で公開されている。

We propose a self-supervised model producing 3D anatomical positional embeddings (APE) of individual medical image voxels. APE encodes voxels' anatomical closeness, i.e., voxels of the same organ or nearby organs always have closer positional embeddings than the voxels of more distant body parts. In contrast to the existing models of anatomical positional embeddings, our method is able to efficiently produce a map of voxel-wise embeddings for a whole volumetric input image, which makes it an optimal choice for different downstream applications. We train our APE model on 8400 publicly available CT images of abdomen and chest regions. We demonstrate its superior performance compared with the existing models on anatomical landmark retrieval and weakly-supervised few-shot localization of 13 abdominal organs. As a practical application, we show how to cheaply train APE to crop raw CT images to different anatomical regions of interest with 0.99 recall, while reducing the image volume by 10-100 times. The code and the pre-trained APE model are available at https://github.com/mishgon/ape .
翻訳日:2024-09-17 15:20:32 公開日:2024-09-16
# SPAC: 密度点雲に対するサンプリングベースプログレッシブ属性圧縮

SPAC: Sampling-based Progressive Attribute Compression for Dense Point Clouds ( http://arxiv.org/abs/2409.10293v1 )

ライセンス: Link先を確認
Xiaolong Mao, Hui Yuan, Tian Guo, Shiqi Jiang, Raouf Hamzaoui, Sam Kwong, (参考訳) 本研究では,高密度点雲に対するエンドツーエンドの属性圧縮手法を提案する。 提案手法は,周波数サンプリングモジュール,適応スケール特徴抽出モジュール,幾何支援モジュール,大域的ハイパープライアエントロピーモデルを組み合わせた。 周波数サンプリングモジュールは、ハミングウィンドウと高速フーリエ変換を使用して、ポイントクラウドの高周波成分を抽出する。 原点雲とサンプル点雲の差は、複数の部分点雲に分けられる。 これらのサブポイントクラウドはオクツリーを使用して分割され、特徴抽出のための構造化された入力を提供する。 機能抽出モジュールは適応的な畳み込みレイヤを統合し、オフセットアテンションを使用してローカル機能とグローバル機能の両方をキャプチャする。 そして、形状支援属性特徴改善モジュールを用いて、抽出された属性特徴を洗練する。 最後に,エントロピー符号化のためのグローバルハイパープライアモデルを提案する。 このモデルは、最深層(ベース層)から他の層へハイパープライアパラメータを伝播させ、エンコーディング効率をさらに高める。 デコーダでは、ミラーネットワークを用いて特徴を段階的に復元し、変換された畳み込み層を通じて色属性を再構成する。 提案手法は,低ビットレートでベース層情報を符号化し,徐々に拡張層情報を加えて再構成精度を向上させる。 The latest G-PCC test model (TMC13v23) under the MPEG common test conditions (CTCs)に対し、提案手法は、MPEG Category Solid データセット上の Y 成分 (YUV 組み合わせで 21.23%) に対して平均 Bjontegaard デルタビットレート24.58%、MPEG Category Dense データセット上の 22.48% を達成している。 これは、MPEG CTCでこれらのデータセット上でG-PCC標準を上回る学習ベースのコーデックの最初の例である。

We propose an end-to-end attribute compression method for dense point clouds. The proposed method combines a frequency sampling module, an adaptive scale feature extraction module with geometry assistance, and a global hyperprior entropy model. The frequency sampling module uses a Hamming window and the Fast Fourier Transform to extract high-frequency components of the point cloud. The difference between the original point cloud and the sampled point cloud is divided into multiple sub-point clouds. These sub-point clouds are then partitioned using an octree, providing a structured input for feature extraction. The feature extraction module integrates adaptive convolutional layers and uses offset-attention to capture both local and global features. Then, a geometry-assisted attribute feature refinement module is used to refine the extracted attribute features. Finally, a global hyperprior model is introduced for entropy encoding. This model propagates hyperprior parameters from the deepest (base) layer to the other layers, further enhancing the encoding efficiency. At the decoder, a mirrored network is used to progressively restore features and reconstruct the color attribute through transposed convolutional layers. The proposed method encodes base layer information at a low bitrate and progressively adds enhancement layer information to improve reconstruction accuracy. Compared to the latest G-PCC test model (TMC13v23) under the MPEG common test conditions (CTCs), the proposed method achieved an average Bjontegaard delta bitrate reduction of 24.58% for the Y component (21.23% for YUV combined) on the MPEG Category Solid dataset and 22.48% for the Y component (17.19% for YUV combined) on the MPEG Category Dense dataset. This is the first instance of a learning-based codec outperforming the G-PCC standard on these datasets under the MPEG CTCs.
翻訳日:2024-09-17 15:20:32 公開日:2024-09-16
# MGSA:知識グラフ-テキスト生成のための多粒性グラフ構造注意

MGSA: Multi-granularity Graph Structure Attention for Knowledge Graph-to-Text Generation ( http://arxiv.org/abs/2409.10294v1 )

ライセンス: Link先を確認
Shanshan Wang, Chun Zhang, Ning Zhang, (参考訳) 知識グラフからテキスト生成タスクは、構造化された知識グラフを一貫性のある人間可読な自然言語テキストに変換することを目的としている。 この分野での最近の取り組みは、知識グラフの複雑な構造の詳細を捉えるために、グラフ構造情報を組み込むことにより、事前訓練された言語モデル(PLM)の強化に重点を置いている。 しかしながら、これらのアプローチのほとんどは、元のグラフ内のエンティティ間の関係、または同じエンティティ内の単語間の関係、または異なるエンティティ間の関係に集中して、単一の粒度構造情報のみをキャプチャする傾向にある。 エンティティレベルの構造のみに焦点を絞ったモデルは、単語間のニュアンスドセマンティックな関係を捉えるのに失敗し、ワードレベルの構造のみに焦点を絞ったモデルは、元のエンティティ全体間のより広範な関係を見落としている。 これらの制約を克服するために,本論文ではPLMに基づく多粒性グラフ構造注意(MGSA)を紹介する。 モデルアーキテクチャのエンコーダは、エンティティレベルの構造符号化モジュールと、ワードレベルの構造符号化モジュールと、両方の構造から情報を合成する集約モジュールとを備える。 この多粒度構造符号化手法により、モデルがエンティティレベルとワードレベルの構造情報の両方を同時にキャプチャし、知識グラフの構造情報をより包括的に理解し、生成したテキストの品質を大幅に向上させることができる。 KG-to-Text Generation ベンチマークデータセットである WebNLG と EventNarrative を用いて,MGSA モデルを広範囲に評価した。

The Knowledge Graph-to-Text Generation task aims to convert structured knowledge graphs into coherent and human-readable natural language text. Recent efforts in this field have focused on enhancing pre-trained language models (PLMs) by incorporating graph structure information to capture the intricate structure details of knowledge graphs. However, most of these approaches tend to capture only single-granularity structure information, concentrating either on the relationships between entities within the original graph or on the relationships between words within the same entity or across different entities. This narrow focus results in a significant limitation: models that concentrate solely on entity-level structure fail to capture the nuanced semantic relationships between words, while those that focus only on word-level structure overlook the broader relationships between original entire entities. To overcome these limitations, this paper introduces the Multi-granularity Graph Structure Attention (MGSA), which is based on PLMs. The encoder of the model architecture features an entity-level structure encoding module, a word-level structure encoding module, and an aggregation module that synthesizes information from both structure. This multi-granularity structure encoding approach allows the model to simultaneously capture both entity-level and word-level structure information, providing a more comprehensive understanding of the knowledge graph's structure information, thereby significantly improving the quality of the generated text. We conducted extensive evaluations of the MGSA model using two widely recognized KG-to-Text Generation benchmark datasets, WebNLG and EventNarrative, where it consistently outperformed models that rely solely on single-granularity structure information, demonstrating the effectiveness of our approach.
翻訳日:2024-09-17 15:20:32 公開日:2024-09-16
# 合成テクスチャデータセットについて:挑戦,創造,キュレーション

On Synthetic Texture Datasets: Challenges, Creation, and Curation ( http://arxiv.org/abs/2409.10297v1 )

ライセンス: Link先を確認
Blaine Hoak, Patrick McDaniel, (参考訳) 機械学習モデルに対するテクスチャの影響は、特にテクスチャバイアス/ラーニング、解釈可能性、堅牢性に関する調査が進行中である。 しかし、多種多様なテクスチャデータがないため、より包括的な評価ができないため、これらの研究の成果は限られている。 画像生成モデルは、大規模にデータ生成を提供することができるが、これらのモデルをテクスチャ合成に利用することは未発見であり、正確なテクスチャ画像の作成とそれらの画像の検証の両方において、さらなる課題を提起している。 本研究では,幅広いテクスチャベースのタスクをサポートすることができる高品質で多様なテクスチャ画像を生成するための,拡張可能な方法論とそれに対応する新しいデータセットを提案する。 パイプラインは,(1)テキスト・ツー・イメージ・モデルの入力として機能するディスクリプタからプロンプトを開発すること,(2)安定した拡散パイプラインを採用して対応する画像を生成しフィルタすること,(3)高品質な画像までフィルタリングすること,からなる。 これにより、56のテクスチャにまたがる362,880のテクスチャイメージのデータセットであるPrompted Textures Dataset (PTD)を作成する。 画像生成過程において、画像生成パイプライン内のNSFW安全フィルタはテクスチャに非常に敏感であり(およびテクスチャ画像の最大60倍のフラグ付け)、これらのモデルの潜在的なバイアスを明らかにし、テクスチャデータを扱う際に固有の課題を提示する。 標準メトリクスと人的評価の両方を通じて、私たちのデータセットは高品質で多様なものであることが分かりました。

The influence of textures on machine learning models has been an ongoing investigation, specifically in texture bias/learning, interpretability, and robustness. However, due to the lack of large and diverse texture data available, the findings in these works have been limited, as more comprehensive evaluations have not been feasible. Image generative models are able to provide data creation at scale, but utilizing these models for texture synthesis has been unexplored and poses additional challenges both in creating accurate texture images and validating those images. In this work, we introduce an extensible methodology and corresponding new dataset for generating high-quality, diverse texture images capable of supporting a broad set of texture-based tasks. Our pipeline consists of: (1) developing prompts from a range of descriptors to serve as input to text-to-image models, (2) adopting and adapting Stable Diffusion pipelines to generate and filter the corresponding images, and (3) further filtering down to the highest quality images. Through this, we create the Prompted Textures Dataset (PTD), a dataset of 362,880 texture images that span 56 textures. During the process of generating images, we find that NSFW safety filters in image generation pipelines are highly sensitive to texture (and flag up to 60\% of our texture images), uncovering a potential bias in these models and presenting unique challenges when working with texture data. Through both standard metrics and a human evaluation, we find that our dataset is high quality and diverse.
翻訳日:2024-09-17 15:20:32 公開日:2024-09-16
# 大規模ポートフォリオ最適化のための分解パイプラインと量子コンピューティングへの応用

Decomposition Pipeline for Large-Scale Portfolio Optimization with Applications to Near-Term Quantum Computing ( http://arxiv.org/abs/2409.10301v1 )

ライセンス: Link先を確認
Atithi Acharya, Romina Yalovetzky, Pierre Minssen, Shouvanik Chakrabarti, Ruslan Shaydulin, Rudy Raymond, Yue Sun, Dylan Herman, Ruben S. Andrist, Grant Salton, Martin J. A. Schuetz, Helmut G. Katzgraber, Marco Pistoia, (参考訳) ポートフォリオ最適化やポートフォリオ再バランスといった産業上の制約のある最適化問題は、しばしば難解か、正確に解決するのが困難である。 本研究では,ポートフォリオ最適化を目標とした分解パイプラインの提案とベンチマークを行い,制約付き問題の再バランスを行う。 パイプラインは最適化問題を制約付きサブプロブレムに分解し、それを分離して集約して最終的な結果を与える。 パイプラインには,確率行列理論に基づく相関行列の前処理,ニューマンのアルゴリズムに基づくスペクトルクラスタリング,リスク再バランスの3つの主要コンポーネントが含まれている。 実験結果から,我々のパイプラインは,実世界のポートフォリオ最適化問題を,約80%の削減率でサブプロブレムに分解することを示した。 サブプロブレムは独立して解かれるので、我々のパイプラインは最先端の解法に対する計算時間を劇的に短縮する。 さらに、大きな問題をいくつかの小さなサブプロブレムに分解することで、パイプラインは短期量子デバイスを解法として使用することができ、ポートフォリオ最適化における量子コンピュータの実用性への道を提供する。

Industrially relevant constrained optimization problems, such as portfolio optimization and portfolio rebalancing, are often intractable or difficult to solve exactly. In this work, we propose and benchmark a decomposition pipeline targeting portfolio optimization and rebalancing problems with constraints. The pipeline decomposes the optimization problem into constrained subproblems, which are then solved separately and aggregated to give a final result. Our pipeline includes three main components: preprocessing of correlation matrices based on random matrix theory, modified spectral clustering based on Newman's algorithm, and risk rebalancing. Our empirical results show that our pipeline consistently decomposes real-world portfolio optimization problems into subproblems with a size reduction of approximately 80%. Since subproblems are then solved independently, our pipeline drastically reduces the total computation time for state-of-the-art solvers. Moreover, by decomposing large problems into several smaller subproblems, the pipeline enables the use of near-term quantum devices as solvers, providing a path toward practical utility of quantum computers in portfolio optimization.
翻訳日:2024-09-17 15:20:32 公開日:2024-09-16
# 化学・材料科学における人工知能のインパクトある研究方法

How to do impactful research in artificial intelligence for chemistry and materials science ( http://arxiv.org/abs/2409.10304v1 )

ライセンス: Link先を確認
Austin Cheng, Cher Tian Ser, Marta Skreta, Andrés Guzmán-Cordero, Luca Thiede, Andreas Burger, Abdulrahman Aldossary, Shi Xuan Leong, Sergio Pablo-García, Felix Strieth-Kalthoff, Alán Aspuru-Guzik, (参考訳) 機械学習は多くの科学分野に広く触れている。 化学と材料科学は例外ではない。 機械学習は大きな影響を与えてきたが、まだその潜在能力や成熟度には達していない。 この観点から、我々はまず化学における様々な問題にまたがる現在の応用について概説する。 次に、機械学習研究者が現場の問題をどう捉え、どのようにアプローチするかについて議論する。 最後に,化学における機械学習研究における影響の最大化について考察する。

Machine learning has been pervasively touching many fields of science. Chemistry and materials science are no exception. While machine learning has been making a great impact, it is still not reaching its full potential or maturity. In this perspective, we first outline current applications across a diversity of problems in chemistry. Then, we discuss how machine learning researchers view and approach problems in the field. Finally, we provide our considerations for maximizing impact when researching machine learning for chemistry.
翻訳日:2024-09-17 15:20:32 公開日:2024-09-16
# 限界を知る! 自己認識によるロボットの動作の最適化

Know your limits! Optimize the robot's behavior through self-awareness ( http://arxiv.org/abs/2409.10308v1 )

ライセンス: Link先を確認
Esteve Valls Mascaro, Dongheui Lee, (参考訳) ヒューマノイドロボットは実験室から現実の環境へ移行するので、非熟練者のためのロボット制御を民主化することが不可欠である。 近年の人間ロボット模倣アルゴリズムは、人間の動きを高精度に追従することに重点を置いているが、それらが参照動作の品質に影響を受けやすいため、ロボットの能力に合わせた動作を単純化する必要がある。 その代わり、ロボットは参照動作を自身の能力に理解し、適応させ、オペレーターの作業を容易にするべきであると考える。 そこで本研究では,特定の参照を模倣する際のロボットの性能を予測できるディープラーニングモデルを提案する。 そこで本システムは,ハイレベルなタスクコマンドを与えられた複数の参照を生成し,それぞれにスコアを割り当て,最適な参照を選択してロボット動作を実現する。 我々のSAW(Self-AWare Model)は、転倒確率、基準運動への固執、滑らかさといった様々な基準に基づいて、潜在的なロボットの挙動をランク付けする。 我々は,高度な動作生成,ロボット制御,SAWを1つのユニークなシステムに統合し,タスクコマンドに対して最適なロボット動作を確保する。 例えば、SAWは99.29%の精度で落下を予測できる。 詳細はプロジェクトのページを参照してください。

As humanoid robots transition from labs to real-world environments, it is essential to democratize robot control for non-expert users. Recent human-robot imitation algorithms focus on following a reference human motion with high precision, but they are susceptible to the quality of the reference motion and require the human operator to simplify its movements to match the robot's capabilities. Instead, we consider that the robot should understand and adapt the reference motion to its own abilities, facilitating the operator's task. For that, we introduce a deep-learning model that anticipates the robot's performance when imitating a given reference. Then, our system can generate multiple references given a high-level task command, assign a score to each of them, and select the best reference to achieve the desired robot behavior. Our Self-AWare model (SAW) ranks potential robot behaviors based on various criteria, such as fall likelihood, adherence to the reference motion, and smoothness. We integrate advanced motion generation, robot control, and SAW in one unique system, ensuring optimal robot behavior for any task command. For instance, SAW can anticipate falls with 99.29% accuracy. For more information check our project page: https://evm7.github.io/Self-AWare
翻訳日:2024-09-17 15:20:31 公開日:2024-09-16
# SEAL: 閉ループシナリオ生成のためのスキル付き逆学習による安全な自律運転を目指して

SEAL: Towards Safe Autonomous Driving via Skill-Enabled Adversary Learning for Closed-Loop Scenario Generation ( http://arxiv.org/abs/2409.10320v1 )

ライセンス: Link先を確認
Benjamin Stoler, Ingrid Navarro, Jonathan Francis, Jean Oh, (参考訳) 自律運転(AD)システムとコンポーネントの検証と検証は、そのような技術が現実の有病率を増加させるにつれて、ますます重要になる。 安全クリティカルシナリオ生成は、クローズドループトレーニングを通じてADポリシーを堅牢化するための重要なアプローチである。 しかし、シナリオ生成のための既存のアプローチは、単純化された目的に依存しており、過度に攻撃的あるいは非反応性な敵行動をもたらす。 多様な対角的かつ現実的なシナリオを生成するために,学習したスコアリング機能と対角的,人間的なスキルを活用するシナリオ摂動手法SEALを提案する。 SEAL対応のシナリオはSOTAベースラインよりも現実的であり、現実の世界、非配布、アウト・オブ・ディストリビューションシナリオにおけるエゴタスクの成功が20%以上向上する。 将来の研究を促進するため、コードとツールをリリースします。

Verification and validation of autonomous driving (AD) systems and components is of increasing importance, as such technology increases in real-world prevalence. Safety-critical scenario generation is a key approach to robustify AD policies through closed-loop training. However, existing approaches for scenario generation rely on simplistic objectives, resulting in overly-aggressive or non-reactive adversarial behaviors. To generate diverse adversarial yet realistic scenarios, we propose SEAL, a scenario perturbation approach which leverages learned scoring functions and adversarial, human-like skills. SEAL-perturbed scenarios are more realistic than SOTA baselines, leading to improved ego task success across real-world, in-distribution, and out-of-distribution scenarios, of more than 20%. To facilitate future research, we release our code and tools: https://github.com/cmubig/SEAL
翻訳日:2024-09-17 15:20:31 公開日:2024-09-16
# 非滑らかな非凸最適化における意味のある局所保証者の硬さについて

On the Hardness of Meaningful Local Guarantees in Nonsmooth Nonconvex Optimization ( http://arxiv.org/abs/2409.10323v1 )

ライセンス: Link先を確認
Guy Kornowski, Swati Padmanabhan, Ohad Shamir, (参考訳) 我々は非滑らかな非凸最適化のオラクル複雑性について検討し、アルゴリズムは局所関数情報のみにアクセス可能であると仮定した。 Davis, Drusvyatskiy, and Jiang (2023) は、非滑らかリプシッツ函数が一定の規則性と厳密性条件を満たすとき、摂動勾配勾配は漸近的に局所最小化に収束することを示した。 この結果と、ゴールドスタイン定常性に関する非凸非滑らかな最適化における最近のアルゴリズムの進歩により、この問題クラスに対する局所ミニマへの非漸近的な収束率を得るという問題を考える。 正則リプシッツ関数に作用する局所アルゴリズムは、最悪の場合、すべての準定常点が大域最小値である場合でも、部分指数時間における関数値の観点から有意義な局所保証を提供できない。 これはスムーズな設定とは対照的であり、標準勾配法が次元に依存しない速度で行うことはよく知られている。 我々の結果は、$\mathsf{P}\neq\mathsf{NP}$や暗号的仮定のような予想に条件づけられた硬度結果を提供する理論計算機科学文学における豊富な研究を補完する。

We study the oracle complexity of nonsmooth nonconvex optimization, with the algorithm assumed to have access only to local function information. It has been shown by Davis, Drusvyatskiy, and Jiang (2023) that for nonsmooth Lipschitz functions satisfying certain regularity and strictness conditions, perturbed gradient descent converges to local minimizers asymptotically. Motivated by this result and by other recent algorithmic advances in nonconvex nonsmooth optimization concerning Goldstein stationarity, we consider the question of obtaining a non-asymptotic rate of convergence to local minima for this problem class. We provide the following negative answer to this question: Local algorithms acting on regular Lipschitz functions cannot, in the worst case, provide meaningful local guarantees in terms of function value in sub-exponential time, even when all near-stationary points are global minima. This sharply contrasts with the smooth setting, for which it is well-known that standard gradient methods can do so in a dimension-independent rate. Our result complements the rich body of work in the theoretical computer science literature that provide hardness results conditional on conjectures such as $\mathsf{P}\neq\mathsf{NP}$ or cryptographic assumptions, in that ours holds unconditional of any such assumptions.
翻訳日:2024-09-17 15:20:31 公開日:2024-09-16
# リアルタイム直接・間接イルミネーションレンダリングのためのベーキングリライザブルNeRF

Baking Relightable NeRF for Real-time Direct/Indirect Illumination Rendering ( http://arxiv.org/abs/2409.10327v1 )

ライセンス: Link先を確認
Euntae Choi, Vincent Carpentier, Seunghun Shin, Sungjoo Yoo, (参考訳) リライティング(Relighting)は、特定の照明条件下で新しいビューを合成する(トレーニング時間内には見えない)ことで、没入感のあるフォトリアリスティック体験に必須の機能である。 しかし、影をモデル化するためには、形状と材料分解と可視性テストを必要とするレンダリング方程式の計算コストが高いため、リアルタイムのリライトは困難である。 さらに、間接照明には、各二次面点(反射が起こる部分)のレンダリング方程式の追加計算が必要である。 直接照明に必要な一次曲面点とレンダリングパラメータを計算するために,CNNレンダラを実行する新しい手法を提案する。 また、間接照明のための軽量なハッシュグリッドベースのレンダラーを提案し、二次光追跡プロセスを実行するために再帰的に実行される。 両レンダラーは、事前訓練された教師モデルからの蒸留で訓練され、未確認の照明条件下でリアルタイムな物理ベースのレンダリングを、レンダリング品質の無視できない損失で提供する。

Relighting, which synthesizes a novel view under a given lighting condition (unseen in training time), is a must feature for immersive photo-realistic experience. However, real-time relighting is challenging due to high computation cost of the rendering equation which requires shape and material decomposition and visibility test to model shadow. Additionally, for indirect illumination, additional computation of rendering equation on each secondary surface point (where reflection occurs) is required rendering real-time relighting challenging. We propose a novel method that executes a CNN renderer to compute primary surface points and rendering parameters, required for direct illumination. We also present a lightweight hash grid-based renderer, for indirect illumination, which is recursively executed to perform the secondary ray tracing process. Both renderers are trained in a distillation from a pre-trained teacher model and provide real-time physically-based rendering under unseen lighting condition at a negligible loss of rendering quality.
翻訳日:2024-09-17 15:20:31 公開日:2024-09-16
# Fuse4Seg: 画像レベル融合に基づくマルチモーダル医療画像セグメンテーション

Fuse4Seg: Image-Level Fusion Based Multi-Modality Medical Image Segmentation ( http://arxiv.org/abs/2409.10328v1 )

ライセンス: Link先を確認
Yuchen Guo, Weifeng Su, (参考訳) マルチモーダルな医用画像セグメント化は、多様な画像モダリティを統合することで、複雑な疾患の診断と理解を高める重要な可能性を秘めているが、既存の手法は主に特徴レベルの融合戦略に依存している。 我々は、現在の特徴レベルの融合戦略は、評価制御なしでニューラルネットワークの中間層で特徴をマージするため、様々な画像モダリティのセマンティックな不整合や不整合が生じやすいと主張している。 これを軽減するために,医用画像分割と医用画像融合の相互依存関係をモデル化するバイレベルラーニングフレームワークFuse4Segを導入する。 画像レベルの融合プロセスは、階層化された最適化アプローチによってセグメント化結果をガイドし、拡張するためにシームレスに使用される。 さらに、セグメンテーションモジュールから得られる知識は、融合モジュールを効果的に強化することができる。 これにより、得られた融合画像が、すべてのモダリティからの情報を正確にアマルガメートするコヒーレント表現であることが保証される。 さらに,BraTSデータセットに基づくBraTS-Fuseベンチマークを構築し,2040対のオリジナル画像,マルチモーダル融合画像,地上真実を含む。 このベンチマークは、画像レベルの医療セグメンテーションを提供するだけでなく、これまでで最大の医療画像融合データセットでもある。 いくつかの公開データセットに対する大規模な実験とベンチマークにより、従来のSOTA(State-of-the-art)手法よりも、我々のアプローチの方が優れていることが示された。

Although multi-modality medical image segmentation holds significant potential for enhancing the diagnosis and understanding of complex diseases by integrating diverse imaging modalities, existing methods predominantly rely on feature-level fusion strategies. We argue the current feature-level fusion strategy is prone to semantic inconsistencies and misalignments across various imaging modalities because it merges features at intermediate layers in a neural network without evaluative control. To mitigate this, we introduce a novel image-level fusion based multi-modality medical image segmentation method, Fuse4Seg, which is a bi-level learning framework designed to model the intertwined dependencies between medical image segmentation and medical image fusion. The image-level fusion process is seamlessly employed to guide and enhance the segmentation results through a layered optimization approach. Besides, the knowledge gained from the segmentation module can effectively enhance the fusion module. This ensures that the resultant fused image is a coherent representation that accurately amalgamates information from all modalities. Moreover, we construct a BraTS-Fuse benchmark based on BraTS dataset, which includes 2040 paired original images, multi-modal fusion images, and ground truth. This benchmark not only serves image-level medical segmentation but is also the largest dataset for medical image fusion to date. Extensive experiments on several public datasets and our benchmark demonstrate the superiority of our approach over prior state-of-the-art (SOTA) methodologies.
翻訳日:2024-09-17 15:20:31 公開日:2024-09-16
# InfoDisent:情報分散による画像分類モデルの説明可能性

InfoDisent: Explainability of Image Classification Models by Information Disentanglement ( http://arxiv.org/abs/2409.10329v1 )

ライセンス: Link先を確認
Łukasz Struski, Jacek Tabor, (参考訳) 画像分類ネットワークによる決定を理解することは、ディープラーニングにおける重要な研究領域である。 このタスクは伝統的に、ポストホック法と本質的な方法の2つの異なるアプローチに分けられる。 GradCamのようなポストホックな手法は、ネットワークが注目する画像の領域を特定することによって、事前訓練されたモデルの決定を解釈することを目的としている。 しかし、これらの手法は高レベルな概要しか提供しないため、ネットワークの意思決定プロセスを完全に理解することは困難である。 逆に、原型部品モデルのような本質的な手法は、ネットワーク予測をより詳細に理解するが、特定のアーキテクチャ、トレーニング方法、データセットによって制約される。 本稿では,両アプローチの利点を組み合わせたハイブリッドモデルであるInfoDisentを紹介する。 情報ボトルネックを利用することでInfoDisentは、事前訓練されたディープネットワークの最終層に情報を格納し、分類決定を基本的な、理解可能な原子コンポーネントに分解する。 標準の原型部品アプローチとは異なり、InfoDisentは事前訓練された分類ネットワークの決定を解釈し、本質的なモデルと同様の分類決定に使用できる。 我々は、ImageNet、CUB-200-2011、Stanford Cars、Stanford DogsといったベンチマークデータセットにおけるInfoDisentの有効性を検証する。

Understanding the decisions made by image classification networks is a critical area of research in deep learning. This task is traditionally divided into two distinct approaches: post-hoc methods and intrinsic methods. Post-hoc methods, such as GradCam, aim to interpret the decisions of pre-trained models by identifying regions of the image where the network focuses its attention. However, these methods provide only a high-level overview, making it difficult to fully understand the network's decision-making process. Conversely, intrinsic methods, like prototypical parts models, offer a more detailed understanding of network predictions but are constrained by specific architectures, training methods, and datasets. In this paper, we introduce InfoDisent, a hybrid model that combines the advantages of both approaches. By utilizing an information bottleneck, InfoDisent disentangles the information in the final layer of a pre-trained deep network, enabling the breakdown of classification decisions into basic, understandable atomic components. Unlike standard prototypical parts approaches, InfoDisent can interpret the decisions of pre-trained classification networks and be used for making classification decisions, similar to intrinsic models. We validate the effectiveness of InfoDisent on benchmark datasets such as ImageNet, CUB-200-2011, Stanford Cars, and Stanford Dogs for both convolutional and transformer backbones.
翻訳日:2024-09-17 15:10:41 公開日:2024-09-16
# DRIVE: 自律運転における依存可能なロバスト解釈可能な視覚アンサンブルフレームワーク

DRIVE: Dependable Robust Interpretable Visionary Ensemble Framework in Autonomous Driving ( http://arxiv.org/abs/2409.10330v1 )

ライセンス: Link先を確認
Songning Lai, Tianlang Xue, Hongru Xiao, Lijie Hu, Jiemin Wu, Ninghui Feng, Runwei Guan, Haicheng Liao, Zhenning Li, Yutao Yue, (参考訳) 近年の自動運転の進歩は、感覚入力を直接運転行動にマッピングし、自動運転車の堅牢性と適応性を高めるエンド・ツー・エンドの学習パラダイムへとパラダイムシフトしている。 しかしながら、これらのモデルは解釈可能性を犠牲にし、信頼、安全、規制の遵守に重大な課題を提起することが多い。 これらの問題に対処するために、DRIVE -- Dependable Robust Interpretable Visionary Ensemble Framework in Autonomous Drivingを紹介します。 本研究は、コンセプト・グリッドロック(DCG)モデルで観測される固有の不安定性問題を対象としており、その説明や意思決定プロセスの信頼性を損なうものである。 DRIVEの4つの重要な属性は、一貫した解釈可能性、安定な解釈可能性、一貫した出力、安定な出力である。 これらの属性は、さまざまなシナリオや摂動にまたがって、説明が信頼性と堅牢であることを保証する。 実験的な評価を通じて,我々のフレームワークが説明の安定性と信頼性の向上に有効であることを実証し,現在のモデルの限界に対処する。 コントリビューションには、DCGモデルにおける信頼性問題に関する詳細な分析、DRIVEの基本特性を厳格に定義するDRIVE、DRIVEを実装するフレームワーク、概念に基づく説明可能な自律運転モデルの信頼性を評価するための新しいメトリクスなどが含まれます。 これらの進歩は、より信頼性が高く信頼性の高い自動運転システムの開発の基盤となり、現実世界のアプリケーションに広く受け入れられ、展開するための道を開いた。

Recent advancements in autonomous driving have seen a paradigm shift towards end-to-end learning paradigms, which map sensory inputs directly to driving actions, thereby enhancing the robustness and adaptability of autonomous vehicles. However, these models often sacrifice interpretability, posing significant challenges to trust, safety, and regulatory compliance. To address these issues, we introduce DRIVE -- Dependable Robust Interpretable Visionary Ensemble Framework in Autonomous Driving, a comprehensive framework designed to improve the dependability and stability of explanations in end-to-end unsupervised autonomous driving models. Our work specifically targets the inherent instability problems observed in the Driving through the Concept Gridlock (DCG) model, which undermine the trustworthiness of its explanations and decision-making processes. We define four key attributes of DRIVE: consistent interpretability, stable interpretability, consistent output, and stable output. These attributes collectively ensure that explanations remain reliable and robust across different scenarios and perturbations. Through extensive empirical evaluations, we demonstrate the effectiveness of our framework in enhancing the stability and dependability of explanations, thereby addressing the limitations of current models. Our contributions include an in-depth analysis of the dependability issues within the DCG model, a rigorous definition of DRIVE with its fundamental properties, a framework to implement DRIVE, and novel metrics for evaluating the dependability of concept-based explainable autonomous driving models. These advancements lay the groundwork for the development of more reliable and trusted autonomous driving systems, paving the way for their broader acceptance and deployment in real-world applications.
翻訳日:2024-09-17 15:10:41 公開日:2024-09-16
# ビッグデータ分析とディープラーニングに基づく金融知的リスク制御プラットフォームの研究と設計

Research and Design of a Financial Intelligent Risk Control Platform Based on Big Data Analysis and Deep Machine Learning ( http://arxiv.org/abs/2409.10331v1 )

ライセンス: Link先を確認
Shuochen Bi, Yufan Lian, Ziyue Wang, (参考訳) 米国の金融分野において、ビッグデータ技術の応用は、金融機関にとって競争力を高めリスクを減らす重要な手段の1つとなっている。 本稿の中核となる目的は、金融機関の内部および外部データの完全な統合を実現するために、ビッグデータ技術を完全に活用する方法を探求し、ビッグデータ収集、ストレージ、分析のための効率的で信頼性の高いプラットフォームを構築することである。 金融ビジネスの継続的な拡大と革新により、従来のリスクマネジメントモデルは、ますます複雑な市場要求を満たすことができない。 この記事では、ビッグデータマイニングとリアルタイムストリーミングデータ処理技術を採用して、さまざまなビジネスデータを監視し、分析し、警告する。 履歴データの統計的分析と顧客の取引行動と関係の正確なマイニングにより、潜在的なリスクをより正確に識別し、タイムリーに応答することができる。 この記事では、金融ビッグデータのインテリジェントなリスク管理プラットフォームを設計、実装する。 このプラットフォームは、金融機関の内部・外部データの効果的な統合、保管、分析だけでなく、顧客特性とその関連性をインテリジェントに表示し、さまざまなリスク情報のインテリジェントな監視を行う。

In the financial field of the United States, the application of big data technology has become one of the important means for financial institutions to enhance competitiveness and reduce risks. The core objective of this article is to explore how to fully utilize big data technology to achieve complete integration of internal and external data of financial institutions, and create an efficient and reliable platform for big data collection, storage, and analysis. With the continuous expansion and innovation of financial business, traditional risk management models are no longer able to meet the increasingly complex market demands. This article adopts big data mining and real-time streaming data processing technology to monitor, analyze, and alert various business data. Through statistical analysis of historical data and precise mining of customer transaction behavior and relationships, potential risks can be more accurately identified and timely responses can be made. This article designs and implements a financial big data intelligent risk control platform. This platform not only achieves effective integration, storage, and analysis of internal and external data of financial institutions, but also intelligently displays customer characteristics and their related relationships, as well as intelligent supervision of various risk information
翻訳日:2024-09-17 15:10:41 公開日:2024-09-16
# Phys3DGS:逆レンダリングのための物理ベース3次元ガウススプレイティング

Phys3DGS: Physically-based 3D Gaussian Splatting for Inverse Rendering ( http://arxiv.org/abs/2409.10335v1 )

ライセンス: Link先を確認
Euntae Choi, Sungjoo Yoo, (参考訳) 本稿では,3次元ガウススプラッティング(3DGS)に基づく逆レンダリングの品質向上のために,遅延レンダリングとメッシュベース表現の2つの新しいアイデアを提案する。 まず,表面下ガウス色が既存手法で採用したボリュームレンダリングにおいて,ガウス色に悪影響を及ぼす隠れガウス色によって生じる問題について報告する。 この問題を解決するために,提案手法は遅延レンダリングを適用し,既存の3DGSベースの逆レンダリングに遅延レンダリングを適用した場合に発生する新たな問題を報告する。 遅延レンダリング下での3DGSベースの逆レンダリングの品質向上を目的として,(1)メッシュ抽出を利用してハイブリッドメッシュ3DGS表現を利用する新しい2段階トレーニング手法を提案し,(2)メッシュをよりよく活用するための新しい正規化手法を適用した。 実験の結果,提案手法は既存の3DGSベースの逆レンダリング法に比べて,レンダリング品質が大幅に向上していることがわかった。 SOTAのボクセルグリッドベースの逆レンダリング法と比較すると、リアルタイムレンダリングを提供しながら、レンダリング品質が向上する。

We propose two novel ideas (adoption of deferred rendering and mesh-based representation) to improve the quality of 3D Gaussian splatting (3DGS) based inverse rendering. We first report a problem incurred by hidden Gaussians, where Gaussians beneath the surface adversely affect the pixel color in the volume rendering adopted by the existing methods. In order to resolve the problem, we propose applying deferred rendering and report new problems incurred in a naive application of deferred rendering to the existing 3DGS-based inverse rendering. In an effort to improve the quality of 3DGS-based inverse rendering under deferred rendering, we propose a novel two-step training approach which (1) exploits mesh extraction and utilizes a hybrid mesh-3DGS representation and (2) applies novel regularization methods to better exploit the mesh. Our experiments show that, under relighting, the proposed method offers significantly better rendering quality than the existing 3DGS-based inverse rendering methods. Compared with the SOTA voxel grid-based inverse rendering method, it gives better rendering quality while offering real-time rendering.
翻訳日:2024-09-17 15:10:41 公開日:2024-09-16
# 大規模言語モデルを区別する20の質問ゲーム

The 20 questions game to distinguish large language models ( http://arxiv.org/abs/2409.10338v1 )

ライセンス: Link先を確認
Gurvan Richardeau, Erwan Le Merrer, Camilla Penzo, Gilles Tredan, (参考訳) 20の質問ゲームと並行して,ブラックボックスに置かれる2つの大きな言語モデル(LLM)が同一か否かを判定する手法を提案する。 ゴールは、通常は20未満の小さな(良質な)バイナリな質問を使用することです。 問題を形式化し、まず、既知のベンチマークデータセットからランダムに選択した質問を用いてベースラインを確立し、20問以内の精度を約100%達成する。 この問題に対して最適な境界を示した後、同じタスクに対して半分の質問を用いて22個のLLMを識別できる2つの効果的な質問ヒューリスティックを導入する。 これらの手法はステルスという点で大きな利点をもたらし、モデル漏洩の疑いに直面している監査人や著作権所有者に利益をもたらす。

In a parallel with the 20 questions game, we present a method to determine whether two large language models (LLMs), placed in a black-box context, are the same or not. The goal is to use a small set of (benign) binary questions, typically under 20. We formalize the problem and first establish a baseline using a random selection of questions from known benchmark datasets, achieving an accuracy of nearly 100% within 20 questions. After showing optimal bounds for this problem, we introduce two effective questioning heuristics able to discriminate 22 LLMs by using half as many questions for the same task. These methods offer significant advantages in terms of stealth and are thus of interest to auditors or copyright owners facing suspicions of model leaks.
翻訳日:2024-09-17 15:10:41 公開日:2024-09-16
# VAE-QWGAN:高分解能画像生成のための量子ガンの改良

VAE-QWGAN: Improving Quantum GANs for High Resolution Image Generation ( http://arxiv.org/abs/2409.10339v1 )

ライセンス: Link先を確認
Aaron Mark Thomas, Sharu Theresa Jose, (参考訳) 本稿では,古典的変分オートエンコーダ(VAE)とハイブリッド量子ワッサーシュタイン生成共振器ネットワーク(QWGAN)の強みを組み合わせた,新しいハイブリッド量子生成モデルであるVAE-QWGANを提案する。 VAE-QWGANは、VAEデコーダとQGANジェネレータを単一の量子モデルに統合し、トレーニング中の潜在ベクトルサンプリングにVAEのエンコーダを利用する。 推論時にトレーニングされたモデルから新しいデータを生成するために、ガウス混合モデル(GMM)から入力潜時ベクトルをサンプリングし、トレーニング潜時ベクトルから学習する。 これにより、生成された画像の多様性と品質が向上する。 我々は、MNIST/Fashion-MNISTデータセットにおけるモデルの性能を評価し、既存のアプローチと比較して、生成画像の品質と多様性を改善した。

This paper presents a novel hybrid quantum generative model, the VAE-QWGAN, which combines the strengths of a classical Variational AutoEncoder (VAE) with a hybrid Quantum Wasserstein Generative Adversarial Network (QWGAN). The VAE-QWGAN integrates the VAE decoder and QGAN generator into a single quantum model with shared parameters, utilizing the VAE's encoder for latent vector sampling during training. To generate new data from the trained model at inference, input latent vectors are sampled from a Gaussian Mixture Model (GMM), learnt on the training latent vectors. This, in turn, enhances the diversity and quality of generated images. We evaluate the model's performance on MNIST/Fashion-MNIST datasets, and demonstrate improved quality and diversity of generated images compared to existing approaches.
翻訳日:2024-09-17 15:10:41 公開日:2024-09-16
# デンセスト重なり部分グラフを用いたハイパーグラフニューラルネットワークのハイパーエッジモデリング

Hyperedge Modeling in Hypergraph Neural Networks by using Densest Overlapping Subgraphs ( http://arxiv.org/abs/2409.10340v1 )

ライセンス: Link先を確認
Mehrad Soltani, Luis Rueda, (参考訳) ハイパーグラフは、伝統的なグラフの制限に {\em hyperedges} を導入することで対処する。 グラフエッジは2つのノードのみを接続するが、ハイパーエッジはエッジに沿って任意の数のノードを接続する。 また、ハイパーグラフニューラルネットワーク(HGNN)の基盤となるメッセージパッシングメカニズムは、従来のグラフニューラルネットワーク(GNN)よりもリッチで複雑な構造情報を、HGNNがキャプチャして利用できるようにする頂点-ハイパーエッジ-頂点(vertex-hyperedge-vertex)の形式である。 最近では、重複する部分グラフの考えが浮上している。 これらの部分グラフは、1つの群に属する頂点を1つに制限することなく、頂点の部分群に関するより多くの情報を取得することができ、頂点は複数の群や部分グラフに属することができる。 さらに、グラフクラスタリングにおける最も重要な問題の1つは、最も重なり合う部分グラフ(DOS)を見つけることである。 本稿では,最も重なり合う部分グラフの生成プロセスを強化する手法として,アグロメレーティブグリーディ列挙法(DOSAGE)アルゴリズムを用いたDOS問題の解を提案する。 標準ベンチマークの実験では、DOSAGEアルゴリズムはノード分類タスクにおいて、HGNNや他の6つのメソッドよりも大幅に優れていた。

Hypergraphs tackle the limitations of traditional graphs by introducing {\em hyperedges}. While graph edges connect only two nodes, hyperedges connect an arbitrary number of nodes along their edges. Also, the underlying message-passing mechanisms in Hypergraph Neural Networks (HGNNs) are in the form of vertex-hyperedge-vertex, which let HGNNs capture and utilize richer and more complex structural information than traditional Graph Neural Networks (GNNs). More recently, the idea of overlapping subgraphs has emerged. These subgraphs can capture more information about subgroups of vertices without limiting one vertex belonging to just one group, allowing vertices to belong to multiple groups or subgraphs. In addition, one of the most important problems in graph clustering is to find densest overlapping subgraphs (DOS). In this paper, we propose a solution to the DOS problem via Agglomerative Greedy Enumeration (DOSAGE) algorithm as a novel approach to enhance the process of generating the densest overlapping subgraphs and, hence, a robust construction of the hypergraphs. Experiments on standard benchmarks show that the DOSAGE algorithm significantly outperforms the HGNNs and six other methods on the node classification task.
翻訳日:2024-09-17 15:10:41 公開日:2024-09-16
# GDA, GermEval2024共有タスク1: GerMS-Detect, Subtasks 1, 2, Closed Track)

Detecting Sexism in German Online Newspaper Comments with Open-Source Text Embeddings (Team GDA, GermEval2024 Shared Task 1: GerMS-Detect, Subtasks 1 and 2, Closed Track) ( http://arxiv.org/abs/2409.10341v1 )

ライセンス: Link先を確認
Florian Bremm, Patrick Gustav Blaneck, Tobias Bornheim, Niklas Grieger, Stephan Bialonski, (参考訳) オンラインメディアのコメントにおける性差別は、しばしば微妙に現れ、性差別を構成するものの解釈としてモデレーションの努力を複雑化する広汎な挑戦である。 オーストリアの新聞のドイツ語オンラインコメントにおいて,性差別や誤用を確実に検出するために,単言語および多言語対応のオープンソーステキスト埋め込みについて検討した。 テキスト埋め込みで訓練された分類器を観察し,人間のアノテーションの個々の判断を忠実に模倣した。 GermEval 2024 GerMS-Detect Subtask 1では,平均マクロF1スコアが0.597(Codabenchでは4位)に達した。 また、GerMS-Detect Subtask 2における人間のアノテーションの分布を正確に予測し、平均Jensen-Shannon距離は0.301(第2位)であった。 このアプローチの計算効率は、様々な言語や言語コンテキストにまたがるスケーラブルなアプリケーションの可能性を示している。

Sexism in online media comments is a pervasive challenge that often manifests subtly, complicating moderation efforts as interpretations of what constitutes sexism can vary among individuals. We study monolingual and multilingual open-source text embeddings to reliably detect sexism and misogyny in German-language online comments from an Austrian newspaper. We observed classifiers trained on text embeddings to mimic closely the individual judgements of human annotators. Our method showed robust performance in the GermEval 2024 GerMS-Detect Subtask 1 challenge, achieving an average macro F1 score of 0.597 (4th place, as reported on Codabench). It also accurately predicted the distribution of human annotations in GerMS-Detect Subtask 2, with an average Jensen-Shannon distance of 0.301 (2nd place). The computational efficiency of our approach suggests potential for scalable applications across various languages and linguistic contexts.
翻訳日:2024-09-17 15:10:41 公開日:2024-09-16
# 大規模言語モデルによる推薦の難読化のためのハードサンプル同定

Large Language Model Enhanced Hard Sample Identification for Denoising Recommendation ( http://arxiv.org/abs/2409.10343v1 )

ライセンス: Link先を確認
Tianrui Song, Wenshuo Chao, Hao Liu, (参考訳) しばしばレコメンデーションシステムを構築するために使われる暗黙のフィードバックは、ミスクリックや位置バイアスなどの要因により、避けられないほどノイズに直面する。 従来の研究では、損失値の増大や、サンプルの落下や再重み付けによるノイズの緩和など、分散したパターンに基づいてノイズのあるサンプルを識別することで、これを緩和しようと試みてきた。 進歩にもかかわらず、我々は、しばしば類似したパターンを示すため、ハードサンプルとノイズサンプルの区別に苦慮している既存のアプローチを観察し、レコメンデーションの認知における効果を抑える。 この課題に対処するため,我々はLLMHD(Large Language Model Enhanced Hard Sample Denoising)フレームワークを提案する。 具体的には,LLMに基づくスコアラを構築し,過去のユーザインタラクションを要約して定量化した,ユーザの好みに応じた項目のセマンティック一貫性を評価する。 得られたスコアは、ポイントワイドまたはペアワイドトレーニング目的のサンプルの硬さを評価するために使用される。 効率性を確保するため, 分散型サンプルプルーニング手法を導入し, 採点前の潜在的硬度サンプルをフィルタする。 また,偽陽性のユーザ-イテム相互作用によってバイアスが生じる可能性のある,要約されたユーザの嗜好を継続的に洗練する反復的嗜好更新モジュールを提案する。 3つの実世界のデータセットと4つのバックボーンレコメンデータに関する大規模な実験は、我々のアプローチの有効性を実証している。

Implicit feedback, often used to build recommender systems, unavoidably confronts noise due to factors such as misclicks and position bias. Previous studies have attempted to alleviate this by identifying noisy samples based on their diverged patterns, such as higher loss values, and mitigating the noise through sample dropping or reweighting. Despite the progress, we observe existing approaches struggle to distinguish hard samples and noise samples, as they often exhibit similar patterns, thereby limiting their effectiveness in denoising recommendations. To address this challenge, we propose a Large Language Model Enhanced Hard Sample Denoising (LLMHD) framework. Specifically, we construct an LLM-based scorer to evaluate the semantic consistency of items with the user preference, which is quantified based on summarized historical user interactions. The resulting scores are used to assess the hardness of samples for the pointwise or pairwise training objectives. To ensure efficiency, we introduce a variance-based sample pruning strategy to filter potential hard samples before scoring. Besides, we propose an iterative preference update module designed to continuously refine summarized user preference, which may be biased due to false-positive user-item interactions. Extensive experiments on three real-world datasets and four backbone recommenders demonstrate the effectiveness of our approach.
翻訳日:2024-09-17 15:10:41 公開日:2024-09-16
# エネルギー貯蔵用Nthルートゲートのハーネス化

Harnessing Nth Root Gates for Energy Storage ( http://arxiv.org/abs/2409.10345v1 )

ライセンス: Link先を確認
Elliot Fox, Marcella Herrera, Ferdinand Schmidt-Kaler, Irene D'Amico, (参考訳) 量子熱力学における分数制御ノットゲートの利用について検討する。 Nth-root ゲートは2ビット演算のペーストな適用を可能にする。 量子バッテリを充電するための量子熱力学プロトコルに適用する。 3つの(および2つの)量子ビットの回路は、生成されたエルゴトロピーやその他の性能の指標を考慮して解析される。 また,キュービットの1つの初期量子コヒーレンスが,プロトコルの効率やバッテリとしてのシステム性能に強く影響するなど,初期システムパラメータの最適化を行う。 最後に,実験実現の可能性について概説する。

We explore the use of fractional control-not gates in quantum thermodynamics. The Nth-root gate allows for a paced application of two-qubit operations. We apply it in quantum thermodynamic protocols for charging a quantum battery. Circuits for three (and two) qubits are analysed by considering the generated ergotropy and other measures of performance. We also perform an optimisation of initial system parameters, e.g. initial quantum coherence of one of the qubits affects strongly the efficiency of protocols and the system's performance as a battery. Finally, we briefly discuss the feasibility for an experimental realisation.
翻訳日:2024-09-17 15:10:41 公開日:2024-09-16
# Point2Graph: ロボットナビゲーションのための3Dオープン語彙グラフ

Point2Graph: An End-to-end Point Cloud-based 3D Open-Vocabulary Scene Graph for Robot Navigation ( http://arxiv.org/abs/2409.10350v1 )

ライセンス: Link先を確認
Yifan Xu, Ziming Luo, Qianwei Wang, Vineet Kamat, Carol Menassa, (参考訳) 現在のオープンボキャブラリシーングラフ生成アルゴリズムは、3DシーンポイントのクラウドデータとRGB-D画像の両方に強く依存しているため、RGB-D画像やカメラのポーズが簡単に利用できないシナリオでは限定的な用途がある。 この問題を解決するために,提案するRGB-D画像系列の要求を解消する,新しいエンドツーエンドのクラウドベースの3次元オープン語彙シーングラフ生成フレームワークであるPoint2Graphを提案する。 この階層的なフレームワークは、部屋とオブジェクトの検出/セグメンテーションとオープン語彙分類を含んでいる。 部屋層では,幾何学的境界検出アルゴリズムと学習的領域検出アルゴリズムを併用してセグメントルームを抽出し,オープン語彙分類のための"Snap-Lookup"フレームワークを作成する。 さらに、オブジェクト層のためのエンドツーエンドパイプラインを作成し、3Dポイントクラウドデータのみに基づいて3Dオブジェクトを検出し分類する。 評価結果から,我々のフレームワークは,広く使用されている実シーンデータセットにおいて,現状のSOTA(Open-of-the-art-vocabulary Object)と部屋のセグメンテーションと分類アルゴリズムより優れていることが示された。

Current open-vocabulary scene graph generation algorithms highly rely on both 3D scene point cloud data and posed RGB-D images and thus have limited applications in scenarios where RGB-D images or camera poses are not readily available. To solve this problem, we propose Point2Graph, a novel end-to-end point cloud-based 3D open-vocabulary scene graph generation framework in which the requirement of posed RGB-D image series is eliminated. This hierarchical framework contains room and object detection/segmentation and open-vocabulary classification. For the room layer, we leverage the advantage of merging the geometry-based border detection algorithm with the learning-based region detection to segment rooms and create a "Snap-Lookup" framework for open-vocabulary room classification. In addition, we create an end-to-end pipeline for the object layer to detect and classify 3D objects based solely on 3D point cloud data. Our evaluation results show that our framework can outperform the current state-of-the-art (SOTA) open-vocabulary object and room segmentation and classification algorithm on widely used real-scene datasets.
翻訳日:2024-09-17 15:10:41 公開日:2024-09-16
# 画像復元のための拡散モデル

Taming Diffusion Models for Image Restoration: A Review ( http://arxiv.org/abs/2409.10353v1 )

ライセンス: Link先を確認
Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sjölund, Thomas B. Schön, (参考訳) 拡散モデルは生成的モデリングにおいて顕著な進歩を遂げており、特に人間の嗜好に適合する画像品質の向上に寄与している。 近年、これらのモデルは、画像のデノイング、デブロアリング、デハジングなどのタスクにおいて、写真リアリスティック画像復元(IR)のための低レベルコンピュータビジョンにも適用されている。 本稿では,拡散モデルにおける重要な構成について紹介し,拡散モデルを用いた一般的なIRタスクの解法について検討する。 さらに,既存の拡散型IRフレームワークの主な課題と限界を指摘している。

Diffusion models have achieved remarkable progress in generative modelling, particularly in enhancing image quality to conform to human preferences. Recently, these models have also been applied to low-level computer vision for photo-realistic image restoration (IR) in tasks such as image denoising, deblurring, dehazing, etc. In this review paper, we introduce key constructions in diffusion models and survey contemporary techniques that make use of diffusion models in solving general IR tasks. Furthermore, we point out the main challenges and limitations of existing diffusion-based IR frameworks and provide potential directions for future work.
翻訳日:2024-09-17 15:10:41 公開日:2024-09-16
# 2Dか2Dか: ジェスチャー表現の次元性は3次元音声合成にどのように影響するか?

2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation? ( http://arxiv.org/abs/2409.10357v1 )

ライセンス: Link先を確認
Téo Guichoux, Laure Soulier, Nicolas Obin, Catherine Pelachaud, (参考訳) 共同音声ジェスチャーはコミュニケーションの基本である。 近年の深層学習技術の出現は, 身体的会話エージェントのための, 生活型, 同期的共同音声ジェスチャの創出を助長している。 人間のポーズ検出技術を介して、YouTubeなどのプラットフォームからビデオコンテンツを集約する「インザワイルド」データセットは、音声に整列した2D骨格シーケンスを提供することで実現可能なソリューションを提供する。 リフトモデルの同時開発により、これらの2次元シーケンスを3次元ジェスチャーデータベースに変換することができる。 しかし、2D抽出されたポーズから推定される3Dのポーズは、本質的には2D領域に残る接地真実の近似である点に注意する必要がある。 この区別は、ジェスチャ表現の次元性が生成した動きの質に与える影響についての疑問を提起する。 本研究では,2次元もしくは3次元の関節座標をトレーニングデータとして用いることが,音声から身近な深層生成モデルの性能に及ぼす影響について検討した。 生成した2Dポーズシーケンスを3Dに変換するためのリフトモデルを用いて,2Dで生成したジェスチャと3Dで生成したジェスチャを直接3Dスタックで生成し,次に3Dに変換する方法を評価する。 ジェスチャー生成分野において広く使われている指標を用いて客観的評価を行い、また、異なるアプローチを質的に評価するユーザスタディを行う。

Co-speech gestures are fundamental for communication. The advent of recent deep learning techniques has facilitated the creation of lifelike, synchronous co-speech gestures for Embodied Conversational Agents. "In-the-wild" datasets, aggregating video content from platforms like YouTube via human pose detection technologies, provide a feasible solution by offering 2D skeletal sequences aligned with speech. Concurrent developments in lifting models enable the conversion of these 2D sequences into 3D gesture databases. However, it is important to note that the 3D poses estimated from the 2D extracted poses are, in essence, approximations of the ground-truth, which remains in the 2D domain. This distinction raises questions about the impact of gesture representation dimensionality on the quality of generated motions - a topic that, to our knowledge, remains largely unexplored. Our study examines the effect of using either 2D or 3D joint coordinates as training data on the performance of speech-to-gesture deep generative models. We employ a lifting model for converting generated 2D pose sequences into 3D and assess how gestures created directly in 3D stack up against those initially generated in 2D and then converted to 3D. We perform an objective evaluation using widely used metrics in the gesture generation field as well as a user study to qualitatively evaluate the different approaches.
翻訳日:2024-09-17 15:10:41 公開日:2024-09-16
# 視覚自己監督学習のための周波数誘導型マスキング

Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning ( http://arxiv.org/abs/2409.10362v1 )

ライセンス: Link先を確認
Amin Karimi Monsefi, Mengxi Zhou, Nastaran Karimi Monsefi, Ser-Nam Lim, Wei-Lun Chao, Rajiv Ramnath, (参考訳) 本稿では、事前学習の有効性を大幅に向上させる、新しい周波数ベースの自己監視学習(SSL)手法を提案する。 この方向の先行研究は、入力画像の予め定義された周波数をマスクし、モデルの事前訓練に再構成損失を用いる。 有望な結果を達成する一方で、このような実装には2つの基本的な制限がある。 まず、予め定義された周波数を用いることで、画像周波数応答の変動性を見落としている。 第二に、周波数フィルタ画像で事前訓練された結果のモデルは、微調整中に自然に見える画像に適応するために、比較的多くのデータを必要とする。 これらの欠点に対処するため, フーリエ変換圧縮法をseLf-Knowledge蒸留法 (FOLK) で提案し, 2つの専用アイデアを統合する。 まず、画像圧縮に触発されて、画像周波数応答に基づいてマスクアウト周波数を適応的に選択し、事前学習に適したSSLタスクを作成する。 第二に、知識蒸留により強化された2ブランチのフレームワークを用いて、フィルタされた画像と原画像の両方を入力とし、下流タスクの負担を大幅に軽減する。 実験の結果、FOLKは、画像分類、少数ショット学習、セマンティックセグメンテーションなど、さまざまなダウンストリームタスクにおいて、最先端のSSLメソッドと競合する性能を達成できることを示した。

We present a novel frequency-based Self-Supervised Learning (SSL) approach that significantly enhances its efficacy for pre-training. Prior work in this direction masks out pre-defined frequencies in the input image and employs a reconstruction loss to pre-train the model. While achieving promising results, such an implementation has two fundamental limitations as identified in our paper. First, using pre-defined frequencies overlooks the variability of image frequency responses. Second, pre-trained with frequency-filtered images, the resulting model needs relatively more data to adapt to naturally looking images during fine-tuning. To address these drawbacks, we propose FOurier transform compression with seLf-Knowledge distillation (FOLK), integrating two dedicated ideas. First, inspired by image compression, we adaptively select the masked-out frequencies based on image frequency responses, creating more suitable SSL tasks for pre-training. Second, we employ a two-branch framework empowered by knowledge distillation, enabling the model to take both the filtered and original images as input, largely reducing the burden of downstream tasks. Our experimental results demonstrate the effectiveness of FOLK in achieving competitive performance to many state-of-the-art SSL methods across various downstream tasks, including image classification, few-shot learning, and semantic segmentation.
翻訳日:2024-09-17 15:10:41 公開日:2024-09-16
# TPFL:信頼に基づくクラスタリングによるTsetlin-Personalized Federated Learning

TPFL: Tsetlin-Personalized Federated Learning with Confidence-Based Clustering ( http://arxiv.org/abs/2409.10392v1 )

ライセンス: Link先を確認
Rasoul Jafari Gohari, Laya Aliahmadipour, Ezat Valipour, (参考訳) 機械学習の世界(ML)は、新しいモデルやユーザデータを処理する方法に関して、急速に変化している。 これまで行ってきた作業の大部分は、ディープラーニング(DL)ベースのアプローチに重点を置いています。 しかしながら、Tsetlin Machine (TM)アルゴリズムのような新しいアルゴリズムが出現するにつれて、特定のドメインやアプリケーションに固有の利点をもたらす可能性のある代替アプローチを模索することへの関心が高まっている。 これらのドメインのひとつがフェデレートラーニング(FL)であり、ユーザのプライバシが最も重要である。 その斬新さのため、FLはパーソナライズ技術の導入が急増し、パーソナライズされた条件下でユーザーのプライバシーを維持しながらモデルの精度が向上した。 本研究では,TPFL と呼ばれる新しい手法を提案する。Tsetlin-Personalized Federated Learning では,モデルが特定のクラスに対する信頼度に基づいてクラスタにグループ化される。 このようにして、クラスタリングは2つの大きな利点の恩恵を受けることができます。 第一に、クライアントは自信のあるものしか共有しないため、トレーニング中に特定のクラスのデータが不十分であった可能性があるクライアントの間で、誤った重み付けが排除される。 この現象は、データが非独立でIdentically Distributed(非IID)であるときに発生する。 第二に、特定のクラスに対してのみ重みを共有することにより、通信コストが大幅に削減され、TPLFの精度と通信コストの両面で効率が向上する。 TPFLの結果は,MNIST,FashionMNIST,FEMNISTの3つのデータセットに対して高い精度を示した。

The world of Machine Learning (ML) has witnessed rapid changes in terms of new models and ways to process users data. The majority of work that has been done is focused on Deep Learning (DL) based approaches. However, with the emergence of new algorithms such as the Tsetlin Machine (TM) algorithm, there is growing interest in exploring alternative approaches that may offer unique advantages in certain domains or applications. One of these domains is Federated Learning (FL), in which users privacy is of utmost importance. Due to its novelty, FL has seen a surge in the incorporation of personalization techniques to enhance model accuracy while maintaining user privacy under personalized conditions. In this work, we propose a novel approach dubbed TPFL: Tsetlin-Personalized Federated Learning, in which models are grouped into clusters based on their confidence towards a specific class. In this way, clustering can benefit from two key advantages. Firstly, clients share only what they are confident about, resulting in the elimination of wrongful weight aggregation among clients whose data for a specific class may have not been enough during the training. This phenomenon is prevalent when the data are non-Independent and Identically Distributed (non-IID). Secondly, by sharing only weights towards a specific class, communication cost is substantially reduced, making TPLF efficient in terms of both accuracy and communication cost. The results of TPFL demonstrated the highest accuracy on three different datasets; namely MNIST, FashionMNIST and FEMNIST.
翻訳日:2024-09-17 15:10:41 公開日:2024-09-16
# 対実的コントラスト学習を用いたロバスト画像表現

Robust image representations with counterfactual contrastive learning ( http://arxiv.org/abs/2409.10365v1 )

ライセンス: Link先を確認
Mélanie Roschewitz, Fabio De Sousa Ribeiro, Tian Xia, Galvin Khara, Ben Glocker, (参考訳) 対照的な事前訓練は、モデル一般化と下流のパフォーマンスを大幅に向上させる。 しかし、学習した表現の質は、正のペアを生成するために適用されるデータ拡張戦略に大きく依存している。 正の対照的なペアは、データ取得ドメインに関連する望ましくないバリエーションを捨てながら意味を保たなければならない。 従来の対照的なパイプラインは、定義済みの一般的なイメージ変換を通じてドメインシフトをシミュレートしようとする。 しかし、これらはスキャナの違いなど、医用画像の現実的かつ関連する領域のバリエーションを常に模倣するわけではない。 本稿では、因果画像合成の最近の進歩を活用して、関連領域の変動を忠実に捉えた対照的な正の対を生成する新しいフレームワークである反ファクト・コントラスト学習を導入する。 胸部X線写真とマンモグラフィーデータの両方を含む5つのデータセットを用いて評価し,SimCLR と DINO-v2 の2つのコントラスト目標について検討した。 特に、非現実的コントラスト学習は、特にトレーニングセットで表現されていないスキャナーで取得した画像に対して、配信内および外部データセットの両方において、より優れたダウンストリーム性能を達成する。 さらなる実験により、提案フレームワークは買収シフトを超えて拡張され、反実的コントラスト学習で訓練されたモデルは、生物学的セックスにおけるサブグループパフォーマンスを大幅に改善することが示された。

Contrastive pretraining can substantially increase model generalisation and downstream performance. However, the quality of the learned representations is highly dependent on the data augmentation strategy applied to generate positive pairs. Positive contrastive pairs should preserve semantic meaning while discarding unwanted variations related to the data acquisition domain. Traditional contrastive pipelines attempt to simulate domain shifts through pre-defined generic image transformations. However, these do not always mimic realistic and relevant domain variations for medical imaging such as scanner differences. To tackle this issue, we herein introduce counterfactual contrastive learning, a novel framework leveraging recent advances in causal image synthesis to create contrastive positive pairs that faithfully capture relevant domain variations. Our method, evaluated across five datasets encompassing both chest radiography and mammography data, for two established contrastive objectives (SimCLR and DINO-v2), outperforms standard contrastive learning in terms of robustness to acquisition shift. Notably, counterfactual contrastive learning achieves superior downstream performance on both in-distribution and on external datasets, especially for images acquired with scanners under-represented in the training set. Further experiments show that the proposed framework extends beyond acquisition shifts, with models trained with counterfactual contrastive learning substantially improving subgroup performance across biological sex.
翻訳日:2024-09-17 15:00:57 公開日:2024-09-16
# GCNと計算モデルを用いたPFASターゲットL-FABPの肝毒性機構の解明

Uncovering the Mechanism of Hepatotoxiciy of PFAS Targeting L-FABP Using GCN and Computational Modeling ( http://arxiv.org/abs/2409.10370v1 )

ライセンス: Link先を確認
Lucas Jividen, Tibo Duran, Xi-Zhi Niu, Jun Bai, (参考訳) ペルフルオロアルキル(PFAS)とポリフルオロアルキル(PFAS)は環境汚染物質であり、毒性や生物蓄積に問題がある。 産業利用の拡大と劣化に対する抵抗により、地球規模の環境汚染と深刻な健康上の懸念がもたらされた。 PFASのマイノリティは広く研究されているが、直接毒性データが少ないため、多くのPFASの毒性はよく分かっていない。 本研究では, 半教師付きグラフ畳み込みネットワーク(GCN)と分子ディスクリプタと指紋を組み合わせることにより, PFAS毒性の予測モデルを作成する。 本稿では,PFAS結合親和性の予測に分子指紋を分離してグラフを構築する手法を提案する。 このアプローチは、PFASの構造、物理化学的、およびトポロジカルな特徴を、多量の特徴により過度に適合させることなく、明確に捉えている。 教師なしクラスタリングは、詳細な結合研究のための代表化合物を同定する。 以上の結果から,PFASの肝毒性を推定し,新しいPFASの化学的発見と新しい安全基準の策定の指針を提供することができた。

Per- and polyfluoroalkyl substances (PFAS) are persistent environmental pollutants with known toxicity and bioaccumulation issues. Their widespread industrial use and resistance to degradation have led to global environmental contamination and significant health concerns. While a minority of PFAS have been extensively studied, the toxicity of many PFAS remains poorly understood due to limited direct toxicological data. This study advances the predictive modeling of PFAS toxicity by combining semi-supervised graph convolutional networks (GCNs) with molecular descriptors and fingerprints. We propose a novel approach to enhance the prediction of PFAS binding affinities by isolating molecular fingerprints to construct graphs where then descriptors are set as the node features. This approach specifically captures the structural, physicochemical, and topological features of PFAS without overfitting due to an abundance of features. Unsupervised clustering then identifies representative compounds for detailed binding studies. Our results provide a more accurate ability to estimate PFAS hepatotoxicity to provide guidance in chemical discovery of new PFAS and the development of new safety regulations.
翻訳日:2024-09-17 15:00:57 公開日:2024-09-16
# 人間の自由力制御によるジェントルグルーピングの学習

Learning Gentle Grasping from Human-Free Force Control Demonstration ( http://arxiv.org/abs/2409.10371v1 )

ライセンス: Link先を確認
Mingxuan Li, Lunwei Zhang, Tiemin Li, Yao Jiang, (参考訳) 人間は触覚の知覚に基づいて、不慣れな物体を着実に把握することができる。 ロボットは、限られたデータから一般化できる正確な把握力予測と力制御戦略の学習が困難であるため、同様のパフォーマンスを達成する上で依然として課題に直面している。 本稿では,データサイズが制限された人間の手と同じような動作を実現するために,理想的な力制御デモから把握する学習手法を提案する。 提案手法は,人間の実演を伴わない参照力曲線を自動生成するために,既知の接触特性を持つ物体を用いる。 さらに,2つの畳み込みニューラルネットワーク(Dual-CNN)アーキテクチャの設計を行った。 本手法は視覚に基づく触覚センサに効果的に適用でき, 地中からの物体の緩やかで安定した把握を可能にする。 提案した予測モデルと把握戦略をオフライン評価とオンライン実験で検証し,精度と一般化性を示した。

Humans can steadily and gently grasp unfamiliar objects based on tactile perception. Robots still face challenges in achieving similar performance due to the difficulty of learning accurate grasp-force predictions and force control strategies that can be generalized from limited data. In this article, we propose an approach for learning grasping from ideal force control demonstrations, to achieve similar performance of human hands with limited data size. Our approach utilizes objects with known contact characteristics to automatically generate reference force curves without human demonstrations. In addition, we design the dual convolutional neural networks (Dual-CNN) architecture which incorporating a physics-based mechanics module for learning target grasping force predictions from demonstrations. The described method can be effectively applied in vision-based tactile sensors and enables gentle and stable grasping of objects from the ground. The described prediction model and grasping strategy were validated in offline evaluations and online experiments, and the accuracy and generalizability were demonstrated.
翻訳日:2024-09-17 15:00:57 公開日:2024-09-16
# 適応情報変調を用いたLLMエージェント間の協調構築

Instigating Cooperation among LLM Agents Using Adaptive Information Modulation ( http://arxiv.org/abs/2409.10372v1 )

ライセンス: Link先を確認
Qiliang Chen, Alireza, Ilami, Nunzio Lore, Babak Heydari, (参考訳) 本稿では,LLMエージェントを人間戦略行動プロキシとして,強化学習(RL)と組み合わせて,これらのエージェントをチーム環境内での戦略的相互作用に関与させる新しいフレームワークを提案する。 我々のアプローチは、戦略的LLMエージェント(SLA)を用いて従来のエージェントベースのシミュレーションを拡張し、ネットワーク内のエージェント間の情報アクセスを調節し、社会的福祉を最適化し、社会的行動を促進するPPA(Pro-social promoted RL agent)を介して動的かつ適応的なガバナンスを導入する。 囚人ジレンマを含む反復型ゲームにおける検証を通じて、SLAエージェントが曖昧な戦略適応を示すことを示す。 PPAエージェントは、情報の透明性を効果的に調整し、協力率が向上する。 このフレームワークは、実世界のチーム設定におけるAIの展開に寄与する、AIを介するソーシャルダイナミクスに関する重要な洞察を提供する。

This paper introduces a novel framework combining LLM agents as proxies for human strategic behavior with reinforcement learning (RL) to engage these agents in evolving strategic interactions within team environments. Our approach extends traditional agent-based simulations by using strategic LLM agents (SLA) and introducing dynamic and adaptive governance through a pro-social promoting RL agent (PPA) that modulates information access across agents in a network, optimizing social welfare and promoting pro-social behavior. Through validation in iterative games, including the prisoner dilemma, we demonstrate that SLA agents exhibit nuanced strategic adaptations. The PPA agent effectively learns to adjust information transparency, resulting in enhanced cooperation rates. This framework offers significant insights into AI-mediated social dynamics, contributing to the deployment of AI in real-world team settings.
翻訳日:2024-09-17 15:00:57 公開日:2024-09-16
# Mamba-ST:効率的なスタイル転送のための状態空間モデル

Mamba-ST: State Space Model for Efficient Style Transfer ( http://arxiv.org/abs/2409.10385v1 )

ライセンス: Link先を確認
Filippo Botti, Alex Ergasti, Leonardo Rossi, Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati, (参考訳) スタイル転送のゴールは、コンテンツ画像とスタイルソースが与えられ、コンテンツを保存する新しいイメージを生成するが、スタイルソースの芸術的表現である。 最先端のアーキテクチャのほとんどは、必要な計算負荷にもかかわらず、トランスフォーマーまたは拡散ベースのモデルを使用してこのタスクを実行する。 特に、トランスフォーマーはメモリフットプリントが大きいセルフ層とクロスアテンション層を使用し、拡散モデルは高い推論時間を必要とする。 そこで,本稿では,Mamba-STと呼ばれる,創発的状態空間モデル(SSM)であるMambaの設計について検討する。 そのため,Mamba線形方程式を適用すれば,2つの異なる埋め込みをひとつの出力に組み合わせることができるが,メモリ使用量や時間的複雑さを大幅に低減できる。 We modified the Mamba's inner equations to accept inputs and combination, two separate data stream。 我々の知る限りでは、これは、クロスアテンションやカスタム正規化レイヤのような他のモジュールを必要としない、視覚タスクのようなスタイル転送にSSMの方程式を適用する最初の試みである。 提案手法は, 変圧器や拡散モデルと比較して, スタイル伝達における優越性と効率性を示す。 その結果,ArtFIDとFIDの両方の指標で品質が向上した。 コードはhttps://github.com/FilippoBotti/MambaSTで入手できる。

The goal of style transfer is, given a content image and a style source, generating a new image preserving the content but with the artistic representation of the style source. Most of the state-of-the-art architectures use transformers or diffusion-based models to perform this task, despite the heavy computational burden that they require. In particular, transformers use self- and cross-attention layers which have large memory footprint, while diffusion models require high inference time. To overcome the above, this paper explores a novel design of Mamba, an emergent State-Space Model (SSM), called Mamba-ST, to perform style transfer. To do so, we adapt Mamba linear equation to simulate the behavior of cross-attention layers, which are able to combine two separate embeddings into a single output, but drastically reducing memory usage and time complexity. We modified the Mamba's inner equations so to accept inputs from, and combine, two separate data streams. To the best of our knowledge, this is the first attempt to adapt the equations of SSMs to a vision task like style transfer without requiring any other module like cross-attention or custom normalization layers. An extensive set of experiments demonstrates the superiority and efficiency of our method in performing style transfer compared to transformers and diffusion models. Results show improved quality in terms of both ArtFID and FID metrics. Code is available at https://github.com/FilippoBotti/MambaST.
翻訳日:2024-09-17 15:00:57 公開日:2024-09-16
# 時間を考慮した物理インフォームド損失項の生成における数値微分の除去のためのリカレントニューラルネットワークの構造の改訂

Revising the Structure of Recurrent Neural Networks to Eliminate Numerical Derivatives in Forming Physics Informed Loss Terms with Respect to Time ( http://arxiv.org/abs/2409.10388v1 )

ライセンス: Link先を確認
Mahyar Jahani-nasab, Mohamad Ali Bijarchi, (参考訳) リカレントニューラルネットワーク(RNN)を用いた非定常偏微分方程式(PDE)の解法は、典型的には、物理情報損失関数を形成するために、RNNの各ブロック間の数値微分を必要とする。 しかし、これはこれらのモデルの訓練過程に数値微分の複雑さをもたらす。 本研究では,従来のRNNの構造を変更して,各ブロックを時間間隔で予測し,バックプロパゲーションアルゴリズムを用いて出力の微分を計算することを提案する。 これを実現するために、これらのブロックの時間間隔を重なり、それら間の相互損失関数を定義する。 さらに,条件付き隠れ状態の活用により,各ブロックに対してユニークな解が得られる。 その後のブロックの予測に対する条件付き隠蔽状態の影響を制御するために、忘れ要因を利用する。 この新モデルはMutual Interval RNN (MI-RNN)と呼ばれ、バーガーズ方程式、不規則領域における非定常熱伝導、グリーン渦問題という3つの異なるベンチマークを解くために用いられる。 以上の結果から,MI-RNNは既存のRNNモデルよりも正確な解を見つけることができることがわかった。 例えば、2つ目の問題では、MI-RNNは数値微分を持つRNNモデルに比べて1桁少ない相対誤差を達成した。

Solving unsteady partial differential equations (PDEs) using recurrent neural networks (RNNs) typically requires numerical derivatives between each block of the RNN to form the physics informed loss function. However, this introduces the complexities of numerical derivatives into the training process of these models. In this study, we propose modifying the structure of the traditional RNN to enable the prediction of each block over a time interval, making it possible to calculate the derivative of the output with respect to time using the backpropagation algorithm. To achieve this, the time intervals of these blocks are overlapped, defining a mutual loss function between them. Additionally, the employment of conditional hidden states enables us to achieve a unique solution for each block. The forget factor is utilized to control the influence of the conditional hidden state on the prediction of the subsequent block. This new model, termed the Mutual Interval RNN (MI-RNN), is applied to solve three different benchmarks: the Burgers equation, unsteady heat conduction in an irregular domain, and the Green vortex problem. Our results demonstrate that MI-RNN can find the exact solution more accurately compared to existing RNN models. For instance, in the second problem, MI-RNN achieved one order of magnitude less relative error compared to the RNN model with numerical derivatives.
翻訳日:2024-09-17 15:00:57 公開日:2024-09-16
# Prompt-and-Transfer:Few-shotセグメンテーションのための動的クラス認識機能強化

Prompt-and-Transfer: Dynamic Class-aware Enhancement for Few-shot Segmentation ( http://arxiv.org/abs/2409.10389v1 )

ライセンス: Link先を確認
Hanbo Bi, Yingchao Feng, Wenhui Diao, Peijin Wang, Yongqiang Mao, Kun Fu, Hongqi Wang, Xian Sun, (参考訳) 未確認領域(クラス)をより効率的に一般化するために、ほとんどのFew-shot Segmentation (FSS)は、訓練済みのエンコーダを直接利用し、デコーダのみを微調整する。 しかし、そのような固定機能エンコーダはクラスに依存しない傾向があり、必然的にターゲットクラスとは無関係なオブジェクトを活性化する。 対照的に、人間は視線上の特定の物体に力ずくで焦点を合わせることができる。 本稿では,人間の視覚的知覚パターンを模倣し,興味ある対象(ターゲットクラス)に焦点をあてるエンコーダをチューニングするための動的クラス認識プロンプトパラダイムを構築した,プロンプト・アンド・トランスファー(PAT)と呼ばれる,新規で強力なプロンプト駆動型スキームを提案する。 プロンプトを強化するために、3つのキーポイントを詳述する。 1)タスク毎にプロンプトを初期化するために、モーダル言語情報を導入する。 2) 画像内のクラス固有の意味をプロンプトに正確に転送するセマンティック・プロンプト・トランスファー(SPT)。 3)SPTと連携して異なるが相補的な部分プロンプトを生成するPMG(Part Mask Generator)。 驚いたことに、PATは標準のFSS、クロスドメインのFSS(例えば、CV、医療、リモートセンシングのドメイン)、Weak-labelのFSS、Zero-shot Segmentationを含む4つの異なるタスクで競争力を発揮する。

For more efficient generalization to unseen domains (classes), most Few-shot Segmentation (FSS) would directly exploit pre-trained encoders and only fine-tune the decoder, especially in the current era of large models. However, such fixed feature encoders tend to be class-agnostic, inevitably activating objects that are irrelevant to the target class. In contrast, humans can effortlessly focus on specific objects in the line of sight. This paper mimics the visual perception pattern of human beings and proposes a novel and powerful prompt-driven scheme, called ``Prompt and Transfer" (PAT), which constructs a dynamic class-aware prompting paradigm to tune the encoder for focusing on the interested object (target class) in the current task. Three key points are elaborated to enhance the prompting: 1) Cross-modal linguistic information is introduced to initialize prompts for each task. 2) Semantic Prompt Transfer (SPT) that precisely transfers the class-specific semantics within the images to prompts. 3) Part Mask Generator (PMG) that works in conjunction with SPT to adaptively generate different but complementary part prompts for different individuals. Surprisingly, PAT achieves competitive performance on 4 different tasks including standard FSS, Cross-domain FSS (e.g., CV, medical, and remote sensing domains), Weak-label FSS, and Zero-shot Segmentation, setting new state-of-the-arts on 11 benchmarks.
翻訳日:2024-09-17 15:00:57 公開日:2024-09-16
# マルチコピー量子状態テレポーテーションと量子プログラムの記憶と検索への応用

Multicopy quantum state teleportation with application to storage and retrieval of quantum programs ( http://arxiv.org/abs/2409.10393v1 )

ライセンス: Link先を確認
Frédéric Grosshans, Michał Horodecki, Mio Murao, Tomasz Młynik, Marco Túlio Quintino, Michał Studziński, Satoshi Yoshida, (参考訳) この研究は、ボブが修正を行うことができないシナリオにおいて、アリスとボブのテレポーテーションタスクを考える。 特に、Alice は任意の未知の $d$-dimensional qudit state $\vert\psi\rangle$ の同一のコピーを $\vert\psi\rangle$ の 1 つのコピーを Bob にテレポートするために、Alice と Bob の間で、Bob の補正なしに、最大に絡み合った2量子状態を使って解析する。 Aliceは、絡み合った状態の半分と$\vert\psi\rangle$の$k$コピーで共同測定を行うことができる。 我々は、正確な状態 $\vert\psi\rangle$ を Bob にテレポートする成功確率が $p(d,k)=\frac{k}{d(k-1+d)}$ であることを証明する。 次に、任意のターゲット状態 $\vert\psi\rangle$ の $k$ コピーを利用することで、量子プログラムの保存と検索の成功確率を高めるために、マルチコピー状態のテレポーテーションプロトコルをどのように利用できるかを示す。 我々の証明は群表現論法を用いており、この研究で解決された問題を超えた応用を見出すことができる。

This work considers a teleportation task for Alice and Bob in a scenario where Bob cannot perform corrections. In particular, we analyse the task of \textit{multicopy state teleportation}, where Alice has $k$ identical copies of an arbitrary unknown $d$-dimensional qudit state $\vert\psi\rangle$ to teleport a single copy of $\vert\psi\rangle$ to Bob using a maximally entangled two-qudit state shared between Alice and Bob without Bob's correction. Alice may perform a joint measurement on her half of the entangled state and the $k$ copies of $\vert\psi\rangle$. We prove that the maximal probability of success for teleporting the exact state $\vert\psi\rangle$ to Bob is $p(d,k)=\frac{k}{d(k-1+d)}$ and present an explicit protocol to attain this performance. Then, by utilising $k$ copies of an arbitrary target state $\vert\psi\rangle$, we show how the multicopy state teleportation protocol can be employed to enhance the success probability of storage and retrieval of quantum programs, which aims to universally retrieve the action of an arbitrary quantum channel that is stored in a state. Our proofs make use of group representation theory methods, which may find applications beyond the problems addressed in this work.
翻訳日:2024-09-17 15:00:57 公開日:2024-09-16
# MOST:連続学習による複数ダウンストリームタスクのMR再構成最適化

MOST: MR reconstruction Optimization for multiple downStream Tasks via continual learning ( http://arxiv.org/abs/2409.10394v1 )

ライセンス: Link先を確認
Hwihun Jeong, Se Young Chun, Jongho Lee, (参考訳) 深層学習に基づく磁気共鳴(MR)再構成法は高品質な画像を生成することに重点を置いているが、再構成した画像を利用する下流タスク(例えばセグメンテーション)への影響を見落としていることが多い。 個別にトレーニングされた再構成ネットワークと下流タスクネットワークをカスケーディングすることで、エラーの伝搬とトレーニングデータセット間のドメインギャップによるパフォーマンス劣化が発生することが示されている。 この問題を軽減するために、下流タスク指向の再構築最適化が1つの下流タスクに対して提案されている。 この最適化をマルチタスクシナリオに拡張するのは簡単ではありません。 本研究では、この最適化を順次導入した複数の下流タスクに拡張し、連続学習(MOST)を配置することにより、複数の下流タスクに対して単一のMR再構成ネットワークを最適化できることを実証した。 MOSTはリプレイベースの連続学習と画像誘導損失の技術を統合し、破滅的な忘れを克服した。 比較実験により、MOSTは微調整なしの再構成ネットワーク、na\\型微調整付き再構成ネットワーク、従来の連続学習手法よりも優れていた。 この進歩により、複数の下流タスクに単一のMR再構成ネットワークを適用することができる。 ソースコードは、https://github.com/SNU-LIST/MOSTで入手できる。

Deep learning-based Magnetic Resonance (MR) reconstruction methods have focused on generating high-quality images but they often overlook the impact on downstream tasks (e.g., segmentation) that utilize the reconstructed images. Cascading separately trained reconstruction network and downstream task network has been shown to introduce performance degradation due to error propagation and domain gaps between training datasets. To mitigate this issue, downstream task-oriented reconstruction optimization has been proposed for a single downstream task. Expanding this optimization to multi-task scenarios is not straightforward. In this work, we extended this optimization to sequentially introduced multiple downstream tasks and demonstrated that a single MR reconstruction network can be optimized for multiple downstream tasks by deploying continual learning (MOST). MOST integrated techniques from replay-based continual learning and image-guided loss to overcome catastrophic forgetting. Comparative experiments demonstrated that MOST outperformed a reconstruction network without finetuning, a reconstruction network with na\"ive finetuning, and conventional continual learning methods. This advancement empowers the application of a single MR reconstruction network for multiple downstream tasks. The source code is available at: https://github.com/SNU-LIST/MOST
翻訳日:2024-09-17 15:00:57 公開日:2024-09-16
# Prompt LearningとBERT統合に基づく知識強化型疾患診断法

A Knowledge-Enhanced Disease Diagnosis Method Based on Prompt Learning and BERT Integration ( http://arxiv.org/abs/2409.10403v1 )

ライセンス: Link先を確認
Zhang Zheng, (参考訳) 本稿では,素早い学習枠組みに基づく知識強調型疾患診断手法を提案する。 本手法は, 臨床症例に関連する外部知識グラフから構造化知識を抽出し, エンコードし, 即時テンプレートに注入することで, 言語モデルの理解・推論能力を高める。 提案手法は,CHIP-CTCデータセットではF1スコアが2.4%,IMCS-V2-NERデータセットでは3.1%,KUAKE-QTRデータセットでは4.2%向上した。 さらに,本モジュールの除去はF1スコアの低下を招いたため,知識注入モジュールの重要性が確認された。 提案手法は, 疾患診断の精度を効果的に向上するだけでなく, 予測の解釈可能性を高め, より信頼性の高い支援と臨床診断の証拠を提供することを示す。

This paper proposes a knowledge-enhanced disease diagnosis method based on a prompt learning framework. The method retrieves structured knowledge from external knowledge graphs related to clinical cases, encodes it, and injects it into the prompt templates to enhance the language model's understanding and reasoning capabilities for the task.We conducted experiments on three public datasets: CHIP-CTC, IMCS-V2-NER, and KUAKE-QTR. The results show that the proposed method significantly outperforms existing models across multiple evaluation metrics, with an F1 score improvement of 2.4% on the CHIP-CTC dataset, 3.1% on the IMCS-V2-NER dataset,and 4.2% on the KUAKE-QTR dataset. Additionally,ablation studies confirmed the critical role of the knowledge injection module,as the removal of this module resulted in a significant drop in F1 score. The experimental results demonstrate that the proposed method not only effectively improves the accuracy of disease diagnosis but also enhances the interpretability of the predictions, providing more reliable support and evidence for clinical diagnosis.
翻訳日:2024-09-17 15:00:57 公開日:2024-09-16
# AndroidサードパーティSDKの大規模プライバシ評価

A Large-Scale Privacy Assessment of Android Third-Party SDKs ( http://arxiv.org/abs/2409.10411v1 )

ライセンス: Link先を確認
Mark Huasong Meng, Chuan Yan, Yun Hao, Qing Zhang, Zeyu Wang, Kailong Wang, Sin Gee Teo, Guangdong Bai, Jin Song Dong, (参考訳) サードパーティのソフトウェア開発キット(SDK)はAndroidアプリ開発で広く採用されている。 しかし、この利便性は、ユーザ追跡や収益化といった不正な目的のためにさらに悪用される可能性がある、ユーザのプライバシに敏感な情報への不正アクセスに関して、かなりの懸念を提起する。 私たちの研究は、AndroidのサードパーティSDK間のユーザプライバシ保護のターゲット分析を提供し、Androidソフトウェアサプライチェーンにおける重要なギャップを埋めています。 テナント分析と大規模言語モデルを利用したデータ流出と行動ポリシーコンプライアンス(あるいはプライバシコンプライアンス)を含む、プライバシプラクティスの2つの側面に焦点を当てている。 2つの主要なSDKリリースプラットフォーム、公式SDKと大きな代替SDKから158の広く使用されているSDKをカバーする。 それらから、プライバシデータの流出の338のインスタンスを特定しました。 プライバシコンプライアンスに関しては,調査対象SDKの30%以上が,データ処理のプラクティスを公開するためのプライバシポリシの提供に失敗している,という結果が出ています。 プライバシーポリシーを提供する企業のうち、37%はユーザーデータを過度に収集し、88%は機密データへのアクセスを誤って主張している。 私たちは12ヶ月後に最新バージョンのSDKを再検討します。 我々の分析は、これらの傾向に関する改善の持続的欠如を示している。 本研究は,プライバシー侵害のリスクを軽減し,Androidユーザに対するプライバシー保護を強化するための3つの推奨事項を提案する。 我々の研究は、産業の注意を緊急に呼び寄せるだけでなく、将来の規制介入に対する重要な洞察も提供します。

Third-party Software Development Kits (SDKs) are widely adopted in Android app development, to effortlessly accelerate development pipelines and enhance app functionality. However, this convenience raises substantial concerns about unauthorized access to users' privacy-sensitive information, which could be further abused for illegitimate purposes like user tracking or monetization. Our study offers a targeted analysis of user privacy protection among Android third-party SDKs, filling a critical gap in the Android software supply chain. It focuses on two aspects of their privacy practices, including data exfiltration and behavior-policy compliance (or privacy compliance), utilizing techniques of taint analysis and large language models. It covers 158 widely-used SDKs from two key SDK release platforms, the official one and a large alternative one. From them, we identified 338 instances of privacy data exfiltration. On the privacy compliance, our study reveals that more than 30% of the examined SDKs fail to provide a privacy policy to disclose their data handling practices. Among those that provide privacy policies, 37% of them over-collect user data, and 88% falsely claim access to sensitive data. We revisit the latest versions of the SDKs after 12 months. Our analysis demonstrates a persistent lack of improvement in these concerning trends. Based on our findings, we propose three actionable recommendations to mitigate the privacy leakage risks and enhance privacy protection for Android users. Our research not only serves as an urgent call for industry attention but also provides crucial insights for future regulatory interventions.
翻訳日:2024-09-17 15:00:57 公開日:2024-09-16
# クロマティック分散補償のハードウェア効率向上のための幾何学的クラスタリング

Geometric Clustering for Hardware-Efficient Implementation of Chromatic Dispersion Compensation ( http://arxiv.org/abs/2409.10416v1 )

ライセンス: Link先を確認
Geraldo Gomes, Pedro Freire, Jaroslaw E. Prilepsky, Sergei K. Turitsyn, (参考訳) 電力効率は現代の光ファイバー通信システムにおいて重要な課題であり、特に色分散補償(CDC)アルゴリズムにおいて、デジタル信号処理の計算複雑性を減らそうとしている。 複雑性低減のための様々な戦略が提案されているが、その多くがその利点を検証するために必要なハードウェア実装を欠いている。 本稿では,コヒーレント受信機のCDCフィルタにおけるタップオーバーラップ効果の理論的解析を行い,この概念に基づく新しい時間領域クラスタ化等化器(TDCE)技術を導入し,検証のためのフィールドプログラマブルゲートアレイ(FPGA)の実装を提案する。 我々は,繊維長最大640kmのハードウェアで実装したTDCEの並列化手法を開発した。 また、同じ条件下でのFDE(State-of-the-art frequency domain equalizer)との比較を行った。 並列化とメモリ管理を含む実装戦略は、ハードウェアの複雑さとエネルギー効率を決定する上で、計算の複雑さと同じくらい重要である。 提案したTDCEハードウェア実装は、計算複雑性が高いにもかかわらず、最大で70.7 %の省エネと71.4 %の乗算器の省エネを実現している。

Power efficiency remains a significant challenge in modern optical fiber communication systems, driving efforts to reduce the computational complexity of digital signal processing, particularly in chromatic dispersion compensation (CDC) algorithms. While various strategies for complexity reduction have been proposed, many lack the necessary hardware implementation to validate their benefits. This paper provides a theoretical analysis of the tap overlapping effect in CDC filters for coherent receivers, introduces a novel Time-Domain Clustered Equalizer (TDCE) technique based on this concept, and presents a Field-Programmable Gate Array (FPGA) implementation for validation. We developed an innovative parallelization method for TDCE, implementing it in hardware for fiber lengths up to 640 km. A fair comparison with the state-of-the-art frequency domain equalizer (FDE) under identical conditions is also conducted. Our findings highlight that implementation strategies, including parallelization and memory management, are as crucial as computational complexity in determining hardware complexity and energy efficiency. The proposed TDCE hardware implementation achieves up to 70.7\% energy savings and 71.4\% multiplier usage savings compared to FDE, despite its higher computational complexity.
翻訳日:2024-09-17 15:00:57 公開日:2024-09-16
# HiFi-CS:視覚言語モデルを用いたロボットグラフプのためのオープンな語彙的視覚接地を目指して

HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping Using Vision-Language Models ( http://arxiv.org/abs/2409.10419v1 )

ライセンス: Link先を確認
Vineet Bhat, Prashanth Krishnamurthy, Ramesh Karri, Farshad Khorrami, (参考訳) 自然言語を介して人間と対話するロボットは、Referring Grasp Synthesis (RGS)のような多数のアプリケーションをアンロックすることができる。 テキストクエリが与えられた場合、RGSはロボットのワークスペース内の参照オブジェクトを操作するための安定した握りポーズを決定する。 RGSは2つのステップで構成されている。 近年,視覚言語モデル(VLM)を応用して,実世界におけるロボット実行における自由流れの自然言語を視覚的にグラウンド化する研究が進められている。 しかし、同じオブジェクトの複数のインスタンスと複雑で散らかった環境での比較は不十分である。 本稿では、画像とテキストの埋め込みを融合させるために、FiLM(Featurewise Linear Modulation)の階層的応用を特徴とするHiFi-CSを提案する。 ビジュアルグラウンドティングは2D/3D空間のオブジェクトと自然言語入力を関連付け、クローズドとオープンボキャブラリの2つのシナリオで研究されている。 HiFi-CSは、軽量デコーダと凍結したVLMを組み合わせることで、100倍のサイズのクローズドボキャブラリー設定で競合ベースラインを上回っている。 提案モデルでは,GroundedSAMのようなオープンセットオブジェクト検出器を効果的に誘導し,オープンボキャブラリ性能を向上させる。 7-DOFロボットアームを用いた実世界RGS実験によるアプローチの検証を行い、15台のテーブルトップシーンで90.33\%の視覚的接地精度を実現した。 私たちはコードベースを補足資料に含んでいます。

Robots interacting with humans through natural language can unlock numerous applications such as Referring Grasp Synthesis (RGS). Given a text query, RGS determines a stable grasp pose to manipulate the referred object in the robot's workspace. RGS comprises two steps: visual grounding and grasp pose estimation. Recent studies leverage powerful Vision-Language Models (VLMs) for visually grounding free-flowing natural language in real-world robotic execution. However, comparisons in complex, cluttered environments with multiple instances of the same object are lacking. This paper introduces HiFi-CS, featuring hierarchical application of Featurewise Linear Modulation (FiLM) to fuse image and text embeddings, enhancing visual grounding for complex attribute rich text queries encountered in robotic grasping. Visual grounding associates an object in 2D/3D space with natural language input and is studied in two scenarios: Closed and Open Vocabulary. HiFi-CS features a lightweight decoder combined with a frozen VLM and outperforms competitive baselines in closed vocabulary settings while being 100x smaller in size. Our model can effectively guide open-set object detectors like GroundedSAM to enhance open-vocabulary performance. We validate our approach through real-world RGS experiments using a 7-DOF robotic arm, achieving 90.33\% visual grounding accuracy in 15 tabletop scenes. We include our codebase in the supplementary material.
翻訳日:2024-09-17 15:00:57 公開日:2024-09-16
# プロファイリングによる多次元デコンボリューション

Multidimensional Deconvolution with Profiling ( http://arxiv.org/abs/2409.10421v1 )

ライセンス: Link先を確認
Huanbiao Zhu, Krish Desai, Mikael Kuusela, Vinicius Mikuni, Benjamin Nachman, Larry Wasserman, (参考訳) 多くの実験的文脈において、測定を物理的に解釈するためには、機器効果の影響を統計的に除去する必要がある。 このタスクは粒子物理学において広範囲に研究され、そこでは非畳み込みタスクを展開(unfolding)と呼ぶ。 最近の多くの手法は、機械学習を用いて高次元のアンバインド展開を実行する方法を示している。 しかしながら、これらの手法の全ての仮定の1つは、検出器応答がモンテカルロシミュレーションで正確にモデル化されていることである。 実際には、検出器応答はデータに制約される多くのニュアンスパラメータに依存する。 我々は,OmniFold (OF) アルゴリズムと同様の反復方式で動作し,ニュアンスパラメータを同時にプロファイリングできる新しいアルゴリズムである Profile OmniFold (POF) を提案する。 提案手法をガウス的例を用いて,その有望な能力を示す概念実証として説明する。

In many experimental contexts, it is necessary to statistically remove the impact of instrumental effects in order to physically interpret measurements. This task has been extensively studied in particle physics, where the deconvolution task is called unfolding. A number of recent methods have shown how to perform high-dimensional, unbinned unfolding using machine learning. However, one of the assumptions in all of these methods is that the detector response is accurately modeled in the Monte Carlo simulation. In practice, the detector response depends on a number of nuisance parameters that can be constrained with data. We propose a new algorithm called Profile OmniFold (POF), which works in a similar iterative manner as the OmniFold (OF) algorithm while being able to simultaneously profile the nuisance parameters. We illustrate the method with a Gaussian example as a proof of concept highlighting its promising capabilities.
翻訳日:2024-09-17 15:00:57 公開日:2024-09-16
# 空間登録による半監督型医用画像分割の学習

Learning Semi-Supervised Medical Image Segmentation from Spatial Registration ( http://arxiv.org/abs/2409.10422v1 )

ライセンス: Link先を確認
Qianying Liu, Paul Henderson, Xiao Gu, Hang Dai, Fani Deligianni, (参考訳) 半教師付き医療画像セグメンテーションは、ラベル付きデータと豊富なラベル付きデータによるトレーニングモデルにおいて有望であることを示している。 しかし、最先端の手法は、イメージボリューム間の空間的登録変換である教師なしの意味情報の潜在的に価値のある情報源を無視している。 そこで本稿では,登録情報を組み込んだ相互学習フレームワークであるCCT-Rを提案する。 ボリュームペア間の登録で利用可能なセマンティック情報を活用するために、CCT-Rは2つの提案されたモジュール、登録スーパービジョンロス(RSL)と登録強化正サンプリング(REPS)を組み込んでいる。 RSLはラベル付きとラベルなしのボリュームペア間の変換から派生したセグメンテーション知識を活用し、擬似ラベルのさらなる情報源を提供する。 REPSは、登録変換を用いてボリューム間で解剖学的に対応している正を識別することで、対照的な学習を強化する。 CCT-RとCCT-Rの半教師付きセグメンテーションにおける有効性と優位性を示す2つの試験結果が得られた。 私たちのコードはhttps://github.com/kathyliu579/ContrastiveCross-teachingWithRegistrationで利用可能です。

Semi-supervised medical image segmentation has shown promise in training models with limited labeled data and abundant unlabeled data. However, state-of-the-art methods ignore a potentially valuable source of unsupervised semantic information -- spatial registration transforms between image volumes. To address this, we propose CCT-R, a contrastive cross-teaching framework incorporating registration information. To leverage the semantic information available in registrations between volume pairs, CCT-R incorporates two proposed modules: Registration Supervision Loss (RSL) and Registration-Enhanced Positive Sampling (REPS). The RSL leverages segmentation knowledge derived from transforms between labeled and unlabeled volume pairs, providing an additional source of pseudo-labels. REPS enhances contrastive learning by identifying anatomically-corresponding positives across volumes using registration transforms. Experimental results on two challenging medical segmentation benchmarks demonstrate the effectiveness and superiority of CCT-R across various semi-supervised settings, with as few as one labeled case. Our code is available at https://github.com/kathyliu579/ContrastiveCross-teachingWithRegistration.
翻訳日:2024-09-17 14:48:31 公開日:2024-09-16
# ユーザ認証デバイス非依存の量子セキュアダイレクト通信プロトコル

User-Authenticated Device-Independent Quantum Secure Direct Communication Protocol ( http://arxiv.org/abs/2409.10427v1 )

ライセンス: Link先を確認
Nayana Das, Saikat Basu, Goutam Paul, Vijay S. Rao, (参考訳) Device-Independent Quantum Secure Direct Communication (DI-QSDC)は、関係するデバイスの信頼性に頼ることなくセキュアなメッセージ送信を可能にすることで、量子暗号を強化する。 このアプローチは、従来の量子通信で一般的な、妥協または信頼できないデバイスに関連するリスクを軽減します。 本稿では,ユーザ認証を用いたDI-QSDCプロトコルの最初の提案を行う。 これにより、メッセージ交換の前に送信側と受信側の両方の認証が保証される。 次に、提案プロトコルの共通攻撃に対する安全性について議論し、盗聴者が量子チャネルまたは古典チャネルから情報を得ることはないことを示した。 次に,本プロトコルをIBMの量子ハードウェア上に実装し,現実的な雑音環境下での性能評価を行う。 さらに、一般的な攻撃モデルをシミュレートすることにより、チャネル内の任意の盗聴者に対してプロトコルが安全であることを実証する。 これらの知見は、このプロトコルの堅牢なセキュリティと現実のセキュアな量子通信の実現性を強調している。

Device-Independent Quantum Secure Direct Communication (DI-QSDC) enhances quantum cryptography by enabling secure message transmission without relying on the trustworthiness of the devices involved. This approach mitigates risks associated with compromised or untrusted devices, common in traditional quantum communication. In this paper, we propose the first of its kind DI-QSDC protocol with user identity authentication. This ensures the authenticity of both the sender and receiver prior to message exchange. We then discuss the security of the proposed protocol against common attacks, demonstrating that no eavesdropper gains any information from either the quantum or the classical channel. Next, we implement the protocol on IBM's quantum hardware and evaluate its performance in a realistic noisy environment. Additionally, by simulating common attack models, we showcase that the protocol is secure against any eavesdropper in the channel. These findings highlight the protocol's robust security and practical feasibility for real-world secure quantum communication.
翻訳日:2024-09-17 14:48:31 公開日:2024-09-16
# Meta-Whisper:低リソース言語におけるASRのための音声ベースメタICL

Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages ( http://arxiv.org/abs/2409.10429v1 )

ライセンス: Link先を確認
Ming-Hao Hsu, Kuan Po Huang, Hung-yi Lee, (参考訳) 本稿では,Whisperモデルを用いた低リソース言語の自動音声認識(ASR)の改良手法であるMeta-Whisperを提案する。 Meta In-Context Learning (Meta-ICL) と k-Nearest Neighbors (KNN) アルゴリズムをサンプル選択に活用することにより、Meta-Whisper はWhisper が不慣れな言語における音声認識能力を向上させる。 ML-SUPERBデータセットの実験により、メタウィスパーは元のWhisperモデルと比較して低リソース言語に対するキャラクタエラー率(CER)を著しく低減することが示された。 この方法は、より適応性の高い多言語ASRシステム、特に限られたリソースを持つ言語のための、有望なソリューションを提供する。

This paper presents Meta-Whisper, a novel approach to improve automatic speech recognition (ASR) for low-resource languages using the Whisper model. By leveraging Meta In-Context Learning (Meta-ICL) and a k-Nearest Neighbors (KNN) algorithm for sample selection, Meta-Whisper enhances Whisper's ability to recognize speech in unfamiliar languages without extensive fine-tuning. Experiments on the ML-SUPERB dataset show that Meta-Whisper significantly reduces the Character Error Rate (CER) for low-resource languages compared to the original Whisper model. This method offers a promising solution for developing more adaptable multilingual ASR systems, particularly for languages with limited resources.
翻訳日:2024-09-17 14:48:31 公開日:2024-09-16
# 多シンプレクティックPDEのための構造保存学習

Structure-preserving learning for multi-symplectic PDEs ( http://arxiv.org/abs/2409.10432v1 )

ライセンス: Link先を確認
Süleyman Yıldız, Pawan Goyal, Peter Benner, (参考訳) 本稿では, 偏微分方程式(PDE)の多重シンプレクティック形式を利用して, 低次モデル(ROM)を推定するエネルギー保存機械学習手法を提案する。 エネルギー保存された還元次法の大部分は、シンプレクティック・ガレルキン射影を用いて、全モデルをシンプレクティック部分空間に射影することで、縮小次ハミルトン模型を構築する。 しかし、シンプレクティック射影は完全離散作用素の存在を必要とし、ブラックボックス PDE ソルバのような多くの場合、これらの作用素は到達不能である。 本研究では、データのみを用いて与えられたPDEのダイナミクスを推論できるエネルギー保存機械学習手法を提案する。 この文脈では,提案手法は邪魔にならない。 提案手法は, 偏微分方程式レベルでのマルチシンプレクティックモデルの基本的な知識を少ししか必要としないという意味で, グレーボックスである。 提案手法は空間的に離散的な局所エネルギー保存を満足し,多シンプレクティックな保存則を保っていることを実証する。 我々は,線形波動方程式,コルテヴェーグ・ド・ヴリーズ方程式,ザハロフ・クズネツォフ方程式を検証した。 学習したモデルの一般化を、トレーニング時間間隔のはるかに外からテストすることでテストする。

This paper presents an energy-preserving machine learning method for inferring reduced-order models (ROMs) by exploiting the multi-symplectic form of partial differential equations (PDEs). The vast majority of energy-preserving reduced-order methods use symplectic Galerkin projection to construct reduced-order Hamiltonian models by projecting the full models onto a symplectic subspace. However, symplectic projection requires the existence of fully discrete operators, and in many cases, such as black-box PDE solvers, these operators are inaccessible. In this work, we propose an energy-preserving machine learning method that can infer the dynamics of the given PDE using data only, so that the proposed framework does not depend on the fully discrete operators. In this context, the proposed method is non-intrusive. The proposed method is grey box in the sense that it requires only some basic knowledge of the multi-symplectic model at the partial differential equation level. We prove that the proposed method satisfies spatially discrete local energy conservation and preserves the multi-symplectic conservation laws. We test our method on the linear wave equation, the Korteweg-de Vries equation, and the Zakharov-Kuznetsov equation. We test the generalization of our learned models by testing them far outside the training time interval.
翻訳日:2024-09-17 14:48:31 公開日:2024-09-16
# CtRNet-X:単一カメラを用いた実環境におけるカメラとロボットの姿勢推定

CtRNet-X: Camera-to-Robot Pose Estimation in Real-world Conditions Using a Single Camera ( http://arxiv.org/abs/2409.10441v1 )

ライセンス: Link先を確認
Jingpei Lu, Zekai Liang, Tristin Xie, Florian Ritcher, Shan Lin, Sainan Liu, Michael C. Yip, (参考訳) カメラとロボットのキャリブレーションは、視覚に基づくロボットの制御に不可欠であり、正確にするための努力が必要である。 マーカーレスポーズ推定手法の最近の進歩により、カメラとロボットのキャリブレーションに要する時間を要する物理的なセットアップは不要になっている。 既存のマーカーレスポーズ推定手法は、面倒なセットアップを必要とせず、印象的な精度を示してきたが、カメラの視野内で全てのロボット関節が見えるという仮定に依存している。 しかし、実際には、ロボットは通常、内外から移動し、実際の制約のために、操作タスク全体においてロボットの一部がフレーム外に留まり、十分な視覚的特徴が欠落し、その後のアプローチが失敗する。 この課題に対処し、視覚に基づくロボット制御への適用性を高めるために、部分的に見えるロボットマニピュレータでロボットのポーズを推定できる新しいフレームワークを提案する。 提案手法では,ロボット部品の細粒度検出にVision-Language Modelsを活用し,キーポイントに基づくポーズ推定ネットワークに統合することにより,様々な操作条件下でのより堅牢なパフォーマンスを実現する。 このフレームワークは、我々の堅牢性と一般化可能性を示すために、公開ロボットデータセットと自己コンパイルされた部分ビューデータセットの両方で評価される。 その結果,本手法は,より広範な実世界の操作シナリオにおいて,ロボットのポーズ推定に有効であることがわかった。

Camera-to-robot calibration is crucial for vision-based robot control and requires effort to make it accurate. Recent advancements in markerless pose estimation methods have eliminated the need for time-consuming physical setups for camera-to-robot calibration. While the existing markerless pose estimation methods have demonstrated impressive accuracy without the need for cumbersome setups, they rely on the assumption that all the robot joints are visible within the camera's field of view. However, in practice, robots usually move in and out of view, and some portion of the robot may stay out-of-frame during the whole manipulation task due to real-world constraints, leading to a lack of sufficient visual features and subsequent failure of these approaches. To address this challenge and enhance the applicability to vision-based robot control, we propose a novel framework capable of estimating the robot pose with partially visible robot manipulators. Our approach leverages the Vision-Language Models for fine-grained robot components detection, and integrates it into a keypoint-based pose estimation network, which enables more robust performance in varied operational conditions. The framework is evaluated on both public robot datasets and self-collected partial-view datasets to demonstrate our robustness and generalizability. As a result, this method is effective for robot pose estimation in a wider range of real-world manipulation scenarios.
翻訳日:2024-09-17 14:48:31 公開日:2024-09-16
# 昆虫害虫分類のためのディープウェイド学習支援システム

Deep-Wide Learning Assistance for Insect Pest Classification ( http://arxiv.org/abs/2409.10445v1 )

ライセンス: Link先を確認
Toan Nguyen, Huy Nguyen, Huy Ung, Hieu Ung, Binh Nguyen, (参考訳) 正確な害虫認識は農業において重要な役割を担っている。 昆虫の複雑な特性のため、難しい問題である。 本稿では,昆虫害虫分類のための新しい学習支援であるDeWiを紹介する。 1段階のトレーニング戦略と交互トレーニング戦略により、DeWiは同時に、(教師付きトレーニング方法でトリプルトマージン損失を最適化することによって)差別と(データ拡張による)一般化の2つの観点で、いくつかの畳み込みニューラルネットワークを改善している。 そこからDeWiは、昆虫害虫(ディープ)の識別的・奥行き的な特徴を学べるが、それでも多くの昆虫カテゴリー(全体)によく浸透する。 実験の結果、DeWiは2つの害虫分類ベンチマーク(IP102データセットでは76.44 %、D0データセットでは99.79 %)で最高性能を達成した。 さらに,DeWiを徹底的に検討し,その優位性を示すため,広範囲な評価とアブレーション研究を行った。 ソースコードはhttps://github.com/toannguyen1904/DeWi.comで公開されています。

Accurate insect pest recognition plays a critical role in agriculture. It is a challenging problem due to the intricate characteristics of insects. In this paper, we present DeWi, novel learning assistance for insect pest classification. With a one-stage and alternating training strategy, DeWi simultaneously improves several Convolutional Neural Networks in two perspectives: discrimination (by optimizing a triplet margin loss in a supervised training manner) and generalization (via data augmentation). From that, DeWi can learn discriminative and in-depth features of insect pests (deep) yet still generalize well to a large number of insect categories (wide). Experimental results show that DeWi achieves the highest performances on two insect pest classification benchmarks (76.44\% accuracy on the IP102 dataset and 99.79\% accuracy on the D0 dataset, respectively). In addition, extensive evaluations and ablation studies are conducted to thoroughly investigate our DeWi and demonstrate its superiority. Our source code is available at https://github.com/toannguyen1904/DeWi.
翻訳日:2024-09-17 14:48:31 公開日:2024-09-16
# 説明可能・分極性を考慮したネットワーク埋め込みのための符号付きグラフオートエンコーダ

Signed Graph Autoencoder for Explainable and Polarization-Aware Network Embeddings ( http://arxiv.org/abs/2409.10452v1 )

ライセンス: Link先を確認
Nikolaos Nakis, Chrysoula Kosma, Giannis Nikolentzos, Michalis Chatzianastasis, Iakovos Evdaimon, Michalis Vazirgiannis, (参考訳) グラフニューラルネットワーク(GNN)に基づくオートエンコーダは、近年、グラフのような複雑なトポロジの構造を特徴付ける情報的潜在表現を抽出する能力において、大きな注目を集めている。 グラフオートエンコーダの普及にもかかわらず、署名されたネットワーク用に特別に設計されたニューラルネットワークベースのグラフ生成モデルの開発と評価に限定的な焦点が当てられている。 このギャップに対処するため、我々はSigned Graph Archetypal Autoencoder (SGAAE) フレームワークを提案する。 SGAAEは、ネットワーク内で異なる極端プロファイル(アーチタイプと呼ばれる)上でノードメンバーシップを表現するノードレベル表現を抽出する。 これは、グラフを学習されたポリトープに投影することで達成される。 このフレームワークは、最近提案されたSkellam分布に基づく署名付きネットワークの解析に、リレーショナルアルテタイパル分析とGNNを組み合わせた可能性を採用している。 実験により,SGAAEは,ネットワーク内の対立する視点の参加によって形成された競合するコミュニティを抽出しながら,異なる潜在構造に対してノードメンバシップを推測する能力を示した。 さらに,2レベルネットワーク分極問題を導入し,SGAAEがそのような設定をいかに特徴付けるかを示す。 提案モデルは,実世界の4つのデータセットにまたがる符号付きリンク予測のタスクにおいて,複数のベースラインモデルよりも高い性能を実現する。

Autoencoders based on Graph Neural Networks (GNNs) have garnered significant attention in recent years for their ability to extract informative latent representations, characterizing the structure of complex topologies, such as graphs. Despite the prevalence of Graph Autoencoders, there has been limited focus on developing and evaluating explainable neural-based graph generative models specifically designed for signed networks. To address this gap, we propose the Signed Graph Archetypal Autoencoder (SGAAE) framework. SGAAE extracts node-level representations that express node memberships over distinct extreme profiles, referred to as archetypes, within the network. This is achieved by projecting the graph onto a learned polytope, which governs its polarization. The framework employs a recently proposed likelihood for analyzing signed networks based on the Skellam distribution, combined with relational archetypal analysis and GNNs. Our experimental evaluation demonstrates the SGAAEs' capability to successfully infer node memberships over the different underlying latent structures while extracting competing communities formed through the participation of the opposing views in the network. Additionally, we introduce the 2-level network polarization problem and show how SGAAE is able to characterize such a setting. The proposed model achieves high performance in different tasks of signed link prediction across four real-world datasets, outperforming several baseline models.
翻訳日:2024-09-17 14:48:31 公開日:2024-09-16
# 低データレジームにおけるコルモゴロフ・アルノルドネットワーク:多層受容器との比較研究

Kolmogorov-Arnold Networks in Low-Data Regimes: A Comparative Study with Multilayer Perceptrons ( http://arxiv.org/abs/2409.10463v1 )

ライセンス: Link先を確認
Farhad Pourkamali-Anaraki, (参考訳) 多層パーセプトロン(MLP)は、複雑な関係をモデル化する能力で知られ、長年、ディープラーニングの基盤として知られていた。 近年、KAN(Kolmogorov-Arnold Networks)は、高度に柔軟な学習可能なアクティベーション関数をネットワークエッジに直接利用し、MLPのニューロン中心のアプローチから逸脱した。 しかし,KAは学習可能なパラメータの数を大幅に増加させ,データ共有環境における有効性への懸念を高めた。 本稿では、アルゴリズムと実験の両方の観点から、MLPとkanの総合的な比較研究を行い、低データ体制に着目した。 本稿では,各ニューロンに対して一意なパラメータ化活性化関数を持つMLPを設計するための効果的な手法を提案する。 シミュレーションデータと医工学から得られた実世界の2つのデータセットの実証的評価を用いて、モデルの複雑さと精度のトレードオフについて検討し、特にネットワーク深度の役割に注目した。 その結果, 個別化活性化機能を有するMLPは, 標本サイズが100程度に制限された場合, パラメータがわずかに増加し, 予測精度が著しく向上することが示唆された。 例えば、添加物製造における3クラス分類問題では、MPPは0.91の中央値の精度を達成し、デフォルトのハイパーパラメータでは0.53の中央値のカンよりも大幅に上回っている。 これらの結果は、ニューラルネットワークにおけるアクティベーション関数の選択の影響に関する貴重な洞察を提供する。

Multilayer Perceptrons (MLPs) have long been a cornerstone in deep learning, known for their capacity to model complex relationships. Recently, Kolmogorov-Arnold Networks (KANs) have emerged as a compelling alternative, utilizing highly flexible learnable activation functions directly on network edges, a departure from the neuron-centric approach of MLPs. However, KANs significantly increase the number of learnable parameters, raising concerns about their effectiveness in data-scarce environments. This paper presents a comprehensive comparative study of MLPs and KANs from both algorithmic and experimental perspectives, with a focus on low-data regimes. We introduce an effective technique for designing MLPs with unique, parameterized activation functions for each neuron, enabling a more balanced comparison with KANs. Using empirical evaluations on simulated data and two real-world data sets from medicine and engineering, we explore the trade-offs between model complexity and accuracy, with particular attention to the role of network depth. Our findings show that MLPs with individualized activation functions achieve significantly higher predictive accuracy with only a modest increase in parameters, especially when the sample size is limited to around one hundred. For example, in a three-class classification problem within additive manufacturing, MLPs achieve a median accuracy of 0.91, significantly outperforming KANs, which only reach a median accuracy of 0.53 with default hyperparameters. These results offer valuable insights into the impact of activation function selection in neural networks.
翻訳日:2024-09-17 14:48:31 公開日:2024-09-16
# Bregman Divergencesを用いたオンライン非凸二値最適化

Online Nonconvex Bilevel Optimization with Bregman Divergences ( http://arxiv.org/abs/2409.10470v1 )

ライセンス: Link先を確認
Jason Bohne, David Rosenberg, Gary Kazantsev, Pawel Polak, (参考訳) バイレベル最適化手法は、特にハイパーパラメータ最適化やメタラーニングといったタスクにおいて、機械学習においてますます重要になっている。 オフライン設定と比較して、オンラインバイレベル最適化(OBO)は、時間変化関数とシーケンシャルに到着するデータを調整することによって、よりダイナミックなフレームワークを提供する。 本研究では,オンラインの非凸凸凸二レベル最適化問題に対処する。 本稿では,適応型ブレグマン分岐を利用したオンラインBregman bilevel Optimizationr(OBBO)を提案する。 OBBOは二段階の局所的後悔に対する既知のサブリニアレートを,問題の基本となる幾何学に適応する新しい過次的誤り分解によって向上することを示した。 確率的文脈において,直近の過勾配の確率近似の重み付き平均値を用いて外層変数を更新するウィンドウ平均化手法を用いて,最初の確率的オンライン二段階最適化器(SOBBO)を導入する。 このアプローチは二段階的局所的後悔のサブリニアレートを達成するだけでなく、効果的な分散低減戦略としても機能し、各時間ステップで追加の確率勾配サンプルの必要性を回避している。 オンラインハイパーパラメータ最適化とオンラインメタラーニングの実験は、既存のオンラインとオフラインのバイレベルベンチマークと比較して、Bregmanベースのアルゴリズムのパフォーマンス、効率、適応性に優れています。

Bilevel optimization methods are increasingly relevant within machine learning, especially for tasks such as hyperparameter optimization and meta-learning. Compared to the offline setting, online bilevel optimization (OBO) offers a more dynamic framework by accommodating time-varying functions and sequentially arriving data. This study addresses the online nonconvex-strongly convex bilevel optimization problem. In deterministic settings, we introduce a novel online Bregman bilevel optimizer (OBBO) that utilizes adaptive Bregman divergences. We demonstrate that OBBO enhances the known sublinear rates for bilevel local regret through a novel hypergradient error decomposition that adapts to the underlying geometry of the problem. In stochastic contexts, we introduce the first stochastic online bilevel optimizer (SOBBO), which employs a window averaging method for updating outer-level variables using a weighted average of recent stochastic approximations of hypergradients. This approach not only achieves sublinear rates of bilevel local regret but also serves as an effective variance reduction strategy, obviating the need for additional stochastic gradient samples at each timestep. Experiments on online hyperparameter optimization and online meta-learning highlight the superior performance, efficiency, and adaptability of our Bregman-based algorithms compared to established online and offline bilevel benchmarks.
翻訳日:2024-09-17 14:48:31 公開日:2024-09-16
# Hugging Face上でのオープントレーニング済み言語モデルのセマンティックバージョニングに向けて

Towards Semantic Versioning of Open Pre-trained Language Model Releases on Hugging Face ( http://arxiv.org/abs/2409.10472v1 )

ライセンス: Link先を確認
Adekunle Ajibode, Abdul Ali Bangash, Filipe Roseiro Cogo, Bram Adams, Ahmed E. Hassan, (参考訳) Hugging Face (HF)のようなモデルレジストリプラットフォーム上でのオープンな事前学習言語モデル(PTLM)の普及は、その周辺で製品を開発する企業にとっての機会と課題の両方を提示している。 従来のソフトウェア依存関係と同様に、PTLMはリリース後も進化を続けている。 しかし、モデルレジストリプラットフォームにおけるPTLMのリリースプラクティスの現状は、曖昧な命名規則やアクセシブルなモデルトレーニングドキュメントなど、さまざまな不整合に悩まされている。 現在のPTLMリリースの知識ギャップを考えると、実験的な研究は、52,227個のPTLMのリリースを、最もよく知られたモデルレジストリであるHFで分析するために、混合メソッドのアプローチを用いています。 その結果,PTLMリリースの命名法は148種類あり,モデルウェイトファイルの変更の40.87%が採用されている名前ベースのバージョニングやドキュメントに含まれていないことが明らかとなった。 さらに,52,227のPTLMは299の異なるベースモデル(52,227のPTLMを作成するために使用される修正元のモデル)から派生したものであることが確認された。 トレーニングデータセットの仕様とモデルカードの可用性に関して、リリースの透明性における重要なギャップは依然として存在し、標準化されたドキュメントの必要性を強調している。 我々は,PTLMのメジャーバージョンとマイナーバージョンを明示的に区別するモデル命名法を特定したが,いずれのリリースでも変更の種類に大きな違いは見つからず,PTLMのメジャー/マイナーバージョン番号が任意に選択されることが示唆された。 我々の研究はPTLMリリースの実践を改善する上で貴重な洞察を与え、より形式的なセマンティックバージョニングの実践に力を入れている。

The proliferation of open Pre-trained Language Models (PTLMs) on model registry platforms like Hugging Face (HF) presents both opportunities and challenges for companies building products around them. Similar to traditional software dependencies, PTLMs continue to evolve after a release. However, the current state of release practices of PTLMs on model registry platforms are plagued by a variety of inconsistencies, such as ambiguous naming conventions and inaccessible model training documentation. Given the knowledge gap on current PTLM release practices, our empirical study uses a mixed-methods approach to analyze the releases of 52,227 PTLMs on the most well-known model registry, HF. Our results reveal 148 different naming practices for PTLM releases, with 40.87% of changes to model weight files not represented in the adopted name-based versioning practice or their documentation. In addition, we identified that the 52,227 PTLMs are derived from only 299 different base models (the modified original models used to create 52,227 PTLMs), with Fine-tuning and Quantization being the most prevalent modification methods applied to these base models. Significant gaps in release transparency, in terms of training dataset specifications and model card availability, still exist, highlighting the need for standardized documentation. While we identified a model naming practice explicitly differentiating between major and minor PTLM releases, we did not find any significant difference in the types of changes that went into either type of releases, suggesting that major/minor version numbers for PTLMs often are chosen arbitrarily. Our findings provide valuable insights to improve PTLM release practices, nudging the field towards more formal semantic versioning practices.
翻訳日:2024-09-17 14:48:31 公開日:2024-09-16
# MacDiff: Masked Conditional Diffusion を用いた統一骨格モデリング

MacDiff: Unified Skeleton Modeling with Masked Conditional Diffusion ( http://arxiv.org/abs/2409.10473v1 )

ライセンス: Link先を確認
Lehong Wu, Lilang Lin, Jiahang Zhang, Yiyang Ma, Jiaying Liu, (参考訳) 自己教師型学習は骨格に基づく人間の行動理解に有効であることが証明された。 しかし、従来の研究は、誤ったネガティブな問題に悩まされる対照的な学習に依存するか、過度に無意味な低レベルな手がかりを学習する再構成に基づいており、下流のタスクの表現が限られている。 近年、生成学習において大きな進歩がおこなわれており、これは一般的な基礎となるデータ分布をモデル化する上で、困難だが有意義な前提課題である。 しかしながら、生成モデルの表現学習能力は、特に、空間的間隔と時間的冗長性を持つ骨格について、未探索である。 そこで本研究では,ヒト骨格モデリングのための統合フレームワークとして,Masked Conditional Diffusion (MacDiff)を提案する。 まず,拡散モデルを用いて効率的な骨格表現学習を行う。 具体的には,意味エンコーダによって抽出された表現に基づいて,拡散デコーダを訓練する。 ランダムマスキングはエンコーダ入力に適用され、情報のボトルネックを導入し、骨格の冗長性を除去する。 さらに、我々の生成目的が、マスキングとノイズの多い視点を整列する対照的な学習目的を含むことを理論的に実証する。 一方、ノイズの多いビューを補完する表現も強制され、一般化性能が向上する。 MacDiffは、生成タスクの能力を維持しながら、表現学習ベンチマークで最先端のパフォーマンスを達成する。 さらに,データ拡張のための拡散モデルを活用し,ラベル付きデータが少ないシナリオにおける微調整性能を大幅に向上させる。 私たちのプロジェクトはhttps://lehongwu.github.io/ECCV24MacDiff/で利用可能です。

Self-supervised learning has proved effective for skeleton-based human action understanding. However, previous works either rely on contrastive learning that suffers false negative problems or are based on reconstruction that learns too much unessential low-level clues, leading to limited representations for downstream tasks. Recently, great advances have been made in generative learning, which is naturally a challenging yet meaningful pretext task to model the general underlying data distributions. However, the representation learning capacity of generative models is under-explored, especially for the skeletons with spacial sparsity and temporal redundancy. To this end, we propose Masked Conditional Diffusion (MacDiff) as a unified framework for human skeleton modeling. For the first time, we leverage diffusion models as effective skeleton representation learners. Specifically, we train a diffusion decoder conditioned on the representations extracted by a semantic encoder. Random masking is applied to encoder inputs to introduce a information bottleneck and remove redundancy of skeletons. Furthermore, we theoretically demonstrate that our generative objective involves the contrastive learning objective which aligns the masked and noisy views. Meanwhile, it also enforces the representation to complement for the noisy view, leading to better generalization performance. MacDiff achieves state-of-the-art performance on representation learning benchmarks while maintaining the competence for generative tasks. Moreover, we leverage the diffusion model for data augmentation, significantly enhancing the fine-tuning performance in scenarios with scarce labeled data. Our project is available at https://lehongwu.github.io/ECCV24MacDiff/.
翻訳日:2024-09-17 14:48:31 公開日:2024-09-16
# SimInversion: インバージョンベースのテキスト-画像編集のためのシンプルなフレームワーク

SimInversion: A Simple Framework for Inversion-Based Text-to-Image Editing ( http://arxiv.org/abs/2409.10476v1 )

ライセンス: Link先を確認
Qi Qian, Haiyang Xu, Ming Yan, Juhua Hu, (参考訳) 拡散モデルはテキスト誘導による印象的な画像生成性能を示す。 拡散の学習プロセスにインスパイアされた既存の画像は、DDIMインバージョンによってテキストに従って編集できる。 しかし、バニラDDIMのインバージョンは分類子なしのガイダンスに最適化されておらず、累積誤差は望ましくない性能をもたらす。 本研究では,DDIMの編集のためのフレームワークを改善するために多くのアルゴリズムが開発されているが,DDIMのインバージョンにおける近似誤差について検討し,元のフレームワークを維持しながら,ソースとターゲットブランチのガイダンススケールをアンタングルしてエラーを低減することを提案する。 さらに、デフォルト設定よりも優れたガイダンススケール(すなわち0.5)を理論的に導出することができる。 PIE-Benchの実験により, DDIMインバージョンの性能は, 効率を犠牲にすることなく劇的に向上できることを示した。

Diffusion models demonstrate impressive image generation performance with text guidance. Inspired by the learning process of diffusion, existing images can be edited according to text by DDIM inversion. However, the vanilla DDIM inversion is not optimized for classifier-free guidance and the accumulated error will result in the undesired performance. While many algorithms are developed to improve the framework of DDIM inversion for editing, in this work, we investigate the approximation error in DDIM inversion and propose to disentangle the guidance scale for the source and target branches to reduce the error while keeping the original framework. Moreover, a better guidance scale (i.e., 0.5) than default settings can be derived theoretically. Experiments on PIE-Bench show that our proposal can improve the performance of DDIM inversion dramatically without sacrificing efficiency.
翻訳日:2024-09-17 14:48:31 公開日:2024-09-16
# 顔認証のための3次元顔再構成と融合法:ビデオサーベイランスにおけるケーススタディ

Exploring 3D Face Reconstruction and Fusion Methods for Face Verification: A Case-Study in Video Surveillance ( http://arxiv.org/abs/2409.10481v1 )

ライセンス: Link先を確認
Simone Maurizio La Cava, Sara Concas, Ruben Tolosana, Roberto Casula, Giulia Orrù, Martin Drahansky, Julian Fierrez, Gian Luca Marcialis, (参考訳) 3次元顔再構成(3DFR)アルゴリズムは、異なるアプリケーションシナリオに適した特定の仮定に基づいている。 これらの仮定は、被写体がカメラからの距離やカメラの特徴などの取得条件が、通常ビデオ監視で起こるように、期待と異なる場合に使用を制限する。 さらに、3DFRアルゴリズムは、統計モデルフィッティング、測光ステレオ、深層学習などの2次元データから3次元形状を復元するための様々な戦略に従う。 本研究では,顔認証システムのためのテンプレートセット生成器として,SOTAを代表とする3つの3次元FRアルゴリズムの適用について検討する。 各システムが提供するスコアは、スコアレベルの融合によって結合される。 異なる3DFRアルゴリズムによって誘導される相補性は、カメラ特性とカメラ特性(クロス距離およびクロスカメラ設定)から不可視距離でテストを行う場合に性能が向上することを示し、複数の3DFRベースのアプローチについてさらなる調査を奨励する。

3D face reconstruction (3DFR) algorithms are based on specific assumptions tailored to distinct application scenarios. These assumptions limit their use when acquisition conditions, such as the subject's distance from the camera or the camera's characteristics, are different than expected, as typically happens in video surveillance. Additionally, 3DFR algorithms follow various strategies to address the reconstruction of a 3D shape from 2D data, such as statistical model fitting, photometric stereo, or deep learning. In the present study, we explore the application of three 3DFR algorithms representative of the SOTA, employing each one as the template set generator for a face verification system. The scores provided by each system are combined by score-level fusion. We show that the complementarity induced by different 3DFR algorithms improves performance when tests are conducted at never-seen-before distances from the camera and camera characteristics (cross-distance and cross-camera settings), thus encouraging further investigations on multiple 3DFR-based approaches.
翻訳日:2024-09-17 14:48:31 公開日:2024-09-16
# Schrodingerの記憶: 大規模言語モデル

Schrodinger's Memory: Large Language Models ( http://arxiv.org/abs/2409.10482v1 )

ライセンス: Link先を確認
Wei Wang, Qing Li, (参考訳) メモリはLLMの機能の基礎であるが、過去の研究ではそのメモリ能力と基礎となる理論の詳細な調査が欠如している。 本稿では, LLMのメモリ機構を説明するためにUAT理論を適用し, 異なるモデルのメモリ容量を比較することで, LLMの性能を評価する新しい手法を提案する。 広範囲な実験を通じて, LLMの記憶能力と理論を検証した。 最後に、人間の脳とLDMの能力を比較し、その類似点と作業機構の相違点を強調した。

Memory is the foundation of LLMs' functionality, yet past research has lacked an in-depth exploration of their memory capabilities and underlying theory. In this paper, we apply UAT theory to explain the memory mechanism of LLMs and propose a new approach for evaluating LLM performance by comparing the memory capacities of different models. Through extensive experiments, we validate our theory and the memory abilities of LLMs. Finally, we compare the capabilities of the human brain and LLMs, highlighting both their similarities and differences in terms of working mechanisms.
翻訳日:2024-09-17 14:48:31 公開日:2024-09-16
# 量子コンピューティングのための明示的なテンソル表記法

An explicit tensor notation for quantum computing ( http://arxiv.org/abs/2409.10487v1 )

ライセンス: Link先を確認
Valentina Amitrano, Francesco Pederiva, (参考訳) 本稿では、テンソル理論と多線型写像の数学的基礎との接続を確立することにより、量子計算の複雑さを記述することを目的としたフォーマリズムを紹介する。 焦点は、複数の量子ビットとそれらを操作する量子ゲートに対して、量子状態の包括的な表現を提供することである。 提案された形式主義は、より直感的なクビット状態の表現に寄与し、絡み合い特性の明確な可視化に寄与する。 この形式主義の主な利点は、量子状態が属するヒルベルト空間の基本構造を保ち、また、量子ゲートの効果の古典的な予測と関連する計算コストを低減することである。 また、絡み目を生成する能力と量子ゲート表現との接続も確立する。

This paper introduces a formalism that aims to describe the intricacies of quantum computation by establishing a connection with the mathematical foundations of tensor theory and multilinear maps. The focus is on providing a comprehensive representation of quantum states for multiple qubits and the quantum gates that manipulate them. The proposed formalism could contribute to a more intuitive representation of qubit states, and to a clear visualisation of the entanglement property. The main advantages of this formalism are that it preserves the fundamental structure of the Hilbert space to which quantum states belong, and also reduces the computational cost associated with classical prediction of the effect of quantum gates on multi-qubit states. A connection between the ability to generate entanglement and the quantum gate representation is also established.
翻訳日:2024-09-17 14:48:31 公開日:2024-09-16
# 事前学習型視覚言語モデルでは対象状態は符号化されるか?

Do Pre-trained Vision-Language Models Encode Object States? ( http://arxiv.org/abs/2409.10488v1 )

ライセンス: Link先を確認
Kaleb Newman, Shijie Wang, Yuan Zang, David Heffren, Chen Sun, (参考訳) 原因や効果などの物理世界を理解する視覚言語モデル(VLM)にとって、最初のステップは、例えば物体の物理的状態が時間とともにどのように進化するか(リンゴ全体をスライスしたリンゴに分割するなど)を視覚世界の時間的ダイナミクスを捉えることである。 本研究の目的は,Web スケールで事前学習した VLM がオブジェクト状態のエンコードを学習し,ゼロショットテキストプロンプトで抽出できるかどうかを検討することである。 オブジェクト状態認識データセットChangeIt-Framesをキュレートし、コントラストおよび生成目的で訓練されたモデルを含む9つのオープンソースVLMを評価する。 これらの最先端のビジョン言語モデルは、オブジェクト認識を確実に行うことができるが、オブジェクトの物理的状態を正確に識別することができない。 広範にわたる実験を通じて,オブジェクトのローカライゼーションの質,概念をオブジェクトにバインドするアーキテクチャ,オブジェクト状態上の識別的視覚的および言語的エンコーダの学習という,オブジェクト状態の符号化を改善するためのVLMの改善のための3つの領域を同定した。 データとコードはリリースされます。

For a vision-language model (VLM) to understand the physical world, such as cause and effect, a first step is to capture the temporal dynamics of the visual world, for example how the physical states of objects evolve over time (e.g. a whole apple into a sliced apple). Our paper aims to investigate if VLMs pre-trained on web-scale data learn to encode object states, which can be extracted with zero-shot text prompts. We curate an object state recognition dataset ChangeIt-Frames, and evaluate nine open-source VLMs, including models trained with contrastive and generative objectives. We observe that while these state-of-the-art vision-language models can reliably perform object recognition, they consistently fail to accurately distinguish the objects' physical states. Through extensive experiments, we identify three areas for improvements for VLMs to better encode object states, namely the quality of object localization, the architecture to bind concepts to objects, and the objective to learn discriminative visual and language encoders on object states. Data and code are released.
翻訳日:2024-09-17 14:38:40 公開日:2024-09-16
# Flash STU:高速スペクトル変換ユニット

Flash STU: Fast Spectral Transform Units ( http://arxiv.org/abs/2409.10489v1 )

ライセンス: Link先を確認
Y. Isabel Liu, Windsor Nguyen, Yagiz Devre, Evan Dogariu, Anirudha Majumdar, Elad Hazan, (参考訳) 本稿では、スペクトル変換ユニットの効率的でオープンソースのPyTorch実装について述べる。 本研究では,言語,ロボット工学,シミュレートされた力学系を含むいくつかのモードにおけるシーケンス予測タスクについて検討する。 同じパラメータ数に対して、STUとその変種は、トランスフォーマーや様々なモードにわたる他の主要な状態空間モデルよりも優れていることが分かる。

This paper describes an efficient, open source PyTorch implementation of the Spectral Transform Unit. We investigate sequence prediction tasks over several modalities including language, robotics, and simulated dynamical systems. We find that for the same parameter count, the STU and its variants outperform the Transformer as well as other leading state space models across various modalities.
翻訳日:2024-09-17 14:38:40 公開日:2024-09-16
# コード脆弱性検出: 大規模言語モデルの比較分析

Code Vulnerability Detection: A Comparative Analysis of Emerging Large Language Models ( http://arxiv.org/abs/2409.10490v1 )

ライセンス: Link先を確認
Shaznin Sultana, Sadia Afreen, Nasir U. Eisty, (参考訳) オープンソースプロジェクトへの大きな依存の結果、ソフトウェア開発における脆弱性問題の増加傾向は、最近かなりの注目を集めている。 本稿では,LLM技術の最新の進歩に焦点をあて,コードベース内の脆弱性を特定する上で,LLM(Large Language Models)の有効性について検討する。 比較分析により,Llama,CodeLlama,Gemma,CodeGemma,BERT,RoBERTa,GPT-3といった最先端モデルとともに,新興LLMの性能を評価する。 我々の研究は、脆弱性検出におけるLLMの能力に光を当てることを目的としており、様々なオープンソースリポジトリにおけるソフトウェアセキュリティプラクティスの強化に寄与している。 CodeGemmaは、ソフトウェアセキュリティの脆弱性を検出するための、最近の大規模言語モデルの追加の中で、58\のF1スコアと87\のリコールを達成した。

The growing trend of vulnerability issues in software development as a result of a large dependence on open-source projects has received considerable attention recently. This paper investigates the effectiveness of Large Language Models (LLMs) in identifying vulnerabilities within codebases, with a focus on the latest advancements in LLM technology. Through a comparative analysis, we assess the performance of emerging LLMs, specifically Llama, CodeLlama, Gemma, and CodeGemma, alongside established state-of-the-art models such as BERT, RoBERTa, and GPT-3. Our study aims to shed light on the capabilities of LLMs in vulnerability detection, contributing to the enhancement of software security practices across diverse open-source repositories. We observe that CodeGemma achieves the highest F1-score of 58\ and a Recall of 87\, amongst the recent additions of large language models to detect software security vulnerabilities.
翻訳日:2024-09-17 14:38:40 公開日:2024-09-16
# 拡散モデルに基づくレコメンデーションにおける分類器フリーガイダンスの導入

Incorporating Classifier-Free Guidance in Diffusion Model-Based Recommendation ( http://arxiv.org/abs/2409.10494v1 )

ライセンス: Link先を確認
Noah Buchanan, Susan Gauch, Quan Mai, (参考訳) 本稿では,分類器フリーガイダンスを取り入れた拡散型レコメンデータシステムを提案する。 現在のリコメンデータシステムのほとんどは、コラボレーションやコンテンツベースのフィルタリングといった従来の手法を使ってレコメンデーションを提供している。 Diffusionは、可変オートエンコーダ(VAE)やGAN(Generative Adversarial Networks)といった、従来のジェネレーティブAIアプローチを改善する、ジェネレーティブAIの新しいアプローチである。 我々は,閲覧や評価項目のシーケンスを反映したレコメンデーションシステムに拡散を取り入れた。 現在のいくつかの推奨システムは拡散を取り入れているが、拡散モデル全体の新しい革新である分類器のないガイダンスは組み込まれていない。 本稿では,性能向上のために,基礎となるレコメンデータシステムモデルを拡張した拡散レコメンデータシステムを提案する。 本研究は,各種データセットの推薦タスクにおいて,ほとんどのメトリクスに対して,最先端のレコメンデータシステムよりも改善されたことを示す。 特に、当社のアプローチは、データが不足している場合により良いレコメンデーションを提供する可能性を実証しています。

This paper presents a diffusion-based recommender system that incorporates classifier-free guidance. Most current recommender systems provide recommendations using conventional methods such as collaborative or content-based filtering. Diffusion is a new approach to generative AI that improves on previous generative AI approaches such as Variational Autoencoders (VAEs) and Generative Adversarial Networks (GANs). We incorporate diffusion in a recommender system that mirrors the sequence users take when browsing and rating items. Although a few current recommender systems incorporate diffusion, they do not incorporate classifier-free guidance, a new innovation in diffusion models as a whole. In this paper, we present a diffusion recommender system that augments the underlying recommender system model for improved performance and also incorporates classifier-free guidance. Our findings show improvements over state-of-the-art recommender systems for most metrics for several recommendation tasks on a variety of datasets. In particular, our approach demonstrates the potential to provide better recommendations when data is sparse.
翻訳日:2024-09-17 14:38:40 公開日:2024-09-16
# 連続体における相互作用するフェルミオンの熱力学的極限について

On the thermodynamic limit of interacting fermions in the continuum ( http://arxiv.org/abs/2409.10495v1 )

ライセンス: Link先を確認
Oliver Siebert, (参考訳) 対ポテンシャルを介して相互作用する$\mathbb R^d$における非相対論的フェルミオンのダイナミクスを研究する。 Buchholz によって開発された可解代数の枠組みを用いて、力学が *-自己同型群として作用する CAR 代数の拡張を同定する。 さらに、時間進化も強く連続する適切な密度のサブ代数を同定する。 最後に、このフレームワークが将来どのようにしてKMS状態を構築することができるかを簡単に議論する。

We study the dynamics of non-relativistic fermions in $\mathbb R^d$ interacting through a pair potential. Employing methods developed by Buchholz in the framework of resolvent algebras, we identify an extension of the CAR algebra where the dynamics acts as a group of *-automorphisms, which are continuous in time in all sectors for fixed particle numbers. In addition, we identify a suitable dense subalgebra where the time evolution is also strongly continuous. Finally, we briefly discuss how this framework could be used to construct KMS states in the future.
翻訳日:2024-09-17 14:38:40 公開日:2024-09-16
# MusicLIME: 説明可能なマルチモーダル音楽理解

MusicLIME: Explainable Multimodal Music Understanding ( http://arxiv.org/abs/2409.10496v1 )

ライセンス: Link先を確認
Theodoros Sotirou, Vassilis Lyberatos, Orfeas Menis Mastromichalakis, Giorgos Stamou, (参考訳) マルチモーダルモデルは、音声と歌詞の間の複雑な相互作用を捉えているため、音楽理解タスクには不可欠である。 しかしながら、これらのモデルがより普及するにつれて、これらのシステムが公正性を確保し、バイアスを減らし、信頼を育むために、どのように意思決定するかを考慮し、説明可能性の必要性が高まっます。 本稿では,マルチモーダル音楽モデル用に設計されたモデルに依存しない特徴重要度説明手法であるMusicLIMEを紹介する。 相互の相互作用を考慮せずにそれぞれのモダリティを別々に分析し、しばしば不完全あるいは誤解を招くような説明を導く伝統的なユニモーダル法とは異なり、MusicLIMEは、オーディオとリリック機能がどのように相互作用し、予測に寄与するかを明らかにし、モデルの決定の全体像を提供する。 さらに、局所的な説明をグローバルな説明に集約することで強化し、モデル行動のより広い視点を提供する。 本研究は,マルチモーダル音楽モデルの解釈可能性の向上,ユーザによる情報提供の促進,より公平で公平で透明な音楽理解システムの育成に寄与する。

Multimodal models are critical for music understanding tasks, as they capture the complex interplay between audio and lyrics. However, as these models become more prevalent, the need for explainability grows-understanding how these systems make decisions is vital for ensuring fairness, reducing bias, and fostering trust. In this paper, we introduce MusicLIME, a model-agnostic feature importance explanation method designed for multimodal music models. Unlike traditional unimodal methods, which analyze each modality separately without considering the interaction between them, often leading to incomplete or misleading explanations, MusicLIME reveals how audio and lyrical features interact and contribute to predictions, providing a holistic view of the model's decision-making. Additionally, we enhance local explanations by aggregating them into global explanations, giving users a broader perspective of model behavior. Through this work, we contribute to improving the interpretability of multimodal music models, empowering users to make informed choices, and fostering more equitable, fair, and transparent music understanding systems.
翻訳日:2024-09-17 14:38:40 公開日:2024-09-16
# 磁気勾配誘導結合によるトラップイオン量子コンピューティングにおける高次項の役割

The role of higher-order terms in trapped-ion quantum computing with magnetic gradient induced coupling ( http://arxiv.org/abs/2409.10498v1 )

ライセンス: Link先を確認
Sebastian Nagies, Kevin T. Geier, Javed Akram, Junichi Okamoto, Dimitris Badounas, Christof Wunderlich, Michael Johanning, Philipp Hauke, (参考訳) Magnetic Gradient induced Coupling (MAGIC) スキームに基づくトラップドイオンハードウェアが量子コンピューティングの有望なプラットフォームとして登場している。 それにもかかわらず、この(他の)量子コンピューティングプラットフォームでは、大規模かつエラー耐性のアプリケーションが可能になる前に、多くの技術的な問題が解決されなければならない。 本稿では, イオン結晶の外部電位(例えば, クーロン反発による)の非調和性や印加磁場の曲率によるMRICセットアップへの高次項の寄与について, 徹底的に議論する。 これらの用語は3スピンカップリングの形式と、カップルがフォノンにスピンする多種多様な用語である。 これらのほとんどは現実的な状況では無視できるもので、注意を要する貢献は2つだけです。 第一に、鎖長とともに強度が増加する寄生長手場があるが、マイクロ波デチューニングにより容易に補償できる。 第二に、クーロン相互作用の非調和性は、フォノン励起のよく知られた2対1変換をもたらす可能性がある。 我々の詳細な分析は、磁気勾配の捕捉イオン量子技術を大規模アプリケーションに適合させる方法に重要な貢献をし、相互作用項を意図的に設計する新しい方法をもたらすかもしれない。

Trapped-ion hardware based on the Magnetic Gradient Induced Coupling (MAGIC) scheme is emerging as a promising platform for quantum computing. Nevertheless, in this (as in any other) quantum-computing platform, many technical questions still have to be resolved before large-scale and error-tolerant applications are possible. In this work, we present a thorough discussion of the contribution of higher-order terms to the MAGIC setup, which can occur due to anharmonicities in the external potential of the ion crystal (e.g., through Coulomb repulsion) or through curvature of the applied magnetic field. These terms take the form of three-spin couplings as well as diverse terms that couple spins to phonons. We find that most of these are negligible in realistic situations, with only two contributions that need careful attention. First, there are parasitic longitudinal fields whose strength increases with chain length, but which can easily be compensated by a microwave detuning. Second, anharmonicities of the Coulomb interaction can lead to well-known two-to-one conversions of phonon excitations, which can be avoided if the phonons are ground-state cooled. Our detailed analysis constitutes an important contribution on the way of making magnetic-gradient trapped-ion quantum technology fit for large-scale applications, and it may inspire new ways to purposefully design interaction terms.
翻訳日:2024-09-17 14:38:40 公開日:2024-09-16
# 部分ワッサーシュタイン逆数ネットワークによる部分分布マッチング

Partial Distribution Matching via Partial Wasserstein Adversarial Networks ( http://arxiv.org/abs/2409.10499v1 )

ライセンス: Link先を確認
Zi-Ming Wang, Nan Xue, Ling Lei, Rebecka Jörnsten, Gui-Song Xia, (参考訳) 本稿では,2つの確率分布の整合性を求める基本的機械学習問題である分布マッチング(DM)問題について検討する。 提案手法は, 部分分布マッチング (PDM) と呼ばれる緩和された定式化に基づいており, 完全に一致するのではなく, 少数の分布に一致することを目指している。 理論的には、部分的なワッサーステン1(PW)差分に対するカントロビッチ・ルビンシュタイン双対性を導出し、この双対形式に基づいてPW差分を効率的に近似する部分的なワッサーステン対向ネットワーク(PWAN)を開発する。 その後、勾配勾配勾配を用いてネットワークを最適化することで部分マッチングを実現することができる。 点集合登録と部分領域適応という2つの実践的課題について検討し, 3次元空間と高次元特徴空間の分布を部分的に一致させることを目標とした。 実験の結果,提案したPWANは,最先端の手法と同等あるいは同等の精度で,極めて堅牢なマッチング結果が得られることを確認した。

This paper studies the problem of distribution matching (DM), which is a fundamental machine learning problem seeking to robustly align two probability distributions. Our approach is established on a relaxed formulation, called partial distribution matching (PDM), which seeks to match a fraction of the distributions instead of matching them completely. We theoretically derive the Kantorovich-Rubinstein duality for the partial Wasserstain-1 (PW) discrepancy, and develop a partial Wasserstein adversarial network (PWAN) that efficiently approximates the PW discrepancy based on this dual form. Partial matching can then be achieved by optimizing the network using gradient descent. Two practical tasks, point set registration and partial domain adaptation are investigated, where the goals are to partially match distributions in 3D space and high-dimensional feature space respectively. The experiment results confirm that the proposed PWAN effectively produces highly robust matching results, performing better or on par with the state-of-the-art methods.
翻訳日:2024-09-17 14:38:40 公開日:2024-09-16
# 因果的言語モデリングは論理パズルにおける探索と推論の能力を排除できる

Causal Language Modeling Can Elicit Search and Reasoning Capabilities on Logic Puzzles ( http://arxiv.org/abs/2409.10502v1 )

ライセンス: Link先を確認
Kulin Shah, Nishanth Dikkala, Xin Wang, Rina Panigrahy, (参考訳) Transformerアーキテクチャを使った因果言語モデリングは、ここ数年でLLM(Large Language Models)において顕著な機能を実現している。 しかし、LLMにおける基本的な探索と推論能力の出現の程度は、現在進行中の議論のトピックである。 本研究では,因果的言語モデリングが,数独パズルの解法などの複雑な課題を学習できるかどうかを考察する。 スドクを解くためには、まずパズルの空の全てのセルを探索し、そのセルを埋めるかどうかを判断し、決定されたセルを埋める適切な戦略を適用する必要がある。 戦略の適用は、セルの正確な値を結論付けるのではなく、セル内の可能な値を縮小させるだけである。 このような場合、複数の戦略が次々と適用され、単一のセルを埋める。 この合成タスクでトレーニングされたトランスフォーマーモデルでは,解答器が行うステップの論理列に基づいて学習すると,実際にスドクスを解くことができる(解答器の解答率は94.21.%)。 ステップの論理的な順序でトランスフォーマーを訓練することは必要であり、そのような訓練がなければ、スドクを学ばない。 また、分析結果をZebraパズル(アインシュタインパズルとして知られる)に拡張し、モデルが92.04 \%のパズルを完全に正しく解いていることを示す。 さらに, トレーニングされたトランスフォーマーの内部表現を調査し, 線形探索により, 任意のセルの可能な値の集合に関する情報をデコードし, トランスフォーマーの重みに暗黙的な強い推論エンジンが存在することを示す。

Causal language modeling using the Transformer architecture has yielded remarkable capabilities in Large Language Models (LLMs) over the last few years. However, the extent to which fundamental search and reasoning capabilities emerged within LLMs remains a topic of ongoing debate. In this work, we study if causal language modeling can learn a complex task such as solving Sudoku puzzles. To solve a Sudoku, the model is first required to search over all empty cells of the puzzle to decide on a cell to fill and then apply an appropriate strategy to fill the decided cell. Sometimes, the application of a strategy only results in thinning down the possible values in a cell rather than concluding the exact value of the cell. In such cases, multiple strategies are applied one after the other to fill a single cell. We observe that Transformer models trained on this synthetic task can indeed learn to solve Sudokus (our model solves $94.21\%$ of the puzzles fully correctly) when trained on a logical sequence of steps taken by a solver. We find that training Transformers with the logical sequence of steps is necessary and without such training, they fail to learn Sudoku. We also extend our analysis to Zebra puzzles (known as Einstein puzzles) and show that the model solves $92.04 \%$ of the puzzles fully correctly. In addition, we study the internal representations of the trained Transformer and find that through linear probing, we can decode information about the set of possible values in any given cell from them, pointing to the presence of a strong reasoning engine implicit in the Transformer weights.
翻訳日:2024-09-17 14:38:40 公開日:2024-09-16
# DILA-Dictionary Label Attention for Mechanistic Interpretability in High-dimensional Multi-label Medical Coding Prediction (特集:一般セッション)

DILA: Dictionary Label Attention for Mechanistic Interpretability in High-dimensional Multi-label Medical Coding Prediction ( http://arxiv.org/abs/2409.10504v1 )

ライセンス: Link先を確認
John Wu, David Wu, Jimeng Sun, (参考訳) 医用符号化などの高次元・極端なマルチラベルの予測には、精度と解釈性の両方が必要である。 既存の研究は、しばしば局所的解釈可能性法に依存しており、多ラベル集合内の各ラベル予測の背後にある全体的なメカニズムを包括的に説明できない。 本稿では,非ゼロ要素(辞書機能)がグローバルに学習された医療概念を表す,非解釈不能な密埋め込みをスパース埋め込み空間に分散させる,Dictionary Label Attention (\method) と呼ばれる機械的解釈可能性モジュールを提案する。 人間の評価を通して、我々の疎結合は、その密度の高いものよりも、少なくとも50%以上人間に理解できることが示されています。 大規模言語モデル(LLM)を活用する自動辞書特徴識別パイプラインでは,各辞書特徴に対して最も高いアクティベーショントークンを調べ,要約することにより,数千の医学的概念を探索する。 本研究では, 辞書の特徴と医用コードとの関係を, スパース解釈可能な行列を用いて表現し, 人間のアノテーションを伴わずに, 競争性能と拡張性を維持しながら, モデルの予測を機械的, グローバルに理解しやすくする。

Predicting high-dimensional or extreme multilabels, such as in medical coding, requires both accuracy and interpretability. Existing works often rely on local interpretability methods, failing to provide comprehensive explanations of the overall mechanism behind each label prediction within a multilabel set. We propose a mechanistic interpretability module called DIctionary Label Attention (\method) that disentangles uninterpretable dense embeddings into a sparse embedding space, where each nonzero element (a dictionary feature) represents a globally learned medical concept. Through human evaluations, we show that our sparse embeddings are more human understandable than its dense counterparts by at least 50 percent. Our automated dictionary feature identification pipeline, leveraging large language models (LLMs), uncovers thousands of learned medical concepts by examining and summarizing the highest activating tokens for each dictionary feature. We represent the relationships between dictionary features and medical codes through a sparse interpretable matrix, enhancing the mechanistic and global understanding of the model's predictions while maintaining competitive performance and scalability without extensive human annotation.
翻訳日:2024-09-17 14:38:40 公開日:2024-09-16
# モデル網膜異性化における非カシャ挙動の機械学習最適化と過渡ダイナミクス

Machine Learning Optimization of non-Kasha Behavior and of Transient Dynamics in Model Retinal Isomerization ( http://arxiv.org/abs/2409.10505v1 )

ライセンス: Link先を確認
Davinder Singh, Chern Chuang, Paul Brumer, (参考訳) 視覚の第一段階であるロドプシンにおける網膜異性化モデルの設計は、実験的な過渡性と定常的な状態の両方を考慮に入れることが困難である。 ここでは、ロドプシンの網膜の光異性化を記述する最小状態2モード(TM)モデルのパラメータを改良するために、多目的ベイズ最適化を用いる。 目的の適切な選択により、最適化された網膜モデルは、非平衡定常状態において実験的に観察された非カシャの挙動と密接に一致した励起波長依存蛍光スペクトルを予測する。 さらに、TMモデル内のポテンシャルエネルギー面の調整により、時間領域間の差が減少する。 全体として、実験データとの一致は優れている。

Designing a model of retinal isomerization in Rhodopsin, the first step in vision, that accounts for both experimental transient and stationary state observables is challenging. Here, multi-objective Bayesian optimization is employed to refine the parameters of a minimal two-state-two-mode (TM) model describing the photoisomerization of retinal in Rhodopsin. With an appropriate selection of objectives, the optimized retinal model predicts excitation wavelength-dependent fluorescence spectra that closely align with experimentally observed non-Kasha behavior in the non-equilibrium steady state. Further, adjustments to the potential energy surface within the TM model reduce the discrepancies across the time domain. Overall, agreement with experimental data is excellent.
翻訳日:2024-09-17 14:38:40 公開日:2024-09-16
# 大規模言語モデルを用いたC-to-Rust翻訳のための文脈認識型コードセグメンテーション

Context-aware Code Segmentation for C-to-Rust Translation using Large Language Models ( http://arxiv.org/abs/2409.10506v1 )

ライセンス: Link先を確認
Momoko Shiraishi, Takahiro Shinagawa, (参考訳) 既存のCプログラムにおけるメモリ安全性の脆弱性の継続的な脅威と、C言語の代替としてRustに多大な注意を払っているため、CコードをRustコードに変換する動機は強い。 大きな言語モデル(LLM)はルールベースのメソッドよりも自然で安全なコードを生成することで、この翻訳を自動化することを約束している。 大規模Cコードをコンパイル可能なRustコードに変換する際の成功率を改善するLLMベースの翻訳方式を提案する。 提案手法には,(1)構造と式をRustに整合させるためにCコードの前処理,(2)LLMのコンテキストウインドウの限界を越えるのを避けるために,最適なサイズの翻訳単位に分割する,(3)コンテキストサプリメントプロンプトを用いた翻訳単位間の一貫性を維持しながら,エラーを反復的にコンパイルし,修復する,という3つの重要なテクニックが含まれている。 コンパイル可能なコードのみをさらにテストできるため、コンパイルの成功は機能的同値性を達成するための重要な第一歩である。 4キロのコードを含む20のベンチマークCプログラムの実験では、元のコードの一部を失うことなく、すべてのプログラムをコンパイル可能なRustコードに変換することに成功した。

There is strong motivation to translate C code into Rust code due to the continuing threat of memory safety vulnerabilities in existing C programs and the significant attention paid to Rust as an alternative to the C language. While large language models (LLMs) show promise for automating this translation by generating more natural and safer code than rule-based methods, previous studies have shown that LLM-generated Rust code often fails to compile, even for relatively small C programs, due to significant differences between the two languages and context window limitations. We propose an LLM-based translation scheme that improves the success rate of translating large-scale C code into compilable Rust code. Our approach involves three key techniques: (1) pre-processing the C code to better align its structure and expressions with Rust, (2) segmenting the code into optimally sized translation units to avoid exceeding the LLM's context window limits, and (3) iteratively compiling and repairing errors while maintaining consistency between translation units using context-supplementing prompts. Compilation success is an essential first step in achieving functional equivalence, as only compilable code can be further tested. In experiments with 20 benchmark C programs, including those exceeding 4 kilo lines of code, we successfully translated all programs into compilable Rust code without losing corresponding parts of the original code.
翻訳日:2024-09-17 14:38:40 公開日:2024-09-16
# Pennsieve - 翻訳神経科学のための共同プラットフォーム

Pennsieve - A Collaborative Platform for Translational Neuroscience and Beyond ( http://arxiv.org/abs/2409.10509v1 )

ライセンス: Link先を確認
Zack Goldblum, Zhongchuan Xu, Haoer Shi, Patryk Orzechowski, Jamaal Spence, Kathryn A Davis, Brian Litt, Nishant Sinha, Joost Wagenaar, (参考訳) 神経科学データの指数的成長は、データ管理と多分野連携を促進するプラットフォームを必要とする。 本稿では,これらのニーズを満たすために構築された,オープンソースのクラウドベースの科学データ管理プラットフォームであるPennsieveを紹介する。 Pennsieveは複雑なマルチモーダルデータセットをサポートし、データの視覚化と分析のためのツールを提供する。 データ統合には包括的なアプローチを採用しており、研究者はカスタムメタデータスキーマを定義し、高度なツールを使用してデータをフィルタリングしクエリすることができる。 Pennsieveのモジュラーアーキテクチャにより、外部アプリケーションがその機能を拡張することができ、ピアレビューされたデータパブリッシングメカニズムとの協調ワークスペースは、クラウドとオンプレミスの両方で、ダウンストリーム分析に最適化された高品質なデータセットを促進する。 ペンシーブは、NIH SPARC Initiative、NIH HEAL InitiativeのPrecision Human Pain Network、NIH HEAL RE-JOIN Initiativeなどの主要な神経科学研究プログラムの核となる。 世界中の80以上の研究グループと、ペンシルバニア大学を通じて臨床現場で大規模な施設間プロジェクトを行っている。 SPARC.Science、Epilepsy.Science、およびPennsieve Discoverポータルを基盤として、Pennsieveは125TB以上の科学データを格納し、350以上のハイインパクトデータセットで35TB以上のデータを公開している。 データ共有の発見可能で、アクセス可能で、相互運用可能で、再利用可能な(FAIR)原則に準拠しており、NIHが承認したデータリポジトリの1つとして認識されている。 科学データ管理、発見、分析を容易にすることで、ペンシーブは神経科学などのための堅牢で協力的な研究エコシステムを育てている。

The exponential growth of neuroscientific data necessitates platforms that facilitate data management and multidisciplinary collaboration. In this paper, we introduce Pennsieve - an open-source, cloud-based scientific data management platform built to meet these needs. Pennsieve supports complex multimodal datasets and provides tools for data visualization and analyses. It takes a comprehensive approach to data integration, enabling researchers to define custom metadata schemas and utilize advanced tools to filter and query their data. Pennsieve's modular architecture allows external applications to extend its capabilities, and collaborative workspaces with peer-reviewed data publishing mechanisms promote high-quality datasets optimized for downstream analysis, both in the cloud and on-premises. Pennsieve forms the core for major neuroscience research programs including the NIH SPARC Initiative, NIH HEAL Initiative's PRECISION Human Pain Network, and NIH HEAL RE-JOIN Initiative. It serves more than 80 research groups worldwide, along with several large-scale, inter-institutional projects at clinical sites through the University of Pennsylvania. Underpinning the SPARC.Science, Epilepsy.Science, and Pennsieve Discover portals, Pennsieve stores over 125 TB of scientific data, with 35 TB of data publicly available across more than 350 high-impact datasets. It adheres to the findable, accessible, interoperable, and reusable (FAIR) principles of data sharing and is recognized as one of the NIH-approved Data Repositories. By facilitating scientific data management, discovery, and analysis, Pennsieve fosters a robust and collaborative research ecosystem for neuroscience and beyond.
翻訳日:2024-09-17 14:38:40 公開日:2024-09-16
# 対話型音声対話システムのための効率的な自己学習フレームワーク

An Efficient Self-Learning Framework For Interactive Spoken Dialog Systems ( http://arxiv.org/abs/2409.10515v1 )

ライセンス: Link先を確認
Hitesh Tulsiani, David M. Chan, Shalini Ghosh, Garima Lalwani, Prabhat Pandey, Ankish Bansal, Sri Garimella, Ariya Rastrow, Björn Hoffmeister, (参考訳) 音声アシスタントのような対話システムは、複雑で進化する会話にユーザと関わることが期待されている。 残念ながら、そのようなアプリケーションにデプロイされた従来の自動音声認識(ASR)システムは、通常、それぞれのターンを独立して認識するように訓練され、会話のコンテキストに適応する能力やユーザーフィードバックを組み込む能力が欠如している。 本研究では, 対話システムにおけるASRの一般的なフレームワークについて紹介し, シングルターン発話からの学習を超越し, 複数ターン会話における明示的な監視と暗黙的なユーザフィードバックの両方に適応する方法を時間とともに学習する。 学生教師の学習と文脈認識の対話処理の進歩を活用し、オンラインの強硬なマイニング手法であるOhmを用いて、対照的な自己超越的アプローチを設計することで実現した。 従来の学習と比較して,我々の新しいフレームワークを活用すると,実世界の対話システムではWERが10%近く削減され,公開合成データでは26%に向上することを示す。

Dialog systems, such as voice assistants, are expected to engage with users in complex, evolving conversations. Unfortunately, traditional automatic speech recognition (ASR) systems deployed in such applications are usually trained to recognize each turn independently and lack the ability to adapt to the conversational context or incorporate user feedback. In this work, we introduce a general framework for ASR in dialog systems that can go beyond learning from single-turn utterances and learn over time how to adapt to both explicit supervision and implicit user feedback present in multi-turn conversations. We accomplish that by leveraging advances in student-teacher learning and context-aware dialog processing, and designing contrastive self-supervision approaches with Ohm, a new online hard-negative mining approach. We show that leveraging our new framework compared to traditional training leads to relative WER reductions of close to 10% in real-world dialog systems, and up to 26% on public synthetic data.
翻訳日:2024-09-17 14:38:40 公開日:2024-09-16
# RetrievalAttention: Vector Retrievalによる長期LLM推論の高速化

RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval ( http://arxiv.org/abs/2409.10516v1 )

ライセンス: Link先を確認
Di Liu, Meng Chen, Baotong Lu, Huiqiang Jiang, Zhenhua Han, Qianxi Zhang, Qi Chen, Chengruidong Zhang, Bailu Ding, Kai Zhang, Chen Chen, Fan Yang, Yuqing Yang, Lili Qiu, (参考訳) トランスフォーマーベースの大規模言語モデル(LLM)は、様々な領域においてますます重要になっている。 しかしながら、注意操作の二次的時間複雑性は、キー値(KV)ベクトルをキャッシュするための非常に高い推論遅延とGPUメモリ消費のために、より長いコンテキストにスケールする上で大きな課題となる。 本稿では,注意計算を高速化するトレーニング不要な手法であるRetrievalAttentionを提案する。 RetrievalAttentionは、注意の動的スパース特性を活用するために、CPUメモリ内のKVベクトルに近接する近接探索(ANNS)インデックスを構築し、生成時にベクトル探索を介して最も関連性の高いものを検索する。 クエリベクトルとキーベクトル間のアウト・オブ・ディストリビューション(OOD)のため、オフ・ザ・シェルフANNSインデックスは正確な検索のためにO(N)データをスキャンする必要がある。 RetrievalAttentionはまず、ANNSベースの注意のOODチャレンジを特定し、クエリに適応し、データの1~3%しかアクセスできないアテンション対応ベクターサーチアルゴリズムを介して対処する。 RetrievalAttentionは、モデル精度を維持しながらGPUメモリの要求よりもはるかに少ない長文LLMの推論コストを大幅に削減する。 特にRetrievalAttentionは、8Bパラメータを持つLLMで128Kトークンを提供するのに16GBのGPUメモリしか必要とせず、単一のNVIDIA RTX4090 (24GB)上で0.188秒で1トークンを生成することができる。

Transformer-based large Language Models (LLMs) become increasingly important in various domains. However, the quadratic time complexity of attention operation poses a significant challenge for scaling to longer contexts due to the extremely high inference latency and GPU memory consumption for caching key-value (KV) vectors. This paper proposes RetrievalAttention, a training-free approach to accelerate attention computation. To leverage the dynamic sparse property of attention, RetrievalAttention builds approximate nearest neighbor search (ANNS) indexes upon KV vectors in CPU memory and retrieves the most relevant ones via vector search during generation. Due to the out-of-distribution (OOD) between query vectors and key vectors, off-the-shelf ANNS indexes still need to scan O(N) (usually 30% of all keys) data for accurate retrieval, which fails to exploit the high sparsity. RetrievalAttention first identifies the OOD challenge of ANNS-based attention, and addresses it via an attention-aware vector search algorithm that can adapt to queries and only access 1--3% of data, thus achieving a sub-linear time complexity. RetrievalAttention greatly reduces the inference cost of long-context LLM with much lower GPU memory requirements while maintaining the model accuracy. Especially, RetrievalAttention only needs 16GB GPU memory for serving 128K tokens in LLMs with 8B parameters, which is capable of generating one token in 0.188 seconds on a single NVIDIA RTX4090 (24GB).
翻訳日:2024-09-17 14:38:40 公開日:2024-09-16
# データセキュリティのためのPUFとハイブリッド暗号を用いたセキュアハードウェアモジュール

High-Security Hardware Module with PUF and Hybrid Cryptography for Data Security ( http://arxiv.org/abs/2409.09928v1 )

ライセンス: Link先を確認
Joshua Tito Amael, Oskar Natan, Jazi Eko Istiyanto, (参考訳) この研究は、IoT(Internet of Things)、クラウドコンピューティング、ビッグデータ、データ分析といった基本的な技術によって支えられている業界、特に産業4.0における技術の急速な発展を強調している。 効率性はあるものの、これらの開発は特に製造においてサイバー攻撃の増加など、ネガティブな影響をもたらす。 業界における標準的な攻撃の1つは、特に産業機械におけるセンサーとアクチュエータデータの整合性において、物理的データ転送に深刻な結果をもたらす、中間者攻撃(man-in-the-middle、MITM)である。 本研究は,ハードウェアセキュリティモジュール (HSM) を物理非拘束機能 (PUF) 認証付きFPGA (フィールドプログラマブルゲートアレイ) とハイブリッド暗号化データセキュリティシステムを用いて開発することによるソリューションを提案する。 実験結果から,本研究は産業用サイバーセキュリティのいくつかの基準を改善し,産業用マシンにおけるサイバー攻撃から重要なデータセキュリティを確保することが示唆された。

This research highlights the rapid development of technology in the industry, particularly Industry 4.0, supported by fundamental technologies such as the Internet of Things (IoT), cloud computing, big data, and data analysis. Despite providing efficiency, these developments also bring negative impacts, such as increased cyber-attacks, especially in manufacturing. One standard attack in the industry is the man-in-the-middle (MITM) attack, which can have severe consequences for the physical data transfer, particularly on the integrity of sensor and actuator data in industrial machines. This research proposes a solution by developing a hardware security module (HSM) using a field-programmable gate array (FPGA) with physical unclonable function (PUF) authentication and a hybrid encryption data security system. Experimental results show that this research improves some criteria in industrial cybersecurity, ensuring critical data security from cyber-attacks in industrial machines.
翻訳日:2024-09-17 14:28:31 公開日:2024-09-16
# 産業用サイバーセキュリティの強化:MITM攻撃を緩和するためのSBC上でのSoftHSM実装

Enhancing Industrial Cybersecurity: SoftHSM Implementation on SBCs for Mitigating MITM Attacks ( http://arxiv.org/abs/2409.09948v1 )

ライセンス: Link先を確認
Joshua Tito Amael, Jazi Eko Istiyanto, Oskar Natan, (参考訳) 自動化、IoT、クラウドコンピューティングによって推進される産業技術の急速な成長は、man-in-the-Middle(MITM)攻撃のようなサイバー攻撃のリスクも増している。 データを保護するための標準的なソリューションは、ハードウェアセキュリティモジュール(HSM)を使用しているが、その高い実装コストが、より手頃な代替品であるSoftHSMの開発につながっている。 このソフトウェアベースのモジュールは暗号アルゴリズムを用いて暗号鍵と復号鍵を管理する。 本研究では,シングルボードコンピュータ(SBC)におけるSoftHSMの使用をシミュレートし,産業システムのセキュリティを強化し,MITM攻撃を費用対効果で軽減する。 セキュリティシステムはAESとRSA暗号アルゴリズムを統合し、RSA鍵ストレージをSoftHSMで処理する。 その結果、HSMはRSAの秘密鍵を抽出の試みから保護し、データのセキュリティを確保することができた。 性能面では、平均暗号化時間は3.29秒、スロットアクセス時間は0.018秒、復号時間は2.558秒に達した。 また、37.24%が暗号化に、24.24%が復号化に使われ、処理中に5.20Vと0.72Aを消費した。

The rapid growth of industrial technology, driven by automation, IoT, and cloud computing, has also increased the risk of cyberattacks, such as Man-in-the-Middle (MITM) attacks. A standard solution to protect data is using a Hardware Security Module (HSM), but its high implementation cost has led to the development of a more affordable alternative: SoftHSM. This software-based module manages encryption and decryption keys using cryptographic algorithms. This study simulates the use of SoftHSM on a single-board computer (SBC) to enhance industrial system security and cost-effectively mitigate MITM attacks. The security system integrates AES and RSA cryptographic algorithms, with SoftHSM handling RSA key storage. The results show that HSM protects RSA private keys from extraction attempts, ensuring data security. In terms of performance, the system achieved an average encryption time of 3.29 seconds, a slot access time of 0.018 seconds, and a decryption time of 2.558 seconds. It also demonstrated efficient memory usage, with 37.24% for encryption and 24.24% for decryption, while consuming 5.20 V and 0.72 A during processing.
翻訳日:2024-09-17 14:28:31 公開日:2024-09-16
# Li-MSD:RPLベースのIoTにおけるDAOインサイダー攻撃の軽量緩和ソリューション

Li-MSD: A lightweight mitigation solution for DAO insider attack in RPL-based IoT ( http://arxiv.org/abs/2409.10020v1 )

ライセンス: Link先を確認
Abhishek Verma, Sachin Kumar Verma, Avinash Chandra Pandey, Jyoti Grover, Girish Sharma, (参考訳) 多くのIoTアプリケーションは、リソース制約のあるノードによってサポートされている無線インフラストラクチャ上で動作します。 現在、LLNは産業のデジタルトランスフォーメーションにおいて重要な役割を担っている。 LLNのリソース制限は従来のルーティングプロトコルの使用を制限するため、エネルギー効率のよいルーティングソリューションを必要とする。 ローパワーロッシーネットワークのためのIETFのルーティングプロトコル(RPL)は、RFC 6550で規定されているLLNの最も一般的なエネルギー効率の高いプロトコルの1つである。 RPLでは、Destination Advertisement Object (DAO) 制御メッセージは子ノードによって送信され、その到達可能性情報をその親ノードまたはルートノードに渡す。 攻撃者は、RPLの安全でないDAO送信機構を利用して、何度もDAOを送信することで「DAOインサイダー攻撃」を行うことができる。 本稿では,攻撃的なDAOインサイダー攻撃者がネットワーク性能を劇的に低下させることができることを示す。 DAOインサイダー攻撃に対する軽量化ソリューションを提案し,これを「Li-MSD」と呼ぶ。 Li-MSDはブラックリスト戦略を使用して攻撃を緩和し、RPLのパフォーマンスを著しく回復する。 シミュレーションにより,Li-MSDは文献における既存の解よりも優れていることを示す。

Many IoT applications run on a wireless infrastructure supported by resource-constrained nodes which is popularly known as Low-Power and Lossy Networks (LLNs). Currently, LLNs play a vital role in digital transformation of industries. The resource limitations of LLNs restrict the usage of traditional routing protocols and therefore require an energy-efficient routing solution. IETF's Routing Protocol for Low-power Lossy Networks (RPL, pronounced 'ripple') is one of the most popular energy-efficient protocols for LLNs, specified in RFC 6550. In RPL, Destination Advertisement Object (DAO) control message is transmitted by a child node to pass on its reachability information to its immediate parent or root node. An attacker may exploit the insecure DAO sending mechanism of RPL to perform 'DAO insider attack' by transmitting DAO multiple times. This paper shows that an aggressive DAO insider attacker can drastically degrade network performance. We propose a Lightweight Mitigation Solution for DAO insider attack, which is termed as 'Li-MSD'. Li-MSD uses a blacklisting strategy to mitigate the attack and restore RPL performance, significantly. By using simulations, it is shown that Li-MSD outperforms the existing solution in the literature.
翻訳日:2024-09-17 14:28:31 公開日:2024-09-16
# 暗号経済における制裁の影響評価-効果的な対策と非効果的な抑止策-

Assessing the Impact of Sanctions in the Crypto Ecosystem: Effective Measures or Ineffective Deterrents? ( http://arxiv.org/abs/2409.10031v1 )

ライセンス: Link先を確認
Francesco Zola, Jon Ander Medina, Raul Orduna, (参考訳) 規制当局は、そのような行動を促す経済的なインセンティブをターゲットとして、違法な活動に取り組むことを目指している。 これは典型的には、犯罪に関わる団体に対する金融制裁の実施によって達成される。 しかし、暗号通貨の台頭は新たな課題をもたらし、企業はこれらの制裁を回避し、刑事活動を続けることができる。 その結果、法執行機関は、制裁対象の暗号資産情報を含むように拡張された。 しかし、暗号通貨のエコシステムの性質から、これらのデジタル資産をブロックしたり凍結したりするのは難しい。 したがって、制裁は単に抑止剤として機能する。 そこで本研究では,これらの制裁がエンティティの暗号活動,特にビットコインエコシステムに関連する活動に与える影響を評価することを目的としている。 我々の目標は、そのような対策の有効性と効果(またはその欠如)に光を当てることです。 具体的には、当局の認可を受けた後、暗号アドレスを持つ罰せられた団体によって移動された取引とUSDの量を分析します。 その結果、調査対象の半数が制裁対象であったが、他の団体は制裁対象の住所を通じて資金を移動し続けていることが示唆された。 さらに、処罰された団体は、資金洗浄サービスを利用するよりも、迅速な交換サービスを利用して資金を転換することを好んでいる。 私たちの知識を最大限に活用するために、この研究は、エンティティが制裁を回避するために暗号資産をどのように利用するかについて、貴重な洞察を提供する。

Regulatory authorities aim to tackle illegal activities by targeting the economic incentives that drive such behaviour. This is typically achieved through the implementation of financial sanctions against the entities involved in the crimes. However, the rise of cryptocurrencies has presented new challenges, allowing entities to evade these sanctions and continue criminal operations. Consequently, enforcement measures have been expanded to include crypto assets information of sanctioned entities. Yet, due to the nature of the crypto ecosystem, blocking or freezing these digital assets is harder and, in some cases, such as with Bitcoin, unfeasible. Therefore, sanctions serve merely as deterrents. For this reason, in this study, we aim to assess the impact of these sanctions on entities' crypto activities, particularly those related to the Bitcoin ecosystem. Our objective is to shed light on the validity and effectiveness (or lack thereof) of such countermeasures. Specifically, we analyse the transactions and the amount of USD moved by punished entities that possess crypto addresses after being sanctioned by the authority agency. Results indicate that while sanctions have been effective for half of the examined entities, the others continue to move funds through sanctioned addresses. Furthermore, punished entities demonstrate a preference for utilising rapid exchange services to convert their funds, rather than employing dedicated money laundering services. To the best of our knowledge, this study offers valuable insights into how entities use crypto assets to circumvent sanctions.
翻訳日:2024-09-17 14:28:31 公開日:2024-09-16
# n-Party Scalar Product Protocol のプロプライエタリ保存に関する一考察

A Response to: A Note on "Privacy Preserving n-Party Scalar Product Protocol" ( http://arxiv.org/abs/2409.10057v1 )

ライセンス: Link先を確認
Florian van Daalen, Lianne Ippel, Andre Dekker, Inigo Bermejo, (参考訳) われわれが提案しているプライバシー保護n-partyスカラー製品プロトコルに関するコメントに返信する。 Liu氏はコメントで、$n$-partyスカラー製品プロトコルのセキュリティとスケーラビリティに関する懸念を提起した。 この回答では、それらの懸念は根拠がなく、$n$-partyスカラー製品プロトコルは意図した目的のために安全であることを示す。 セキュリティに関する彼らの懸念は、プロトコルの誤解に基づいている。 さらに、プロトコルのスケーラビリティは使用に制限を与えるが、正しいシナリオに適用した場合、プロトコルには多くの実用的な応用がある。 特に、パーティがほとんど含まれない垂直に分割されたシナリオでは、プロトコルは実用的のままである。 この回答では、リューの誤解を明確にする。 さらに、プロトコルのスケーリングが意図したアプリケーションで実践的な問題ではない理由を説明します。

We reply to the comments on our proposed privacy preserving n-party scalar product protocol made by Liu. In their comment Liu raised concerns regarding the security and scalability of the $n$-party scalar product protocol. In this reply, we show that their concerns are unfounded and that the $n$-party scalar product protocol is safe for its intended purposes. Their concerns regarding the security are based on a misunderstanding of the protocol. Additionally, while the scalability of the protocol puts limitations on its use, the protocol still has numerous practical applications when applied in the correct scenarios. Specifically within vertically partitioned scenarios, which often involve few parties, the protocol remains practical. In this reply we clarify Liu's misunderstanding. Additionally, we explain why the protocols scaling is not a practical problem in its intended application.
翻訳日:2024-09-17 14:28:31 公開日:2024-09-16
# 層ベースアプローチによるブロックチェーンシステムの攻撃解析

Analysing Attacks on Blockchain Systems in a Layer-based Approach ( http://arxiv.org/abs/2409.10109v1 )

ライセンス: Link先を確認
Joydip Das, Syed Ashraf Al Tasin, Md. Forhad Rabbi, Md Sadek Ferdous, (参考訳) ブロックチェーンは、透明性と不変性のために構築される分散システムである。 ブロックチェーンベースのシステムに対するいくつかの大きな攻撃があり、システムの信頼性にギャップが残されている。 この記事では、ブロックチェーンシステムに対する23の攻撃について包括的な研究を行い、層ベースのアプローチで分類する。 このアプローチは、これらの攻撃の実現可能性と動機に関する詳細な分析を提供する。 さらに、これらの攻撃の影響と相互接続を体系的に分析し、潜在的な攻撃ベクトルを特定し、ブロックチェーンシステムを強化する適切な対策を設計する手段を提供するフレームワークを提案する。

Blockchain is a growing decentralized system built for transparency and immutability. There have been several major attacks on blockchain-based systems, leaving a gap in the trustability of this system. This article presents a comprehensive study of 23 attacks on blockchain systems and categorizes them using a layer-based approach. This approach provides an in-depth analysis of the feasibility and motivation of these attacks. In addition, a framework is proposed that enables a systematic analysis of the impact and interconnection of these attacks, thereby providing a means of identifying potential attack vectors and designing appropriate countermeasures to strengthen any blockchain system.
翻訳日:2024-09-17 14:28:31 公開日:2024-09-16
# 量子情報スクランブル,カオス,感度,創発的状態設計

Quantum Information Scrambling, Chaos, Sensitivity, and Emergent State Designs ( http://arxiv.org/abs/2409.10182v1 )

ライセンス: Link先を確認
Naga Dileep Varikuti, (参考訳) 量子カオスを理解することは、深い理論上の関心を持ち、凝縮物質物理学から量子エラー補正まで、様々な応用に重要な意味を持つ。 近年,量子カオスを定量化するための強力なツールとして,時間外順序相関器(OTOC)が登場している。 与えられた量子系に対して、OTOCs測度は、ハイゼンベルク図形で進化した作用素と未発展作用素の間の非可逆性を測る。 この論文の前半では、量子極限における摂動非コモゴロフ・アルノルド・モーサー系の動的感度を、$\textit{resonance}$条件を特徴づけるパラメータとして、OTOCを用いて研究する。 この目的のために,位相空間に確率的Webを表示する量子化蹴り高調波発振器(KHO)モデルを考える。 OTOC分析に続いて、共鳴における量子フィッシャー情報(QFI)の研究と、非共鳴の場合との比較が行われる。 我々は、QFIの時間的スケーリングが共鳴によって強化され、非KAM系の力学が量子センシングの候補となることを示す。 下記の章では、混合位相空間OTOCダイナミクスに特化して、蹴り合わされたトップの分岐系におけるOTOCについて検討する。 論文の最後の部分は、量子カオスのサインとしての量子状態設計の出現と、この現象における対称性の役割の研究に捧げられている。 最近提案されたアンサンブルフレームワークは、量子カオスを資源として利用して、近似的な高次状態設計を構築している。 ユビキタスであるにもかかわらず、量子状態設計の出現に対する対称性の影響は未解明のままである。 近似状態設計における対称性と測定値の相互作用を実証することにより、これを徹底的に検討する。 最後に、現在の論文に関連するいくつかのオープンな方向性について概説する。

Understanding quantum chaos is of profound theoretical interest and carries significant implications for various applications, from condensed matter physics to quantum error correction. Recently, out-of-time ordered correlators (OTOCs) have emerged as a powerful tool to quantify quantum chaos. For a given quantum system, the OTOCs measure incompatibility between an operator evolved in the Heisenberg picture and an unevolved operator. In the first part of this thesis, we employ OTOCs to study the dynamical sensitivity of a perturbed non-Komogorov-Arnold-Moser (non-KAM) system in the quantum limit as the parameter that characterizes the $\textit{resonance}$ condition is slowly varied. For this purpose, we consider a quantized kicked harmonic oscillator (KHO) model that displays stochastic webs in the phase space. The OTOC analysis is followed by a study of quantum Fisher information (QFI) at the resonances and a comparison with the non-resonance cases. We shall show that scaling of the QFI in time is enhanced at the resonances, making the dynamics of the non-KAM systems good candidates for quantum sensing. In the following chapter, we study the OTOCs in a bipartite system of kicked coupled tops with a special focus on the mixed phase space OTOC dynamics. The last part of the thesis is devoted to the study of the emergence of quantum state designs as a signature of quantum chaos and the role of symmetries in this phenomenon. Recently proposed projected ensemble framework utilizes quantum chaos as a resource to construct approximate higher-order state designs. Despite being ubiquitous, the effects of symmetries on the emergence of quantum state designs remain under-explored. We thoroughly investigate this by demonstrating the interplay between symmetries and measurements in constructing approximate state designs. Finally, we outline a few open directions relevant to the current thesis.
翻訳日:2024-09-17 14:28:31 公開日:2024-09-16
# PrePaMS: Rewards and Prequisites 研究のためのプライバシ保護参加者管理システム

PrePaMS: Privacy-Preserving Participant Management System for Studies with Rewards and Prerequisites ( http://arxiv.org/abs/2409.10192v1 )

ライセンス: Link先を確認
Echo Meißner, Frank Kargl, Benjamin Erb, Felix Engelmann, (参考訳) 調査、実験、研究に参加することは、しばしば報酬によって補償され、参加者の数を増やし、出席を奨励する。 通常、プライバシ要件は参加のために考慮されるが、報酬手続きのプライバシ側面はほとんど無視される。 この目的のために,プライバシ保護方式で事前チェックと参加報酬をサポートする,効率的な参加管理システムであるPrePaMSを紹介する。 我々のシステムは、潜在的(非平等な)依存関係への参加を組織し、安全な報酬の支払いを可能にします。 匿名認証やゼロ知識証明などの証明済みの暗号プリミティブとメカニズムを活用することで、サービスプロバイダやオーガナイザが報酬プロセス内でも参加者の同一性を引き出すことができないように、参加が保護される。 本稿では,PrePaMSの有効性を示すプロトタイプを設計,実装し,現実的なワークロード下での性能評価を行った。 PrePaMSは、被験者が調査、実験、研究に参加したかどうかをカバーしている。 これらのイベント内の実際のデータ収集のための他のセキュアなソリューションと組み合わせることで、PrePaMSはよりプライバシー保護の実証研究の基盤となる。

Taking part in surveys, experiments, and studies is often compensated by rewards to increase the number of participants and encourage attendance. While privacy requirements are usually considered for participation, privacy aspects of the reward procedure are mostly ignored. To this end, we introduce PrePaMS, an efficient participation management system that supports prerequisite checks and participation rewards in a privacy-preserving way. Our system organizes participations with potential (dis-)qualifying dependencies and enables secure reward payoffs. By leveraging a set of proven cryptographic primitives and mechanisms such as anonymous credentials and zero-knowledge proofs, participations are protected so that service providers and organizers cannot derive the identity of participants even within the reward process. In this paper, we have designed and implemented a prototype of PrePaMS to show its effectiveness and evaluated its performance under realistic workloads. PrePaMS covers the information whether subjects have participated in surveys, experiments, or studies. When combined with other secure solutions for the actual data collection within these events, PrePaMS can represent a cornerstone for more privacy-preserving empirical research.
翻訳日:2024-09-17 14:28:31 公開日:2024-09-16
# 精度損失のない分散最大合意のプライバシ保護

Privacy-Preserving Distributed Maximum Consensus Without Accuracy Loss ( http://arxiv.org/abs/2409.10226v1 )

ライセンス: Link先を確認
Wenrui Yu, Richard Heusdens, Jun Pang, Qiongxiu Li, (参考訳) 分散ネットワークにおいて、最大要素を計算することは、分散最大コンセンサス問題として知られるデータ解析における基本的なタスクである。 しかし、関係するデータの繊細な性質は、プライバシー保護を必須にしている。 その重要性にもかかわらず、分散された最大コンセンサスにおけるプライバシは文学において限られた注目を集めている。 従来のプライバシー保護手法は更新にノイズを加え、最終的な結果の精度を低下させる。 これらの制限を克服するために、我々は、精度を犠牲にすることなくプライバシを保存する分散最適化ベースの新しいアプローチを提案する。 提案手法では,仮想ノードを拡張グラフとして導入し,事前設計した初期化プロセスを利用して,近隣ノードがすべて不適切な場合でも,誠実な参加者のプライバシを確保する。 包括的情報理論解析により、受動的・盗聴的双方の敵から個人データを保護できる十分な条件を導出する。 広範にわたる実験により,本手法の有効性が検証され,完全なプライバシを保ちつつ,精度を保ち,通常精度の低下に苦しむ既存のノイズベース手法よりも優れていることが示された。

In distributed networks, calculating the maximum element is a fundamental task in data analysis, known as the distributed maximum consensus problem. However, the sensitive nature of the data involved makes privacy protection essential. Despite its importance, privacy in distributed maximum consensus has received limited attention in the literature. Traditional privacy-preserving methods typically add noise to updates, degrading the accuracy of the final result. To overcome these limitations, we propose a novel distributed optimization-based approach that preserves privacy without sacrificing accuracy. Our method introduces virtual nodes to form an augmented graph and leverages a carefully designed initialization process to ensure the privacy of honest participants, even when all their neighboring nodes are dishonest. Through a comprehensive information-theoretical analysis, we derive a sufficient condition to protect private data against both passive and eavesdropping adversaries. Extensive experiments validate the effectiveness of our approach, demonstrating that it not only preserves perfect privacy but also maintains accuracy, outperforming existing noise-based methods that typically suffer from accuracy loss.
翻訳日:2024-09-17 14:28:31 公開日:2024-09-16
# many‐boody Open Quantum Systems

Many-Body Open Quantum Systems ( http://arxiv.org/abs/2409.10300v1 )

ライセンス: Link先を確認
Rosario Fazio, Jonathan Keeling, Leonardo Mazza, Marco Schirò, (参考訳) これらの講義ノートは、散逸性およびコヒーレントなプロセスの両方を高次に調整・制御できるプラットフォームにおけるオープン量子多体物理学の理解における最近の理論的進歩について論じている。 まず、オープンな量子多体システムを記述するための理論的枠組みと手法の見直しから始める。 次に,多体定常状態を所望の特性で構築するための散逸過程の利用と,コヒーレントな進化と散逸の競合から生じる散逸相転移の出現について議論する。 熱や多体損失などの相関した多体散逸過程の存在下でのオープン量子多体系のダイナミクスを概観する。 最後に、環境が監視装置を表す場合と関連する確率的量子軌跡と関連する測定誘起相転移を考察することにより、オープン量子多体系に対する異なる視点を提供する。

These Lecture Notes discuss the recent theoretical advances in the understanding of open quantum many-body physics in platforms where both dissipative and coherent processes can be tuned and controlled to a high degree. We start by reviewing the theoretical frameworks and methods used to describe and tackle open quantum many-body systems. We then discuss the use of dissipative processes to engineer many-body stationary states with desired properties and the emergence of dissipative phase transitions arising out of the competition between coherent evolution and dissipation. We review the dynamics of open quantum many body systems in the presence of correlated many-body dissipative processes, such as heating and many-body losses. Finally we provide a different perspective on open quantum many-body systems by looking at stochastic quantum trajectories, relevant for the case in which the environment represents a monitoring device, and the associated measurement-induced phase transitions.
翻訳日:2024-09-17 14:28:31 公開日:2024-09-16
# 時間付きオートマトンにおける実行時不透明度制御

Execution-time opacity control for timed automata ( http://arxiv.org/abs/2409.10336v1 )

ライセンス: Link先を確認
Étienne André, Marie Duflot, Laetitia Laversa, Engel Lefaucheux, (参考訳) タイムドオートマトン(TA)のタイミングリークは、攻撃者がタイムドビヘイビアを観察して秘密を推論できるときに起こりうる。 実行時の不透明さにおいて、攻撃者は実行時間だけを観察して、プライベートな場所が訪れたかどうかを推定することを目的としている。 この設定でTAが不透明かどうかを決定することができる。 本研究では、制御に取り組み、TAが実行時に制御可能かどうかを判断し、不透明性を確保することができることを示す。 このようなコントローラを表示できるという意味では,本手法は構築的です。 また、攻撃者が観測において無限の精度を持てない場合にも対処する。

Timing leaks in timed automata (TA) can occur whenever an attacker is able to deduce a secret by observing some timed behavior. In execution-time opacity, the attacker aims at deducing whether a private location was visited, by observing only the execution time. It can be decided whether a TA is opaque in this setting. In this work, we tackle control, and show that we are able to decide whether a TA can be controlled at runtime to ensure opacity. Our method is constructive, in the sense that we can exhibit such a controller. We also address the case when the attacker cannot have an infinite precision in its observations.
翻訳日:2024-09-17 14:28:31 公開日:2024-09-16
# AI駆動の6Gネットワークにおけるセキュリティ、信頼、プライバシの課題

Security, Trust and Privacy challenges in AI-driven 6G Networks ( http://arxiv.org/abs/2409.10337v1 )

ライセンス: Link先を確認
Helena Rifa-Pous, Victor Garcia-Font, Carlos Nunez-Gomez, Julian Salas, (参考訳) 6Gネットワークの出現は、無線通信における前例のない進歩を約束する。 本稿では、6Gネットワークの進化する基盤について考察し、より解体された構造への移行と人工知能(AI)技術の統合を強調した。 さらに、6Gネットワーク、特にAIの使用に関連するセキュリティ、信頼、プライバシの課題と攻撃についても検討している。 AI中心のアーキテクチャから生じるネットワーク攻撃の分類を示し、これらの新興脅威を検出または緩和するために設計された技術を探究する。 この論文は、ロバストネットワークの確保において、AIの利用に関連する意味とリスクを調べることで締めくくっている。

The advent of 6G networks promises unprecedented advancements in wireless communication, offering wider bandwidth and lower latency compared to its predecessors. This article explores the evolving infrastructure of 6G networks, emphasizing the transition towards a more disaggregated structure and the integration of artificial intelligence (AI) technologies. Furthermore, it explores the security, trust and privacy challenges and attacks in 6G networks, particularly those related to the use of AI. It presents a classification of network attacks stemming from its AI-centric architecture and explores technologies designed to detect or mitigate these emerging threats. The paper concludes by examining the implications and risks linked to the utilization of AI in ensuring a robust network.
翻訳日:2024-09-17 14:28:31 公開日:2024-09-16
# ローカライゼーション応用によるパスロスとToAラジオマップのデータセット

Dataset of Pathloss and ToA Radio Maps With Localization Application ( http://arxiv.org/abs/2212.11777v4 )

ライセンス: Link先を確認
Çağkan Yapar, Ron Levie, Gitta Kutyniok, Giuseppe Caire, (参考訳) 本稿では,高密度都市環境における無線地図データセットの収集について紹介する。 データセットには、実都市地図における現実的な密集した都市環境の集合体に、シミュレートされたパスロス/受信信号強度(RSS)と到着時刻(ToA)ラジオマップが含まれる。 提示されたデータセットの2つの主な応用は、 1)入力都市地図(ディープラーニングベースシミュレーション)からパスロスを予測する学習方法と 2)無線の局部化。 RSSとToAマップが同じ都市マップ上で同じシミュレーションによって計算されているという事実は、RSSとToAベースのローカライゼーション手法を公平に比較することができる。

In this article, we present a collection of radio map datasets in dense urban setting, which we generated and made publicly available. The datasets include simulated pathloss/received signal strength (RSS) and time of arrival (ToA) radio maps over a large collection of realistic dense urban setting in real city maps. The two main applications of the presented dataset are 1) learning methods that predict the pathloss from input city maps (namely, deep learning-based simulations), and, 2) wireless localization. The fact that the RSS and ToA maps are computed by the same simulations over the same city maps allows for a fair comparison of the RSS and ToA-based localization methods.
翻訳日:2024-09-17 12:29:39 公開日:2024-09-16
# ブラックボックス型ソーシャルレコメンデーションに対するマルチエージェントアタック

Multi-agent Attacks for Black-box Social Recommendations ( http://arxiv.org/abs/2311.07127v4 )

ライセンス: Link先を確認
Shijie Wang, Wenqi Fan, Xiao-yong Wei, Xiaowei Mei, Shanru Lin, Qing Li, (参考訳) オンラインソーシャルネットワークの興隆は、ユーザの意思決定プロセスを強化するために社会的関係を組み込んだソーシャルレコメンデーションシステムの進化を促している。 ノード表現の学習においてグラフニューラルネットワーク(GNN)が大きな成功を収めたことにより、GNNベースのソーシャルレコメンデーションは、ユーザ-イテムインタラクションとユーザ-ユーザ関係を同時にモデル化するために広く研究されている。 彼らの大きな成功にもかかわらず、最近の研究では、これらの先進的なレコメンデーターシステムは、攻撃者がよく設計された偽のユーザープロフィールを注入してレコメンデーションパフォーマンスを妨害できる敵攻撃に対して非常に脆弱であることが示されている。 既存のほとんどの研究は、主にバニラレコメンデーターシステムにおけるターゲットアイテムのプロモートを目的としたターゲットアタックに焦点を当てているが、全体的な予測性能を低下させるターゲットのないアタックは、ブラックボックスシナリオ下での社会的レコメンデーションでは調査されていない。 ソーシャルレコメンデーションシステムに対する未ターゲティング攻撃を実行するために、攻撃者は偽ユーザーのための悪意あるソーシャル関係を構築して攻撃性能を高めることができる。 しかし,ブラックボックス・ソーシャル・レコメンデーションの攻撃には,ソーシャル・リレーションとアイテム・プロファイルの連携が困難である。 この制限に対処するために,我々はまず,コミュニティ間接続とコールドスタート項目が推奨性能の劣化に有効であることを示すための予備的研究を行った。 具体的には,ブラックボックス型ソーシャルレコメンデーションに対する未目標攻撃を行うために,マルチエージェント強化学習に基づくマルチアタック(MultiAttack)を提案する。 様々な実世界のデータセットに対する総合的な実験は、ブラックボックス設定下での攻撃フレームワークの有効性を実証する。

The rise of online social networks has facilitated the evolution of social recommender systems, which incorporate social relations to enhance users' decision-making process. With the great success of Graph Neural Networks (GNNs) in learning node representations, GNN-based social recommendations have been widely studied to model user-item interactions and user-user social relations simultaneously. Despite their great successes, recent studies have shown that these advanced recommender systems are highly vulnerable to adversarial attacks, in which attackers can inject well-designed fake user profiles to disrupt recommendation performances. While most existing studies mainly focus on argeted attacks to promote target items on vanilla recommender systems, untargeted attacks to degrade the overall prediction performance are less explored on social recommendations under a black-box scenario. To perform untargeted attacks on social recommender systems, attackers can construct malicious social relationships for fake users to enhance the attack performance. However, the coordination of social relations and item profiles is challenging for attacking black-box social recommendations. To address this limitation, we first conduct several preliminary studies to demonstrate the effectiveness of cross-community connections and cold-start items in degrading recommendations performance. Specifically, we propose a novel framework MultiAttack based on multi-agent reinforcement learning to coordinate the generation of cold-start item profiles and cross-community social relations for conducting untargeted attacks on black-box social recommendations. Comprehensive experiments on various real-world datasets demonstrate the effectiveness of our proposed attacking framework under the black-box setting.
翻訳日:2024-09-17 12:29:39 公開日:2024-09-16
# 楕円曲線を用いたステルスアドレスプロトコル

Elliptic Curve Pairing Stealth Address Protocols ( http://arxiv.org/abs/2312.12131v4 )

ライセンス: Link先を確認
Marija Mikic, Mihajlo Srbakoski, (参考訳) ブロックチェーントランザクションのプライバシを保護することは、ユーザにとって非常に重要です。 ステルスアドレスプロトコル(SAP)は、ステルスのメタアドレスに関連付けられないステルスアドレスを通じて、ユーザーが資産を受け取ることを可能にする。 SAPは異なる暗号手法で生成できる。 DKSAPは楕円曲線の乗算と共有秘密のハッシュを使用する。 もう1つのアプローチは楕円曲線ペアリングを使うことである。 本稿では,楕円曲線ペアリングを暗号解として用いた4つのSAプロトコルを提案する。 ECPDKSAPはペアリングベースのプロトコルであり、ECPSKSAPはペアリングベースのプロトコルであり、消費と視聴キーが導出される単一のキーを使用する。 ビュータグによるDKSAPよりもECPDKSAPの方がはるかに優れた結果が得られた。 最高の結果は、EthereumフレンドリーなProtocol 3 (Elliptic Curve Pairing Dual Key Stealth Address Protocol) で達成される。 ECPSKSAPは非常に遅いが、1つの秘密鍵のみを使用するため、興味深い理論的結果をもたらす。

Protecting the privacy of blockchain transactions is extremely important for users. Stealth address protocols (SAP) allow users to receive assets via stealth addresses that they do not associate with their stealth meta-addresses. SAP can be generated using different cryptographic approaches. DKSAP uses an elliptic curve multiplication and hashing of the resulting shared secret. Another approach is to use a elliptic curve pairing. This paper presents four SA protocols that use elliptic curve pairing as a cryptographic solution. ECPDKSAPs are pairing-based protocols that include viewing key and spending key, while ECPSKSAP is a pairing-based protocol that uses a single key with which spending and the viewing key are derived. We find that ECPDKSAPs give significantly better results than DKSAP with the view tag. The best results are achieved with Protocol 3 (Elliptic Curve Pairing Dual Key Stealth Address Protocol), which is Ethereum-friendly. ECPSKSAP is significantly slower, but it provides an interesting theoretical result as it uses only one private key.
翻訳日:2024-09-17 12:29:39 公開日:2024-09-16
# 抽象レベルでの機械と人間の視覚表現の調整

Aligning Machine and Human Visual Representations across Abstraction Levels ( http://arxiv.org/abs/2409.06509v2 )

ライセンス: Link先を確認
Lukas Muttenthaler, Klaus Greff, Frieda Born, Bernhard Spitzer, Simon Kornblith, Michael C. Mozer, Klaus-Robert Müller, Thomas Unterthiner, Andrew K. Lampinen, (参考訳) 深層ニューラルネットワークは、視覚タスクにおける人間の振る舞いのモデルなど、幅広いアプリケーションで成功している。 しかしながら、ニューラルネットワークのトレーニングと人間の学習は基本的な方法で異なり、ニューラルネットワークは人間のように堅牢に一般化することができず、基礎となる表現の類似性に関する疑問が提起される。 現代の学習システムに欠けているのは、もっと人間らしく振る舞うことか? 人間の概念的知識は、きめ細かいものから粗いものまで階層的に構成されているが、モデル表現は、これらの抽象レベルをすべて正確に捉えているわけではない。 このミスアライメントに対処するために、まず、人間の判断を模倣するために教師モデルを訓練し、その表現から人間のような構造を事前訓練された最先端のビジョン基盤モデルに転送する。 これらのヒューマンアライメントモデルは、さまざまなレベルのセマンティック抽象化にまたがる人間の判断の新しいデータセットを含む、幅広い類似性タスクにおける人間の行動と不確実性をより正確に近似する。 さらに、さまざまな機械学習タスクのセットにおいて、より優れたパフォーマンスを実現し、一般化とアウト・オブ・ディストリビューションの堅牢性を高めます。 このように、人的知識を付加してニューラルネットワークを注入すると、人間の認識とより一貫性があり、実用的にも有用である最高の世界表現が得られるため、より堅牢で解釈可能で、人間に似た人工知能システムへの道が開ける。

Deep neural networks have achieved success across a wide range of applications, including as models of human behavior in vision tasks. However, neural network training and human learning differ in fundamental ways, and neural networks often fail to generalize as robustly as humans do, raising questions regarding the similarity of their underlying representations. What is missing for modern learning systems to exhibit more human-like behavior? We highlight a key misalignment between vision models and humans: whereas human conceptual knowledge is hierarchically organized from fine- to coarse-scale distinctions, model representations do not accurately capture all these levels of abstraction. To address this misalignment, we first train a teacher model to imitate human judgments, then transfer human-like structure from its representations into pretrained state-of-the-art vision foundation models. These human-aligned models more accurately approximate human behavior and uncertainty across a wide range of similarity tasks, including a new dataset of human judgments spanning multiple levels of semantic abstractions. They also perform better on a diverse set of machine learning tasks, increasing generalization and out-of-distribution robustness. Thus, infusing neural networks with additional human knowledge yields a best-of-both-worlds representation that is both more consistent with human cognition and more practically useful, thus paving the way toward more robust, interpretable, and human-like artificial intelligence systems.
翻訳日:2024-09-17 12:29:39 公開日:2024-09-16
# 条件付き発電機を用いた知識蒸留による整合性を考慮したプライバシ保護フェデレーション学習

Privacy-Preserving Federated Learning with Consistency via Knowledge Distillation Using Conditional Generator ( http://arxiv.org/abs/2409.06955v2 )

ライセンス: Link先を確認
Kangyang Luo, Shuai Wang, Xiang Li, Yunshi Lan, Ming Gao, Jinlong Shu, (参考訳) フェデレートラーニング(FL)は、モデルパラメータや勾配の更新のみを共有し、プライベートデータをローカルに保持する分散学習フレームワークとして人気を集めています。 しかし、FLはプライバシ推論攻撃によるプライバシー漏洩のリスクがある。 そして、FLの既存のプライバシ保護機構は、高いパフォーマンスと効率を達成するのと矛盾する。 そこで我々は,各クライアントのローカルモデルを特徴抽出器と分類器に分離し,特徴抽出器の代わりに条件生成器を用いてサーバ側モデルアグリゲーションを行う,高い競争性能と高レベルのプライバシ保護を備えた新しいFL手法であるFedMD-CGを提案する。 ローカルジェネレータと分類器の整合性を確保するため、FedMD-CGは知識蒸留を活用し、潜在特徴レベルとロジットレベルの両方でローカルモデルとジェネレータを訓練する。 また、クライアント側トレーニングを強化するために、新たな分類損失を構築し、新しい多様性損失を設計する。 FedMD-CGはデータの不均一性に対して堅牢であり、(cGANのような)追加の識別器の訓練を必要としない。 我々は、FedMD-CGの優位性を検証するために、様々な画像分類タスクについて広範な実験を行った。

Federated Learning (FL) is gaining popularity as a distributed learning framework that only shares model parameters or gradient updates and keeps private data locally. However, FL is at risk of privacy leakage caused by privacy inference attacks. And most existing privacy-preserving mechanisms in FL conflict with achieving high performance and efficiency. Therefore, we propose FedMD-CG, a novel FL method with highly competitive performance and high-level privacy preservation, which decouples each client's local model into a feature extractor and a classifier, and utilizes a conditional generator instead of the feature extractor to perform server-side model aggregation. To ensure the consistency of local generators and classifiers, FedMD-CG leverages knowledge distillation to train local models and generators at both the latent feature level and the logit level. Also, we construct additional classification losses and design new diversity losses to enhance client-side training. FedMD-CG is robust to data heterogeneity and does not require training extra discriminators (like cGAN). We conduct extensive experiments on various image classification tasks to validate the superiority of FedMD-CG.
翻訳日:2024-09-17 12:29:39 公開日:2024-09-16
# デモ: SGCode: セキュアなコード生成のためのフレキシブルなプロンプト最適化システム

Demo: SGCode: A Flexible Prompt-Optimizing System for Secure Generation of Code ( http://arxiv.org/abs/2409.07368v2 )

ライセンス: Link先を確認
Khiem Ton, Nhi Nguyen, Mahmoud Nazzal, Abdallah Khreishah, Cristian Borcea, NhatHai Phan, Ruoming Jin, Issa Khalil, Yelong Shen, (参考訳) 本稿では,大規模言語モデル(LLM)でセキュアなコードを生成するための,フレキシブルなプロンプト最適化システムであるSGCodeを紹介する。 SGCodeは、最近のプロンプト最適化アプローチを、フロントエンドとバックエンドAPIを通じてアクセス可能な統一システムでLLMと統合し、ユーザが利用できるようにしている。 1) 脆弱性のないセキュアなコードを生成する。 2【セキュリティ分析の見直し及び共有】 3) モデルとシステムのパフォーマンスに関する洞察を提供しながら、迅速な最適化アプローチから別のアプローチに簡単に切り替えることができます。 これは、LLMとセキュリティツールを軽量な生成逆グラフニューラルネットワークと組み合わせて、生成されたコードのセキュリティ脆弱性を検出し、修正することで、プロンプトを最適化するアプローチです。 大規模な実験によると、SGCodeは、モデルユーティリティ、セキュアなコード生成、システムコストの間のトレードオフに関する洞察を得るために、公開ツールとして実用的である。 SGCode は LLM のプロンプトに比べて限界的なコストしかかからない。 SGCode は http://3.131.141.63:8501/ で利用可能である。

This paper introduces SGCode, a flexible prompt-optimizing system to generate secure code with large language models (LLMs). SGCode integrates recent prompt-optimization approaches with LLMs in a unified system accessible through front-end and back-end APIs, enabling users to 1) generate secure code, which is free of vulnerabilities, 2) review and share security analysis, and 3) easily switch from one prompt optimization approach to another, while providing insights on model and system performance. We populated SGCode on an AWS server with PromSec, an approach that optimizes prompts by combining an LLM and security tools with a lightweight generative adversarial graph neural network to detect and fix security vulnerabilities in the generated code. Extensive experiments show that SGCode is practical as a public tool to gain insights into the trade-offs between model utility, secure code generation, and system cost. SGCode has only a marginal cost compared with prompting LLMs. SGCode is available at: http://3.131.141.63:8501/.
翻訳日:2024-09-17 12:29:39 公開日:2024-09-16
# オフラインRLのアクターに対するディープラーニング正規化の役割

The Role of Deep Learning Regularizations on Actors in Offline RL ( http://arxiv.org/abs/2409.07606v2 )

ライセンス: Link先を確認
Denis Tarasov, Anja Surina, Caglar Gulcehre, (参考訳) ドロップアウト、レイヤー正規化、ウェイト崩壊といったディープラーニング正規化技術は、現代の人工知能ニューラルネットワークの構築において広く採用されており、多くの場合、より堅牢なトレーニングプロセスと一般化能力の向上をもたらす。 しかし、強化学習(Reinforcement Learning, RL)の分野では、これらの手法の適用は制限されており、通常は値関数推定器に適用され、有害な効果をもたらす可能性がある。 この問題はオフラインのRL設定でさらに顕著で、教師あり学習と似ているが、あまり注目されていない。 連続オフラインRLにおける最近の研究は、十分に強力な批評家ネットワークを構築することができる一方で、アクターネットワークの一般化はボトルネックのままであることを示した。 本研究では、2つのアルゴリズムと3つの異なる連続D4RLドメインに対して、オフラインRLアクター批判アルゴリズムにおけるアクターネットワークに標準正規化手法を適用することにより、平均6%の改善が得られることを実証的に示す。

Deep learning regularization techniques, such as dropout, layer normalization, or weight decay, are widely adopted in the construction of modern artificial neural networks, often resulting in more robust training processes and improved generalization capabilities. However, in the domain of Reinforcement Learning (RL), the application of these techniques has been limited, usually applied to value function estimators, and may result in detrimental effects. This issue is even more pronounced in offline RL settings, which bear greater similarity to supervised learning but have received less attention. Recent work in continuous offline RL has demonstrated that while we can build sufficiently powerful critic networks, the generalization of actor networks remains a bottleneck. In this study, we empirically show that applying standard regularization techniques to actor networks in offline RL actor-critic algorithms yields improvements of 6% on average across two algorithms and three different continuous D4RL domains.
翻訳日:2024-09-17 12:29:39 公開日:2024-09-16
# DFDG: ワンショットフェデレーション学習のためのデータフリーデュアルジェネレータ逆変換

DFDG: Data-Free Dual-Generator Adversarial Distillation for One-Shot Federated Learning ( http://arxiv.org/abs/2409.07734v2 )

ライセンス: Link先を確認
Kangyang Luo, Shuai Wang, Yexuan Fu, Renrong Shao, Xiang Li, Yunshi Lan, Ming Gao, Jinlong Shu, (参考訳) Federated Learning(FL)は、クライアントがプライベートデータセットではなくモデル情報を共有することで、グローバルモデルの協調トレーニングに共同で参加する分散機械学習スキームである。 コミュニケーションとプライバシに関する懸念から、単一のコミュニケーションラウンドを持つワンショットFLは、事実上有望なソリューションとして現れました。 しかし、既存のワンショットFL手法では、パブリックデータセット、同質な設定のモデル、あるいはローカルモデルから限られた知識を抽出する必要があるため、堅牢なグローバルモデルをトレーニングすることは困難または不可能である。 これらの制約に対処するため、単発FLのための新しいデータフリー二重生成器対逆蒸留法(DFDG)を提案し、この方法により、より広い局所モデルのトレーニング空間を2重生成器の訓練により探索することができる。 DFDGは対角的に実行され、二重生成子訓練と二重モデル蒸留の2つの部分から構成される。 デュアルジェネレータのトレーニングでは,各ジェネレータの忠実度,伝達性,多様性について検討し,両ジェネレータの出力空間の重なりを小さくするため,クロスディバージェンス損失を調整する。 二重モデル蒸留では、訓練された二重生成器が協力して、グローバルモデルの更新のためのトレーニングデータを提供する。 最後に,様々な画像分類タスクについて広範な実験を行ったところ,DFDGはSOTAベースラインに比べて精度が著しく向上していることがわかった。

Federated Learning (FL) is a distributed machine learning scheme in which clients jointly participate in the collaborative training of a global model by sharing model information rather than their private datasets. In light of concerns associated with communication and privacy, one-shot FL with a single communication round has emerged as a de facto promising solution. However, existing one-shot FL methods either require public datasets, focus on model homogeneous settings, or distill limited knowledge from local models, making it difficult or even impractical to train a robust global model. To address these limitations, we propose a new data-free dual-generator adversarial distillation method (namely DFDG) for one-shot FL, which can explore a broader local models' training space via training dual generators. DFDG is executed in an adversarial manner and comprises two parts: dual-generator training and dual-model distillation. In dual-generator training, we delve into each generator concerning fidelity, transferability and diversity to ensure its utility, and additionally tailor the cross-divergence loss to lessen the overlap of dual generators' output spaces. In dual-model distillation, the trained dual generators work together to provide the training data for updates of the global model. At last, our extensive experiments on various image classification tasks show that DFDG achieves significant performance gains in accuracy compared to SOTA baselines.
翻訳日:2024-09-17 12:29:39 公開日:2024-09-16
# パーキンソン病検出のためのグラフニューラルネットワーク

Graph Neural Networks for Parkinsons Disease Detection ( http://arxiv.org/abs/2409.07884v3 )

ライセンス: Link先を確認
Shakeel A. Sheikh, Yacouba Kaloga, Md Sahidullah, Ina Kodrasi, (参考訳) パーキンソン病(PD)検出のための最先端のアプローチの有望な性能にもかかわらず、これらのアプローチはしばしば個別の音声セグメントを分離して分析し、最適な結果をもたらす。 PD患者から発せられる音声障害の特徴を特徴づける外科的手がかりは、異なる話者のセグメントにまたがって関連することが期待されている。 分離されたセグメント分析は、これらのセグメント間の関係を利用できない。 さらに, PD患者の全ての音声区間が明確な顎関節症状を呈する訳ではなく, ラベルノイズは, 現在のアプローチの性能と一般化性に悪影響を及ぼす可能性がある。 これらの課題に対処するために,グラフ畳み込みネットワーク(GCN)を利用した新しいPD検出フレームワークを提案する。 音声セグメントをノードとして表現し、エッジを介してセグメント間の類似性を捉えることにより、GCNモデルは、グラフ全体にわたる変形的手がかりの集約を容易にし、セグメント関係を効果的に活用し、ラベルノイズの影響を緩和する。 PD検出のための提案したGCNモデルの利点を実証し、その基盤となるメカニズムに関する洞察を提供する実験結果が得られた。

Despite the promising performance of state of the art approaches for Parkinsons Disease (PD) detection, these approaches often analyze individual speech segments in isolation, which can lead to suboptimal results. Dysarthric cues that characterize speech impairments from PD patients are expected to be related across segments from different speakers. Isolated segment analysis fails to exploit these inter segment relationships. Additionally, not all speech segments from PD patients exhibit clear dysarthric symptoms, introducing label noise that can negatively affect the performance and generalizability of current approaches. To address these challenges, we propose a novel PD detection framework utilizing Graph Convolutional Networks (GCNs). By representing speech segments as nodes and capturing the similarity between segments through edges, our GCN model facilitates the aggregation of dysarthric cues across the graph, effectively exploiting segment relationships and mitigating the impact of label noise. Experimental results demonstrate theadvantages of the proposed GCN model for PD detection and provide insights into its underlying mechanisms
翻訳日:2024-09-17 12:21:17 公開日:2024-09-16
# InterACT:双方向マニピュレーションのための階層型アテンショントランスを用いた相互依存型アクションチャンキング

InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation ( http://arxiv.org/abs/2409.07914v2 )

ライセンス: Link先を確認
Andrew Lee, Ian Chuang, Ling-Yuan Chen, Iman Soltani, (参考訳) 両腕関節状態と視覚入力の相互依存性を捉えるために階層的注意を組み込んだバイマチュラルな操作のための新しい模倣学習フレームワークである階層的注意変換を用いた相互依存認識型アクションチャンキングを提案する。 InterACTは階層型アテンションエンコーダとマルチアームデコーダで構成される。 エンコーダはセグメントワイドおよびクロスセグメントアテンション機構を通じてマルチモーダル入力を処理し、デコーダは同期ブロックを利用して個々のアクション予測を洗練し、相手の予測をコンテキストとして提供する。 シミュレーションおよび実世界の実世界の双方向操作タスクに関する実験は、InterACTが既存の手法よりも大幅に優れていることを示す。 詳細なアブレーション研究は、CLSトークン、クロスセグメントエンコーダ、同期ブロックの影響を含む、我々の研究の重要なコンポーネントの貢献を検証する。

We present InterACT: Inter-dependency aware Action Chunking with Hierarchical Attention Transformers, a novel imitation learning framework for bimanual manipulation that integrates hierarchical attention to capture inter-dependencies between dual-arm joint states and visual inputs. InterACT consists of a Hierarchical Attention Encoder and a Multi-arm Decoder, both designed to enhance information aggregation and coordination. The encoder processes multi-modal inputs through segment-wise and cross-segment attention mechanisms, while the decoder leverages synchronization blocks to refine individual action predictions, providing the counterpart's prediction as context. Our experiments on a variety of simulated and real-world bimanual manipulation tasks demonstrate that InterACT significantly outperforms existing methods. Detailed ablation studies validate the contributions of key components of our work, including the impact of CLS tokens, cross-segment encoders, and synchronization blocks.
翻訳日:2024-09-17 12:21:17 公開日:2024-09-16
# 重い喫煙者におけるrs-fMRIデータのグラフ構造学習

Graphical Structural Learning of rs-fMRI data in Heavy Smokers ( http://arxiv.org/abs/2409.08395v2 )

ライセンス: Link先を確認
Yiru Gong, Qimin Zhang, Huili Zheng, Zheyan Liu, Shaohan Chen, (参考訳) 最近の研究では、ヘビースモーカーの構造と機能的脳の変化が明らかになった。 しかし、トポロジカルな脳のつながりの具体的な変化はよく理解されていない。 喫煙者や喫煙者以外の者からのrs-fMRIデータに対するグラフラッソアルゴリズムを用いたガウス的非指向グラフを用いて、脳接続の顕著な変化を同定した。 以上の結果から, 推定値の安定性が高く, 喫煙の影響が大きい脳領域を同定し, 今後の臨床研究に有用な知見を提供することができた。

Recent studies revealed structural and functional brain changes in heavy smokers. However, the specific changes in topological brain connections are not well understood. We used Gaussian Undirected Graphs with the graphical lasso algorithm on rs-fMRI data from smokers and non-smokers to identify significant changes in brain connections. Our results indicate high stability in the estimated graphs and identify several brain regions significantly affected by smoking, providing valuable insights for future clinical research.
翻訳日:2024-09-17 12:21:17 公開日:2024-09-16
# 量子通信による消費データ

Consumable Data via Quantum Communication ( http://arxiv.org/abs/2409.08495v2 )

ライセンス: Link先を確認
Dar Gilboa, Siddhartha Jain, Jarrod McClean, (参考訳) 古典的なデータは、経済的およびデータプライバシの観点から、計算のためにコピーして再利用することができる。 これを動機として、Aliceが何らかのデータを保持し、Bobが$m$の入力を持ち、Aliceのデータと各入力に関する二部関係のインスタンスを$m$で計算したいという、一方的な通信複雑性の問題を定式化します。 これを一方向通信の非対称直和問題と呼ぶ。 このような問題の量子通信複雑性は$m$と多項式的にスケールするが、古典的な通信複雑性は、ほとんどの対数的に$m$に依存する。 これらの例では、所有者がそれを量子状態として保存し送信するとき、データは消費可能なリソースのように振る舞う。 戦略的データ販売ゲームへの応用を示し、他の潜在的な経済的影響について論じる。

Classical data can be copied and re-used for computation, with adverse consequences economically and in terms of data privacy. Motivated by this, we formulate problems in one-way communication complexity where Alice holds some data and Bob holds $m$ inputs, and he wants to compute $m$ instances of a bipartite relation on Alice's data and each of his inputs. We call this the asymmetric direct sum question for one-way communication. We give a number of examples where the quantum communication complexity of such problems scales polynomially with $m$, while the classical communication complexity depends at most logarithmically on $m$. For these examples, data behaves like a consumable resource when the owner stores and transmits it as quantum states. We show an application to a strategic data-selling game, and discuss other potential economic implications.
翻訳日:2024-09-17 12:21:17 公開日:2024-09-16
# Mamba-YOLO-World: オープン語彙検出のためのYoLO-WorldとMamba

Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection ( http://arxiv.org/abs/2409.08513v2 )

ライセンス: Link先を確認
Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang, (参考訳) Open-vocabulary Detection (OVD)は、事前に定義されたカテゴリのセットを越えてオブジェクトを検出することを目的としている。 YOLOシリーズをOVDに取り入れた先駆的なモデルとして、YOLO-Worldはスピードと効率を優先するシナリオに適している。 しかし、その性能は首の特徴融合機構によって妨げられ、これは二次的な複雑さと限定的な誘導受容野を引き起こす。 これらの制約に対処するために,提案するMambaFusion Path Aggregation Network(MambaFusion-PAN)をネックアーキテクチャとして用いた,YOLOベースの新しいOVDモデルであるMamba-YOLO-Worldを紹介する。 具体的には,Parallel-Guided Selective ScanアルゴリズムとSerial-Guided Selective Scanアルゴリズムと,線形複雑度と世界規模で誘導される受容場からなる,革新的な状態空間モデルに基づく特徴融合機構を導入する。 マルチモーダルな入力シーケンスとmamba隠された状態を利用して選択的スキャンプロセスを導出する。 実験により,本モデルはCOCOおよびLVISベンチマークにおいて,比較パラメータとFLOPを維持しつつ,ゼロショットおよび微調整設定の両方において,元のYOLO-Worldよりも優れた性能を示した。 さらに、パラメータやFLOPが少なく、既存の最先端のOVDメソッドを超越している。

Open-vocabulary detection (OVD) aims to detect objects beyond a predefined set of categories. As a pioneering model incorporating the YOLO series into OVD, YOLO-World is well-suited for scenarios prioritizing speed and efficiency. However, its performance is hindered by its neck feature fusion mechanism, which causes the quadratic complexity and the limited guided receptive fields. To address these limitations, we present Mamba-YOLO-World, a novel YOLO-based OVD model employing the proposed MambaFusion Path Aggregation Network (MambaFusion-PAN) as its neck architecture. Specifically, we introduce an innovative State Space Model-based feature fusion mechanism consisting of a Parallel-Guided Selective Scan algorithm and a Serial-Guided Selective Scan algorithm with linear complexity and globally guided receptive fields. It leverages multi-modal input sequences and mamba hidden states to guide the selective scanning process. Experiments demonstrate that our model outperforms the original YOLO-World on the COCO and LVIS benchmarks in both zero-shot and fine-tuning settings while maintaining comparable parameters and FLOPs. Additionally, it surpasses existing state-of-the-art OVD methods with fewer parameters and FLOPs.
翻訳日:2024-09-17 12:21:17 公開日:2024-09-16
# Eir: タイの医療用大規模言語モデル

Eir: Thai Medical Large Language Models ( http://arxiv.org/abs/2409.08523v2 )

ライセンス: Link先を確認
Yutthakorn Thiprak, Rungtam Ngodngamthaweesuk, Songtam Ngodngamtaweesuk, (参考訳) 本稿では,80億のパラメータを持つ大規模言語モデルであるEir-8Bについて述べる。 このモデルは、医療専門家と患者の両方に明確で分かりやすい回答を提供することに焦点を当て、診断と治療プロセスの効率を向上させる。 人間の評価は、モデルがケア標準に準拠し、偏見のない回答を提供することを保証するために行われた。 データセキュリティを優先するために、このモデルは病院の内部ネットワークにデプロイされ、高いセキュリティと高速な処理速度が保証される。 内部API接続は暗号化と厳格な認証手段で保護されており、データ漏洩や不正アクセスを防止する。 MedQA, MedMCQA, PubMedQA, そしてMMLUの医療サブセットである。 最高の性能のベースラインはEir-8Bの開発に使用された。 評価では,ゼロショット,少数ショット,チェーンオブ思考推論,アンサンブル/自己整合性投票法など,複数の質問戦略を採用した。 我々のモデルは、タイ語で利用可能な大言語モデルを10%以上上回りました。 さらに, タイにおける臨床使用に適した改良型モデルテストを開発し, GPT-4o の成績を11%以上上回った。

We present Eir-8B, a large language model with 8 billion parameters, specifically designed to enhance the accuracy of handling medical tasks in the Thai language. This model focuses on providing clear and easy-to-understand answers for both healthcare professionals and patients, thereby improving the efficiency of diagnosis and treatment processes. Human evaluation was conducted to ensure that the model adheres to care standards and provides unbiased answers. To prioritize data security, the model is deployed within the hospital's internal network, ensuring both high security and faster processing speeds. The internal API connection is secured with encryption and strict authentication measures to prevent data leaks and unauthorized access. We evaluated several open-source large language models with 8 billion parameters on four medical benchmarks: MedQA, MedMCQA, PubMedQA, and the medical subset of MMLU. The best-performing baselines were used to develop Eir-8B. Our evaluation employed multiple questioning strategies, including zero-shot, few-shot, chain-of-thought reasoning, and ensemble/self-consistency voting methods. Our model outperformed commercially available Thai-language large language models by more than 10%. In addition, we developed enhanced model testing tailored for clinical use in Thai across 18 clinical tasks, where our model exceeded GPT-4o performance by more than 11%.
翻訳日:2024-09-17 12:21:17 公開日:2024-09-16
# 規則に基づく変数優先度によるモデル独立変数選択

Model-independent variable selection via the rule-based variable priority ( http://arxiv.org/abs/2409.09003v2 )

ライセンス: Link先を確認
Min Lu, Hemant Ishwaran, (参考訳) 高い予測精度を達成することが機械学習の基本的な目標であるが、同様に重要なタスクは、説明力の高い少数の機能を見つけることである。 これは、変数の置換後の予測誤差の変化を測定することで、変数の影響を評価するものである。 しかし、これは、他の方法によって共有される問題である人工データを作成する必要があるため、問題となる可能性がある。 もう1つの問題は、変数選択法がモデル固有性によって制限されることである。 モデルに依存しない新たなアプローチである可変優先度(VarPro)を導入し,人工データの生成や予測誤差の評価を必要とせずにルールを活用する。 この手法は比較的使いやすく、単純な統計値のサンプル平均の計算しか必要とせず、回帰、分類、生存を含む多くのデータ設定に適用できる。 本稿では、VarProの漸近特性について検討し、VarProがノイズ変数に対して一貫したフィルタリング特性を有することを示す。 合成および実世界のデータを用いた実証研究は、この手法がバランスの取れた性能を達成し、可変選択に現在使われている多くの最先端の手順と好意的に比較していることを示している。

While achieving high prediction accuracy is a fundamental goal in machine learning, an equally important task is finding a small number of features with high explanatory power. One popular selection technique is permutation importance, which assesses a variable's impact by measuring the change in prediction error after permuting the variable. However, this can be problematic due to the need to create artificial data, a problem shared by other methods as well. Another problem is that variable selection methods can be limited by being model-specific. We introduce a new model-independent approach, Variable Priority (VarPro), which works by utilizing rules without the need to generate artificial data or evaluate prediction error. The method is relatively easy to use, requiring only the calculation of sample averages of simple statistics, and can be applied to many data settings, including regression, classification, and survival. We investigate the asymptotic properties of VarPro and show, among other things, that VarPro has a consistent filtering property for noise variables. Empirical studies using synthetic and real-world data show the method achieves a balanced performance and compares favorably to many state-of-the-art procedures currently used for variable selection.
翻訳日:2024-09-17 12:21:17 公開日:2024-09-16