このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240417となっている論文です。

PDF登録状況(公開日: 20240417)

TitleAuthorsAbstract論文公表日・翻訳日
# 産業用炭素排出削減のためのサプライチェーンネットワーク最適化の効率的な方法

Efficient Strategies on Supply Chain Network Optimization for Industrial Carbon Emission Reduction ( http://arxiv.org/abs/2404.16863v1 )

ライセンス: Link先を確認
Jihu Lei, (参考訳) 本研究では, 産業用炭素排出量削減を目的としたサプライチェーンネットワーク最適化の効率化戦略について検討した。 地球温暖化への懸念が高まっている中、産業セクターはサプライチェーンネットワークの負の環境影響に対処するために動機付けられている。 本稿では,これらのネットワークを戦略的アプローチで最適化する新たな枠組みを提案する。 本稿では, リアルタイムの炭素排出量データを活用したアダプティブカーボン排出量指数(ACEI)を導入し, サプライチェーン運用における即時調整を行う。 この適応性は、環境規制の進化、市場の動向の変動、新興技術進歩を示唆している。 実証的な検証は、様々な産業分野における戦略の有効性を示し、二酸化炭素排出量の大幅な削減と運用効率の向上を示唆している。 この方法はまた、突然の破壊と危機に直面したレジリエンスを証明し、その頑丈さを反映している。

This study investigates the efficient strategies for supply chain network optimization, specifically aimed at reducing industrial carbon emissions. Amidst escalating concerns about global climate change, industry sectors are motivated to counteract the negative environmental implications of their supply chain networks. This paper introduces a novel framework for optimizing these networks via strategic approaches which lead to a definitive decrease in carbon emissions. We introduce Adaptive Carbon Emissions Indexing (ACEI), utilizing real-time carbon emissions data to drive instantaneous adjustments in supply chain operations. This adaptability predicates on evolving environmental regulations, fluctuating market trends and emerging technological advancements. The empirical validations demonstrate our strategy's effectiveness in various industrial sectors, indicating a significant reduction in carbon emissions and an increase in operational efficiency. This method also evidences resilience in the face of sudden disruptions and crises, reflecting its robustness.
翻訳日:2024-05-05 18:14:01 公開日:2024-04-17
# 格子型暗号を用いたスマートグリッドのプライバシ保護技術の改善

Improving Privacy-Preserving Techniques for Smart Grid using Lattice-based Cryptography ( http://arxiv.org/abs/2404.16865v1 )

ライセンス: Link先を確認
Saleh Darzi, Bahareh Akhbari, Hassan Khodaiemehr, (参考訳) 通信と情報技術の進歩はスマートグリッドを生み出し、エネルギーとデータ伝送を最適化した。 しかし、ユーザーのプライバシーは頻繁に収集されるデータのために危険にさらされている。 既存のプライバシスキームは、量子マシンによる脆弱性に直面している。 これを解決するために、格子ベースの暗号化とシグネチャを利用してセキュアなデータアグリゲーションを行うLPM2DAスキームが導入された。 プライバシー、完全性、認証を保証し、ユーザのプライバシーを維持しながら統計分析を可能にする。 従来のアグリゲーションスキームは、弱いネットワークモデルと集中化の問題に悩まされている。 SPDBlockはブロックチェーンベースのソリューションで、プライバシ、完全性、攻撃に対する耐性を保証する。 多次元データ送信を効率的に処理しながら、悪意のあるエンティティを検出し、訴追する。 分散復号化と秘密共有によって、スマートメーターからの最小限の関与で有効なデータのみを復号化することができる。 性能テストにより、SPDBlockは従来のスキームよりも通信と計算効率が優れていることが明らかになった。

Advancements in communication and information tech birthed the Smart Grid, optimizing energy and data transmission. Yet, user privacy is at risk due to frequent data collection. Existing privacy schemes face vulnerability with quantum machines. To tackle this, the LPM2DA scheme is introduced, utilizing lattice-based encryption and signatures for secure data aggregation. It ensures privacy, integrity, and authentication, enabling statistical analysis while preserving user privacy. Traditional aggregation schemes suffer from weak network models and centralization issues. Enter SPDBlock, a blockchain-based solution ensuring privacy, integrity, and resistance to attacks. It detects and prosecutes malicious entities while efficiently handling multi-dimensional data transmission. Through distributed decryption and secret sharing, only valid data can be decrypted with minimal involvement from smart meters. Performance tests reveal SPDBlock's superiority in communication and computational efficiency over traditional schemes.
翻訳日:2024-05-05 18:14:01 公開日:2024-04-17
# パラメータ依存型学習テンソルネットワークによるFourierベースのオプション価格設定

Learning tensor networks with parameter dependence for Fourier-based option pricing ( http://arxiv.org/abs/2405.00701v1 )

ライセンス: Link先を確認
Rihito Sakurai, Haruto Takahashi, Koichi Miyamoto, (参考訳) 数学ファイナンスにおける長年の問題として、価格オプションのスピードアップ、特にマルチアセットオプションがあげられる。 最近の研究では、テンソルネットワークの高次元テンソル圧縮能力を活用して、テンソルトレイン学習アルゴリズムを用いてフーリエ変換(FT)に基づくオプション価格の高速化が提案されている。 テンソルネットワークのもう1つの用途は、パラメータ依存を含む関数を圧縮することである。 そこで本研究では,FTベースのオプション価格に現れる関数をパラメータ依存で近似したテンソルトレインを構築し,入力パラメータのオプション価格を効率的に算出する,テンソル学習アルゴリズムを提案する。 ベンチマークテストとして,様々な揮発性の値と現在の資産価格に対するマルチアセットオプションの価格設定を行う。 提案手法は, 最大10個の資産を含む試験ケースにおいて, モンテカルロシミュレーションを計算複雑性の観点から10^5$パスで比較し, 精度を同等に保った。

A long-standing issue in mathematical finance is the speed-up of pricing options, especially multi-asset options. A recent study has proposed to use tensor train learning algorithms to speed up Fourier transform (FT)-based option pricing, utilizing the ability of tensor networks to compress high-dimensional tensors. Another usage of the tensor network is to compress functions, including their parameter dependence. In this study, we propose a pricing method, where, by a tensor learning algorithm, we build tensor trains that approximate functions appearing in FT-based option pricing with their parameter dependence and efficiently calculate the option price for the varying input parameters. As a benchmark test, we run the proposed method to price a multi-asset option for the various values of volatilities and present asset prices. We show that, in the tested cases involving up to about 10 assets, the proposed method is comparable to or outperforms Monte Carlo simulation with $10^5$ paths in terms of computational complexity, keeping the comparable accuracy.
翻訳日:2024-05-05 17:54:32 公開日:2024-04-17
# 深部メタ学習を用いたEMGによる手指ジェスチャー認識のロバスト化

Towards Robust and Interpretable EMG-based Hand Gesture Recognition using Deep Metric Meta Learning ( http://arxiv.org/abs/2404.15360v1 )

ライセンス: Link先を確認
Simon Tam, Shriram Tallam Puranam Raghu, Étienne Buteau, Erik Scheme, Mounir Boukadoum, Alexandre Campeau-Lecours, Benoit Gosselin, (参考訳) 現在のEMG(EMG)パターン認識(PR)モデルでは、制約のない環境での一般化が不十分であることが示されており、手の動き制御などの応用において採用が後退している。 この問題は、そのような設定で最適でないことが知られている教師付き分類フレームワークの使用によって悪化する、限られたトレーニングデータによることが多い。 本研究では,EMG PRにおける深層計量に基づくメタラーニングへのシフトを提案し,意味的かつ解釈可能な表現の作成を監督する。 我々は,SDCNN(Siamese Deep Convolutional Neural Network)とコントラスト三重項損失を用いて,異なるクラスの分布をキャプチャするEMG特徴埋め込み空間を学習する。 その後、テストサンプルが確立したデータ分布とどの程度密接に一致しているかに依存して、最も近いセントロイドアプローチが推論に使用される。 我々は、特にトレーニングデータ領域を超えて運用する場合に、不適切な判断、すなわち偽陽性をよりよく拒否する、堅牢なクラス近接ベースの信頼度推定器を導出する。 トレーニング領域内と外の両方で、トレーニング済みのSDCNNの予測と信頼度を未確認データ上で検証することにより、アプローチの有効性を示す。 評価指標は、精度回帰曲線と、正確な予測と不正確な予測の信頼性分布の間のクルバック・リーバーの偏差を含む。 両指標において比較モデルの性能を向上し,提案したメタラーニング手法により,(拒絶後の)アクティブ決定における分類器の精度が向上し,一般化と適用性が向上することを示した。

Current electromyography (EMG) pattern recognition (PR) models have been shown to generalize poorly in unconstrained environments, setting back their adoption in applications such as hand gesture control. This problem is often due to limited training data, exacerbated by the use of supervised classification frameworks that are known to be suboptimal in such settings. In this work, we propose a shift to deep metric-based meta-learning in EMG PR to supervise the creation of meaningful and interpretable representations. We use a Siamese Deep Convolutional Neural Network (SDCNN) and contrastive triplet loss to learn an EMG feature embedding space that captures the distribution of the different classes. A nearest-centroid approach is subsequently employed for inference, relying on how closely a test sample aligns with the established data distributions. We derive a robust class proximity-based confidence estimator that leads to a better rejection of incorrect decisions, i.e. false positives, especially when operating beyond the training data domain. We show our approach's efficacy by testing the trained SDCNN's predictions and confidence estimations on unseen data, both in and out of the training domain. The evaluation metrics include the accuracy-rejection curve and the Kullback-Leibler divergence between the confidence distributions of accurate and inaccurate predictions. Outperforming comparable models on both metrics, our results demonstrate that the proposed meta-learning approach improves the classifier's precision in active decisions (after rejection), thus leading to better generalization and applicability.
翻訳日:2024-04-28 10:36:53 公開日:2024-04-17
# SuRe: LLMのオープンドメインQAに対する回答候補を用いた検索の要約

SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs ( http://arxiv.org/abs/2404.13081v1 )

ライセンス: Link先を確認
Jaehyung Kim, Jaehyun Nam, Sangwoo Mo, Jongjin Park, Sang-Woo Lee, Minjoon Seo, Jung-Woo Ha, Jinwoo Shin, (参考訳) 大規模言語モデル(LLM)は、質問応答(QA)タスクを含む様々な自然言語処理タスクにおいて大きな進歩を遂げている。 関連パスの検索に新たな情報を導入することは、LLMによるQAを改善するための有望な方法であるが、既存の手法では、最近のLLMでは不可能となる追加の微調整が必要となることが多い。 抽出された経路をプロンプトによって拡張することは、この制限に対処する可能性があるが、この方向は限定的に検討されている。 この目的のために我々は,要約検索(SuRe)に基づいて,オープンドメインQA(ODQA)をLLMで拡張する,シンプルで効果的なフレームワークを設計する。 SuRe は LLM が与えられた質問に対してより正確な答えを予測するのに役立つ。 具体的には、SuReはまず、複数の回答候補のそれぞれに対して、検索したパスの要約を構築する。 次に、SuReは、生成した要約の妥当性とランキングを評価することにより、設定した候補から最も妥当な回答を確認する。 様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。 SuReは広い範囲の検索方法やLLMと統合することもできる。 最後に、SuReから生成された要約は、検索された通路の重要性を計測し、モデルや人間によるより好ましい論理として機能する追加の利点を示している。

Large language models (LLMs) have made significant advancements in various natural language processing tasks, including question answering (QA) tasks. While incorporating new information with the retrieval of relevant passages is a promising way to improve QA with LLMs, the existing methods often require additional fine-tuning which becomes infeasible with recent LLMs. Augmenting retrieved passages via prompting has the potential to address this limitation, but this direction has been limitedly explored. To this end, we design a simple yet effective framework to enhance open-domain QA (ODQA) with LLMs, based on the summarized retrieval (SuRe). SuRe helps LLMs predict more accurate answers for a given question, which are well-supported by the summarized retrieval that could be viewed as an explicit rationale extracted from the retrieved passages. Specifically, SuRe first constructs summaries of the retrieved passages for each of the multiple answer candidates. Then, SuRe confirms the most plausible answer from the candidate set by evaluating the validity and ranking of the generated summaries. Experimental results on diverse ODQA benchmarks demonstrate the superiority of SuRe, with improvements of up to 4.6% in exact match (EM) and 4.0% in F1 score over standard prompting approaches. SuRe also can be integrated with a broad range of retrieval methods and LLMs. Finally, the generated summaries from SuRe show additional advantages to measure the importance of retrieved passages and serve as more preferred rationales by models and humans.
翻訳日:2024-04-23 20:28:09 公開日:2024-04-17
# TREACLE: 文脈認識LDMとプロンプト選択による遠心推論

TREACLE: Thrifty Reasoning via Context-Aware LLM and Prompt Selection ( http://arxiv.org/abs/2404.13082v1 )

ライセンス: Link先を確認
Xuechen Zhang, Zijian Huang, Ege Onur Taga, Carlee Joe-Wong, Samet Oymak, Jiasi Chen, (参考訳) 近年の自然言語処理の成功は、複数のプロバイダによる大規模言語モデル(LLM)の増大につながっている。 それぞれのLSM提供物は推論精度、金銭的コスト、レイテンシが異なり、その正確さは質問の正確な単語(すなわち特定のプロンプト)に依存する。 同時に、ユーザはすべての質問に答えるために金銭的な予算とレイテンシに制限があることが多く、どのLSMがそれぞれの質問を選択して、正確で長期的な予算要件を満たすかを知らない。 このリッチなデザイン空間をナビゲートするために,ユーザの金銭的コストと遅延制約を尊重しながらモデルを共同で選択・促進する強化学習政策であるTREACLE(Thrifty Reasoning via Context-Aware LLM and Prompt Selection)を提案する。 TREACLEは、質問テキストの埋め込み(クエリのタイプや難易度を反映する)や応答履歴(以前のレスポンスの一貫性を反映する)などの問題コンテキストを使用して、スマートな判断を行う。 各種LCMを用いた標準推論データセット(GSM8K, CSQA, LLC)について評価した結果, TREACLEは高い精度を維持しつつ, ベースラインに比べて最大85%のコスト削減が可能であることが示唆された。 重要なのは、ユーザに対して、コストの正確さを優雅にトレードオフする機能を提供することだ。

Recent successes in natural language processing have led to the proliferation of large language models (LLMs) by multiple providers. Each LLM offering has different inference accuracy, monetary cost, and latency, and their accuracy further depends on the exact wording of the question (i.e., the specific prompt). At the same time, users often have a limit on monetary budget and latency to answer all their questions, and they do not know which LLMs to choose for each question to meet their accuracy and long-term budget requirements. To navigate this rich design space, we propose TREACLE (Thrifty Reasoning via Context-Aware LLM and Prompt Selection), a reinforcement learning policy that jointly selects the model and prompting scheme while respecting the user's monetary cost and latency constraints. TREACLE uses the problem context, including question text embeddings (reflecting the type or difficulty of a query) and the response history (reflecting the consistency of previous responses) to make smart decisions. Our evaluations on standard reasoning datasets (GSM8K, CSQA, and LLC ) with various LLMs and prompts show that TREACLE enables cost savings of up to 85% compared to baselines while maintaining high accuracy. Importantly, it provides the user with the ability to gracefully trade off accuracy for cost.
翻訳日:2024-04-23 20:28:09 公開日:2024-04-17
# Demystifying Legalese:プライバシポリシとサービス条件のオーバーラップを要約し分析するための自動化アプローチ

Demystifying Legalese: An Automated Approach for Summarizing and Analyzing Overlaps in Privacy Policies and Terms of Service ( http://arxiv.org/abs/2404.13087v1 )

ライセンス: Link先を確認
Shikha Soneji, Mitchell Hoesing, Sujay Koujalgi, Jonathan Dodge, (参考訳) 法律の用語や政策文書の複雑さは、完全に理解されていない契約に個人を縛り付けることができ、おそらくは非情報共有につながる。 本研究は,このような文書に自動でアクセス可能な要約とスコアを提供する言語モデルを開発し,ユーザの理解を深め,情報的意思決定を促進することを目的としている。 我々はデータセットのトレーニング中にトランスフォーマーベースのモデルと従来のモデルを比較し、RoBERTaは0.74F1スコアで全体的なパフォーマンスを改善した。 最高のパフォーマンスモデルであるRoBERTaを活用して、GDPRが要求するドキュメントの重複を特定し、より厳格なGDPRコンプライアンスの必要性を強調することで、冗長性と潜在的ガイドライン違反を強調しました。

The complexities of legalese in terms and policy documents can bind individuals to contracts they do not fully comprehend, potentially leading to uninformed data sharing. Our work seeks to alleviate this issue by developing language models that provide automated, accessible summaries and scores for such documents, aiming to enhance user understanding and facilitate informed decisions. We compared transformer-based and conventional models during training on our dataset, and RoBERTa performed better overall with a remarkable 0.74 F1-score. Leveraging our best-performing model, RoBERTa, we highlighted redundancies and potential guideline violations by identifying overlaps in GDPR-required documents, underscoring the necessity for stricter GDPR compliance.
翻訳日:2024-04-23 20:28:09 公開日:2024-04-17
# マイクロカノニカル集団熱処理法によるBlume-Capelモデル解析

Blume-Capel model analysis with microcanonical population annealing method ( http://arxiv.org/abs/2402.18985v3 )

ライセンス: Link先を確認
Vyacheslav Mozolenko, Lev Shchur, (参考訳) Rose-Machta アルゴリズム (Phys) の修正を提案する。 E100 (2019) 063304) と2次元のBlume-Capelモデルの状態密度を推定し、パラメータセットごとに10^5$のレプリカを並列にシミュレーションする。 我々は,比熱とバインダー累積量の有限サイズ解析を行い,臨界線に沿った臨界温度を決定し,臨界指数を評価する。 得られた結果は、マルコフ・チェイン・モンテカルロシミュレーション、ワン・ランダウシミュレーション、転送行列、および系列展開など、これまで様々な方法で得られたものとよく一致している。 シミュレーションの結果は、臨界線に沿って三臨界点を通る特定の熱の典型的な挙動を明らかに示している。

We present a modification of the Rose-Machta algorithm (Phys. Rev. E 100 (2019) 063304) and estimate the density of states for a two-dimensional Blume-Capel model, simulating $10^5$ replicas in parallel for each set of parameters. We perform a finite-size analysis of the specific heat and Binder cumulant, determine the critical temperature along the critical line, and evaluate the critical exponents. The results obtained are in good agreement with those obtained previously using various methods -- Markov Chain Monte Carlo simulation, Wang-Landau simulation, transfer matrix, and series expansion. The simulation results clearly illustrate the typical behavior of specific heat along the critical lines and through the tricritical point.
翻訳日:2024-04-22 19:28:01 公開日:2024-04-17
# 複合型USB顕微鏡を用いた土壌画像, 補助変数, 可搬型蛍光X線分析による土壌収量予測

Soil Fertility Prediction Using Combined USB-microscope Based Soil Image, Auxiliary Variables, and Portable X-Ray Fluorescence Spectrometry ( http://arxiv.org/abs/2404.12415v1 )

ライセンス: Link先を確認
Shubhadip Dasgupta, Satwik Pate, Divya Rathore, L. G. Divyanth, Ayan Das, Anshuman Nayak, Subhadip Dey, Asim Biswas, David C. Weindorf, Bin Li, Sergio Henrique Godinho Silva, Bruno Teixeira Ribeiro, Sanjay Srivastava, Somsubhra Chakraborty, (参考訳) 本研究では, 可溶性B, 有機炭素 (OC), Mn, 可溶性S, 硫黄利用率 (SAI) などの臨界パラメータに着目し, 可溶性X線分析および土壌画像解析による土壌肥厚の迅速評価を行った。 インド東部のアグロ・気候帯から採取した1,133個の土壌サンプルを解析し、Random Forestモデルを用いて、顕微鏡的土壌画像、PXRFデータ、補助的な土壌変数(AV)から色とテクスチャを合成した。 その結果,補助変数 (AV) と画像特徴 (IF) を統合することにより, 利用可能なB (R^2 = 0.80) とOC (R^2 = 0.88) の予測精度が有意に向上した。 IFs,AVs,PXRFデータを併用したデータ融合手法により,それぞれ0.72と0.70のR^2値で利用可能なMnとSAIの予測をさらに改善した。 この研究は、これらの統合技術が土壌試験の迅速で手頃な選択肢を提供し、より洗練された予測モデルにアクセスし、土壌の豊かさと健康をよりよく理解する可能性があることを実証した。 今後の研究は、フィールド条件下で広範囲の農業気候帯の土壌を用いて開発された、より大規模な土壌画像のデータセットにディープラーニングモデルを適用することに焦点を当てるべきである。

This study explored the application of portable X-ray fluorescence (PXRF) spectrometry and soil image analysis to rapidly assess soil fertility, focusing on critical parameters such as available B, organic carbon (OC), available Mn, available S, and the sulfur availability index (SAI). Analyzing 1,133 soil samples from various agro-climatic zones in Eastern India, the research combined color and texture features from microscopic soil images, PXRF data, and auxiliary soil variables (AVs) using a Random Forest model. Results indicated that integrating image features (IFs) with auxiliary variables (AVs) significantly enhanced prediction accuracy for available B (R^2 = 0.80) and OC (R^2 = 0.88). A data fusion approach, incorporating IFs, AVs, and PXRF data, further improved predictions for available Mn and SAI with R^2 values of 0.72 and 0.70, respectively. The study demonstrated how these integrated technologies have the potential to provide quick and affordable options for soil testing, opening up access to more sophisticated prediction models and a better comprehension of the fertility and health of the soil. Future research should focus on the application of deep learning models on a larger dataset of soil images, developed using soils from a broader range of agro-climatic zones under field condition.
翻訳日:2024-04-22 17:04:06 公開日:2024-04-17
# ソーシャルメディアストリーム上での簡易かつ効果的な早期抑うつ検出のためのテキスト分類フレームワーク

A Text Classification Framework for Simple and Effective Early Depression Detection Over Social Media Streams ( http://arxiv.org/abs/1905.08772v2 )

ライセンス: Link先を確認
Sergio G. Burdisso, Marcelo Errecalde, Manuel Montes-y-Gómez, (参考訳) インターネットの普及に伴い、早期うつ病検出、早期噂検出、性的捕食者の識別など、ソーシャルメディア上の早期リスク検出(ERD)問題に効率的に対処できるインテリジェントシステムを構築する必要性が高まっている。 これらのシステムは、今日では主に機械学習技術に基づいており、ユーザが時間の経過とともにデータを提供するため、データストリームに対処できなければならない。 さらに、これらのシステムは、処理されたデータが実際にユーザを分類するのに十分なタイミングで決定できなければならない。 さらに、ERDタスクは、人々の生活に影響を及ぼす可能性のあるリスクの高い決定を含むため、そのようなシステムは、彼らの決定を正当化することも可能でなければならない。 しかし、ほとんどの標準および最先端の教師付き機械学習モデルは、このシナリオを扱うのに適していない。 これは、ブラックボックスとして機能するか、段階的な分類/学習をサポートしていないためである。 本稿では,これらの側面を自然に支援するテキスト分類のための新しい教師付き学習モデルであるSS3を紹介する。 SS3はEDR問題に対処するための一般的なフレームワークとして使用されるように設計されている。 CLEFのeRisk2017パイロットタスクの早期うつ病検出におけるモデルの評価を行った。 このコンペティションに提出された30のコントリビューションのほとんどは、最先端の手法を使用していた。 実験の結果,計算コストが低く,理論的に説明できる能力があるにもかかわらず,分類器はこれらのモデルや標準分類器よりも優れていた。

With the rise of the Internet, there is a growing need to build intelligent systems that are capable of efficiently dealing with early risk detection (ERD) problems on social media, such as early depression detection, early rumor detection or identification of sexual predators. These systems, nowadays mostly based on machine learning techniques, must be able to deal with data streams since users provide their data over time. In addition, these systems must be able to decide when the processed data is sufficient to actually classify users. Moreover, since ERD tasks involve risky decisions by which people's lives could be affected, such systems must also be able to justify their decisions. However, most standard and state-of-the-art supervised machine learning models are not well suited to deal with this scenario. This is due to the fact that they either act as black boxes or do not support incremental classification/learning. In this paper we introduce SS3, a novel supervised learning model for text classification that naturally supports these aspects. SS3 was designed to be used as a general framework to deal with ERD problems. We evaluated our model on the CLEF's eRisk2017 pilot task on early depression detection. Most of the 30 contributions submitted to this competition used state-of-the-art methods. Experimental results show that our classifier was able to outperform these models and standard classifiers, despite being less computationally expensive and having the ability to explain its rationale.
翻訳日:2024-04-21 20:14:16 公開日:2024-04-17
# 低温・高温計測用無作為電信雑音下におけるビットフリップ量子ビットの誤差解析

Error analysis of bit-flip qubits under random telegraph noise for low and high temperature measurement application ( http://arxiv.org/abs/2005.05493v2 )

ライセンス: Link先を確認
Win Wang, Sanjay Prabhakar, (参考訳) ランダム電信ノイズ(RTN)の下での量子ビットゲート演算の小さな誤差を達成することは、量子コンピューティングと量子エラー補正の潜在的な応用にとって大きな関心事である。 RTNの有無で、$\pi$, CORPSE, SCORPSE, 対称パルスおよび非対称パルスによって駆動される量子ビットの誤差を計算する。 z方向のx方向とRTNでパルスが作用する特別な場合、ノイズ相関時間の小さな値の場合、$\pi$-pulseは他の全てのパルスの中で誤差が小さい。 大きなノイズ相関時間の場合、おそらくホワイトノイズの場合、対称パルスは小さなノイズ強度のエネルギー振幅に対して小さな誤差を発生させるが、CORPSEパルスは大きなノイズ強度のエネルギー振幅に対して小さな誤差を発生させる。 3方向に作用するパルスについては、RTNのエネルギー振幅の小さい大きな強度の存在下で小さな誤差を生じるパルス列が同定された。 より正確には、$\pi$ パルスが x 方向に作用すると、 CORPSE パルスは y 方向に作用し、SCORPSE パルスは z 方向に作用する。 RTNの小さなエネルギー振幅の誤差解析は低温測定に有用であるのに対し、RTNの大きなエネルギー振幅の誤差解析は量子誤り訂正符号の室温測定に有用である。

Achieving small error for qubit gate operations under random telegraph noise (RTN) is of great interest for potential applications in quantum computing and quantum error correction. I calculate the error generated in the qubit driven by $\pi$, CORPSE, SCORPSE, symmetric and asymmetric pulses in presence of RTN. For a special case when pulse acts in x-direction and RTN in z-direction, I find that for small value of noise correlation time, $\pi$-pulse has small error among all the other pulses. For large value of noise correlation time, possibly white noise, symmetric pulse generates small error for small energy amplitudes of noise strength, whereas CORPSE pulse has small error for large energy amplitudes of noise strength. For the pulses acting in all the three directions, several pulse sequences were identified that generate small error in presence of small and large strength of energy amplitudes of RTN. More precisely, when $\pi$ pulse acts in x direction, CORPSE pulse acts in y direction and SCORPSE pulse acts in z-direction then such pulse sequences induces small error and may consider for better candidate in implementing of bit-flip quantum error correction. Error analysis of small energy amplitudes of RTN may be useful for low temperature measurements, whereas error analysis of large energy amplitudes of RTN may be useful for room temperature measurements of quantum error correction codes.
翻訳日:2024-04-21 20:14:16 公開日:2024-04-17
# 二次選択林を用いた離散的選択のモデル化と推定

The Use of Binary Choice Forests to Model and Estimate Discrete Choices ( http://arxiv.org/abs/1908.01109v5 )

ライセンス: Link先を確認
Ningyuan Chen, Guillermo Gallego, Zhuodong Tang, (参考訳) 問題定義。 小売業において、個別選択モデル(DCM)は、商品の品揃えを提供する際に、顧客の選択行動を把握するために一般的に使用される。 トランザクションデータを用いてDCMを推定する場合、フレキシブルモデル(機械学習モデルや非パラメトリックモデルなど)は解釈が難しく、推定が難しい。 メソッド/リスート。 本研究では,二分決定木の森林を用いてDCMを表現した。 このアプローチは、一般的な機械学習アルゴリズムであるランダムフォレストに基づいている。 意思決定ツリーは、購入中の顧客の意思決定プロセスを説明することができます。 提案手法は,任意のDCMの選択確率を連続的に予測し,不特定性に悩まされないことを示す。 さらに,本アルゴリズムはトレーニングデータに見つからないアソシエーションを予測する。 メカニズムとエラーは理論的に解析できる。 また、Gini指数や情報ゲイン比などの分割基準により、ランダム森林が顧客の嗜好ランクを回復できることを示す。 管理上の意味。 このフレームワークにはユニークな実用上の利点がある。 商品を購入する際に、不合理性やシーケンシャルな検索などの顧客の行動パターンをキャプチャできる。 集約によるトレーニングデータの非標準フォーマットを処理する。 ランダムな顧客が製品の存在に応じて意思決定をする頻度に基づいて、製品の重要性を測定することができる。 価格情報や顧客機能も組み込むこともできる。 合成データと実データを用いた数値実験により、ランダムな森林を用いて顧客の選択を推定することで、既存の手法よりも優れていることが示された。

Problem definition. In retailing, discrete choice models (DCMs) are commonly used to capture the choice behavior of customers when offered an assortment of products. When estimating DCMs using transaction data, flexible models (such as machine learning models or nonparametric models) are typically not interpretable and hard to estimate, while tractable models (such as the multinomial logit model) tend to misspecify the complex behavior represeted in the data. Methodology/results. In this study, we use a forest of binary decision trees to represent DCMs. This approach is based on random forests, a popular machine learning algorithm. The resulting model is interpretable: the decision trees can explain the decision-making process of customers during the purchase. We show that our approach can predict the choice probability of any DCM consistently and thus never suffers from misspecification. Moreover, our algorithm predicts assortments unseen in the training data. The mechanism and errors can be theoretically analyzed. We also prove that the random forest can recover preference rankings of customers thanks to the splitting criterion such as the Gini index and information gain ratio. Managerial implications. The framework has unique practical advantages. It can capture customers' behavioral patterns such as irrationality or sequential searches when purchasing a product. It handles nonstandard formats of training data that result from aggregation. It can measure product importance based on how frequently a random customer would make decisions depending on the presence of the product. It can also incorporate price information and customer features. Our numerical experiments using synthetic and real data show that using random forests to estimate customer choices can outperform existing methods.
翻訳日:2024-04-19 21:05:42 公開日:2024-04-17
# Boomerang:拡散モデルを用いた画像多様体の局所サンプリング

Boomerang: Local sampling on image manifolds using diffusion models ( http://arxiv.org/abs/2210.12100v2 )

ライセンス: Link先を確認
Lorenzo Luzi, Paul M Mayer, Josue Casco-Rodriguez, Ali Siahkoohi, Richard G. Baraniuk, (参考訳) 拡散モデルの推論段階は、逆時間拡散確率微分方程式(英語版)(reverse-time diffusion stochastic differential equation)として見ることができ、ガウスの潜在分布からのサンプルは、通常、低次元多様体、eg、画像多様体(英語版)に存在する対象分布からサンプルに変換される。 初期潜時空間と画像多様体の間の中間値は、前方拡散処理ノイズスケジュールによって決定されるノイズの量でノイズ画像と解釈できる。 この解釈を利用して、像多様体の局所サンプリング手法であるBoomerangを提示する。 その名の通り、ブーメラン局所サンプリングは入力画像にノイズを加え、潜伏空間に近づき、部分的な逆拡散過程を通じて像多様体にマッピングする。 このように、ブーメランは'similar,'' である多様体上の像を生成するが、元の入力画像とは同一ではない。 付加する雑音量を調整することにより、生成した画像と原画像との近接を制御できる。 さらに, ブーメランの逆拡散過程の確率的性質から, 生成した画像はある程度の確率性を示し, 重複に遭遇することなく, 多様体から局所的なサンプルを得ることができた。 ブーメランは、逆拡散過程の調整を必要とせず、安定拡散のような事前訓練された拡散モデルとシームレスに働く柔軟性を提供する。 ブーメランには3つの応用法を提案する。 まず、制御可能な匿名度を有するプライバシー保護データセットを構築するためのフレームワークを提供する。 第2に,Boomerangをデータ拡張に使用すると,一般化性能が向上し,最先端の合成データ拡張よりも優れることを示す。 最後に,解像度向上を実現する知覚画像強調フレームワークを提案する。

The inference stage of diffusion models can be seen as running a reverse-time diffusion stochastic differential equation, where samples from a Gaussian latent distribution are transformed into samples from a target distribution that usually reside on a low-dimensional manifold, e.g., an image manifold. The intermediate values between the initial latent space and the image manifold can be interpreted as noisy images, with the amount of noise determined by the forward diffusion process noise schedule. We utilize this interpretation to present Boomerang, an approach for local sampling of image manifolds. As implied by its name, Boomerang local sampling involves adding noise to an input image, moving it closer to the latent space, and then mapping it back to the image manifold through a partial reverse diffusion process. Thus, Boomerang generates images on the manifold that are ``similar,'' but nonidentical, to the original input image. We can control the proximity of the generated images to the original by adjusting the amount of noise added. Furthermore, due to the stochastic nature of the reverse diffusion process in Boomerang, the generated images display a certain degree of stochasticity, allowing us to obtain local samples from the manifold without encountering any duplicates. Boomerang offers the flexibility to work seamlessly with any pretrained diffusion model, such as Stable Diffusion, without necessitating any adjustments to the reverse diffusion process. We present three applications for Boomerang. First, we provide a framework for constructing privacy-preserving datasets having controllable degrees of anonymity. Second, we show that using Boomerang for data augmentation increases generalization performance and outperforms state-of-the-art synthetic data augmentation. Lastly, we introduce a perceptual image enhancement framework, which enables resolution enhancement.
翻訳日:2024-04-19 21:00:27 公開日:2024-04-17
# セグメンテーションのためのフレームワークに依存しない意味論的グローバル推論

Framework-agnostic Semantically-aware Global Reasoning for Segmentation ( http://arxiv.org/abs/2212.03338v2 )

ライセンス: Link先を確認
Mir Rayat Imtiaz Hossain, Leonid Sigal, James J. Little, (参考訳) 近年のピクセルレベルタスク(egセグメンテーション)の進歩は、局所的特徴を高めることができる集約された領域ベース表現間の長距離相互作用の利点を示している。 しかしながら、このような集約された表現は、しばしば注意の形で、シーンの根底にある意味論(例えば、個々のオブジェクトと、その相互作用によって)をモデル化することができない。 本研究では,画像特徴を潜在表現に投影することを学ぶコンポーネントを提案するとともに,トランスフォーマーエンコーダを用いて,元の画像特徴と融合したコンテキスト化およびシーン一貫性のある表現を生成することによって,その課題に対処する。 我々の設計では、活性化領域が空間的に不整合であり、そのような領域の結合が連結対象セグメントに対応することを保証することにより、潜在領域が意味概念を表現することを奨励している。 提案したセマンティックグローバル推論(SGR)コンポーネントは、エンドツーエンドのトレーニングが可能で、さまざまなバックボーン(CNNまたはトランスフォーマーベース)とセグメンテーションヘッド(ピクセル単位またはマスク分類)に簡単に追加でき、異なるデータセットのセグメンテーション結果を一貫して改善することができる。 さらに、潜在トークンはセマンティックに解釈可能で多様性があり、オブジェクト検出やセグメンテーションといった下流タスクに転送可能な豊富な機能セットを提供し、パフォーマンスを改善しています。 さらに,クラスとインスタンスの両レベルで潜在トークンの意味を定量化する指標も提案した。

Recent advances in pixel-level tasks (e.g. segmentation) illustrate the benefit of of long-range interactions between aggregated region-based representations that can enhance local features. However, such aggregated representations, often in the form of attention, fail to model the underlying semantics of the scene (e.g. individual objects and, by extension, their interactions). In this work, we address the issue by proposing a component that learns to project image features into latent representations and reason between them using a transformer encoder to generate contextualized and scene-consistent representations which are fused with original image features. Our design encourages the latent regions to represent semantic concepts by ensuring that the activated regions are spatially disjoint and the union of such regions corresponds to a connected object segment. The proposed semantic global reasoning (SGR) component is end-to-end trainable and can be easily added to a wide variety of backbones (CNN or transformer-based) and segmentation heads (per-pixel or mask classification) to consistently improve the segmentation results on different datasets. In addition, our latent tokens are semantically interpretable and diverse and provide a rich set of features that can be transferred to downstream tasks like object detection and segmentation, with improved performance. Furthermore, we also proposed metrics to quantify the semantics of latent tokens at both class \& instance level.
翻訳日:2024-04-19 21:00:27 公開日:2024-04-17
# 深層学習モデルを用いたCT画像からの血栓摘出の予測

Predicting Thrombectomy Recanalization from CT Imaging Using Deep Learning Models ( http://arxiv.org/abs/2302.04143v2 )

ライセンス: Link先を確認
Haoyue Zhang, Jennifer S. Polson, Eric J. Yang, Kambiz Nael, William Speier, Corey W. Arnold, (参考訳) 大血管閉塞を有する急性虚血性脳梗塞(AIS)患者に対しては,機械的血栓摘出術(MTB)の利点が侵襲的手術後のリスクと合併症を上回りうるか否かを臨床医が判断する必要がある。 術前CT (Pre-treatment Computed Tomography) と血管造影 (Angiography, CTA) は脳血管の閉塞を特徴付けるために広く用いられている。 患者が適当と判断された場合、mTICIスコアの修正治療が、MDBの手術中および術後の血流の回復の度合いを評価するために用いられる。 再石灰化を成功させる可能性の推定は、治療の意思決定を支援することができる。 本研究では,術前CTとCTA画像を用いて,患者の再石灰化スコアを完全自動で予測する手法を提案する。 我々は,視覚変換器を用いた空間的クロスアテンションネットワーク(SCANet)を設計し,関連するスライスや脳領域にローカライズした。 我々のトップモデルは平均クロスバリデーションROC-AUC 77.33 $\pm$ 3.9\%を達成した。 MTBのAIS患者を特定するため,CTおよびCTAにおける深層学習の今後の活用を支援する有望な成果である。

For acute ischemic stroke (AIS) patients with large vessel occlusions, clinicians must decide if the benefit of mechanical thrombectomy (MTB) outweighs the risks and potential complications following an invasive procedure. Pre-treatment computed tomography (CT) and angiography (CTA) are widely used to characterize occlusions in the brain vasculature. If a patient is deemed eligible, a modified treatment in cerebral ischemia (mTICI) score will be used to grade how well blood flow is reestablished throughout and following the MTB procedure. An estimation of the likelihood of successful recanalization can support treatment decision-making. In this study, we proposed a fully automated prediction of a patient's recanalization score using pre-treatment CT and CTA imaging. We designed a spatial cross attention network (SCANet) that utilizes vision transformers to localize to pertinent slices and brain regions. Our top model achieved an average cross-validated ROC-AUC of 77.33 $\pm$ 3.9\%. This is a promising result that supports future applications of deep learning on CT and CTA for the identification of eligible AIS patients for MTB.
翻訳日:2024-04-19 21:00:27 公開日:2024-04-17
# 2層ニューラルネットワークにおける学習時間スケール

Learning time-scales in two-layers neural networks ( http://arxiv.org/abs/2303.00055v3 )

ライセンス: Link先を確認
Raphaël Berthier, Andrea Montanari, Kangjie Zhou, (参考訳) 多層ニューラルネットワークにおけるグラディエントベースの学習は、多くの印象的な特徴を示している。 特に, 大規模なバッチを平均化しても, 経験的リスクの減少率は非モノトンである。 ほとんど進行を観測しない長い台地は、急激な減少の間隔で交互に変化する。 これらの連続した学習段階は、しばしば非常に異なる時間スケールで起こる。 最後に、初期の段階で学習されるモデルは、通常「シンプル」または「より学習しやすい」であるが、形式化するのは困難である。 これらの現象に関する理論的な説明は前進しているが、それぞれが特定の特定の状況下で捉えている。 本稿では,1次元モデルに基づいてデータを分散する場合(すなわち,目的関数は共変数の1次元投影に依存する)に,広い2層ニューラルネットワークの高次元勾配流れのダイナミクスについて検討する。 厳密な結果、非厳密な数学的導出、数値シミュレーションの混合に基づき、この設定における学習力学のシナリオを提案する。 特に、提案された進化は、時間スケールと断続性の分離を示す。 これらの挙動は、個体群勾配の流れが特異な摂動力学系として再キャストされるため自然に生じる。

Gradient-based learning in multi-layer neural networks displays a number of striking features. In particular, the decrease rate of empirical risk is non-monotone even after averaging over large batches. Long plateaus in which one observes barely any progress alternate with intervals of rapid decrease. These successive phases of learning often take place on very different time scales. Finally, models learnt in an early phase are typically `simpler' or `easier to learn' although in a way that is difficult to formalize. Although theoretical explanations of these phenomena have been put forward, each of them captures at best certain specific regimes. In this paper, we study the gradient flow dynamics of a wide two-layer neural network in high-dimension, when data are distributed according to a single-index model (i.e., the target function depends on a one-dimensional projection of the covariates). Based on a mixture of new rigorous results, non-rigorous mathematical derivations, and numerical simulations, we propose a scenario for the learning dynamics in this setting. In particular, the proposed evolution exhibits separation of timescales and intermittency. These behaviors arise naturally because the population gradient flow can be recast as a singularly perturbed dynamical system.
翻訳日:2024-04-19 21:00:27 公開日:2024-04-17
# 低消費電力・低レイテンシ視覚知覚のためのハイブリッドANN-SNNアーキテクチャ

A Hybrid ANN-SNN Architecture for Low-Power and Low-Latency Visual Perception ( http://arxiv.org/abs/2303.14176v2 )

ライセンス: Link先を確認
Asude Aydin, Mathias Gehrig, Daniel Gehrig, Davide Scaramuzza, (参考訳) Spiking Neural Networks(SNN)は、バイオインスパイアされたニューラルネットワークの一種で、非同期およびスパース処理を通じて、エッジデバイスに低電力と低レイテンシの推論をもたらすことを約束する。 しかしながら、時相モデルであるSNNは、古典的人工ニューラルネットワーク(ANN)と同等の予測を生成するために、表現的状態に大きく依存している。 これらの状態は、長い過渡期の後だけ収束し、入力データなしで急速に崩壊し、より高いレイテンシ、消費電力、精度が低下する。 この作業は、補助的なANNが低い速度で実行されている状態の初期化によって、この問題に対処する。 その後、SNNは状態を使用して、次の初期化フェーズまで高時間分解能の予測を生成する。 我々のハイブリッドANN-SNNモデルは、両者の長所を結合する: ANNのおかげで長い状態の過渡性と状態崩壊に悩まされず、SNNのおかげで高時間分解能、低レイテンシ、低電力で予測を生成することができる。 イベントベース2Dおよび3Dヒューマンポーズ推定の課題について,提案手法は,同じ推論速度で実行した場合のANNと比べ,性能を4%低下させることなく,88%の消費電力を消費することを示した。 さらに,SNNと比較すると,誤差が74%低い。 この研究は、それぞれの利益を最大化するために、ANNとSNNをどのように使用できるか、新たな理解を提供する。

Spiking Neural Networks (SNN) are a class of bio-inspired neural networks that promise to bring low-power and low-latency inference to edge devices through asynchronous and sparse processing. However, being temporal models, SNNs depend heavily on expressive states to generate predictions on par with classical artificial neural networks (ANNs). These states converge only after long transient periods, and quickly decay without input data, leading to higher latency, power consumption, and lower accuracy. This work addresses this issue by initializing the state with an auxiliary ANN running at a low rate. The SNN then uses the state to generate predictions with high temporal resolution until the next initialization phase. Our hybrid ANN-SNN model thus combines the best of both worlds: It does not suffer from long state transients and state decay thanks to the ANN, and can generate predictions with high temporal resolution, low latency, and low power thanks to the SNN. We show for the task of event-based 2D and 3D human pose estimation that our method consumes 88% less power with only a 4% decrease in performance compared to its fully ANN counterparts when run at the same inference rate. Moreover, when compared to SNNs, our method achieves a 74% lower error. This research thus provides a new understanding of how ANNs and SNNs can be used to maximize their respective benefits.
翻訳日:2024-04-19 21:00:27 公開日:2024-04-17
# 時系列予測のためのデコーダのみの基礎モデル

A decoder-only foundation model for time-series forecasting ( http://arxiv.org/abs/2310.10688v4 )

ライセンス: Link先を確認
Abhimanyu Das, Weihao Kong, Rajat Sen, Yichen Zhou, (参考訳) 自然言語処理のための大規模言語モデル(NLP)の最近の進歩に触発された我々は,各データセットの最先端教師付き予測モデルの精度に近づいた,さまざまな公開データセットにおけるアウトオブボックスゼロショットのパフォーマンスを予測するための時系列基盤モデルを設計した。 我々のモデルは、パッチ付きデコーダスタイルのアテンションモデルを大規模時系列コーパスで事前学習することに基づいており、予測履歴の長さ、予測長、時間的粒度の異なる範囲でうまく機能する。

Motivated by recent advances in large language models for Natural Language Processing (NLP), we design a time-series foundation model for forecasting whose out-of-the-box zero-shot performance on a variety of public datasets comes close to the accuracy of state-of-the-art supervised forecasting models for each individual dataset. Our model is based on pretraining a patched-decoder style attention model on a large time-series corpus, and can work well across different forecasting history lengths, prediction lengths and temporal granularities.
翻訳日:2024-04-19 20:39:38 公開日:2024-04-17
# 単結晶タングステートにおける常磁性および希土類イオンスピン不純物の低温マルチモードマイクロ波分光

Low-Temperature Multi-Mode Microwave Spectroscopy of Paramagnetic and Rare-Earth Ion Spin Impurities in Single Crystal Calcium Tungstate ( http://arxiv.org/abs/2312.05199v2 )

ライセンス: Link先を確認
Elrina Hartman, Michael E Tobar, Ben T McAllister, Jeremy Bourhill, Maxim Goryachev, (参考訳) 低温下でのCaWO$_4$$の非ドープ低損失単結晶結晶試料中の希薄イオンスピンアンサンブルを30mKまで冷却した実験的検討を行った。 誘電体を装荷したマイクロ波空洞共振器を結晶から構築することにより, 結晶場摂動を解明した。 共振器は高いQファクターを最大3ドル(約3,300円)、10^7ドル(約3,300円)の低損失タンジェント10^{-8ドル(約3,300円)の多数のささやきギャラリーモードを示した。 低損失は多数の高Q因子光子\hyp{}spin相互作用の高精度多モード分光を可能にした。 7 GHzから22 GHzで測定したところ、Gd$^{3+}$, Fe$^{3+}$, および他の痕跡種の存在が判明した。 これらの発見は、この低損失誘電体材料を、精度と量子メートル法、および標準模型物理学を超える試験に応用するためのさらなる研究を動機付けている。

We present experimental observations of dilute ion spin ensembles in an undoped low-loss single crystal cylindrical sample of CaWO$_4$ cooled to 30 mK in temperature. Crystal field perturbations were elucidated by constructing a dielectrically loaded microwave cavity resonator from the crystal. The resonator exhibited numerous whispering gallery modes with high Q-factors of up to $3\times 10^7$, equivalent to a low loss tangent of $\sim 3\times 10^{-8}$. The low-loss allowed precision multi-mode spectroscopy of numerous high Q-factor photon\hyp{}spin interactions. Measurements between 7 to 22 GHz revealed the presence of Gd$^{3+}$, Fe$^{3+}$, and another trace species, inferred to be rare\hyp{}earth, at concentrations on the order of parts per billion. These findings motivate further exploration of prospective uses of this low-loss dielectric material for applications regarding precision and quantum metrology, as well as tests for beyond standard model physics.
翻訳日:2024-04-19 20:39:38 公開日:2024-04-17
# 層間読み出し:事前学習モデルによるリハーサルなし連続学習のための階層内表現の活用

Read Between the Layers: Leveraging Intra-Layer Representations for Rehearsal-Free Continual Learning with Pre-Trained Models ( http://arxiv.org/abs/2312.08888v2 )

ライセンス: Link先を確認
Kyra Ahrens, Hans Hergen Lehmann, Jae Hee Lee, Stefan Wermter, (参考訳) 連続学習(CL)問題に対処するためには,モデルが非定常分布からタスク列を学習し,新しい経験に遭遇する際の事前知識を保持する必要がある。 基礎モデルの進歩に伴い、CL研究は、スクラッチからの学習パラダイムから大規模事前学習からの一般的な特徴の活用へと転換した。 しかし、事前訓練されたモデルによるCLへの既存のアプローチは、主に最終表現層からクラス固有の特徴を分離することに焦点を当て、中間表現の可能性を無視して、ドメインシフトにより不変な低レベルと中レベルの特徴をキャプチャする。 本研究では,事前学習ネットワークの複数の中間層からの2次特徴統計量を活用する,連続学習のための新しいプロトタイプベースのアプローチであるLayUPを提案する。 提案手法は概念的には単純で,事前データへのアクセスを必要としない。 LayUPは7つのクラスインクリメンタルラーニングベンチマークのうち4つ、ドメインインクリメンタルラーニングベンチマーク3つ、オンライン連続ラーニングベンチマーク7つのうち6つで最先端の4つを上回っている。 その結果、CLにおける事前学習モデルの表現能力を完全に消耗させることは、最終的な埋め込みをはるかに超えることを示した。

We address the Continual Learning (CL) problem, wherein a model must learn a sequence of tasks from non-stationary distributions while preserving prior knowledge upon encountering new experiences. With the advancement of foundation models, CL research has pivoted from the initial learning-from-scratch paradigm towards utilizing generic features from large-scale pre-training. However, existing approaches to CL with pre-trained models primarily focus on separating class-specific features from the final representation layer and neglect the potential of intermediate representations to capture low- and mid-level features, which are more invariant to domain shifts. In this work, we propose LayUP, a new prototype-based approach to continual learning that leverages second-order feature statistics from multiple intermediate layers of a pre-trained network. Our method is conceptually simple, does not require access to prior data, and works out of the box with any foundation model. LayUP surpasses the state of the art in four of the seven class-incremental learning benchmarks, all three domain-incremental learning benchmarks and in six of the seven online continual learning benchmarks, while significantly reducing memory and computational requirements compared to existing baselines. Our results demonstrate that fully exhausting the representational capacities of pre-trained models in CL goes well beyond their final embeddings.
翻訳日:2024-04-19 20:39:38 公開日:2024-04-17
# オンライン実験における時間的推奨に対する効果サイズ推定:階層モデルの導入と客観的実用性アプローチ

Effect Size Estimation for Duration Recommendation in Online Experiments: Leveraging Hierarchical Models and Objective Utility Approaches ( http://arxiv.org/abs/2312.12871v2 )

ライセンス: Link先を確認
Yu Liu, Runzhe Wan, James McQueen, Doug Hains, Jinxiang Gu, Rui Song, (参考訳) 仮定効果サイズ(AES)の選択は、実験の期間を決定的に決定し、その結果、その精度と効率が決定される。 伝統的に、実験者はドメイン知識に基づいてAESを決定する。 しかし,本手法は,多数の実験を管理するオンライン実験サービスにとって実用的ではなく,より自動化されたアプローチが求められている。 2つのソリューションを導入することで、オンライン実験サービスにおけるデータ駆動型AES選択の研究を開始する。 1つは実験間のヘテロスケダスティック性を考慮した3層ガウス混合モデルを用いており、正の実験で期待される真の効果サイズを推定しようとしている。 実用性理論に基づく第2の手法は,実験コストと意思決定精度のバランスをとることにより,最適効果の大きさを決定することを目的としている。 シミュレーションデータと実データの両方を用いたベースライン手法との比較により,提案手法の優れた性能を示す。

The selection of the assumed effect size (AES) critically determines the duration of an experiment, and hence its accuracy and efficiency. Traditionally, experimenters determine AES based on domain knowledge. However, this method becomes impractical for online experimentation services managing numerous experiments, and a more automated approach is hence of great demand. We initiate the study of data-driven AES selection in for online experimentation services by introducing two solutions. The first employs a three-layer Gaussian Mixture Model considering the heteroskedasticity across experiments, and it seeks to estimate the true expected effect size among positive experiments. The second method, grounded in utility theory, aims to determine the optimal effect size by striking a balance between the experiment's cost and the precision of decision-making. Through comparisons with baseline methods using both simulated and real data, we showcase the superior performance of the proposed approaches.
翻訳日:2024-04-19 20:39:38 公開日:2024-04-17
# AffordanceLLM:視覚言語モデルからのグラウンディング

AffordanceLLM: Grounding Affordance from Vision Language Models ( http://arxiv.org/abs/2401.06341v2 )

ライセンス: Link先を確認
Shengyi Qian, Weifeng Chen, Min Bai, Xiong Zhou, Zhuowen Tu, Li Erran Li, (参考訳) Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。 成功させるには、複数の側面におけるシーンの包括的理解、その部分によるオブジェクトの検出、局所化、認識、シーンの空間的構成/レイアウト、3次元形状と物理、そしてオブジェクトと人間の機能と潜在的な相互作用など、基本的な課題である。 知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。 本稿では、事前訓練された大規模視覚言語モデルから、豊かな世界、抽象的、人間とオブジェクトの相互作用の知識を生かして、現在の空き地における一般化能力の向上を試みる。 提案手法はAGD20Kベンチマークにおいて,提案手法よりも高い性能を示す。 さらに、トレーニング中にオブジェクトとアクションの両方が見えない場合でも、ランダムなインターネット画像からオブジェクトの可視性を高めることを実証する。 プロジェクトサイト:https://jasonqsy.github.io/AffordanceLLM/

Affordance grounding refers to the task of finding the area of an object with which one can interact. It is a fundamental but challenging task, as a successful solution requires the comprehensive understanding of a scene in multiple aspects including detection, localization, and recognition of objects with their parts, of geo-spatial configuration/layout of the scene, of 3D shapes and physics, as well as of the functionality and potential interaction of the objects and humans. Much of the knowledge is hidden and beyond the image content with the supervised labels from a limited training set. In this paper, we make an attempt to improve the generalization capability of the current affordance grounding by taking the advantage of the rich world, abstract, and human-object-interaction knowledge from pretrained large-scale vision language models. Under the AGD20K benchmark, our proposed model demonstrates a significant performance gain over the competing methods for in-the-wild object affordance grounding. We further demonstrate it can ground affordance for objects from random Internet images, even if both objects and actions are unseen during training. Project site: https://jasonqsy.github.io/AffordanceLLM/
翻訳日:2024-04-19 20:39:38 公開日:2024-04-17
# 人工知能と機械学習ですべき20人の建設者

Twenty Constructionist Things to Do with Artificial Intelligence and Machine Learning ( http://arxiv.org/abs/2402.06775v2 )

ライセンス: Link先を確認
Yasmin Kafai, Luis Morales-Navarro, (参考訳) 本稿では,Seymour Papert と Cynthia Solomon による1971 年のメモ "Twenty Things to Do with a Computer" を基に構築し,人工知能と機械学習に関する20の建設的事項を提案する。 いくつかの提案はオリジナルのメモで開発されたアイデアに基づいており、他の提案は新しいもので、科学、数学、芸術のトピックに対処している。 大きなテーマをレビューする際には、技術的な能力だけでなく、自分の認知過程の深い理解を育むために、子どものエンゲージメントへの関心が新たに高まっていることに気付く。 さらに、このアイデアは、個人が関連するAI/MLアプリケーションを設計することの重要性を強調し、分離されたモデルを超えて、棚外のデータセットが関心事から切り離されるようにしている。 また、AI/MLアプリケーション作成に関わるデータ生産の社会的側面も認めます。 最後に、AI/MLアプリケーションの潜在的有害なアルゴリズムバイアスと結果に対処するために必要な臨界次元を強調します。

In this paper, we build on the 1971 memo "Twenty Things to Do With a Computer" by Seymour Papert and Cynthia Solomon and propose twenty constructionist things to do with artificial intelligence and machine learning. Several proposals build on ideas developed in the original memo while others are new and address topics in science, mathematics, and the arts. In reviewing the big themes, we notice a renewed interest in children's engagement not just for technical proficiency but also to cultivate a deeper understanding of their own cognitive processes. Furthermore, the ideas stress the importance of designing personally relevant AI/ML applications, moving beyond isolated models and off-the-shelf datasets disconnected from their interests. We also acknowledge the social aspects of data production involved in making AI/ML applications. Finally, we highlight the critical dimensions necessary to address potential harmful algorithmic biases and consequences of AI/ML applications.
翻訳日:2024-04-19 20:29:53 公開日:2024-04-17
# AI倫理労働における疫学の力:所在する苦情の合法化

Epistemic Power in AI Ethics Labor: Legitimizing Located Complaints ( http://arxiv.org/abs/2402.08171v4 )

ライセンス: Link先を確認
David Gray Widder, (参考訳) 正統なAI倫理労働とは何であり、その結果、AI倫理の主張が正当であるという認識論的な用語は何だろうか? 本稿では,研究者,開発者,オープンソースコントリビュータ,活動家など75人の技術者へのインタビューに基づいて,AI倫理について議論し,実践するさまざまな疫学基盤について検討する。 プログレス」の障害としてのAI倫理に対する外部からの攻撃という文脈では、AI倫理の実践が、自動化と定量化の権威に到達し、結果としてある程度の正当性を達成したかを示します。 本稿では,フェミニストの人類学・科学技術研究家Diana Forsythe と Lucy Suchman の業績と,ポストコロニアルフェミニストのSara Ahmed とブラックフェミニストのKristie Dotson の業績を組み合わせて,AI倫理の優越性について考察する。 定量化の疫学的な力を強固にすることで、支配的なAI倫理の実践 -- モデルカードや同様の介入 -- は、同じプロジェクトの正当部分としてのエンボディドライフエクスペリエンスを、平等かつ反対の尺度で、AI倫理をプロジェクトとして正当化するリスクを負う。 それに対して、私は謙虚な技術的プラクティスを提案します: 定量的または技術的なプラクティスは、特に、てんかんの力の階層を平らにするために、てんかんの限界を明確にすることを目的としています。

What counts as legitimate AI ethics labor, and consequently, what are the epistemic terms on which AI ethics claims are rendered legitimate? Based on 75 interviews with technologists including researchers, developers, open source contributors, and activists, this paper explores the various epistemic bases from which AI ethics is discussed and practiced. In the context of outside attacks on AI ethics as an impediment to "progress," I show how some AI ethics practices have reached toward authority from automation and quantification, and achieved some legitimacy as a result, while those based on richly embodied and situated lived experience have not. This paper draws together the work of feminist Anthropology and Science and Technology Studies scholars Diana Forsythe and Lucy Suchman with the works of postcolonial feminist theorist Sara Ahmed and Black feminist theorist Kristie Dotson to examine the implications of dominant AI ethics practices. By entrenching the epistemic power of quantification, dominant AI ethics practices -- employing Model Cards and similar interventions -- risk legitimizing AI ethics as a project in equal and opposite measure to which they marginalize embodied lived experience as a legitimate part of the same project. In response, I propose humble technical practices: quantified or technical practices which specifically seek to make their epistemic limits clear in order to flatten hierarchies of epistemic power.
翻訳日:2024-04-19 20:29:53 公開日:2024-04-17
# Sora: 大規模ビジョンモデルの背景,技術,限界,機会に関するレビュー

Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models ( http://arxiv.org/abs/2402.17177v3 )

ライセンス: Link先を確認
Yixin Liu, Kai Zhang, Yuan Li, Zhiling Yan, Chujie Gao, Ruoxi Chen, Zhengqing Yuan, Yue Huang, Hanchi Sun, Jianfeng Gao, Lifang He, Lichao Sun, (参考訳) Sora(ソラ)は、OpenAIが2024年2月にリリースした、テキストからビデオへの生成AIモデルである。 このモデルは、テキストの指示からリアルまたは想像的なシーンのビデオを生成し、物理的な世界をシミュレートする可能性を示すよう訓練されている。 本稿では,公開技術レポートとリバースエンジニアリングに基づいて,テキスト・ビデオAIモデルの背景,関連技術,アプリケーション,残る課題,今後の方向性を概観する。 まず、この「世界シミュレーター」を構築するのに使われた技術について研究する。 次に,映画製作から教育,マーケティングに至るまで,さまざまな産業におけるSoraの応用と潜在的影響について詳述する。 我々は、安全で偏りのないビデオ生成を確実にするなど、Soraを広く展開するために対処する必要がある主な課題と制限について議論する。 最後に、Soraとビデオ生成モデルの将来的な発展と、その分野における進歩が、ビデオ生成の生産性とクリエイティビティを向上し、人間とAIのインタラクションの新たな方法を実現する方法について論じる。

Sora is a text-to-video generative AI model, released by OpenAI in February 2024. The model is trained to generate videos of realistic or imaginative scenes from text instructions and show potential in simulating the physical world. Based on public technical reports and reverse engineering, this paper presents a comprehensive review of the model's background, related technologies, applications, remaining challenges, and future directions of text-to-video AI models. We first trace Sora's development and investigate the underlying technologies used to build this "world simulator". Then, we describe in detail the applications and potential impact of Sora in multiple industries ranging from film-making and education to marketing. We discuss the main challenges and limitations that need to be addressed to widely deploy Sora, such as ensuring safe and unbiased video generation. Lastly, we discuss the future development of Sora and video generation models in general, and how advancements in the field could enable new ways of human-AI interaction, boosting productivity and creativity of video generation.
翻訳日:2024-04-19 20:20:09 公開日:2024-04-17
# データ拡張と優先最適化によるソクラテス質問生成の改善

Improving Socratic Question Generation using Data Augmentation and Preference Optimization ( http://arxiv.org/abs/2403.00199v2 )

ライセンス: Link先を確認
Nischal Ashok Kumar, Andrew Lan, (参考訳) ソクラテス法(ソクラテスほう、英: Socratic method)とは、生徒が問題を解き明かすことなく、個別に解決するための指導方法である。 この方法は、学生の学習成果を著しく改善することが示されているが、インストラクターにとって複雑な労働集約的な課題である。 大規模言語モデル(LLM)は、学生のためのソクラテス的質問を自動的に生成することにより、人間の努力を強化するために使用できる。 しかしながら、これらのLSMの推進に関わる既存の手法は、しばしば不正なアウトプット(例えば、問題の解を直接明らかにしたり、無関係で未熟な質問を与えるもの)を生成することがある。 この問題を緩和するために、AIフィードバックによる強化学習(RLAIF)にインスパイアされ、我々はまず、特定の方法で無効な質問を伴う既存のソクラテス質問データセットを強化するためのデータ拡張手法を提案する。 次に,LLama 2 などのオープンソース LLM の最適化手法を提案する。 学生コードデバッグのためのソクラティック質問データセットの実験では、DPO最適化 7B LLama 2 モデルでは、不正な質問の発生を効果的に回避でき、その結果、既存の最先端のプロンプト手法よりも優れていることが示された。

The Socratic method is a way of guiding students toward solving a problem independently without directly revealing the solution to the problem. Although this method has been shown to significantly improve student learning outcomes, it remains a complex labor-intensive task for instructors. Large language models (LLMs) can be used to augment human effort by automatically generating Socratic questions for students. However, existing methods that involve prompting these LLMs sometimes produce invalid outputs, e.g., those that directly reveal the solution to the problem or provide irrelevant or premature questions. To alleviate this problem, inspired by reinforcement learning with AI feedback (RLAIF), we first propose a data augmentation method to enrich existing Socratic questioning datasets with questions that are invalid in specific ways. Next, we propose a method to optimize open-source LLMs such as LLama 2 to prefer ground-truth questions over generated invalid ones, using direct preference optimization (DPO). Our experiments on a Socratic questions dataset for student code debugging show that a DPO-optimized 7B LLama 2 model can effectively avoid generating invalid questions, and as a result, outperforms existing state-of-the-art prompting methods.
翻訳日:2024-04-19 20:20:09 公開日:2024-04-17
# Against the Void": Rust開発者が安全でないコードを使う方法に関するインタビューと調査

"Against the Void": An Interview and Survey Study on How Rust Developers Use Unsafe Code ( http://arxiv.org/abs/2404.02230v2 )

ライセンス: Link先を確認
Ian McCormack, Tomas Dougan, Sam Estep, Hanan Hibshi, Jonathan Aldrich, Joshua Sunshine, (参考訳) Rustプログラミング言語は、自動ガベージコレクションなしで静的にメモリ安全性を保証できるため、システムプログラミングにおいて人気が高まっている。 Rustはエイリアスと変更性を制限することで安全性を保証するが、サイクリックエイリアスや多言語相互運用といった多くの重要なデザインパターンは、これらの制限を回避しなければならない。 Rustの$\texttt{unsafe}$キーワードは、開発者がこれらのパターンを実装するために使用できる機能を可能にし、Rustエコシステムには、$\texttt{unsafe}$コードが正しく使用されるかどうかを検証する便利なツールが含まれている。 しかし、これらのツールがすべてのユースケースに適切かどうかは不明である。 開発者のニーズを理解するため,半構造化インタビューと調査を行った。 我々は19人のRust開発者に対してインタビューを行い、160人の開発者を調査した。 調査回答者の77%とインタビュー参加者の大多数が、安全な代替案を知らなかったために、$\texttt{unsafe}$コードを使うことを動機付けていることがわかった。 開発者は通常、$\texttt{unsafe}$コードの使用を最小化し、ローカライズするといったベストプラクティスに従うが、カプセル化が健全であることを常に確信しているのはわずか23%だった。 インラインアセンブリと外部関数呼び出しの限定的なツーリングサポートにより、開発者は$\texttt{unsafe}$コードを検証することができなくなり、Rustと他の言語の違いにより、外部関数のカプセル化が困難になった。 検証ツールが不足していたため、開発者は依存関係を監査することはめったになかった。 我々の結果は、最も頻繁に使用される$\texttt{unsafe}$機能を検証することができる実運用対応ツールの必要性が迫っていることを示している。

The Rust programming language is an increasingly popular choice for systems programming, since it can statically guarantee memory safety without automatic garbage collection. Rust provides its safety guarantees by restricting aliasing and mutability, but many key design patterns, such as cyclic aliasing and multi-language interoperation, must bypass these restrictions. Rust's $\texttt{unsafe}$ keyword enables features that developers can use to implement these patterns, and the Rust ecosystem includes useful tools for validating whether $\texttt{unsafe}$ code is used correctly. However, it is unclear if these tools are adequate for all use cases. To understand developers' needs, we conducted a mixed-methods study consisting of semi-structured interviews followed by a survey. We interviewed 19 Rust developers and surveyed 160 developers$\unicode{x2013}$all of whom engaged with $\texttt{unsafe}$ code. We found that 77% of survey respondents and a majority of interview participants were motivated to use $\texttt{unsafe}$ code because they were unaware of a safe alternative. Developers typically followed best-practices such as minimizing and localizing their use of $\texttt{unsafe}$ code, but only 23% were always certain that their encapsulations were sound. Limited tooling support for inline assembly and foreign function calls prevented developers from validating $\texttt{unsafe}$ code, and differences between Rust and other languages made foreign functions difficult to encapsulate. Verification tools were underused, and developers rarely audited their dependencies. Our results indicate a pressing need for production-ready tools that can validate the most frequently used $\texttt{unsafe}$ features.
翻訳日:2024-04-19 20:20:09 公開日:2024-04-17
# 安定化剤エントロピーはマジック状態資源理論のためのモノトンである

Stabilizer entropies are monotones for magic-state resource theory ( http://arxiv.org/abs/2404.11652v1 )

ライセンス: Link先を確認
Lorenzo Leone, Lennart Bittel, (参考訳) 我々は、純状態に制限されたマジック状態資源理論の文脈内で、$\alpha\geq 2$に対して安定化器エントロピーの単調性を確立する。 さらに, 線形安定層エントロピーは強いモノトンとして機能することを示した。 さらに, コンベックス屋根構造を通したマジックモノトンとして, 安定体エントロピーの混合状態への拡張を提供する。

We establish the monotonicity of stabilizer entropies for $\alpha\geq 2$ within the context of magic-state resource theory restricted to pure states. Additionally, we show that linear stabilizer entropies serve as strong monotones. Furthermore, we provide the extension to mixed states of stabilizer entropies as magic monotones through convex roof constructions.
翻訳日:2024-04-19 20:10:25 公開日:2024-04-17
# IoTと機械学習を用いたインテリジェントパーセル管理システムの設計

Designing an Intelligent Parcel Management System using IoT & Machine Learning ( http://arxiv.org/abs/2404.11661v1 )

ライセンス: Link先を確認
Mohit Gupta, Nitesh Garg, Jai Garg, Vansh Gupta, Devraj Gautam, (参考訳) パーセルの配達は鉄道において重要な活動である。 さらに重要なことは、各パーセルは、その宛先アドレスに従って徹底的にチェックされ、ソートされなければならない。 極めて正確で最小限のヒューマンインタラクションでこれらのタスクすべてを実行することができる、効率的で堅牢なIoTシステムが必要です。 我々は、IoTと機械学習を使って、このオペレーションを効率的に実行するための、本格的なソリューションを作成しました。 本研究では,主に2段階からなる製品について検討した。 スキャンは最初のステップで、次にソートします。 スキャンの過程では、3つのスキャナーを通し、爆発物、薬物、そしてパーセル内の危険な物質を探し、もしテストが失敗したら捨てる。 スキャンステップが終了すると、パーセルはソートフェーズに移動し、QRコードを使用してパーセルの詳細を検索し、適切にソートする。 システムのシミュレーションはブレンダーソフトウェアを用いて行われる。 本研究は, 最先端技術および既存技術の評価とともに, 精度を大幅に向上することを示す。

Parcels delivery is a critical activity in railways. More importantly, each parcel must be thoroughly checked and sorted according to its destination address. We require an efficient and robust IoT system capable of doing all of these tasks with great precision and minimal human interaction. This paper discusses, We created a fully-fledged solution using IoT and machine learning to assist trains in performing this operation efficiently. In this study, we covered the product, which consists mostly of two phases. Scanning is the first step, followed by sorting. During the scanning process, the parcel will be passed through three scanners that will look for explosives, drugs, and any dangerous materials in the parcel and will trash it if any of the tests fail. When the scanning step is over, the parcel moves on to the sorting phase, where we use QR codes to retrieve the details of the parcels and sort them properly. The simulation of the system is done using the blender software. Our research shows that our procedure significantly improves accuracy as well as the assessment of cutting-edge technology and existing techniques.
翻訳日:2024-04-19 20:10:25 公開日:2024-04-17
# 中性原子に対する最適測定自由およびフォールトトレラント量子誤差補正

Optimized measurement-free and fault-tolerant quantum error correction for neutral atoms ( http://arxiv.org/abs/2404.11663v1 )

ライセンス: Link先を確認
Stefano Veroni, Markus Müller, Giacomo Giudice, (参考訳) 量子誤り訂正(QEC)を行う上での大きな課題は、信頼性のある測定と条件付きフィードフォワード演算を実装することである。 非条件量子ビットリセットをサポートする量子コンピューティングプラットフォームや、新鮮な量子ビットの一定供給では、測定を必要としない代替スキームが可能である。 このようなスキームでは、誤差補正はクラフトコヒーレントな量子フィードバックによって実現される。 本稿では,回路レベルのノイズに対する耐故障性を有する小型計測自由QEC方式の実装を提案する。 これらの実装は、フォールトトレランスを達成するために複数のヒューリスティックによってガイドされる:冗長なシンドローム情報を抽出し、追加のシングルショットフラグキュービットを使用する。 回路を慎重に設計することにより、これらの計測不要スキームの追加オーバーヘッドは、従来の計測・フィードフォワード方式に比べて中程度である。 我々は,この手法が,中性原子配列上での資源効率の高い測定自由QECの実現への道を開く方法を強調した。

A major challenge in performing quantum error correction (QEC) is implementing reliable measurements and conditional feed-forward operations. In quantum computing platforms supporting unconditional qubit resets, or a constant supply of fresh qubits, alternative schemes which do not require measurements are possible. In such schemes, the error correction is realized via crafted coherent quantum feedback. We propose implementations of small measurement-free QEC schemes, which are fault-tolerant to circuit-level noise. These implementations are guided by several heuristics to achieve fault-tolerance: redundant syndrome information is extracted, and additional single-shot flag qubits are used. By carefully designing the circuit, the additional overhead of these measurement-free schemes is moderate compared to their conventional measurement-and-feed-forward counterparts. We highlight how this alternative approach paves the way towards implementing resource-efficient measurement-free QEC on neutral-atom arrays.
翻訳日:2024-04-19 20:10:25 公開日:2024-04-17
# マルチラベル分類のためのディープ依存ネットワークと高度な推論方式

Deep Dependency Networks and Advanced Inference Schemes for Multi-Label Classification ( http://arxiv.org/abs/2404.11667v1 )

ライセンス: Link先を確認
Shivvrat Arya, Yu Xiang, Vibhav Gogate, (参考訳) 本稿では,複数ラベル分類のための依存性ネットワークとディープラーニングアーキテクチャを組み合わせて,画像およびビデオデータに特に重点を置く,DDN(DeepDependency Network)という統合フレームワークを提案する。 依存ネットワークの主な利点は、Markovネットワークのような他の確率論的グラフィカルモデルとは対照的に、トレーニングの容易さである。 特に、ディープラーニングアーキテクチャと組み合わせると、多ラベル分類のための直感的で使いやすい損失関数が提供される。 マルコフネットワークと比較してDDNの欠点は、高度な推論スキームが欠如していることであり、ギブスサンプリングの使用が必要である。 そこで本稿では,局所探索と整数線形プログラミングに基づく新しい推論手法を提案する。 我々は,3つのビデオデータセット(Charades, TACoS, Wetlab)と3つの画像データセット(MS-COCO, PASCAL VOC, NUS-WIDE)について,その性能を比較検討した。 a)基本的神経構造と b) 高度な推論と学習技術を備えたマルコフネットワークと結合したニューラルアーキテクチャ。 本研究は,新しいDDN法が競合する2つの手法よりも優れていることを示す。

We present a unified framework called deep dependency networks (DDNs) that combines dependency networks and deep learning architectures for multi-label classification, with a particular emphasis on image and video data. The primary advantage of dependency networks is their ease of training, in contrast to other probabilistic graphical models like Markov networks. In particular, when combined with deep learning architectures, they provide an intuitive, easy-to-use loss function for multi-label classification. A drawback of DDNs compared to Markov networks is their lack of advanced inference schemes, necessitating the use of Gibbs sampling. To address this challenge, we propose novel inference schemes based on local search and integer linear programming for computing the most likely assignment to the labels given observations. We evaluate our novel methods on three video datasets (Charades, TACoS, Wetlab) and three image datasets (MS-COCO, PASCAL VOC, NUS-WIDE), comparing their performance with (a) basic neural architectures and (b) neural architectures combined with Markov networks equipped with advanced inference and learning techniques. Our results demonstrate the superiority of our new DDN methods over the two competing approaches.
翻訳日:2024-04-19 20:10:25 公開日:2024-04-17
# ラストライブラリにおける外部関数境界の未定義挙動に関する研究

A Study of Undefined Behavior Across Foreign Function Boundaries in Rust Libraries ( http://arxiv.org/abs/2404.11671v1 )

ライセンス: Link先を確認
Ian McCormack, Joshua Sunshine, Jonathan Aldrich, (参考訳) Rustプログラミング言語は、開発者がセキュアでパフォーマンスの高いアプリケーションを記述することに依存する静的な安全保証を提供するために、エイリアスと変更性を制限する。 しかしながら、Rustは制限がはるかに弱い他の言語との相互運用に頻繁に使用される。 これらの言語は、Rustのオペレーショナルセマンティクスの現在のモデルと矛盾する、循環的かつ自己参照的なデザインパターンをサポートしており、現在のツールが検出できない、未定義の振る舞いの潜在的に重要なソースを表している。 MiriLLIは、既存のRustとLLVMインタプリタを使用して、多言語Rustアプリケーションを共同で実行するツールです。 当社のツールは,外部関数をコールするRustライブラリの大規模な調査で使用しました。 ひとつはGNUコンパイラコレクション(GCC)コンポーネントからのもので、もうひとつはRustプロジェクトによってメンテナンスされているライブラリからのものだ。 これらのエラーのほとんどは、非互換のエイリアスと初期化パターン、不正な外部関数バインディング、無効な型変換によって引き起こされた。 通告違反の大多数はラストでの無音作戦によって引き起こされたが、外国の法典で発生した。 Rustコミュニティは、開発者がこれらのエラーを容易に検出して修正できるように、複数の言語プログラムを検証するための新しいツールに投資する必要がある。

The Rust programming language restricts aliasing and mutability to provide static safety guarantees, which developers rely on to write secure and performant applications. However, Rust is frequently used to interoperate with other languages that have far weaker restrictions. These languages support cyclic and self-referential design patterns that conflict with current models of Rust's operational semantics, representing a potentially significant source of undefined behavior that no current tools can detect. We created MiriLLI, a tool which uses existing Rust and LLVM interpreters to jointly execute multi-language Rust applications. We used our tool in a large-scale study of Rust libraries that call foreign functions, and we found 45 instances of undefined or undesirable behavior. These include four bugs from libraries that had over 10,000 daily downloads on average, one from a component of the GNU Compiler Collection (GCC), and one from a library maintained by the Rust Project. Most of these errors were caused by incompatible aliasing and initialization patterns, incorrect foreign function bindings, and invalid type conversion. The majority of aliasing violations were caused by unsound operations in Rust, but they occurred in foreign code. The Rust community must invest in new tools for validating multi-language programs to ensure that developers can easily detect and fix these errors.
翻訳日:2024-04-19 20:10:25 公開日:2024-04-17
# 3次元基礎モデルによるシーン表現と手作業の校正

Unifying Scene Representation and Hand-Eye Calibration with 3D Foundation Models ( http://arxiv.org/abs/2404.11683v1 )

ライセンス: Link先を確認
Weiming Zhi, Haozhan Tang, Tianyi Zhang, Matthew Johnson-Roberson, (参考訳) 環境の表現はロボット工学における中心的な課題であり、効果的な意思決定には不可欠である。 伝統的に、マニピュレータ搭載カメラで画像を撮影する前に、ユーザーはチェッカーボードやエイプリルタグなどの特定の外部マーカーを使ってカメラを校正する必要がある。 しかし、近年のコンピュータビジョンの進歩は、emph{3D foundation model}の開発につながっている。 これらは大規模でトレーニング済みのニューラルネットワークで、リッチな視覚的特徴がなくても、非常に少ない画像で高速で正確なマルチビュー対応を確立することができる。 本稿では,マニピュレータ搭載RGBカメラを搭載したロボットシステムにおける3次元基礎モデルのシーン表現アプローチへの統合を提唱する。 具体的には,JCR(Joint Calibration and Representation)法を提案する。 JCRは、マニピュレータ搭載カメラによって撮影されたRGB画像を使用して、環境表現を同時に構築し、特定のキャリブレーションマーカーがない場合に、ロボットのエンドエフェクターに対してカメラを校正する。 結果の3D環境表現は、ロボットの座標フレームと一致し、物理的に正確なスケールを維持する。 我々は,JCRが,マニピュレータに装着した低コストのRGBカメラを用いて,事前のキャリブレーションを伴わずに,効果的なシーン表現を構築できることを実証した。

Representing the environment is a central challenge in robotics, and is essential for effective decision-making. Traditionally, before capturing images with a manipulator-mounted camera, users need to calibrate the camera using a specific external marker, such as a checkerboard or AprilTag. However, recent advances in computer vision have led to the development of \emph{3D foundation models}. These are large, pre-trained neural networks that can establish fast and accurate multi-view correspondences with very few images, even in the absence of rich visual features. This paper advocates for the integration of 3D foundation models into scene representation approaches for robotic systems equipped with manipulator-mounted RGB cameras. Specifically, we propose the Joint Calibration and Representation (JCR) method. JCR uses RGB images, captured by a manipulator-mounted camera, to simultaneously construct an environmental representation and calibrate the camera relative to the robot's end-effector, in the absence of specific calibration markers. The resulting 3D environment representation is aligned with the robot's coordinate frame and maintains physically accurate scales. We demonstrate that JCR can build effective scene representations using a low-cost RGB camera attached to a manipulator, without prior calibration.
翻訳日:2024-04-19 20:10:25 公開日:2024-04-17
# 非相互結合を持つ非エルミート光学系における光子遮断

Photon blockade in non-Hermitian optomechanical systems with nonreciprocal couplings ( http://arxiv.org/abs/2404.11685v1 )

ライセンス: Link先を確認
J. Y. Sun, H. Z. Shen, (参考訳) 我々は, ナノ粒子の相対角度を制御し, 極小点が周期的に現れるような, 弱いオプトメカニカルカップリング近似の下で, 2つのナノ粒子を駆動するウィスパーリング・ガリーモードマイクロ共振器に結合した非エルミート光学系において, 例外点における光子遮断について検討した。 従来の光子遮断は、レーザー磁場によって駆動される単励起サブ空間の固有エネルギー共鳴の異常点において発生し、従来の光子遮断の物理的起源について議論する。 弱い駆動条件下では、従来の光子遮断に対する異なるパラメータの影響を解析する。 非例外点における従来の光子遮断は、例外点において1点から2点に分裂する単励起部分空間における固有状態に起因する2つの最適デチューニングに存在する。 \textbf{Unconventional photon blockade は非例外的に発生するが、2光子状態への2つの異なる量子経路のために破壊的な量子干渉が起こらないため、例外的に存在しない。 提案手法における光子遮断の実現は、非エルミート光学系における単一光子源の合成に有効かつ柔軟な方法を提供する。

We study the photon blockade at exceptional points for a non-Hermitian optomechanical system coupled to the driven whispering-gallery-mode microresonator with two nanoparticles under the weak optomechanical coupling approximation, where exceptional points emerge periodically by controlling the relative angle of the nanoparticles. We find that conventional photon blockade occurs at exceptional points for the eigenenergy resonance of the single-excitation subspace driven by a laser field, and discuss the physical origin of conventional photon blockade. Under the weak driving condition, we analyze the influences of the different parameters on conventional photon blockade. We investigate conventional photon blockade at non-exceptional points, which exists at two optimal detunings due to the eigenstates in the single-excitation subspace splitting from one (coalescence) at exceptional points to two at non-exceptional points. \textbf{Unconventional photon blockade can occur at non-exceptional points, while it does not exist at exceptional points since the destructive quantum interference cannot occur due to the two different quantum pathways to the two-photon state being not formed.} The realization of photon blockade in our proposal provides a viable and flexible way for the preparation of single-photon sources in the non-Hermitian optomechanical system.
翻訳日:2024-04-19 20:10:25 公開日:2024-04-17
# フェデレーションラーニング医療アプリケーションのためのセキュアで信頼できるネットワークアーキテクチャ

A Secure and Trustworthy Network Architecture for Federated Learning Healthcare Applications ( http://arxiv.org/abs/2404.11698v1 )

ライセンス: Link先を確認
Antonio Boiano, Marco Di Gennaro, Luca Barbieri, Michele Carminati, Monica Nicoli, Alessandro Redondi, Stefano Savazzi, Albert Sund Aillet, Diogo Reis Santos, Luigi Serio, (参考訳) フェデレーテッド・ラーニング(FL)は、特に医療などのセンシティブな分野において、プライバシ保護機械学習のための有望なアプローチとして登場した。 この文脈において、TRUSTrokeプロジェクトは、FLを活用して、虚血性脳卒中予測における臨床医を支援することを目的としている。 本稿では,TRUSTroke FLネットワーク基盤の概要を紹介する。 提案アーキテクチャでは,中央パラメータサーバ(PS)を備えたクライアントサーバモデルを採用している。 クライアントノードのためのDockerベースの設計を導入し、臨床環境でFLプロセスを実装するための柔軟なソリューションを提供します。 FLネットワーク操作に対する異なる通信プロトコル(HTTPまたはMQTT)の影響を分析し、FLシナリオにおける適合性のためにMQTTを選択した。 FLプロセスで要求される主動作をサポートする制御面も提案する。 本稿では、FLアーキテクチャのセキュリティ面の分析を行い、潜在的な脅威に対処し、信頼性を高めるための緩和戦略を提案する。

Federated Learning (FL) has emerged as a promising approach for privacy-preserving machine learning, particularly in sensitive domains such as healthcare. In this context, the TRUSTroke project aims to leverage FL to assist clinicians in ischemic stroke prediction. This paper provides an overview of the TRUSTroke FL network infrastructure. The proposed architecture adopts a client-server model with a central Parameter Server (PS). We introduce a Docker-based design for the client nodes, offering a flexible solution for implementing FL processes in clinical settings. The impact of different communication protocols (HTTP or MQTT) on FL network operation is analyzed, with MQTT selected for its suitability in FL scenarios. A control plane to support the main operations required by FL processes is also proposed. The paper concludes with an analysis of security aspects of the FL architecture, addressing potential threats and proposing mitigation strategies to increase the trustworthiness level.
翻訳日:2024-04-19 20:10:25 公開日:2024-04-17
# 術後Glioblastoma segmentation: 深部畳み込みニューラルネットワークを用いた完全自動化パイプラインの開発と現在利用可能なモデルとの比較

Postoperative glioblastoma segmentation: Development of a fully automated pipeline using deep convolutional neural networks and comparison with currently available models ( http://arxiv.org/abs/2404.11725v1 )

ライセンス: Link先を確認
Santiago Cepeda, Roberto Romero, Daniel Garcia-Perez, Guillermo Blasco, Luigi Tommaso Luppino, Samuel Kuttner, Ignacio Arrese, Ole Solheim, Live Eikenes, Anna Karlberg, Angel Perez-Nunez, Trinidad Escudero, Roberto Hornero, Rosario Sarabia, (参考訳) グリオ芽腫では,腫瘍除去の正確な評価が最重要である。 術後画像の腫瘍部分領域と手術腔の分割にMRIスキャンとニューラルネットワークを用いたパイプラインを構築した。 本モデルは切除範囲を正確に分類し,治療効果を評価する上で有用なツールとして有用である。

Accurately assessing tumor removal is paramount in the management of glioblastoma. We developed a pipeline using MRI scans and neural networks to segment tumor subregions and the surgical cavity in postoperative images. Our model excels in accurately classifying the extent of resection, offering a valuable tool for clinicians in assessing treatment effectiveness.
翻訳日:2024-04-19 20:10:25 公開日:2024-04-17
# 欠落した接続: 大規模言語モデルのための横方向の思考パズル

Missed Connections: Lateral Thinking Puzzles for Large Language Models ( http://arxiv.org/abs/2404.11730v1 )

ライセンス: Link先を確認
Graham Todd, Tim Merino, Sam Earle, Julian Togelius, (参考訳) ニューヨーク・タイムズが毎日発行するコネクティクスパズルは、16ワードのバンクを4つのグループに分け、それぞれが共通のテーマに関連付けている。 パズルを解くには、共通言語知識(定義と典型的な使用法)と、多くの場合、横あるいは抽象的な思考の両方が必要である。 これは、4つのカテゴリが複雑さを増し、最も難しいカテゴリは、しばしば非日常的な言葉や大きなフレーズの一部として考える必要があるためである。 データ駆動型言語システムによって符号化された意味情報を測定するための,抽象的推論のための自動ベンチマークとして,ゲームの可能性を探るため,自動AIシステムがConnectionsをプレイする能力について検討する。 特に,文埋め込みベースラインと現代大言語モデル(LLM)について検討する。 タスクの正確さを報告し、チェーン・オブ・ソート・プロンプトの影響を計測し、その失敗モードについて議論する。 全体として、Connectionsタスクは難しいが実現可能であり、将来の作業のための強力なテストベッドであることが分かっています。

The Connections puzzle published each day by the New York Times tasks players with dividing a bank of sixteen words into four groups of four words that each relate to a common theme. Solving the puzzle requires both common linguistic knowledge (i.e. definitions and typical usage) as well as, in many cases, lateral or abstract thinking. This is because the four categories ascend in complexity, with the most challenging category often requiring thinking about words in uncommon ways or as parts of larger phrases. We investigate the capacity for automated AI systems to play Connections and explore the game's potential as an automated benchmark for abstract reasoning and a way to measure the semantic information encoded by data-driven linguistic systems. In particular, we study both a sentence-embedding baseline and modern large language models (LLMs). We report their accuracy on the task, measure the impacts of chain-of-thought prompting, and discuss their failure modes. Overall, we find that the Connections task is challenging yet feasible, and a strong test-bed for future work.
翻訳日:2024-04-19 20:10:25 公開日:2024-04-17
# プログラムについてAIに質問しよう - ChatGPTの回答を探る

Let's Ask AI About Their Programs: Exploring ChatGPT's Answers To Program Comprehension Questions ( http://arxiv.org/abs/2404.11734v1 )

ライセンス: Link先を確認
Teemu Lehtinen, Charles Koutcheme, Arto Hellas, (参考訳) 近年,学生が提出したコードから質問の作成について検討している。 これらの学習者のコードに関する質問(QLC)は、プログラム分析を通じて作成され、実行パスを探索し、これらのパスとより広範なコード構造からコードを理解する質問を生成する。 質問に応答するには、生徒の学習を支援することで知られているコードを読み、追跡する必要がある。 同時に、コンピューティング教育の研究者は、コミュニティを嵐に巻き込んだ大規模言語モデル(LLM)の出現を目撃している。 研究者たちは、導入プログラミングの文脈におけるこれらのモデルの適用性を実証し、導入プログラミングの問題を解決する上でのパフォーマンスと、新しい学習リソースを作成する上での有用性を概説した。 本研究では,LLMが生成したコードから生成されたQLCに応答する,最先端のLCM(GPT-3.5およびGPT-4)の能力について検討する。 この結果から,現在最先端のLCMではプログラム作成やプログラム実行の追跡が可能であるが,初心者プログラマが記録した類似のエラーに容易に対応できることが示唆された。 これらの結果は、これらのモデルの失敗の可能性を示し、おそらく最近のLLMの誇大広告による期待を和らげる。 同時に、学生の行動が特定のタスクと実際に類似しているため、LLMを使って学生を模倣するといった将来の研究の可能性も強調する。

Recent research has explored the creation of questions from code submitted by students. These Questions about Learners' Code (QLCs) are created through program analysis, exploring execution paths, and then creating code comprehension questions from these paths and the broader code structure. Responding to the questions requires reading and tracing the code, which is known to support students' learning. At the same time, computing education researchers have witnessed the emergence of Large Language Models (LLMs) that have taken the community by storm. Researchers have demonstrated the applicability of these models especially in the introductory programming context, outlining their performance in solving introductory programming problems and their utility in creating new learning resources. In this work, we explore the capability of the state-of-the-art LLMs (GPT-3.5 and GPT-4) in answering QLCs that are generated from code that the LLMs have created. Our results show that although the state-of-the-art LLMs can create programs and trace program execution when prompted, they easily succumb to similar errors that have previously been recorded for novice programmers. These results demonstrate the fallibility of these models and perhaps dampen the expectations fueled by the recent LLM hype. At the same time, we also highlight future research possibilities such as using LLMs to mimic students as their behavior can indeed be similar for some specific tasks.
翻訳日:2024-04-19 20:00:41 公開日:2024-04-17
# 頭頸部プロトン処理計画のための高品質MR-CT合成のための拡散シュレーディンガーブリッジモデル

Diffusion Schrödinger Bridge Models for High-Quality MR-to-CT Synthesis for Head and Neck Proton Treatment Planning ( http://arxiv.org/abs/2404.11741v1 )

ライセンス: Link先を確認
Muheng Li, Xia Li, Sairos Safai, Damien Weber, Antony Lomax, Ye Zhang, (参考訳) 近年のプロトン療法の進歩により,従来のCT法と比較して放射線曝露を最小化するため,MRベースの治療計画が勢いを増している。 この遷移は、正確な陽子線量計算に欠かせないMR-to-CT画像合成の重要な必要性を浮き彫りにする。 本研究は,高品位MR-CT合成のための革新的なアプローチであるDiffusion Schr\"odinger Bridge Models (DSBM)を紹介する。 DSBMはMRとCTデータの非線型拡散過程を学習する。 この方法はガウス分布よりも先行分布から合成を開始することによって従来の拡散モデルを改善し、生成品質と効率を両立させる。 頭頸部癌データセットにおけるDSBMの有効性を検証し,画像レベルの評価と線量レベルの評価により従来の画像合成法よりも優れていることを示した。 MRベースのプロトン治療計画におけるDSBMの有効性は、様々な臨床シナリオにおいて重要なツールとしての可能性を示している。

In recent advancements in proton therapy, MR-based treatment planning is gaining momentum to minimize additional radiation exposure compared to traditional CT-based methods. This transition highlights the critical need for accurate MR-to-CT image synthesis, which is essential for precise proton dose calculations. Our research introduces the Diffusion Schr\"odinger Bridge Models (DSBM), an innovative approach for high-quality MR-to-CT synthesis. DSBM learns the nonlinear diffusion processes between MR and CT data distributions. This method improves upon traditional diffusion models by initiating synthesis from the prior distribution rather than the Gaussian distribution, enhancing both generation quality and efficiency. We validated the effectiveness of DSBM on a head and neck cancer dataset, demonstrating its superiority over traditional image synthesis methods through both image-level and dosimetric-level evaluations. The effectiveness of DSBM in MR-based proton treatment planning highlights its potential as a valuable tool in various clinical scenarios.
翻訳日:2024-04-19 20:00:41 公開日:2024-04-17
# ファジィオントロジーにおける構造的シーンのインクリメンタルブートストラップと分類

Incremental Bootstrapping and Classification of Structured Scenes in a Fuzzy Ontology ( http://arxiv.org/abs/2404.11744v1 )

ライセンス: Link先を確認
Luca Buoncompagni, Fulvio Mastrogiovanni, (参考訳) 我々は、知識表現をブートストラップし、関連する状況の分類や将来の観察に基づく意思決定に使用するロボットを予見する。 特に補助ロボットの場合、ブートストラップ機構は、トレーニングフェーズを何回か繰り返すべきではなく、指示された表現を洗練できる人間によって監督される可能性がある。 構造化表現をブートストラップするロボットは、いくつかの知的なカテゴリーを分類する。 そのような構造は漸進的にブートストラップ(英語版)され、すなわち、新しい追加圏を考えると、特定された圏モデルを無効にしない。 このシナリオに対処するために、私たちは、構造化知識表現をクリップOWL-DLオントロジーでブートストラップするSITアルゴリズム(Scene Identification and Tagging)を提示した。 SITは時間とともに、シーン、サブシーン、その他のシーンを表すグラフをブートストラップする。 次に、SITは論理ベースの推論を通じてブートストラップグラフ内の新しいシーンを分類できる。 しかし、SITは知覚ノイズに頑健な実装であるため、知覚データに問題がある。 本稿では、ファジィDLオントロジーを利用したファジィ領域におけるSITの再構成について述べる。 SITのファジィ実装とクリップ実装の性能を比較することで、ファジィSITは頑健であり、そのクリップ表現の特性を保ち、ブートストラップされた表現を強化することを示す。 逆に、SITのファジィな実装は、crispドメインでブートストラップされたものよりも知的な知識表現が少ない。

We foresee robots that bootstrap knowledge representations and use them for classifying relevant situations and making decisions based on future observations. Particularly for assistive robots, the bootstrapping mechanism might be supervised by humans who should not repeat a training phase several times and should be able to refine the taught representation. We consider robots that bootstrap structured representations to classify some intelligible categories. Such a structure should be incrementally bootstrapped, i.e., without invalidating the identified category models when a new additional category is considered. To tackle this scenario, we presented the Scene Identification and Tagging (SIT) algorithm, which bootstraps structured knowledge representation in a crisp OWL-DL ontology. Over time, SIT bootstraps a graph representing scenes, sub-scenes and similar scenes. Then, SIT can classify new scenes within the bootstrapped graph through logic-based reasoning. However, SIT has issues with sensory data because its crisp implementation is not robust to perception noises. This paper presents a reformulation of SIT within the fuzzy domain, which exploits a fuzzy DL ontology to overcome the robustness issues. By comparing the performances of fuzzy and crisp implementations of SIT, we show that fuzzy SIT is robust, preserves the properties of its crisp formulation, and enhances the bootstrapped representations. On the contrary, the fuzzy implementation of SIT leads to less intelligible knowledge representations than the one bootstrapped in the crisp domain.
翻訳日:2024-04-19 20:00:41 公開日:2024-04-17
# 暴力のマッピング:ソーシャルメディアのインタラクションからバングラディアン表現データセットを構築するための拡張フレームワークの開発

Mapping Violence: Developing an Extensive Framework to Build a Bangla Sectarian Expression Dataset from Social Media Interactions ( http://arxiv.org/abs/2404.11752v1 )

ライセンス: Link先を確認
Nazia Tasnim, Sujan Sen Gupta, Md. Istiak Hossain Shihab, Fatiha Islam Juee, Arunima Tahsin, Pritom Ghum, Kanij Fatema, Marshia Haque, Wasema Farzana, Prionti Nasir, Ashique KhudaBukhsh, Farig Sadeque, Asif Sushmit, (参考訳) オンラインフォーラムにおけるコミュニティの暴力は、異なる文化の多くのコミュニティが共存し、資源を共有している南アジアで非常に広まっている。 これらの社会は、自身のグループ内の強い結合と他者に対する敵意によって特徴づけられる現象を示し、しばしば暴力的な対立へとエスカレートする紛争を引き起こす。 この問題に対処するため、我々は、4つの主要な暴力クラスと16の粗い表現の定義に該当するソーシャルメディアインタラクションの最大コレクション(13Kの原文)に付随するオンラインバングラコンテンツにおける共犯マーカーの自動検出のための、初めての包括的枠組みを開発した。 私たちのワークフローでは、社会科学者、言語学者、心理学者の洞察を取り入れた7段階の専門家アノテーションプロセスを導入しています。 このデータセットを用いてデータ統計とベンチマーク性能を提示することにより、非コミュニケーション暴力のカテゴリ以外では、リグリゴ・コミュニティ暴力は特にバングラ文字で広く普及していると判断した。 さらに,現在最先端のバングラディープラーニングモデルを用いて,事前ベンチマークを行うことで,暴力的コメントの識別における微調整言語モデルの有効性を実証した。

Communal violence in online forums has become extremely prevalent in South Asia, where many communities of different cultures coexist and share resources. These societies exhibit a phenomenon characterized by strong bonds within their own groups and animosity towards others, leading to conflicts that frequently escalate into violent confrontations. To address this issue, we have developed the first comprehensive framework for the automatic detection of communal violence markers in online Bangla content accompanying the largest collection (13K raw sentences) of social media interactions that fall under the definition of four major violence class and their 16 coarse expressions. Our workflow introduces a 7-step expert annotation process incorporating insights from social scientists, linguists, and psychologists. By presenting data statistics and benchmarking performance using this dataset, we have determined that, aside from the category of Non-communal violence, Religio-communal violence is particularly pervasive in Bangla text. Moreover, we have substantiated the effectiveness of fine-tuning language models in identifying violent comments by conducting preliminary benchmarking on the state-of-the-art Bangla deep learning model.
翻訳日:2024-04-19 20:00:41 公開日:2024-04-17
# 金属焼結変形予測のための仮想鋳物グラフネット

Virtual Foundry Graphnet for Metal Sintering Deformation Prediction ( http://arxiv.org/abs/2404.11753v1 )

ライセンス: Link先を確認
Rachel, Chen, Juheon Lee, Chuang Gan, Zijiang Yang, Mohammad Amin Nabian, Jun Zeng, (参考訳) 金属焼結は、HPの金属3Dプリンターのような金属射出成形部品やバインダージェットにとって必要なステップである。 金属焼結工程では、緑色の部分ポーシティによって25〜50%の変形が生じる。 本稿では, 部分変形の予測にグラフに基づく深層学習法を用い, ボクセルレベルでの変形シミュレーションを著しく高速化する。 十分に訓練された金属焼結推論エンジンを実行するには、最終的な焼結変形値を得るのに数秒しかかからない。 複素幾何学の検定精度は63mm試験部の平均偏差0.7umに達する。

Metal Sintering is a necessary step for Metal Injection Molded parts and binder jet such as HP's metal 3D printer. The metal sintering process introduces large deformation varying from 25 to 50% depending on the green part porosity. In this paper, we use a graph-based deep learning approach to predict the part deformation, which can speed up the deformation simulation substantially at the voxel level. Running a well-trained Metal Sintering inferencing engine only takes a range of seconds to obtain the final sintering deformation value. The tested accuracy on example complex geometry achieves 0.7um mean deviation for a 63mm testing part.
翻訳日:2024-04-19 20:00:41 公開日:2024-04-17
# コミュニケーション効率の良いフェデレーション学習のための一般化境界の改善

Improved Generalization Bounds for Communication Efficient Federated Learning ( http://arxiv.org/abs/2404.11754v1 )

ライセンス: Link先を確認
Peyman Gholami, Hulya Seferoglu, (参考訳) 本稿では,一般化境界の探索と表現学習によるフェデレーション学習の通信コストの低減に焦点をあてる。 まず、ローカルクライアントの一般化とデータ分散の不均一性(非IDシナリオ)に基づいて、1ラウンドのフェデレーション学習に限定したより厳密な一般化を特徴付ける。 また、Rラウンドフェデレーション学習における一般化とその局所的更新数(局所確率勾配勾配(SGDs))との関係を特徴付ける。 そして、一般化境界解析とこの解析の表現学習解釈に基づいて、表現抽出器(通常は初期層に対応する)の頻度の低いアグリゲーションによりより局所的な更新が、特に非イドシナリオにおいてより一般化可能なモデルの作成につながることを示す。 我々は、一般化境界と表現学習分析に基づいて、適応的局所ステップ付きフェデレートラーニング(FedALS)アルゴリズムを設計する。 FedALSはモデルの異なる部分に様々なアグリゲーション周波数を使用するため、通信コストを削減できる。 本研究は,FedALSの有効性を示す実験結果と比較した。

This paper focuses on reducing the communication cost of federated learning by exploring generalization bounds and representation learning. We first characterize a tighter generalization bound for one-round federated learning based on local clients' generalizations and heterogeneity of data distribution (non-iid scenario). We also characterize a generalization bound in R-round federated learning and its relation to the number of local updates (local stochastic gradient descents (SGDs)). Then, based on our generalization bound analysis and our representation learning interpretation of this analysis, we show for the first time that less frequent aggregations, hence more local updates, for the representation extractor (usually corresponds to initial layers) leads to the creation of more generalizable models, particularly for non-iid scenarios. We design a novel Federated Learning with Adaptive Local Steps (FedALS) algorithm based on our generalization bound and representation learning analysis. FedALS employs varying aggregation frequencies for different parts of the model, so reduces the communication cost. The paper is followed with experimental results showing the effectiveness of FedALS.
翻訳日:2024-04-19 20:00:41 公開日:2024-04-17
# 変形性股関節症術後の難治性治癒の予測モデルの開発

Predictive Model Development to Identify Failed Healing in Patients after Non-Union Fracture Surgery ( http://arxiv.org/abs/2404.11760v1 )

ライセンス: Link先を確認
Cedric Donié, Marie K. Reumann, Tony Hartung, Benedikt J. Braun, Tina Histing, Satoshi Endo, Sandra Hirche, (参考訳) 骨偽関節は外傷手術に最も重篤な合併症の1つであり、長い骨折後の10~30%の症例で発生する。 非関節の治療には、高いレベルの外科的専門知識が必要で、しばしば複数の再手術を伴い、時には切断に至ることもある。 したがって、より正確な予後は患者の健康に不可欠である。 機械学習(ML)の最近の進歩は、小さなデータセットで作業しても、非統一的治癒を予測するモデルを開発することを約束している。 臨床データセットであるTRUFFLEに3つのMLモデル(論理回帰,サポートベクターマシン,XGBoost)を適用し,このMLの有効性を検証した。 モデルでは, 70%の感度, 66% (XGBoost), 49% (サポートベクターマシン), 43% (ロジスティックレグレッション) の予測結果が得られた。 これらの所見は,初期外科的治療プロトコルの後に治癒不全のリスクがある患者を早期に同定できるので,臨床的に有用である。

Bone non-union is among the most severe complications associated with trauma surgery, occurring in 10-30% of cases after long bone fractures. Treating non-unions requires a high level of surgical expertise and often involves multiple revision surgeries, sometimes even leading to amputation. Thus, more accurate prognosis is crucial for patient well-being. Recent advances in machine learning (ML) hold promise for developing models to predict non-union healing, even when working with smaller datasets, a commonly encountered challenge in clinical domains. To demonstrate the effectiveness of ML in identifying candidates at risk of failed non-union healing, we applied three ML models (logistic regression, support vector machine, and XGBoost) to the clinical dataset TRUFFLE, which includes 797 patients with long bone non-union. The models provided prediction results with 70% sensitivity, and the specificities of 66% (XGBoost), 49% (support vector machine), and 43% (logistic regression). These findings offer valuable clinical insights because they enable early identification of patients at risk of failed non-union healing after the initial surgical revision treatment protocol.
翻訳日:2024-04-19 20:00:41 公開日:2024-04-17
# 世界が依存するコード - テクノロジメーカのオープンソースソフトウェア依存を初めて見る

The Code the World Depends On: A First Look at Technology Makers' Open Source Software Dependencies ( http://arxiv.org/abs/2404.11763v1 )

ライセンス: Link先を確認
Cadence Patrick, Kimberly Ruth, Zakir Durumeric, (参考訳) オープンソースソフトウェア(OSS)サプライチェーンのセキュリティは、組織にとって懸念事項となっている。 OSS脆弱性に対処するには、オリジナルのパッケージに加えて、他の依存するソフトウェア製品を更新する必要がある。 しかしながら、OSS依存関係の状況は十分に調査されていない。どのパッケージがパッチに最も重要かは分かっておらず、OSSセキュリティを最も必要としている場所で改善する努力を妨げる。 したがって、主要なソフトウェアやデバイスメーカーの製品におけるOSSの使用法を理解する必要がある。 私たちの仕事は、この知識ギャップを埋める第一歩を踏み出します。 108のメジャーソフトウェアおよびデバイスメーカに対してOSS依存情報を公開し、その可用性と詳細をカタログ化し、データに最も頻繁に現れるOSSパッケージを識別する。

Open-source software (OSS) supply chain security has become a topic of concern for organizations. Patching an OSS vulnerability can require updating other dependent software products in addition to the original package. However, the landscape of OSS dependencies is not well explored: we do not know what packages are most critical to patch, hindering efforts to improve OSS security where it is most needed. There is thus a need to understand OSS usage in major software and device makers' products. Our work takes a first step toward closing this knowledge gap. We investigate published OSS dependency information for 108 major software and device makers, cataloging how available and how detailed this information is and identifying the OSS packages that appear the most frequently in our data.
翻訳日:2024-04-19 20:00:41 公開日:2024-04-17
# QGen:量子化アウェアトレーニングにおける一般化能力について

QGen: On the Ability to Generalize in Quantization Aware Training ( http://arxiv.org/abs/2404.11769v1 )

ライセンス: Link先を確認
MohammadHossein AskariHemmat, Ahmadreza Jeddi, Reyhane Askari Hemmat, Ivan Lazarevich, Alexander Hoffman, Sudhakar Sah, Ehsan Saboori, Yvon Savaria, Jean-Pierre David, (参考訳) 量子化は、モデルの重みとアクティベーションを表すために少ないビットを利用することで、メモリ使用量、計算要求、レイテンシを低下させる。 本研究では,量子化されたニューラルネットワークの一般化特性について検討する。 特に,まずニューラルネットワークにおける量子化の理論モデルを開発し,正則化の形式として量子化がどのように機能するかを示す。 第二に、ロスランドスケープのシャープネスと一般化を結びつける最近の研究により、量子化ノイズの量で条件付けられた量子化モデルの一般化に関する近似境界を導出する。 次に,CIFAR-10,CIFAR-100,ImageNetで訓練された2000以上のモデルを用いて,畳み込みモデルと変圧器モデルを用いて仮説を検証した。

Quantization lowers memory usage, computational requirements, and latency by utilizing fewer bits to represent model weights and activations. In this work, we investigate the generalization properties of quantized neural networks, a characteristic that has received little attention despite its implications on model performance. In particular, first, we develop a theoretical model for quantization in neural networks and demonstrate how quantization functions as a form of regularization. Second, motivated by recent work connecting the sharpness of the loss landscape and generalization, we derive an approximate bound for the generalization of quantized models conditioned on the amount of quantization noise. We then validate our hypothesis by experimenting with over 2000 models trained on CIFAR-10, CIFAR-100, and ImageNet datasets on convolutional and transformer-based models.
翻訳日:2024-04-19 20:00:41 公開日:2024-04-17
# AIS 2024 チャレンジサーベイ

Event-Based Eye Tracking. AIS 2024 Challenge Survey ( http://arxiv.org/abs/2404.11770v1 )

ライセンス: Link先を確認
Zuowen Wang, Chang Gao, Zongwei Wu, Marcos V. Conde, Radu Timofte, Shih-Chii Liu, Qinyu Chen, Zheng-jun Zha, Wei Zhai, Han Han, Bohao Liao, Yuliang Wu, Zengyu Wan, Zhong Wang, Yang Cao, Ganchao Tan, Jinze Chen, Yan Ru Pei, Sasskia Brüers, Sébastien Crouzet, Douglas McLelland, Oliver Coenen, Baoheng Zhang, Yizhao Gao, Jingyuan Li, Hayden Kwok-Hay So, Philippe Bich, Chiara Boretti, Luciano Prono, Mircea Lică, David Dinucu-Jianu, Cătălin Grîu, Xiaopeng Lin, Hongwei Ren, Bojun Cheng, Xinan Zhang, Valentin Vial, Anthony Yezzi, James Tsai, (参考訳) AIS 2024 Event-Based Eye Tracking (EET) Challengeをレビューする。 この課題の課題は、イベントカメラで記録された眼球運動の処理と瞳孔中心の予測である。 この課題は、タスクの精度と効率のトレードオフを達成するために、イベントカメラによる効率的なアイトラッキングを強調している。 チャレンジ期間中に38人がカグル大会に出場し、8チームが挑戦ファクトシートを提出した。 提出されたファクトシートからの新しい多種多様な手法を概説し,今後の事象追跡研究を推進すべく分析を行った。

This survey reviews the AIS 2024 Event-Based Eye Tracking (EET) Challenge. The task of the challenge focuses on processing eye movement recorded with event cameras and predicting the pupil center of the eye. The challenge emphasizes efficient eye tracking with event cameras to achieve good task accuracy and efficiency trade-off. During the challenge period, 38 participants registered for the Kaggle competition, and 8 teams submitted a challenge factsheet. The novel and diverse methods from the submitted factsheets are reviewed and analyzed in this survey to advance future event-based eye tracking research.
翻訳日:2024-04-19 20:00:41 公開日:2024-04-17
# 行動アライメント:LLMに基づく会話レコメンデーションシステム評価の新しい視点

Behavior Alignment: A New Perspective of Evaluating LLM-based Conversational Recommendation Systems ( http://arxiv.org/abs/2404.11773v1 )

ライセンス: Link先を確認
Dayu Yang, Fumian Chen, Hui Fang, (参考訳) 大規模言語モデル (LLM) は会話レコメンダシステム (CRS) において大きな可能性を証明している。 しかし、LCMのCRSへの適用は、LLMベースのCRSと人間の推奨者との行動の顕著な相違を明らかにしている。 CRSにおける既存の研究は、その重要性にもかかわらず、そのような行動の相違を測定する方法に関する研究を欠いている。 このギャップを埋めるために,LLMベースのCRSによるレコメンデーション戦略が,人間のレコメンデーションとどのように一致しているかを測定するための,新しい評価指標である行動アライメント(Behaviment Alignment)を提案する。 実験の結果,新しい測定基準は人間の嗜好に適合し,既存の評価指標よりもシステムの性能をよく区別できることがわかった。 行動アライメントは推奨戦略に対して明示的でコストのかかる人的アノテーションを必要とするため,反応に基づいて行動アライメントを暗黙的に測定する手法も提案する。 評価結果から, 本手法のロバスト性が確認された。

Large Language Models (LLMs) have demonstrated great potential in Conversational Recommender Systems (CRS). However, the application of LLMs to CRS has exposed a notable discrepancy in behavior between LLM-based CRS and human recommenders: LLMs often appear inflexible and passive, frequently rushing to complete the recommendation task without sufficient inquiry.This behavior discrepancy can lead to decreased accuracy in recommendations and lower user satisfaction. Despite its importance, existing studies in CRS lack a study about how to measure such behavior discrepancy. To fill this gap, we propose Behavior Alignment, a new evaluation metric to measure how well the recommendation strategies made by a LLM-based CRS are consistent with human recommenders'. Our experiment results show that the new metric is better aligned with human preferences and can better differentiate how systems perform than existing evaluation metrics. As Behavior Alignment requires explicit and costly human annotations on the recommendation strategies, we also propose a classification-based method to implicitly measure the Behavior Alignment based on the responses. The evaluation results confirm the robustness of the method.
翻訳日:2024-04-19 20:00:41 公開日:2024-04-17
# 多モード熱エンコーダを用いた金属ジェットプリンタの3次元物体品質予測

3D object quality prediction for Metal Jet Printer with Multimodal thermal encoder ( http://arxiv.org/abs/2404.11776v1 )

ライセンス: Link先を確認
Rachel, Chen, Wenjia Zheng, Sandeep Jalui, Pavan Suri, Jun Zeng, (参考訳) 3Dプリンティング技術の進歩に伴い、3Dプリンティングオブジェクトの品質と次元精度が顧客の仕様に合致することが極めて重要である。 金属印刷中の様々な要因は、印刷部の品質、印刷ステージパラメータ、印刷層内の印刷部の位置、硬化ステージパラメータ、金属焼結プロセスなど、印刷部の品質に影響を及ぼす。 HPのMetJet印刷プロセスから収集された膨大なデータにより、AI技術は、印刷された部分品質のメトリクスを分析し、学習し、効果的に推測し、印刷収量を改善するのに役立つ。 プリンタが設置した熱センサで捉えたその場での熱センサデータには、拡散層の熱信号が含まれている。 このような部分の熱署名は、様々な要因からの複雑な衝撃を含む。 本稿では,ビデオデータベクトル化プリンタ制御データや,訓練されたエンコーダデコーダモジュールを用いた正確な部分熱署名を含む,異なる性質のデータを融合するために,マルチモーダル熱エンコーダネットワークを用いる。 最適化されたエンドツーエンドモデルアーキテクチャは,データ融合技術とデータ融合の段階について検討し,品質予測精度の向上を示唆している。

With the advancements in 3D printing technologies, it is extremely important that the quality of 3D printed objects, and dimensional accuracies should meet the customer's specifications. Various factors during metal printing affect the printed parts' quality, including the power quality, the printing stage parameters, the print part's location inside the print bed, the curing stage parameters, and the metal sintering process. With the large data gathered from HP's MetJet printing process, AI techniques can be used to analyze, learn, and effectively infer the printed part quality metrics, as well as assist in improving the print yield. In-situ thermal sensing data captured by printer-installed thermal sensors contains the part thermal signature of fusing layers. Such part thermal signature contains a convoluted impact from various factors. In this paper, we use a multimodal thermal encoder network to fuse data of a different nature including the video data vectorized printer control data, and exact part thermal signatures with a trained encoder-decoder module. We explored the data fusing techniques and stages for data fusing, the optimized end-to-end model architecture indicates an improved part quality prediction accuracy.
翻訳日:2024-04-19 20:00:41 公開日:2024-04-17
# REQUAL-LM:大規模言語モデルの集約による信頼性と等価性

REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models ( http://arxiv.org/abs/2404.11782v1 )

ライセンス: Link先を確認
Sana Ebrahimi, Nima Shahbazi, Abolfazl Asudeh, (参考訳) さまざまな領域にわたる大規模言語モデル(LLM)の広範な範囲は、自然言語処理以外にも、アプリケーションにおける責任の重要性を浮き彫りにしている。 特に、LSMのランダム化の性質は、データに固有のバイアスや歴史的なステレオタイプと相まって、信頼性と株式に関する重要な懸念を提起している。 これらの課題に対処するには、社会的影響のあるアプリケーションにLLMを使用する前に必要である。 このギャップに対処するために、我々は、アグリゲーションを通して信頼性と等価なLLM出力を見つける新しい方法であるREQUAL-LMを紹介する。 具体的には、繰り返しサンプリングに基づくモンテカルロ法を開発し、可能な出力の基底分布の平均に近い信頼性のある出力を求める。 信頼性やバイアスといった用語を正式に定義し、信頼性の高いアウトプットを見つけながら有害なバイアスを最小限に抑えるために、株式を意識したアグリゲーションを設計する。 REQUAL-LMは特別なハードウェアを必要とせず、大きな計算負荷を課さず、LCMをブラックボックスとして使用する。 この設計選択は、LLM技術の急速な進歩と並行してシームレスなスケーラビリティを実現する。 我々のシステムはLSMを再訓練する必要はなく、デプロイの準備が整いやすく、適応も容易です。 各種タスクとデータセットを用いた総合的な実験により、REQUAL-LMはバイアスを効果的に軽減し、より公平な応答、特に少数群を適切に表現する出力を選択することを示した。

The extensive scope of large language models (LLMs) across various domains underscores the critical importance of responsibility in their application, beyond natural language processing. In particular, the randomized nature of LLMs, coupled with inherent biases and historical stereotypes in data, raises critical concerns regarding reliability and equity. Addressing these challenges are necessary before using LLMs for applications with societal impact. Towards addressing this gap, we introduce REQUAL-LM, a novel method for finding reliable and equitable LLM outputs through aggregation. Specifically, we develop a Monte Carlo method based on repeated sampling to find a reliable output close to the mean of the underlying distribution of possible outputs. We formally define the terms such as reliability and bias, and design an equity-aware aggregation to minimize harmful bias while finding a highly reliable output. REQUAL-LM does not require specialized hardware, does not impose a significant computing load, and uses LLMs as a blackbox. This design choice enables seamless scalability alongside the rapid advancement of LLM technologies. Our system does not require retraining the LLMs, which makes it deployment ready and easy to adapt. Our comprehensive experiments using various tasks and datasets demonstrate that REQUAL- LM effectively mitigates bias and selects a more equitable response, specifically the outputs that properly represents minority groups.
翻訳日:2024-04-19 20:00:41 公開日:2024-04-17
# 最大マッチング問題に対する進化的多様性最適化の解析

Analysis of Evolutionary Diversity Optimisation for the Maximum Matching Problem ( http://arxiv.org/abs/2404.11784v1 )

ライセンス: Link先を確認
Jonathan Gadea Harder, Aneta Neumann, Frank Neumann, (参考訳) 本稿では,進化的アルゴリズム (EA) における解の多様性の最大マッチング問題に対する拡張について検討し,完全な二部グラフと経路に着目した。 マッチングにバイナリ文字列符号化を採用し、ハミング距離を用いて多様性を測定し、最大化を目指す。 本研究は,多様性を最適化するための$(\mu+1)$-EAと$2P-EA_D$に焦点を当てる。 これらのアルゴリズムの厳密な理論的および実証的な分析を提供する。 完全な二部グラフの場合、我々の実行時解析では、$(\mu+1)$-EA は$O(\mu^2 m^4 \log のランタイムで最大値の多様性を達成する。 (m)$ for the small gap case(人口規模$\mu$は二部分裂の大きさの違いより小さい)と$O(\mu^2 m^2 \log (m)$でなければ。 パスについては、$O(\mu^3 m^3)$の上限を定めます。 2P-EA_D$は、O(\mu^2 m^2 \log)のバウンドを持つより強いパフォーマンスを示す。 (m)$ の場合、$O(\mu^2 n^2 \log (n)$、そうでなければ$O(\mu^3 m^2)$である。 ここで、$n$は頂点の総数を表し、$m$は辺の数を表す。 我々の経験的研究は、$m$と$\mu$に関するスケーリングの振る舞いを検証し、これらの理論的洞察を補完し、ランタイム境界のさらなる改善の可能性を提案する。

This paper explores the enhancement of solution diversity in evolutionary algorithms (EAs) for the maximum matching problem, concentrating on complete bipartite graphs and paths. We adopt binary string encoding for matchings and use Hamming distance to measure diversity, aiming for its maximization. Our study centers on the $(\mu+1)$-EA and $2P-EA_D$, which are applied to optimize diversity. We provide a rigorous theoretical and empirical analysis of these algorithms. For complete bipartite graphs, our runtime analysis shows that, with a reasonably small $\mu$, the $(\mu+1)$-EA achieves maximal diversity with an expected runtime of $O(\mu^2 m^4 \log(m))$ for the small gap case (where the population size $\mu$ is less than the difference in the sizes of the bipartite partitions) and $O(\mu^2 m^2 \log(m))$ otherwise. For paths, we establish an upper runtime bound of $O(\mu^3 m^3)$. The $2P-EA_D$ displays stronger performance, with bounds of $O(\mu^2 m^2 \log(m))$ for the small gap case, $O(\mu^2 n^2 \log(n))$ otherwise, and $O(\mu^3 m^2)$ for paths. Here, $n$ represents the total number of vertices and $m$ the number of edges. Our empirical studies, which examine the scaling behavior with respect to $m$ and $\mu$, complement these theoretical insights and suggest potential for further refinement of the runtime bounds.
翻訳日:2024-04-19 20:00:41 公開日:2024-04-17
# オープンワールド半教師付き学習のためのプロンプト駆動型特徴拡散

Prompt-Driven Feature Diffusion for Open-World Semi-Supervised Learning ( http://arxiv.org/abs/2404.11795v1 )

ライセンス: Link先を確認
Marzi Heidari, Hanping Zhang, Yuhong Guo, (参考訳) 本稿では, Open World Semi-Supervised Learning (OW-SSL) のための半教師付き学習フレームワークにおいて, Prompt-Driven Feature Diffusion (PDFD) と呼ばれる新しいアプローチを提案する。 PDFDは、識別的特徴表現学習と特徴生成をサポートするために、クラス固有のプロンプトをガイダンスとして効率的な特徴レベルの拡散モデルをデプロイし、OW-SSLの未確認クラスに対するラベル付きデータの非可用性の課題に対処する。 特に、PDFDは、クラスプロトタイプを拡散モデルにおけるプロンプトとして利用し、クラス識別的および意味的な一般化能力を活用して、見知らぬすべてのクラスにまたがる拡散プロセスの条件付けとガイドを行う。 さらに、PDFDは拡散モデルトレーニングのためのクラス条件逆損失を導入し、拡散過程によって生成された特徴が実データのクラス条件の特徴と差別的に一致できることを保証する。 さらに、未確認クラスのクラスプロトタイプは、半教師付き学習フレームワーク内で確実な予測を伴うラベル付きインスタンスのみを使用して計算される。 提案したPDFDを評価するため,広範囲な実験を行った。 実験の結果,PDFD は最先端の既存手法よりも顕著な性能向上を示した。

In this paper, we present a novel approach termed Prompt-Driven Feature Diffusion (PDFD) within a semi-supervised learning framework for Open World Semi-Supervised Learning (OW-SSL). At its core, PDFD deploys an efficient feature-level diffusion model with the guidance of class-specific prompts to support discriminative feature representation learning and feature generation, tackling the challenge of the non-availability of labeled data for unseen classes in OW-SSL. In particular, PDFD utilizes class prototypes as prompts in the diffusion model, leveraging their class-discriminative and semantic generalization ability to condition and guide the diffusion process across all the seen and unseen classes. Furthermore, PDFD incorporates a class-conditional adversarial loss for diffusion model training, ensuring that the features generated via the diffusion process can be discriminatively aligned with the class-conditional features of the real data. Additionally, the class prototypes of the unseen classes are computed using only unlabeled instances with confident predictions within a semi-supervised learning framework. We conduct extensive experiments to evaluate the proposed PDFD. The empirical results show PDFD exhibits remarkable performance enhancements over many state-of-the-art existing methods.
翻訳日:2024-04-19 20:00:41 公開日:2024-04-17
# 基礎モデルはいつ有効か?マルチスペクトル画像を用いた画素レベル分類の適合性を理解する

When are Foundation Models Effective? Understanding the Suitability for Pixel-Level Classification Using Multispectral Imagery ( http://arxiv.org/abs/2404.11797v1 )

ライセンス: Link先を確認
Yiqun Xie, Zhihao Wang, Weiye Chen, Zhili Li, Xiaowei Jia, Yanhua Li, Ruichen Wang, Kangyang Chai, Ruohan Li, Sergii Skakun, (参考訳) ファウンデーションモデルは、非常に大きなディープラーニングモデルであり、様々な言語や視覚タスクにおいて印象的なパフォーマンスを示しており、それ以外は小型モデルでは到達が困難である。 GPT型言語モデルの主要な成功は特にエキサイティングであり、衛星リモートセンシングを含む他の領域における基礎モデルの可能性への期待を高めている。 このような状況下では、より広範なアプリケーションで機能をテストするための基盤モデルを構築するための大きな努力がなされており、例えば、NASA-IBMのPrithvi、Segment-Anything-Model、ViTなどがあります。 ファンデーションモデルは、常に異なるリモートセンシングタスクに適した選択肢であり、いつ、いつ、いつ、そうでないか? 本研究の目的は、従来の機械学習(ML)モデルと正規サイズのディープラーニングモデルとの比較を通じて、適度な解像度でのマルチスペクトル画像を用いた画素レベルの分類のための基礎モデルの現状と適合性を理解することである。 興味深いことに、多くのシナリオにおいて、従来のMLモデルは基礎モデルとよく似た、あるいは優れたパフォーマンスを示しており、特にテクスチャが分類にあまり役に立たないタスクに対してである。 一方、ディープラーニングモデルは、ラベルが部分的にテクスチャに依存するタスク(例えば、燃える傷など)に対してより有望な結果を示したが、基礎モデルとディープラーニングモデルのパフォーマンスの違いは明らかではない。 基礎モデルの適合性は、自己教師型学習課題と実際の下流課題との整合性に依存し、典型的なマスク付きオートエンコーダパラダイムは、多くのリモートセンシング問題に必ずしも適していない。

Foundation models, i.e., very large deep learning models, have demonstrated impressive performances in various language and vision tasks that are otherwise difficult to reach using smaller-size models. The major success of GPT-type of language models is particularly exciting and raises expectations on the potential of foundation models in other domains including satellite remote sensing. In this context, great efforts have been made to build foundation models to test their capabilities in broader applications, and examples include Prithvi by NASA-IBM, Segment-Anything-Model, ViT, etc. This leads to an important question: Are foundation models always a suitable choice for different remote sensing tasks, and when or when not? This work aims to enhance the understanding of the status and suitability of foundation models for pixel-level classification using multispectral imagery at moderate resolution, through comparisons with traditional machine learning (ML) and regular-size deep learning models. Interestingly, the results reveal that in many scenarios traditional ML models still have similar or better performance compared to foundation models, especially for tasks where texture is less useful for classification. On the other hand, deep learning models did show more promising results for tasks where labels partially depend on texture (e.g., burn scar), while the difference in performance between foundation models and deep learning models is not obvious. The results conform with our analysis: The suitability of foundation models depend on the alignment between the self-supervised learning tasks and the real downstream tasks, and the typical masked autoencoder paradigm is not necessarily suitable for many remote sensing problems.
翻訳日:2024-04-19 19:50:54 公開日:2024-04-17
# VRにおける視線駆動認証性能のベースライン構築:超大規模データセットに関する第1報

Establishing a Baseline for Gaze-driven Authentication Performance in VR: A Breadth-First Investigation on a Very Large Dataset ( http://arxiv.org/abs/2404.11798v1 )

ライセンス: Link先を確認
Dillon Lohr, Michael J. Proulx, Oleg Komogortsev, (参考訳) 本稿では,9202人の視線追跡(ET)信号品質を現代消費者向けバーチャルリアリティ(VR)プラットフォームと同等とした非常に大規模な視線記録データセットを用いて,視線駆動型認証性能のベースラインを確立するための重要な作業を行う。 採用データセットのサイズは、少なくとも以前の関連する作業から得られた他のデータセットよりも大きくなっています。 本モデルでは,眼の視軸と視軸の両眼的推定値と,眼球運動の受入と検証に最低限の期間を要し,偽受容率(FAR)で3%未満の偽拒絶率(FRR)を5万分の1で達成する。 ギャラリーサイズとともに減少する識別精度については,ギャラリーサイズが148,000以上の場合,我々のモデルがチャンスレベルの精度を下回ると推定する。 我々の主要な発見は、最先端の機械学習アーキテクチャと十分に大きなトレーニングデータセットによって駆動される場合、視線認証はFIDO標準で必要とされるように正確であることを示している。

This paper performs the crucial work of establishing a baseline for gaze-driven authentication performance to begin answering fundamental research questions using a very large dataset of gaze recordings from 9202 people with a level of eye tracking (ET) signal quality equivalent to modern consumer-facing virtual reality (VR) platforms. The size of the employed dataset is at least an order-of-magnitude larger than any other dataset from previous related work. Binocular estimates of the optical and visual axes of the eyes and a minimum duration for enrollment and verification are required for our model to achieve a false rejection rate (FRR) of below 3% at a false acceptance rate (FAR) of 1 in 50,000. In terms of identification accuracy which decreases with gallery size, we estimate that our model would fall below chance-level accuracy for gallery sizes of 148,000 or more. Our major findings indicate that gaze authentication can be as accurate as required by the FIDO standard when driven by a state-of-the-art machine learning architecture and a sufficiently large training dataset.
翻訳日:2024-04-19 19:50:54 公開日:2024-04-17
# 自律走行車との協調行動に対する状況認識の開発

Developing Situational Awareness for Joint Action with Autonomous Vehicles ( http://arxiv.org/abs/2404.11800v1 )

ライセンス: Link先を確認
Robert Kaufman, David Kirsh, Nadir Weibel, (参考訳) 人間-AVインタラクションデザイナがライダーの情報要求をどのようにサポートできるかという疑問は、自律走行車(AV)の採用を妨げる。 安全輸送、信頼、AVからの学習といった共同の人間-AV活動目標を達成するためには、人、AV、人-AVシステムが一体となって十分な状況認識を持たなければならない。 本稿では,目標達成に必要な基準を満たすコミュニケーションを調整するための手段として,共同行動の認知理論と状況認識を統合したシステムレベルフレームワークを提案する。 このフレームワークは、共用状況の4つのコンポーネント(AV特性、アクション目標、主題固有の特性と状態、位置した運転状況)に基づいている。 AV通信はこれらの要因に合わせて調整され、変更時に敏感になるべきである。 このフレームワークは、個人、共有、分散された人間-AV状況認識を理解し、様々なグループの情報ニーズや目標を満たす将来のAV通信の設計に役立てることができる。

Unanswered questions about how human-AV interaction designers can support rider's informational needs hinders Autonomous Vehicles (AV) adoption. To achieve joint human-AV action goals - such as safe transportation, trust, or learning from an AV - sufficient situational awareness must be held by the human, AV, and human-AV system collectively. We present a systems-level framework that integrates cognitive theories of joint action and situational awareness as a means to tailor communications that meet the criteria necessary for goal success. This framework is based on four components of the shared situation: AV traits, action goals, subject-specific traits and states, and the situated driving context. AV communications should be tailored to these factors and be sensitive when they change. This framework can be useful for understanding individual, shared, and distributed human-AV situational awareness and designing for future AV communications that meet the informational needs and goals of diverse groups and in diverse driving contexts.
翻訳日:2024-04-19 19:50:54 公開日:2024-04-17
# TempBEV: 画像とBEV空間の時間アグリゲーションを組み合わせた学習型BEVエンコーダの改良

TempBEV: Improving Learned BEV Encoders with Combined Image and BEV Space Temporal Aggregation ( http://arxiv.org/abs/2404.11803v1 )

ライセンス: Link先を確認
Thomas Monninger, Vandana Dokkadi, Md Zafar Anwar, Steffen Staab, (参考訳) 自律運転は環境の正確な表現を必要とする。 高精度への戦略は、複数のセンサーからデータを融合させることである。 Learned Bird's-Eye View (BEV)エンコーダは、個々のセンサーからデータを1つのジョイント潜在空間にマッピングすることで、これを実現することができる。 コスト効率のよいカメラ専用システムでは、異なるビューで複数のカメラからデータを融合する効果的なメカニズムを提供する。 センサ情報を時間とともに集約することで、さらに精度を向上させることができる。 これは、露光深度と速度測定の欠如を考慮し、単眼カメラシステムにおいて特に重要である。 これにより、開発したBEVエンコーダの有効性は、時間情報を集約する演算子と、使用する潜在表現空間に大きく依存する。 文献で提案したBEVエンコーダを解析し,その有効性を比較し,集約演算子と潜在表現の効果を定量化する。 既存のほとんどのアプローチは、画像またはBEV潜時空間において時間情報を集約するが、分析と性能比較の結果、これらの潜時表現は相補的な強みを示すことが示唆された。 そこで我々は,両潜伏空間から収集した時間情報を統合した新しい時間的BEVエンコーダであるTempBEVを開発した。 後続の画像フレームを時間的ステレオとみなし、時間的ステレオ符号化のための光フロー推定法を利用する。 NuScenesデータセットの実験的評価は、3Dオブジェクト検出とBEVセグメンテーションのベースラインに対するTempBEVによる大幅な改善を示している。 アブレーションにより、画像とBEV潜伏空間における関節側頭葉凝集の強い相乗効果が明らかになる。 これらの結果は,提案手法の全体的効果を示し,画像およびBEV潜伏空間の時間的情報収集に強く寄与する。

Autonomous driving requires an accurate representation of the environment. A strategy toward high accuracy is to fuse data from several sensors. Learned Bird's-Eye View (BEV) encoders can achieve this by mapping data from individual sensors into one joint latent space. For cost-efficient camera-only systems, this provides an effective mechanism to fuse data from multiple cameras with different views. Accuracy can further be improved by aggregating sensor information over time. This is especially important in monocular camera systems to account for the lack of explicit depth and velocity measurements. Thereby, the effectiveness of developed BEV encoders crucially depends on the operators used to aggregate temporal information and on the used latent representation spaces. We analyze BEV encoders proposed in the literature and compare their effectiveness, quantifying the effects of aggregation operators and latent representations. While most existing approaches aggregate temporal information either in image or in BEV latent space, our analyses and performance comparisons suggest that these latent representations exhibit complementary strengths. Therefore, we develop a novel temporal BEV encoder, TempBEV, which integrates aggregated temporal information from both latent spaces. We consider subsequent image frames as stereo through time and leverage methods from optical flow estimation for temporal stereo encoding. Empirical evaluation on the NuScenes dataset shows a significant improvement by TempBEV over the baseline for 3D object detection and BEV segmentation. The ablation uncovers a strong synergy of joint temporal aggregation in the image and BEV latent space. These results indicate the overall effectiveness of our approach and make a strong case for aggregating temporal information in both image and BEV latent spaces.
翻訳日:2024-04-19 19:50:54 公開日:2024-04-17
# 教師なし顕微鏡ビデオデノイング

Unsupervised Microscopy Video Denoising ( http://arxiv.org/abs/2404.12163v1 )

ライセンス: Link先を確認
Mary Aiyetigbo, Alexander Korte, Ethan Anderson, Reda Chalhoub, Peter Kalivas, Feng Luo, Nianyi Li, (参考訳) 本稿では,固定位置顕微鏡カメラで捉えた画像シーケンスによって特徴付けられる顕微鏡映像を復調する,新しい教師なしネットワークを提案する。 具体的には,下層CNN層に統合された時間信号フィルタを利用したDeepTemporal Interpolation法を提案する。 既存の騒音分布の知識を必要とせず,複数の騒音条件に適応できることは,実世界の医療応用において重要な課題である。 さらに、実際の顕微鏡記録とシミュレーションデータの両方を用いてデノナイジングフレームワークを評価し、幅広いノイズシナリオにおけるパフォーマンスの優れたビデオデノナイジング性能を検証した。 広汎な実験により、我々の教師なしモデルは、監督なし、教師なしのビデオ復調技術より一貫して優れており、特に顕微鏡ビデオに有効であることが証明された。

In this paper, we introduce a novel unsupervised network to denoise microscopy videos featured by image sequences captured by a fixed location microscopy camera. Specifically, we propose a DeepTemporal Interpolation method, leveraging a temporal signal filter integrated into the bottom CNN layers, to restore microscopy videos corrupted by unknown noise types. Our unsupervised denoising architecture is distinguished by its ability to adapt to multiple noise conditions without the need for pre-existing noise distribution knowledge, addressing a significant challenge in real-world medical applications. Furthermore, we evaluate our denoising framework using both real microscopy recordings and simulated data, validating our outperforming video denoising performance across a broad spectrum of noise scenarios. Extensive experiments demonstrate that our unsupervised model consistently outperforms state-of-the-art supervised and unsupervised video denoising techniques, proving especially effective for microscopy videos.
翻訳日:2024-04-19 19:11:44 公開日:2024-04-17
# 自然と生物にインスパイアされた最適化の包括的分類--アルゴリズム行動と吸気、批判分析と勧告(2020年-2024年)

Comprehensive Taxonomies of Nature- and Bio-inspired Optimization: Inspiration versus Algorithmic Behavior, Critical Analysis and Recommendations (from 2020 to 2024) ( http://arxiv.org/abs/2002.08136v5 )

ライセンス: Link先を確認
Daniel Molina, Javier Poyatos, Javier Del Ser, Salvador García, Amir Hussain, Francisco Herrera, (参考訳) 近年,生物学的過程を模倣して複雑な問題を解くバイオインスパイアされた最適化手法が近年普及している。 提案の拡散はこの分野への関心の高まりを証明している。 自然と生物に触発されたアルゴリズム、応用、ガイドラインの増加は、この分野への関心の高まりを浮き彫りにしている。 しかし、バイオインスパイアされたアルゴリズムの指数的な増加は、この研究領域の将来的な軌道に課題をもたらす。 この文書の5つのバージョンに沿って、アプローチの数は必然的に増加し、新しい生物学的記述が現実の問題解決よりも優先される。 この文書は2つの包括的分類を提示する。 1つは生物学的類似性の原理に基づくものであり、もう1つは、当初生物学的インスピレーションを持つ集団モデルの反復に関連する運用的側面に基づくものである。 したがって、これらの分類学は、研究者が既存のアルゴリズム開発を、インスピレーションの源と各アルゴリズムが示す行動の2つの基準を考慮し、明確に定義されたクラスに分類することができる。 これらの分類学を用いて、518のアルゴリズムを自然に着想を得たり、生物に着想を得たりした原理に基づいて分類する。 これらのカテゴリ内の各アルゴリズムを徹底的に検討し、設計トレンドと類似性の批判的な合成を可能にし、各提案において最も類似した古典的アルゴリズムを特定する。 我々の分析から、アルゴリズムの自然なインスピレーションとその振る舞いの間には、しばしば不適切な関係が見つかると結論付けている。 さらに、異なるアルゴリズム間の振る舞いの類似性は、公開開示で主張されているものよりも大きい:具体的には、レビューされた解の4分の1以上が古典的アルゴリズムのバージョンであることを示す。 アルゴリズムの分析から得られた結論は、いくつかの学習的な教訓につながっている。

In recent years, bio-inspired optimization methods, which mimic biological processes to solve complex problems, have gained popularity in recent literature. The proliferation of proposals prove the growing interest in this field. The increase in nature- and bio-inspired algorithms, applications, and guidelines highlights growing interest in this field. However, the exponential rise in the number of bio-inspired algorithms poses a challenge to the future trajectory of this research domain. Along the five versions of this document, the number of approaches grows incessantly, and where having a new biological description takes precedence over real problem-solving. This document presents two comprehensive taxonomies. One based on principles of biological similarity, and the other one based on operational aspects associated with the iteration of population models that initially have a biological inspiration. Therefore, these taxonomies enable researchers to categorize existing algorithmic developments into well-defined classes, considering two criteria: the source of inspiration, and the behavior exhibited by each algorithm. Using these taxonomies, we classify 518 algorithms based on nature-inspired and bio-inspired principles. Each algorithm within these categories is thoroughly examined, allowing for a critical synthesis of design trends and similarities, and identifying the most analogous classical algorithm for each proposal. From our analysis, we conclude that a poor relationship is often found between the natural inspiration of an algorithm and its behavior. Furthermore, similarities in terms of behavior between different algorithms are greater than what is claimed in their public disclosure: specifically, we show that more than one-fourth of the reviewed solvers are versions of classical algorithms. The conclusions from the analysis of the algorithms lead to several learned lessons.
翻訳日:2024-04-19 16:42:16 公開日:2024-04-17
# MFE-NER:中国語名前付きエンティティ認識のための多機能融合埋め込み

MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity Recognition ( http://arxiv.org/abs/2109.07877v2 )

ライセンス: Link先を確認
Jiatong Li, Kui Meng, (参考訳) 中国語の名前付きエンティティ認識では、文字置換は複雑な言語現象である。 いくつかの漢字は、同じ構成要素を共有したり、類似の発音を持つため、かなり似ている。 名前付きエンティティの文字を、同じ文字で置き換えて、新しいコロケーションを生成するが、同じオブジェクトを参照する。 結果として、常にNERタスクの認識できない、または、ラベルのつかないエラーにつながる。 本稿では,音声とグリフを融合させる軽量なMFE-NERを提案する。 基本的に、グリフ領域では、漢字をFive-Strokeコンポーネントに分解して構造的特徴を表現する。 本研究では,音韻領域において,漢字間の音韻類似性を記述できる改良された音韻システムを提案する。 提案手法は,漢字置換の検出において特に有効でありながら,中国語NERの全体的な性能はわずかに向上していることを示す。

In Chinese Named Entity Recognition, character substitution is a complicated linguistic phenomenon. Some Chinese characters are quite similar as they share the same components or have similar pronunciations. People replace characters in a named entity with similar characters to generate a new collocation but referring to the same object. As a result, it always leads to unrecognizable or mislabeling errors in the NER task. In this paper, we propose a lightweight method, MFE-NER, which fuses glyph and phonetic features, to help pre-trained language models handle the character substitution problem in the NER task with limited extra cost. Basically, in the glyph domain, we disassemble Chinese characters into Five-Stroke components to represent structure features. In the phonetic domain, an improved phonetic system is proposed in our work, making it reasonable to describe phonetic similarity among Chinese characters. Experiments demonstrate that our method performs especially well in detecting character substitutions while slightly improving the overall performance of Chinese NER.
翻訳日:2024-04-19 14:48:42 公開日:2024-04-17
# Wigner and friends, a map is not the territory! マルチエージェントパラドックスにおける文脈性

Wigner and friends, a map is not the territory! Contextuality in multi-agent paradoxes ( http://arxiv.org/abs/2305.07792v4 )

ライセンス: Link先を確認
Sidiney B. Montanhano, (参考訳) Wignerの友人やFrauchiger-Rennerのシナリオのようなマルチエージェントシナリオは、非古典的な形式主義がエージェント間の知識を扱う必要がある場合に矛盾する結果を示す。 このようなパラドックスは、古典論理の構造に反するものとしてマルチモーダル論理で記述される。 知識が信頼の概念と関係して扱われても、矛盾する結果はマルチエージェントのシナリオでも見ることができる。 文脈性は、局所的な一貫性がある場合でも、測定シナリオ上で定義された経験的モデルのグローバルな矛盾を扱う。 本研究は,知識演算子を用いて,完全関係言語におけるシナリオを更に扱い,これらの場合の信頼は真理公理と等価であることを示す。 マルチモーダル論理のトポロジ的意味論を用いて, 測定シナリオをマルチエージェントシナリオに変換し, 相互知識を仮定することで, 論理的文脈性は音質違反と解釈できることを示す。 矛盾に対処するため、分散知識を仮定すると、このような違反は排除されるが、ラムダ依存のコストがかかる。 マルチエージェントシナリオの主な例を経験的モデル表現に翻訳することで、文脈性は矛盾する結果の原因として認識される。

Multi-agent scenarios, like Wigner's friend and Frauchiger-Renner scenarios, can show contradictory results when a non-classical formalism must deal with the knowledge between agents. Such paradoxes are described with multi-modal logic as violations of the structure in classical logic. Even if knowledge is treated in a relational way with the concept of trust, contradictory results can still be found in multi-agent scenarios. Contextuality deals with global inconsistencies in empirical models defined on measurement scenarios even when there is local consistency. In the present work, we take a step further to treat the scenarios in full relational language by using knowledge operators, thus showing that trust is equivalent to the Truth Axiom in these cases. A translation of measurement scenarios into multi-agent scenarios by using the topological semantics of multi-modal logic is constructed, demonstrating that logical contextuality can be understood as the violation of soundness by supposing mutual knowledge. To address the contradictions, assuming distributed knowledge is considered, which eliminates such violations but at the cost of lambda-dependence. We conclude by translating the main examples of multi-agent scenarios to their empirical model representation, contextuality is identified as the cause of their contradictory results.
翻訳日:2024-04-19 14:38:58 公開日:2024-04-17
# 視覚的予測符号化による仮想環境の自動マッピング

Automated mapping of virtual environments with visual predictive coding ( http://arxiv.org/abs/2308.10913v2 )

ライセンス: Link先を確認
James Gornet, Matthew Thomson, (参考訳) 人間は、明示的な座標や距離測定のシステムにアクセスすることなく、感覚入力から直接環境の認識マップを構築する。 SLAMのような機械学習アルゴリズムは、視覚的特徴を識別し空間マップを構築するために特殊な視覚的推論手法を使用しているが、脳内の認知マップの一般的な性質は、聴覚、触覚、言語入力に一般化可能な統合マッピングアルゴリズム戦略を提案する。 ここでは、予測符号化が知覚データを用いて空間マップを構築するための自然で汎用的なニューラルネットワークアルゴリズムを提供することを示す。 本稿では,自律型畳み込みニューラルネットワークを用いて視覚的予測コーディングを行いながら,エージェントが仮想環境をナビゲートするフレームワークを提案する。 次の画像予測タスクを学習しながら、エージェントは、距離を定量的に反映する環境の内部表現を自動的に構築する。 この内部マップにより、エージェントは視覚情報のみを用いてランドマークに対して位置を特定でき、この予測符号化ネットワークは、各潜在空間ユニットが環境内の局所的に重なり合う近傍をデライン化するベクトルナビゲーションをサポートする環境のベクトル化符号化を生成する。 本研究は,聴覚,知覚,言語入力のマッピングに自然に拡張可能な認知マップを構築するための,一貫したアルゴリズムの枠組みとして,予測符号化を導入する。

Humans construct internal cognitive maps of their environment directly from sensory inputs without access to a system of explicit coordinates or distance measurements. While machine learning algorithms like SLAM utilize specialized visual inference procedures to identify visual features and construct spatial maps from visual and odometry data, the general nature of cognitive maps in the brain suggests a unified mapping algorithmic strategy that can generalize to auditory, tactile, and linguistic inputs. Here, we demonstrate that predictive coding provides a natural and versatile neural network algorithm for constructing spatial maps using sensory data. We introduce a framework in which an agent navigates a virtual environment while engaging in visual predictive coding using a self-attention-equipped convolutional neural network. While learning a next image prediction task, the agent automatically constructs an internal representation of the environment that quantitatively reflects distances. The internal map enables the agent to pinpoint its location relative to landmarks using only visual information.The predictive coding network generates a vectorized encoding of the environment that supports vector navigation where individual latent space units delineate localized, overlapping neighborhoods in the environment. Broadly, our work introduces predictive coding as a unified algorithmic framework for constructing cognitive maps that can naturally extend to the mapping of auditory, sensorimotor, and linguistic inputs.
翻訳日:2024-04-19 14:29:13 公開日:2024-04-17
# 絡み目のないパウリチャンネル学習におけるタイト境界

Tight bounds on Pauli channel learning without entanglement ( http://arxiv.org/abs/2309.13461v2 )

ライセンス: Link先を確認
Senrui Chen, Changhun Oh, Sisi Zhou, Hsin-Yuan Huang, Liang Jiang, (参考訳) 量子絡み合いは性質を自然から学ぶ上で重要な資源であるが、その利点を正確に評価することは困難である。 本研究では, 絡み合いのない学習アルゴリズムを, メインシステムと補助システムとを分離可能な状態, 測定, 操作のみを利用するアルゴリズムとみなす。 興味深いことに、これらのアルゴリズムは、中間回路の測定と古典的なフィードフォワードにインターリーブされたメインシステムに量子回路を適用するものと等価である。 この設定内では、最もよく知られた上境界と下限のギャップを埋める絡みのないパウリチャネル学習に対して、厳密な下限を証明している。 特に、$\Theta(2^n\varepsilon^{-2})$ rounds of measured is requires to estimates each eigen value of a $n$-qubit Pauli channel to $\varepsilon$ error with high probability when learning without entanglement。 対照的に、絡み合いのある学習アルゴリズムは、パウリチャネルのコピーとして$\Theta(\varepsilon^{-2})しか必要としない。 厳密な下界は、パウリ雑音の特性評価のための絡み合い強化された利点の実験的実証の基礎を固める。

Quantum entanglement is a crucial resource for learning properties from nature, but a precise characterization of its advantage can be challenging. In this work, we consider learning algorithms without entanglement to be those that only utilize states, measurements, and operations that are separable between the main system of interest and an ancillary system. Interestingly, we show that these algorithms are equivalent to those that apply quantum circuits on the main system interleaved with mid-circuit measurements and classical feedforward. Within this setting, we prove a tight lower bound for Pauli channel learning without entanglement that closes the gap between the best-known upper and lower bound. In particular, we show that $\Theta(2^n\varepsilon^{-2})$ rounds of measurements are required to estimate each eigenvalue of an $n$-qubit Pauli channel to $\varepsilon$ error with high probability when learning without entanglement. In contrast, a learning algorithm with entanglement only needs $\Theta(\varepsilon^{-2})$ copies of the Pauli channel. The tight lower bound strengthens the foundation for an experimental demonstration of entanglement-enhanced advantages for Pauli noise characterization.
翻訳日:2024-04-19 14:29:13 公開日:2024-04-17
# 確率的最適制御マッチング

Stochastic Optimal Control Matching ( http://arxiv.org/abs/2312.02027v3 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Jiequn Han, Brandon Amos, Joan Bruna, Ricky T. Q. Chen, (参考訳) 雑音系の振る舞いを駆動する目的を持つ確率的最適制御は、科学、工学、人工知能に広く応用されている。 本研究は,確率的最適制御のための新しい反復拡散最適化(IDO)手法である確率的最適制御マッチング(SOCM)を紹介する。 すなわち、制御は、一致するベクトル場に収まるようにすることで、最小二乗問題を通じて学習される。 クロスエントロピー損失と密接に結びついているトレーニング損失は、一致するベクトル場に現れる制御関数と再パラメータ化行列のファミリーの両方に対して最適化される。 再パラメータ化行列に対する最適化は、一致するベクトル場の分散を最小化することを目的としている。 実験により,提案アルゴリズムは4つの制御問題のうち3つに対して,確率的最適制御のための既存のIDO手法よりも誤差が小さい。 SOCMの根底にある重要なアイデアは、パスワイズ・リパラメータ化のトリックである。 Code at https://github.com/facebookresearch/SOC-matching

Stochastic optimal control, which has the goal of driving the behavior of noisy systems, is broadly applicable in science, engineering and artificial intelligence. Our work introduces Stochastic Optimal Control Matching (SOCM), a novel Iterative Diffusion Optimization (IDO) technique for stochastic optimal control that stems from the same philosophy as the conditional score matching loss for diffusion models. That is, the control is learned via a least squares problem by trying to fit a matching vector field. The training loss, which is closely connected to the cross-entropy loss, is optimized with respect to both the control function and a family of reparameterization matrices which appear in the matching vector field. The optimization with respect to the reparameterization matrices aims at minimizing the variance of the matching vector field. Experimentally, our algorithm achieves lower error than all the existing IDO techniques for stochastic optimal control for three out of four control problems, in some cases by an order of magnitude. The key idea underlying SOCM is the path-wise reparameterization trick, a novel technique that may be of independent interest. Code at https://github.com/facebookresearch/SOC-matching
翻訳日:2024-04-19 14:19:22 公開日:2024-04-17
# GLaM:近傍分割と生成サブグラフ符号化によるドメイン知識グラフアライメントのための微調整大言語モデル

GLaM: Fine-Tuning Large Language Models for Domain Knowledge Graph Alignment via Neighborhood Partitioning and Generative Subgraph Encoding ( http://arxiv.org/abs/2402.06764v3 )

ライセンス: Link先を確認
Stefan Dernbach, Khushbu Agarwal, Alejandro Zuniga, Michael Henry, Sutanay Choudhury, (参考訳) 大規模言語モデル(LLM)とドメイン固有データから得られた知識グラフを統合することは、より強力で現実的な推論への重要な進歩である。 これらのモデルがより有能になるにつれて、幻覚を最小化しつつ、現実の知識グラフよりも多段階の推論を行えるようにすることが不可欠である。 大きな言語モデルは会話やテキスト生成において優れているが、相互接続されたエンティティのドメイン特化グラフを推論する能力は依然として限られている。 例えば、LLMに問い合わせて、プライベートデータベースの関連性や属性に基づいて、特定の目的のためにプロのネットワークで最適なコンタクトを特定できますか? 答えは、--そのような機能は、現在のメソッドを超えています。 しかし、この問題は対処しなければならない重要な技術的ギャップを浮き彫りにする。 科学、セキュリティ、電子商取引などの分野における多くの高価値アプリケーションは、独自の構造、関係性、論理的制約をコードする独自の知識グラフに依存している。 本稿では,グラフ対応LAnguage Models (GLaM) を開発するための微調整フレームワークを提案する。 特定のグラフに基づく知識でモデルを構築することは、構造に基づく推論のためのモデルの能力を拡張することを実証する。 提案手法は,大規模モデルの生成機能を活用してデータセットを作成し,検索拡張型生成スタイルの効率的な代替手法を提案する。

Integrating large language models (LLMs) with knowledge graphs derived from domain-specific data represents an important advancement towards more powerful and factual reasoning. As these models grow more capable, it is crucial to enable them to perform multi-step inferences over real-world knowledge graphs while minimizing hallucination. While large language models excel at conversation and text generation, their ability to reason over domain-specialized graphs of interconnected entities remains limited. For example, can we query a LLM to identify the optimal contact in a professional network for a specific goal, based on relationships and attributes in a private database? The answer is no--such capabilities lie beyond current methods. However, this question underscores a critical technical gap that must be addressed. Many high-value applications in areas such as science, security, and e-commerce rely on proprietary knowledge graphs encoding unique structures, relationships, and logical constraints. We introduce a fine-tuning framework for developing Graph-aligned LAnguage Models (GLaM) that transforms a knowledge graph into an alternate text representation with labeled question-answer pairs. We demonstrate that grounding the models in specific graph-based knowledge expands the models' capacity for structure-based reasoning. Our methodology leverages the large-language model's generative capabilities to create the dataset and proposes an efficient alternate to retrieval-augmented generation styled methods.
翻訳日:2024-04-19 14:09:37 公開日:2024-04-17
# 人間とAIのコラボレーションを妨げる過信と不信のAI

Overconfident and Unconfident AI Hinder Human-AI Collaboration ( http://arxiv.org/abs/2402.07632v3 )

ライセンス: Link先を確認
Jingshu Li, Yitian Yang, Renwen Zhang, Yi-chieh Lee, (参考訳) AI透明性は、責任あるAIデプロイメントと効果的な人間とAIのコラボレーションの中心的な柱である。 重要なアプローチは、AIの信頼性レベルやその正当性(CL)をユーザに示すなど、不確実性を伝えることである。 しかしながら、これらの信頼度は、実際のCLを過度に見積もるか過小評価するか、人間とAIのコラボレーションにリスクと害を与えている。 本研究は,AIに対するユーザの信頼度,AIアドバイスの採用,コラボレーション結果に及ぼすAI信頼度の影響について検討する。 さらに,信頼性校正支援を通じて達成された透明性の向上が,これらの結果に与える影響について検討した。 以上の結果から,AIの信頼性の低下は,過信AIの誤用と不信AIの誤用の両方を招き,人間とAIのコラボレーションの結果を妨げることが明らかとなった。 信頼キャリブレーションサポートの欠如は、不正な信頼の検出を難しくし、AIの誤用と利用を促進させることで、この問題を悪化させる。 逆に、信頼度校正支援は、不正の認識と誤用を減らすのに役立つが、不信を育み、AIを悪用する。 我々の研究は、人間とAIのコラボレーションを強化するためのAI信頼度校正の重要性を強調し、AI設計と規制の方向性を提案する。

AI transparency is a central pillar of responsible AI deployment and effective human-AI collaboration. A critical approach is communicating uncertainty, such as displaying AI's confidence level, or its correctness likelihood (CL), to users. However, these confidence levels are often uncalibrated, either overestimating or underestimating actual CL, posing risks and harms to human-AI collaboration. This study examines the effects of uncalibrated AI confidence on users' trust in AI, AI advice adoption, and collaboration outcomes. We further examined the impact of increased transparency, achieved through trust calibration support, on these outcomes. Our results reveal that uncalibrated AI confidence leads to both the misuse of overconfident AI and disuse of unconfident AI, thereby hindering outcomes of human-AI collaboration. Deficiency of trust calibration support exacerbates this issue by making it harder to detect uncalibrated confidence, promoting misuse and disuse of AI. Conversely, trust calibration support aids in recognizing uncalibration and reducing misuse, but it also fosters distrust and causes disuse of AI. Our findings highlight the importance of AI confidence calibration for enhancing human-AI collaboration and suggest directions for AI design and regulation.
翻訳日:2024-04-19 14:09:37 公開日:2024-04-17
# 連続観察およびオンライン閾値クエリにおける差分プライバシーのための下位境界

Lower Bounds for Differential Privacy Under Continual Observation and Online Threshold Queries ( http://arxiv.org/abs/2403.00028v2 )

ライセンス: Link先を確認
Edith Cohen, Xin Lyu, Jelani Nelson, Tamás Sarlós, Uri Stemmer, (参考訳) 時とともにプライバシーの価格」を研究するための最も基本的な問題の1つは、Dwork et al (2010) と Chan et al (2010) によって導入されたいわゆるプライベートカウンター問題である。 この問題では,各イベントの存在を隠蔽しながら,時間とともに発生するイベントの数を追跡することを目的としている。 より具体的に言えば、ステップ $t\in[T]$ では、(オンラインの方法で) $\Delta_t\geq 0$ 新たなイベントが発生し、見積もり $n_t\approx\sum_{j=1}^t \Delta_j$ で応答しなければなりません。 プライバシ要件は、すべてのアウトプットが、すべての時間ステップにわたって、イベントレベルの差分プライバシを満たすことです。 ここでの最大の疑問は、エラーが時間ステップの総数$T$とイベントの総数$n$に依存する必要があるかということです。 Dwork et al (2015) は$O\left(\log(T)+\log^2(n)\right)$ の上限を示し、Hnzinger et al (2023) は$Omega\left(\min\{\log n, \log T\right)$ の上限を示した。 我々は、$\Omega\left(\min\{n,\log T\right)$という新しい下界を示し、これは$T$への依存が強く、$\log^2 n=O(\log T)$のスパースケースでは厳密である。 $\bullet$ 私たちは、下位境界が"オンラインしきい値問題"にまで拡張していることを示します。 これは Bun et al (2017) の公開問題を解決する。 $\bullet$ 我々の下限は、初めて、プライベートオンライン学習者と非プライベートオンライン学習者によって得られる誤りの数とを分離することを意味します。 これは、Sanyal と Ramponi が公表した COLT'22 のオープンな質問を部分的に解決する。 $\bullet$ 我々の下限は、プライベートオンライン学習の標準モデルと、最近提案された「プライベートオンライン予測」と呼ばれる緩和版との、最初の分離をもたらす。

One of the most basic problems for studying the "price of privacy over time" is the so called private counter problem, introduced by Dwork et al. (2010) and Chan et al. (2010). In this problem, we aim to track the number of events that occur over time, while hiding the existence of every single event. More specifically, in every time step $t\in[T]$ we learn (in an online fashion) that $\Delta_t\geq 0$ new events have occurred, and must respond with an estimate $n_t\approx\sum_{j=1}^t \Delta_j$. The privacy requirement is that all of the outputs together, across all time steps, satisfy event level differential privacy. The main question here is how our error needs to depend on the total number of time steps $T$ and the total number of events $n$. Dwork et al. (2015) showed an upper bound of $O\left(\log(T)+\log^2(n)\right)$, and Henzinger et al. (2023) showed a lower bound of $\Omega\left(\min\{\log n, \log T\}\right)$. We show a new lower bound of $\Omega\left(\min\{n,\log T\}\right)$, which is tight w.r.t. the dependence on $T$, and is tight in the sparse case where $\log^2 n=O(\log T)$. Our lower bound has the following implications: $\bullet$ We show that our lower bound extends to the "online thresholds problem", where the goal is to privately answer many "quantile queries" when these queries are presented one-by-one. This resolves an open question of Bun et al. (2017). $\bullet$ Our lower bound implies, for the first time, a separation between the number of mistakes obtainable by a private online learner and a non-private online learner. This partially resolves a COLT'22 open question published by Sanyal and Ramponi. $\bullet$ Our lower bound also yields the first separation between the standard model of private online learning and a recently proposed relaxed variant of it, called private online prediction.
翻訳日:2024-04-19 14:09:37 公開日:2024-04-17
# 合成データを用いた森林分断のための点ベース深層学習ネットワークの訓練

Training point-based deep learning networks for forest segmentation with synthetic data ( http://arxiv.org/abs/2403.14115v2 )

ライセンス: Link先を確認
Francisco Raverta Capua, Juan Schandin, Pablo De Cristóforis, (参考訳) 無人航空システム(UAS)によるリモートセンシングは、近年、データ処理に機械学習を使用するとともに、林業で増加している。 ディープラーニングアーキテクチャは、自然言語と画像処理に広く適用されているが、最近、ポイントクラウドドメインに拡張されている。 しかし、トレーニングとテストのためのポイントクラウドデータセットの可用性はまだ限られている。 森林環境下でのクラウドデータセットの作成には費用がかかり、高精度なセンサーが必要であり、手動のポイント分類が必要なため、時間を要する。 さらに、森林地帯は人間には近づかないか危険であり、さらにデータ収集が複雑になる可能性がある。 すると、大量の森林データに頼ることなく、合成データを使ってディープラーニングネットワークを訓練できるかどうかが問題となる。 そこで我々は,人工林のシーンを手続き的に生成する現実的なシミュレータを開発した。 これにより、森林分断のための最先端の深層学習ネットワークの比較研究を行った。 作成したデータセットを用いて、合成データを用いてディープラーニングネットワークをトレーニングし、実際の森林データセットから点雲を分類する可能性について検討した。 この作業の一環として、シミュレータとデータセットの両方がリリースされる。

Remote sensing through unmanned aerial systems (UAS) has been increasing in forestry in recent years, along with using machine learning for data processing. Deep learning architectures, extensively applied in natural language and image processing, have recently been extended to the point cloud domain. However, the availability of point cloud datasets for training and testing remains limited. Creating forested environment point cloud datasets is expensive, requires high-precision sensors, and is time-consuming as manual point classification is required. Moreover, forest areas could be inaccessible or dangerous for humans, further complicating data collection. Then, a question arises whether it is possible to use synthetic data to train deep learning networks without the need to rely on large volumes of real forest data. To answer this question, we developed a realistic simulator that procedurally generates synthetic forest scenes. Thanks to this, we have conducted a comparative study of different state-of-the-art point-based deep learning networks for forest segmentation. Using created datasets, we determined the feasibility of using synthetic data to train deep learning networks to classify point clouds from real forest datasets. Both the simulator and the datasets are released as part of this work.
翻訳日:2024-04-19 14:09:37 公開日:2024-04-17
# 合理的推論のための球ニューラルネット

Sphere Neural-Networks for Rational Reasoning ( http://arxiv.org/abs/2403.15297v2 )

ライセンス: Link先を確認
Tiansi Dong, Mateja Jamnik, Pietro Liò, (参考訳) LLM(Large Language Models)の成功、例えばChatGPTは、その惑星的人気、人間のような質問応答能力、そして着実に改善された推論性能によって見られている。 しかし、LSMの理由は不明である。 従来のニューラルネットワークを定性的に拡張して、統計パラダイムを越えてハイレベルな認知を実現することは、オープンな問題である。 ここでは、ベクトルから球面への計算ビルディングブロックを一般化することにより、最小限の定性拡張を示す。 モデル構築と検査を通して人間のような推論のための球ニューラルネット(SphNN)を提案し,人間の合理性のマイクロスコープであるシロジック推論のためのSphNNを開発した。 トレーニングデータの代わりに、SphNNは近傍空間関係のニューロシンボリック・トランジションマップを使用して、現在の球面構成からターゲットへの変換を誘導する。 SphNNは、Euler図として球配置を構築することで、1つのエポックにおける長鎖のシロジカル推論の妥当性を決定できる最初のニューラルモデルであり、O(N^2)の最悪の計算複雑性を持つ。 SphNNは、時空間推論、否定と解離を伴う論理的推論、事象推論、ニューロシンボリック推論、ユーモア理解(最高レベルの認知)など、様々なタイプの推論へと進化することができる。 これらはすべて、ハーバート・サイモンの2本の神経刃を持つ新しい種類のハサミを示唆している。 SphNNは、2つの神経刃を開発するための学際的コラボレーションを大幅に強化し、決定論的神経推論と人間に縛られた合理性を実現し、LLMを信頼できる心理学的AIに高める。 この研究は、球の非ゼロ半径は、従来のディープラーニングシステムが合理的な推論の領域に到達し、LLMを幻覚の湿地の中に閉じ込めるのを防ぐ欠落成分であることを示している。

The success of Large Language Models (LLMs), e.g., ChatGPT, is witnessed by their planetary popularity, their capability of human-like question-answering, and also by their steadily improved reasoning performance. However, it remains unclear whether LLMs reason. It is an open problem how traditional neural networks can be qualitatively extended to go beyond the statistic paradigm and achieve high-level cognition. Here, we present a minimalist qualitative extension by generalising computational building blocks from vectors to spheres. We propose Sphere Neural Networks (SphNNs) for human-like reasoning through model construction and inspection, and develop SphNN for syllogistic reasoning, a microcosm of human rationality. Instead of training data, SphNN uses a neuro-symbolic transition map of neighbourhood spatial relations to guide transformations from the current sphere configuration towards the target. SphNN is the first neural model that can determine the validity of long-chained syllogistic reasoning in one epoch by constructing sphere configurations as Euler diagrams, with the worst computational complexity of O(N^2). SphNN can evolve into various types of reasoning, such as spatio-temporal reasoning, logical reasoning with negation and disjunction, event reasoning, neuro-symbolic reasoning, and humour understanding (the highest level of cognition). All these suggest a new kind of Herbert A. Simon's scissors with two neural blades. SphNNs will tremendously enhance interdisciplinary collaborations to develop the two neural blades and realise deterministic neural reasoning and human-bounded rationality and elevate LLMs to reliable psychological AI. This work suggests that the non-zero radii of spheres are the missing components that prevent traditional deep-learning systems from reaching the realm of rational reasoning and cause LLMs to be trapped in the swamp of hallucination.
翻訳日:2024-04-19 14:09:37 公開日:2024-04-17
# SemEval-2024 Task 1: Semantic Textual Relatedness for African and Asian Languages

SemEval-2024 Task 1: Semantic Textual Relatedness for African and Asian Languages ( http://arxiv.org/abs/2403.18933v5 )

ライセンス: Link先を確認
Nedjma Ousidhoum, Shamsuddeen Hassan Muhammad, Mohamed Abdalla, Idris Abdulmumin, Ibrahim Said Ahmad, Sanchit Ahuja, Alham Fikri Aji, Vladimir Araujo, Meriem Beloucif, Christine De Kock, Oumaima Hourrane, Manish Shrivastava, Thamar Solorio, Nirmal Surange, Krishnapriya Vishnubhotla, Seid Muhie Yimam, Saif M. Mohammad, (参考訳) セマンティックテキスト関連性(STR)に関する最初の共有タスクを提示する。 以前の共有タスクは、主に意味的類似性に焦点を当てていたが、代わりに、アフリカーンス、アルジェリア語、アラビア語、アムハラ語、英語、ハウサ語、ヒンディー語、インドネシア語、キンヤルワンダ語、マラティー語、モロッコ語、現代標準アラビア語、パンジャビ語、スペイン語、テルグ語など、14言語にわたる意味的関連性の広範な現象を調査した。 これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。 データセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。 参加型システムでは, 文の親密性(意味的関係の程度)によって, 3つの主要なトラックにおいて, 14言語で文対をランク付けするよう求められた。 a) 監督; 監督; 監督 (b)監督なし、及び (c)クロスリンガル。 参加者数は163名。 51の異なるチームから合計70の応募(全タスク)と38のシステム記述書類を受け取りました。 我々は,3つの異なるトラックに対して,最高の性能システムと,最も一般的かつ最も効果的なアプローチについて報告する。

We present the first shared task on Semantic Textual Relatedness (STR). While earlier shared tasks primarily focused on semantic similarity, we instead investigate the broader phenomenon of semantic relatedness across 14 languages: Afrikaans, Algerian Arabic, Amharic, English, Hausa, Hindi, Indonesian, Kinyarwanda, Marathi, Moroccan Arabic, Modern Standard Arabic, Punjabi, Spanish, and Telugu. These languages originate from five distinct language families and are predominantly spoken in Africa and Asia -- regions characterised by the relatively limited availability of NLP resources. Each instance in the datasets is a sentence pair associated with a score that represents the degree of semantic textual relatedness between the two sentences. Participating systems were asked to rank sentence pairs by their closeness in meaning (i.e., their degree of semantic relatedness) in the 14 languages in three main tracks: (a) supervised, (b) unsupervised, and (c) crosslingual. The task attracted 163 participants. We received 70 submissions in total (across all tasks) from 51 different teams, and 38 system description papers. We report on the best-performing systems as well as the most common and the most effective approaches for the three different tracks.
翻訳日:2024-04-19 13:59:47 公開日:2024-04-17
# QSVTに対するケーススタディ:信号処理技術により改善された量子位相推定の評価

A case study against QSVT: assessment of quantum phase estimation improved by signal processing techniques ( http://arxiv.org/abs/2404.01396v2 )

ライセンス: Link先を確認
Sean Greenaway, William Pol, Sukin Sim, (参考訳) 近年では、量子位相推定(QPE)を測定無しのサブルーチンとしてコヒーレントに利用する量子アルゴリズムが提案されている。 これを効果的に行うためには、ルーチンは固有状態と単体に近い成功確率を区別できなければならない。 本稿では、この成功確率を最大化するための2つのアプローチと、以前に位相値分布の先行として研究されてきた量子特異値変換と、それを利用したウィンドウ関数との体系的比較について述べる。 量子特異値変換はウィンドウ関数アプローチによって著しく非分類化されており、後者はクエリコストの約1/4で成功確率を3~5桁改善することができる。 回路シミュレーションの結果、QPEはQSVTの統合の恩恵を受ける領域ではないことが示され、Kaiserウィンドウ関数の使用は、現在、高い成功確率でQPEを実現するための最も実用的な選択であることを示す。

In recent years, quantum algorithms have been proposed which use quantum phase estimation (QPE) coherently as a subroutine without measurement. In order to do this effectively, the routine must be able to distinguish eigenstates with success probability close to unity. In this paper, we provide the first systematic comparison between two approaches towards maximizing this success probability, one using the quantum singular value transform and the other leveraging window functions, which have been previously studied as priors of the phase value distribution. We find that the quantum singular value transform is significantly outclassed by the window function approach, with the latter able to achieve between 3 and 5 orders of magnitude improvement in the success probability with approximately 1/4 the query cost. Our circuit simulation results indicate that QPE is not a domain which benefits from the integration of QSVT and we show that the use of the Kaiser window function is currently the most practical choice for realizing QPE with high success probability.
翻訳日:2024-04-19 13:59:47 公開日:2024-04-17
# 量子$p$-スピンハミルトニアンの基底状態エネルギー上の境界

Bounds on the ground state energy of quantum $p$-spin Hamiltonians ( http://arxiv.org/abs/2404.07231v2 )

ライセンス: Link先を確認
Eric R. Anschuetz, David Gamarnik, Bobak T. Kiani, (参考訳) 量子$p$-局所スピングラスランダムハミルトニアンの基底状態エネルギーを推定する問題は、広く研究されている古典スピングラスモデルの量子アナログである。 我々の主な結果は、積状態によって達成可能な最大エネルギーが、$n\to\infty$として(p$に対してさえ)十分に定義された極限を持ち、$E_{\text{product}}^\ast=\sqrt{2 \log p}$ であることを示している。 この値は、古典的なスピングラスの設定において広く研究されている、非常に単純なランダムエネルギーモデル(Random Energy Model)の最大エネルギーとして解釈される。 極限の存在の証明は、(正規化された)焼成自由エネルギーの超付加性に近いことを証明した後、フェケテのレムマの拡張から従う。 値の証明は、製品状態の$\epsilon$-netに制限されたときに与えられたエネルギーを達成する状態の数についての第二モーメント法から従う。 さらに、全ての状態上で達成された最大エネルギーを$p$-依存定数 $\gamma\left(p\right)$ に関連付ける。 すべての状態$E^\ast\left(p\right)$で達成される最大エネルギーは、大きめの$n$の極限において、少なくとも$\sqrt{\gamma\left(p\right)}E_{\text{product}}^\ast$であることを示す。 また、Lindebergの補間法を用いて、ランダム性の選択に関して$E^\ast\left(p\right)$の制限が堅牢であること、そして例えば、スパースランダムハミルトニアンの場合にも適用可能であることを証明した。 このランダム性のロバスト性は、SYKやランダム量子マックスカットを含む幅広いランダムハミルトンモデルにまで拡張される。

We consider the problem of estimating the ground state energy of quantum $p$-local spin glass random Hamiltonians, the quantum analogues of widely studied classical spin glass models. Our main result shows that the maximum energy achievable by product states has a well-defined limit (for even $p$) as $n\to\infty$ and is $E_{\text{product}}^\ast=\sqrt{2 \log p}$ in the limit of large $p$. This value is interpreted as the maximal energy of a much simpler so-called Random Energy Model, widely studied in the setting of classical spin glasses. The proof of the limit existing follows from an extension of Fekete's Lemma after we demonstrate near super-additivity of the (normalized) quenched free energy. The proof of the value follows from a second moment method on the number of states achieving a given energy when restricting to an $\epsilon$-net of product states. Furthermore, we relate the maximal energy achieved over all states to a $p$-dependent constant $\gamma\left(p\right)$, which is defined by the degree of violation of a certain asymptotic independence ansatz over graph matchings. We show that the maximal energy achieved by all states $E^\ast\left(p\right)$ in the limit of large $n$ is at most $\sqrt{\gamma\left(p\right)}E_{\text{product}}^\ast$. We also prove using Lindeberg's interpolation method that the limiting $E^\ast\left(p\right)$ is robust with respect to the choice of the randomness and, for instance, also applies to the case of sparse random Hamiltonians. This robustness in the randomness extends to a wide range of random Hamiltonian models including SYK and random quantum max-cut.
翻訳日:2024-04-19 13:59:47 公開日:2024-04-17
# QRコードを用いた医薬品製造用偽造防止システム

Protected QR Code-based Anti-counterfeit System for Pharmaceutical Manufacturing ( http://arxiv.org/abs/2404.07831v2 )

ライセンス: Link先を確認
Md Masruk Aulia, Nitol Saha, Md. Mostafizur Rahman, Mohammed Shafiul Alam Khan, (参考訳) 製薬業は、偽造薬物の世界的な脅威のために重大な課題に直面している。 本稿では, 医薬品サプライチェーンを保護するために, ユニークな製品情報を確保するために, 保護QRコードの新たなアプローチを提案する。 提案手法はセキュアなQRコード生成と暗号化されたデータ伝送を統合して、包括的な反偽造防止エコシステムを確立する。 保護QRコードは、複製や改ざんを防ぐために、従来のQRコードスキャナーを使用して識別できない製品情報をカプセル化する。 このシステムはスケーラビリティを念頭に開発されており、従来のサプライチェーンに新たな変更を加えることなく容易に実装することができる。

The pharmaceutical manufacturing faces critical challenges due to the global threat of counterfeit drugs. This paper proposes a new approach of protected QR codes to secure unique product information for safeguarding the pharmaceutical supply chain. The proposed solution integrates secure QR code generation and encrypted data transmission to establish a comprehensive anti-counterfeit ecosystem. The protected QR codes encapsulate product information that cannot be identified using traditional QR code scanners which protect the information against replication and tampering. The system is developed with scalability in mind, which can be easily implemented without introducing any additional modification in the traditional supply chain.
翻訳日:2024-04-19 13:59:47 公開日:2024-04-17
# 収束$\mathbb{Z}_2$格子ゲージ理論における質量支援局所分解

Mass-Assisted Local Deconfinement in a Confined $\mathbb{Z}_2$ Lattice Gauge Theory ( http://arxiv.org/abs/2404.11645v1 )

ライセンス: Link先を確認
Jean-Yves Desaules, Thomas Iadecola, Jad C. Halimeh, (参考訳) 凝縮は凝縮物質や高エネルギー物理学において顕著な現象であり、近年は格子ゲージ理論(LGT)の量子シミュレーション実験の焦点となっている。 したがって、LGT力学に対する閉じ込めの効果に関する理論的理解は、基本的な重要性だけでなく、今後の実験にも役立つ。 ここでは、$\mathbb{Z}_2$ LGT における閉じ込めが、フェルミオン質量と電場強度との共鳴に近接して \textit{locally} を避けることができることを示す。 さらに、この局所的な分解は、情報伝達がチェーン全体にわたって発生する特定の初期条件において、グローバルになる可能性があることを示す。 さらに、このことが、異なる初期状態から始まる強い量子多体傷の原因となることを示す。 我々の研究は、$\mathbb{Z}_2$ LGTsの閉じ込めの性質について深い洞察を与え、現在および短期の量子デバイスでテストすることができる。

Confinement is a prominent phenomenon in condensed matter and high-energy physics that has recently become the focus of quantum-simulation experiments of lattice gauge theories (LGTs). As such, a theoretical understanding of the effect of confinement on LGT dynamics is not only of fundamental importance, but can lend itself to upcoming experiments. Here, we show how confinement in a $\mathbb{Z}_2$ LGT can be \textit{locally} avoided by proximity to a resonance between the fermion mass and the electric field strength. Furthermore, we show that this local deconfinement can become global for certain initial conditions, where information transport occurs over the entire chain. In addition, we show how this can lead to strong quantum many-body scarring starting in different initial states. Our findings provide deeper insights into the nature of confinement in $\mathbb{Z}_2$ LGTs and can be tested on current and near-term quantum devices.
翻訳日:2024-04-19 13:40:17 公開日:2024-04-17
# 近似乗算器を用いた敵攻撃に対するDNNロバストネスの探索

Exploring DNN Robustness Against Adversarial Attacks Using Approximate Multipliers ( http://arxiv.org/abs/2404.11665v1 )

ライセンス: Link先を確認
Mohammad Javad Askarizadeh, Ebrahim Farahmand, Jorge Castro-Godinez, Ali Mahani, Laura Cabrera-Quiros, Carlos Salazar-Garcia, (参考訳) ディープニューラルネットワーク(DNN)は、ヘルスケアや自動運転など、多くの現実世界のアプリケーションで進歩している。 しかし、その高い計算複雑性と敵攻撃に対する脆弱性は、現在進行中の課題である。 このレターでは、近似乗算器を用いて、敵攻撃に対するDNNの堅牢性向上を探索する。 DNN層モデルにおける最先端近似乗算器の高精度な乗算器を均一に置き換えることにより、DNNの様々な敵攻撃に対するロバスト性を、実現可能な時間で探索する。 その結果、攻撃がない場合の近似により7%の精度低下がみられ、攻撃が適用された場合には10%の堅牢な精度が向上した。

Deep Neural Networks (DNNs) have advanced in many real-world applications, such as healthcare and autonomous driving. However, their high computational complexity and vulnerability to adversarial attacks are ongoing challenges. In this letter, approximate multipliers are used to explore DNN robustness improvement against adversarial attacks. By uniformly replacing accurate multipliers for state-of-the-art approximate ones in DNN layer models, we explore the DNNs robustness against various adversarial attacks in a feasible time. Results show up to 7% accuracy drop due to approximations when no attack is present while improving robust accuracy up to 10% when attacks applied.
翻訳日:2024-04-19 13:40:17 公開日:2024-04-17
# 高速スパース入力動的ビュー合成のための分解運動場

Factorized Motion Fields for Fast Sparse Input Dynamic View Synthesis ( http://arxiv.org/abs/2404.11669v1 )

ライセンス: Link先を確認
Nagabhushan Somraj, Kapil Choudhary, Sai Harsha Mupparaju, Rajiv Soundararajan, (参考訳) 高速な最適化とレンダリングのために動的シーンの3D表現を設計することは難しい作業である。 最近の明示的な表現は動的放射場を高速に学習しレンダリングすることを可能にするが、それらには深い入力視点が必要である。 本研究では,スパースな入力視点を持つ動的放射場に対する高速な表現の学習に焦点をあてる。 しかし、スパース入力による最適化は非制約であり、学習を制約するためには、前もって動きを使う必要がある。 既存の高速ダイナミックシーンモデルでは、動きを明示的にモデル化することはなく、動きの先行に制約されるのが困難である。 運動場の時空間相関を生かし,高速な因子化4次元表現として明示的な動きモデルを設計する。 次に、カメラ間のスパースフロー前処理と、カメラ内の密流前処理を組み合わせることで、動作モデルを調整することを含む、信頼性の高いフロー前処理を導入する。 我々のモデルは高速でコンパクトであり、スパースな入力視点を持つ人気のあるマルチビュー動的シーンデータセット上で非常に優れた性能を実現している。 私たちのモデルのソースコードは、プロジェクトページにある。 https://nagabhushansn95.github.io/publications/2024/RF-DeRF.html。

Designing a 3D representation of a dynamic scene for fast optimization and rendering is a challenging task. While recent explicit representations enable fast learning and rendering of dynamic radiance fields, they require a dense set of input viewpoints. In this work, we focus on learning a fast representation for dynamic radiance fields with sparse input viewpoints. However, the optimization with sparse input is under-constrained and necessitates the use of motion priors to constrain the learning. Existing fast dynamic scene models do not explicitly model the motion, making them difficult to be constrained with motion priors. We design an explicit motion model as a factorized 4D representation that is fast and can exploit the spatio-temporal correlation of the motion field. We then introduce reliable flow priors including a combination of sparse flow priors across cameras and dense flow priors within cameras to regularize our motion model. Our model is fast, compact and achieves very good performance on popular multi-view dynamic scene datasets with sparse input viewpoints. The source code for our model can be found on our project page: https://nagabhushansn95.github.io/publications/2024/RF-DeRF.html.
翻訳日:2024-04-19 13:40:17 公開日:2024-04-17
# MemLLM: 明示的な読み書きメモリを使用するLLMの微調整

MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory ( http://arxiv.org/abs/2404.11672v1 )

ライセンス: Link先を確認
Ali Modarressi, Abdullatif Köksal, Ayyoob Imani, Mohsen Fayyaz, Hinrich Schütze, (参考訳) 現在の大規模言語モデル(LLM)は知識集約型タスクのいくつかの機能を示しているが、暗黙の記憶機構としてパラメータに依存することで制限される。 その結果、頻繁な知識と時間的劣化に悩まされる。 さらに、パラメトリック記憶の解釈不能な性質は幻覚の理解と予防を困難にしている。 パラメトリックメモリプールとモデル編集は部分解である。 Retrieval Augmented Generation (RAG) $\unicode{x2013}$ しかし、非パラメトリック$\unicode{x2013}$には独自の制限がある。 本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,LCMの拡張手法であるMemLLMを紹介する。 MemLLMは、メモリとの動的相互作用を可能にし、記憶された知識を使用する際のLLMの機能を改善することで、上記の課題に対処する。 実験の結果, 言語モデリング, 特に知識集約型タスクにおいて, MemLLMはLLMの性能と解釈可能性を向上させることが示唆された。 私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。

While current large language models (LLMs) demonstrate some capabilities in knowledge-intensive tasks, they are limited by relying on their parameters as an implicit storage mechanism. As a result, they struggle with infrequent knowledge and temporal degradation. In addition, the uninterpretable nature of parametric memorization makes it challenging to understand and prevent hallucination. Parametric memory pools and model editing are only partial solutions. Retrieval Augmented Generation (RAG) $\unicode{x2013}$ though non-parametric $\unicode{x2013}$ has its own limitations: it lacks structure, complicates interpretability and makes it hard to effectively manage stored knowledge. In this paper, we introduce MemLLM, a novel method of enhancing LLMs by integrating a structured and explicit read-and-write memory module. MemLLM tackles the aforementioned challenges by enabling dynamic interaction with the memory and improving the LLM's capabilities in using stored knowledge. Our experiments indicate that MemLLM enhances the LLM's performance and interpretability, in language modeling in general and knowledge-intensive tasks in particular. We see MemLLM as an important step towards making LLMs more grounded and factual through memory augmentation.
翻訳日:2024-04-19 13:40:17 公開日:2024-04-17
# ゲージ場における機械学習流れの実用化

Practical applications of machine-learned flows on gauge fields ( http://arxiv.org/abs/2404.11674v1 )

ライセンス: Link先を確認
Ryan Abbott, Michael S. Albergo, Denis Boyda, Daniel C. Hackett, Gurtej Kanwar, Fernando Romero-López, Phiala E. Shanahan, Julian M. Urban, (参考訳) 正規化フローは、異なる格子理論の間の機械学習マップであり、正確なサンプリングおよび推論スキームの構成要素として使用できる。 進行中の作業はゲージ場上の表現力のある流れをもたらすが、現状のスケールでの格子QCDをどのように改善できるかは未解決のままである。 現在利用可能な流れを反復的に改善することのできるトポロジカルミキシングの改善を目的としたレプリカ交換(並列テンパリング)サンプリングにおけるフローの2つの応用を議論し、実証する。

Normalizing flows are machine-learned maps between different lattice theories which can be used as components in exact sampling and inference schemes. Ongoing work yields increasingly expressive flows on gauge fields, but it remains an open question how flows can improve lattice QCD at state-of-the-art scales. We discuss and demonstrate two applications of flows in replica exchange (parallel tempering) sampling, aimed at improving topological mixing, which are viable with iterative improvements upon presently available flows.
翻訳日:2024-04-19 13:40:17 公開日:2024-04-17
# 車両経路問題の解法におけるクロスプロブレム学習

Cross-Problem Learning for Solving Vehicle Routing Problems ( http://arxiv.org/abs/2404.11677v1 )

ライセンス: Link先を確認
Zhuoyi Lin, Yaoxin Wu, Bangjian Zhou, Zhiguang Cao, Wen Song, Yingqian Zhang, Senthilnath Jayavelu, (参考訳) 既存のニューラルヒューリスティックは、特定の車両ルーティング問題(VRP)ごとにスクラッチから深いアーキテクチャを訓練し、異なるVRP変種間で伝達可能な知識を無視していることが多い。 本稿では,異なる下流VRP変種に対するヒューリスティックストレーニングを支援するクロスプロブレム学習を提案する。 特に、複雑なVRPのためのニューラルネットワークをモジュール化します。 1)旅行セールスマン問題(TSP)に取り組むバックボーントランスフォーマー 2) 複雑なVRPにおける問題固有の特徴を処理するための軽量モジュールの追加。 そこで,本研究では,TSP用バックボーントランスフォーマーを事前学習し,ターゲットVRP用トランスフォーマーモデルを微調整するプロセスに適用することを提案する。 一方、トレーニングされたバックボーントランスフォーマーと問題固有のモジュールを同時に完全に微調整します。 一方、我々はモジュールとともに小さなアダプタネットワークを微調整するだけで、バックボーントランスフォーマーを保ちます。 典型的なVRPの広範囲にわたる実験 1) フル微調整は、スクラッチから訓練したものよりも大幅に性能が向上し、 2)アダプタベースのファインチューニングは、パラメータ効率を顕著に保ちながら、同等のパフォーマンスを提供する。 さらに, クロスディストリビューションと汎用性の観点から, 提案手法の有効性を実証的に実証した。

Existing neural heuristics often train a deep architecture from scratch for each specific vehicle routing problem (VRP), ignoring the transferable knowledge across different VRP variants. This paper proposes the cross-problem learning to assist heuristics training for different downstream VRP variants. Particularly, we modularize neural architectures for complex VRPs into 1) the backbone Transformer for tackling the travelling salesman problem (TSP), and 2) the additional lightweight modules for processing problem-specific features in complex VRPs. Accordingly, we propose to pre-train the backbone Transformer for TSP, and then apply it in the process of fine-tuning the Transformer models for each target VRP variant. On the one hand, we fully fine-tune the trained backbone Transformer and problem-specific modules simultaneously. On the other hand, we only fine-tune small adapter networks along with the modules, keeping the backbone Transformer still. Extensive experiments on typical VRPs substantiate that 1) the full fine-tuning achieves significantly better performance than the one trained from scratch, and 2) the adapter-based fine-tuning also delivers comparable performance while being notably parameter-efficient. Furthermore, we empirically demonstrate the favorable effect of our method in terms of cross-distribution application and versatility.
翻訳日:2024-04-19 13:40:17 公開日:2024-04-17
# オンラインテナントフォーラムにおける生成AIを用いたテナント・ロードロードテンションの評価

Evaluating Tenant-Landlord Tensions Using Generative AI on Online Tenant Forums ( http://arxiv.org/abs/2404.11681v1 )

ライセンス: Link先を確認
Xin Chen, Cheng Ren, Tim A Thomas, (参考訳) テナントと地主の関係は、地主が低コストでテナントを追放する力の非対称性を示す。 したがって、緊張する懸念はしばしば無意味、未解決、無視され、抑圧されたテナント懸念が蓄積するにつれて、緩やかな対立につながる可能性がある。 現代の機械学習手法とLarge Language Models (LLM)は、言語タスクを実行するための膨大な能力を示している。 本研究では、Latent Dirichlet Allocation(LDA)をGPT-4に組み込んで、サブレディットr/Tenantから抽出したRedditポストデータを分類する。 料金問題やユーティリティ問題といったトピックにおけるテナント懸念は、分析された4つの州すべてで一貫して支配的であり、一方、各州にはそれ自身に特有な共通テナント懸念がある。 さらに,パンデミックやエビクション・モラトリアムの影響に重要な影響を及ぼすテナント的関心事の時間的傾向を明らかにする。

Tenant-landlord relationships exhibit a power asymmetry where landlords' power to evict the tenants at a low-cost results in their dominating status in such relationships. Tenant concerns are thus often unspoken, unresolved, or ignored and this could lead to blatant conflicts as suppressed tenant concerns accumulate. Modern machine learning methods and Large Language Models (LLM) have demonstrated immense abilities to perform language tasks. In this study, we incorporate Latent Dirichlet Allocation (LDA) with GPT-4 to classify Reddit post data scraped from the subreddit r/Tenant, aiming to unveil trends in tenant concerns while exploring the adoption of LLMs and machine learning methods in social science research. We find that tenant concerns in topics like fee dispute and utility issues are consistently dominant in all four states analyzed while each state has other common tenant concerns special to itself. Moreover, we discover temporal trends in tenant concerns that provide important implications regarding the impact of the pandemic and the Eviction Moratorium.
翻訳日:2024-04-19 13:40:17 公開日:2024-04-17
# どのようにしてそのアイデアを表現できるか? - 自動定式化評価の視点から

How Well Can You Articulate that Idea? Insights from Automated Formative Assessment ( http://arxiv.org/abs/2404.11682v1 )

ライセンス: Link先を確認
Mahsa Sheikhi Karizaki, Dana Gnesdilow, Sadhana Puntambekar, Rebecca J. Passonneau, (参考訳) 自動解法は、学生の理科解説書における形式的フィードバックの研究にますます統合されつつある。 しかし、この研究の大部分は、短い回答の質問に対する学生の回答に対処している。 学生の理科解説エッセイにおける自動フィードバックについて検討し,学生が複数のアイデアを具体化しなければならない点について考察した。 フィードバックは、シミュレーションされたジェットコースターの実験から、学生がエネルギーと質量の物理学に関する説明的エッセイに含めるよう促される主要なアイデアを特定するルーリックに基づいている。 学生は概してエッセイの改訂版を改良していることが判明した。 しかし、ここでは、自動フィードバックの正確性に影響を与える2つの要因に焦点を当てる。 第一に、ルーリックの主要な考え方は、その概念の説明においてどの程度の自由があるかという点で異なり、したがって自然法則の説明は相対的に制約されている。 学生は、ジェットコースターで観察する複雑な関係、例えば様々な形態のエネルギーの伝達について、より自由に説明できる。 第二に、自動決定プロセスのトレースによって、学生の声明が自動化ツールに十分な明快さを欠いている場合に、それをより強く他のすべてに関連付けることができる。 これにより、教師や仲間が、学生が自分のアイデアをより明確に表現する方法を振り返ることができる。

Automated methods are becoming increasingly integrated into studies of formative feedback on students' science explanation writing. Most of this work, however, addresses students' responses to short answer questions. We investigate automated feedback on students' science explanation essays, where students must articulate multiple ideas. Feedback is based on a rubric that identifies the main ideas students are prompted to include in explanatory essays about the physics of energy and mass, given their experiments with a simulated roller coaster. We have found that students generally improve on revised versions of their essays. Here, however, we focus on two factors that affect the accuracy of the automated feedback. First, we find that the main ideas in the rubric differ with respect to how much freedom they afford in explanations of the idea, thus explanation of a natural law is relatively constrained. Students have more freedom in how they explain complex relations they observe in their roller coasters, such as transfer of different forms of energy. Second, by tracing the automated decision process, we can diagnose when a student's statement lacks sufficient clarity for the automated tool to associate it more strongly with one of the main ideas above all others. This in turn provides an opportunity for teachers and peers to help students reflect on how to state their ideas more clearly.
翻訳日:2024-04-19 13:40:17 公開日:2024-04-17
# Duffin-Kemmer-Petiau理論における電磁相互作用と異常項について

On the electromagnetic interaction and the anomalous term in the Duffin-Kemmer-Petiau theory ( http://arxiv.org/abs/2404.11687v1 )

ライセンス: Link先を確認
Andrés G. Jirón, Luis B. Castro, Antonio S. de Castro, Angel E. Obispo, (参考訳) DKP(Duffin-Kemmer-Petiau)形式による電磁場に埋め込まれたベクトル中間子の問題を再検討する。 電磁相互作用を最小結合として考えると、ジャイロ磁気係数(g$-factor)に対して誤った値$(g=1)$が識別される。 さらに、DKP理論のスピン-1セクターのいわゆる異常項が存在するため、解析解を見つけるのは困難であることが示されている。 電磁相互作用を記述するためのDKP方程式の不完全バージョンから異常項が生じることを考慮し、非最小結合の追加を検討する。 これにより正しい$g$-factor $(g=2)$となり、結果として異常項は外部の4つの電流に比例する。 応用として、静的均一磁場を持つDKP方程式を考慮し、対応するランダウレベルを導出する。

The problem of vectorial mesons embedded in an electromagnetic field via Duffin-Kemmer-Petiau (DKP) formalism is reinvestigated. Considering the electromagnetic interaction as a minimal coupling, an incorrect value $(g=1)$ is identified for the gyromagnetic factor ($g$-factor). Furthermore, it is shown that is cumbersome to find analytical solutions due to the presence of the so-called anomalous term for the spin-1 sector of the DKP theory. Suspecting that the anomalous term results from an incomplete version of the DKP equation to describe the electromagnetic interaction, we consider the addition of a non-minimal coupling. This leads to the correct $g$-factor $(g=2)$, and as a consequence, the anomalous term becomes proportional to an external four current. As an application, the DKP equation with a static uniform magnetic field is considered, yielding the corresponding Landau levels.
翻訳日:2024-04-19 13:40:17 公開日:2024-04-17
# 自然言語処理による意味的アドレスマッチングの改善

Improvement in Semantic Address Matching using Natural Language Processing ( http://arxiv.org/abs/2404.11691v1 )

ライセンス: Link先を確認
Vansh Gupta, Mohit Gupta, Jai Garg, Nitesh Garg, (参考訳) アドレスマッチングは、多くのビジネスにとって重要なタスクであり、特に、データウェアハウスから特定のアドレスを取り出すのに役立つ企業を取り出す。 既存のソリューションは文字列の類似性を利用し、距離アルゴリズムを編集してアドレスデータベースから類似したアドレスを見つけるが、これらのアルゴリズムは冗長、非構造化、または不完全なアドレスデータでは効果的に動作できない。 本稿では,可能なアドレスのリストから特定のアドレスを検索できるセマンティックアドレスマッチング手法について論じる。 既存のプラクティスや欠点についてもレビューしています。 意味的アドレスマッチングは、ディープラーニングの分野における本質的にNLPタスクである。 この技術を通じて、重複や短縮データ問題といった既存の手法の欠点を克服する能力を持つ。 このソリューションでは、OCRを請求書に使用してアドレスを抽出し、アドレスのデータプールを作成する。 そして、このデータをアルゴリズムBM-25に入力し、ベストマッチエントリをスコアする。 そして、最高の結果を見るために、同様のクエリから可能な最良の結果を与えるためにBERTを通り抜ける。 本研究は,最先端技術の精度と評価を両立させる手法であることを示す。

Address matching is an important task for many businesses especially delivery and take out companies which help them to take out a certain address from their data warehouse. Existing solution uses similarity of strings, and edit distance algorithms to find out the similar addresses from the address database, but these algorithms could not work effectively with redundant, unstructured, or incomplete address data. This paper discuss semantic Address matching technique, by which we can find out a particular address from a list of possible addresses. We have also reviewed existing practices and their shortcoming. Semantic address matching is an essentially NLP task in the field of deep learning. Through this technique We have the ability to triumph the drawbacks of existing methods like redundant or abbreviated data problems. The solution uses the OCR on invoices to extract the address and create the data pool of addresses. Then this data is fed to the algorithm BM-25 for scoring the best matching entries. Then to observe the best result, this will pass through BERT for giving the best possible result from the similar queries. Our investigation exhibits that our methodology enormously improves both accuracy and review of cutting-edge technology existing techniques.
翻訳日:2024-04-19 13:40:17 公開日:2024-04-17
# フロンティアにおける数十億ドル規模の地空間基礎モデルの構築

Pretraining Billion-scale Geospatial Foundational Models on Frontier ( http://arxiv.org/abs/2404.11706v1 )

ライセンス: Link先を確認
Aristeidis Tsaris, Philipe Ambrozio Dias, Abhishek Potnis, Junqi Yin, Feiyi Wang, Dalton Lunga, (参考訳) AIワークロードがスコープを拡大するにつれて、小さなタスク固有のモデルでは一般化能力が難しくなり、大量のラベル付きトレーニングサンプルの需要が増大する。 それに対して、ファンデーションモデル(FM)は、自己教師付き学習を通じて、インターネットスケールの未ラベルデータで訓練されており、最小限の微調整で様々なタスクに適応することが示されている。 大規模FMは、自然言語処理やコンピュータビジョンに多大な影響を与えてきたが、地理空間アプリケーションのためのFMへの取り組みは、より小さなモデルに制限されている。 現在の衛星星座は1日に100TB以上のデータを収集し、自然界の数十億ピクセルとマルチモーダルの画像を生み出している。 このような地理空間データには、FMを開発する新たな機会が開ける固有の課題がある。 本研究では,空間的応用のための10億規模のFMとHPCトレーニングプロファイルを,公開データの事前学習により検討する。 私たちは、モデルサイズをスケールすることで、ソリューションのパフォーマンスと影響をエンドツーエンドから調査しました。 より大規模な3Bパラメータサイズモデルでは,100Mパラメータモデルを比較すると,トップ1シーンの分類精度が最大30%向上する。 さらに、PyTorchのFully Sharded Data Parallelライブラリを用いて、異なるモデルとデータ並列アプローチを研究するアメリカの最初のエクサスケールシステムであるFrontierスーパーコンピュータの性能実験について詳述する。 具体的には、最大15BパラメータのViTモデルに対して、ViT(Vision Transformer Architecture)の変種について、性能解析を行う。 異なる並列性構成下でスループットとパフォーマンスボトルネックを議論することにより、地理空間画像アプリケーションのための大規模モデルを開発する際に、このようなリーダーシップクラスのHPCリソースをどのように活用するかについての洞察を提供する。

As AI workloads increase in scope, generalization capability becomes challenging for small task-specific models and their demand for large amounts of labeled training samples increases. On the contrary, Foundation Models (FMs) are trained with internet-scale unlabeled data via self-supervised learning and have been shown to adapt to various tasks with minimal fine-tuning. Although large FMs have demonstrated significant impact in natural language processing and computer vision, efforts toward FMs for geospatial applications have been restricted to smaller size models, as pretraining larger models requires very large computing resources equipped with state-of-the-art hardware accelerators. Current satellite constellations collect 100+TBs of data a day, resulting in images that are billions of pixels and multimodal in nature. Such geospatial data poses unique challenges opening up new opportunities to develop FMs. We investigate billion scale FMs and HPC training profiles for geospatial applications by pretraining on publicly available data. We studied from end-to-end the performance and impact in the solution by scaling the model size. Our larger 3B parameter size model achieves up to 30% improvement in top1 scene classification accuracy when comparing a 100M parameter model. Moreover, we detail performance experiments on the Frontier supercomputer, America's first exascale system, where we study different model and data parallel approaches using PyTorch's Fully Sharded Data Parallel library. Specifically, we study variants of the Vision Transformer architecture (ViT), conducting performance analysis for ViT models with size up to 15B parameters. By discussing throughput and performance bottlenecks under different parallelism configurations, we offer insights on how to leverage such leadership-class HPC resources when developing large models for geospatial imagery applications.
翻訳日:2024-04-19 13:40:17 公開日:2024-04-17
# 可換性対非可換性CSPの満足度

Satisfiability of commutative vs. non-commutative CSPs ( http://arxiv.org/abs/2404.11709v1 )

ライセンス: Link先を確認
Andrei A. Bulatov, Stanislav Živný, (参考訳) マーミン・ペレスのマジック正方形は(古典的には)満足できないが、次元 4 のヒルベルト空間上の線型作用素によって満足できるブール線型方程式のシステムの有名な例である。 自然の疑問は、そのような現象がどんな問題を引き起こすのかということだ。 Atserias, Kolaitis, and Severini はすべてのブール制約満足問題 (CSPs): 2-SAT, Horn-SAT, Dual Horn-SAT に対し、古典的満足度と作用素の満足度は同じであり、ギャップがない。 これらの結果を任意の有限領域上の CSP に一般化する: いわゆる有界幅の CSP は満足性ギャップを持たないが、他のすべての CSP は満足性ギャップを持つ。

The Mermin-Peres magic square is a celebrated example of a system of Boolean linear equations that is not (classically) satisfiable but is satisfiable via linear operators on a Hilbert space of dimension four. A natural question is then, for what kind of problems such a phenomenon occurs? Atserias, Kolaitis, and Severini answered this question for all Boolean Constraint Satisfaction Problems (CSPs): For 2-SAT, Horn-SAT, and Dual Horn-SAT, classical satisfiability and operator satisfiability is the same and thus there is no gap; for all other Boolean CSPs, the two notions differ as there is a gap, i.e., there are unsatisfiable instances that are satisfied via operators on a finite-dimensional Hilbert space. We generalize their result to CSPs on arbitrary finite domains: CSPs of so-called bounded-width have no satisfiability gap, whereas all other CSPs have a satisfiability gap.
翻訳日:2024-04-19 13:40:17 公開日:2024-04-17
# グラディエントDescent-Trained Defensible Blackboard Architecture Systemの実装と評価

Implementation and Evaluation of a Gradient Descent-Trained Defensible Blackboard Architecture System ( http://arxiv.org/abs/2404.11714v1 )

ライセンス: Link先を確認
Jordan Milbrath, Jonathan Rivard, Jeremy Straub, (参考訳) 人工知能システムの様々な形態が開発されている。 2つの有名なテクニックは、ニューラルネットワークとルールファクトエキスパートシステムである。 前者は提示されたデータからトレーニングすることができ、後者は典型的には人間のドメインの専門家によって開発される。 ルールファクトエキスパートシステムのトレーニングに勾配勾配を用いた実装が提案されている。 関連するシステムタイプであるBlackboard Architectureは、エキスパートシステムに現実化機能を追加する。 そこで本研究では,ブラックボード・アーキテクチャに定義可能な勾配降下訓練機能を導入し,評価する。 また、人工知能システムにアクティベーション関数を導入し、新しい最良のパスベースのトレーニングアルゴリズムを実装し、評価する。

A variety of forms of artificial intelligence systems have been developed. Two well-known techniques are neural networks and rule-fact expert systems. The former can be trained from presented data while the latter is typically developed by human domain experts. A combined implementation that uses gradient descent to train a rule-fact expert system has been previously proposed. A related system type, the Blackboard Architecture, adds an actualization capability to expert systems. This paper proposes and evaluates the incorporation of a defensible-style gradient descent training capability into the Blackboard Architecture. It also introduces the use of activation functions for defensible artificial intelligence systems and implements and evaluates a new best path-based training algorithm.
翻訳日:2024-04-19 13:40:17 公開日:2024-04-17
# 離散ウェーブレット変換を用いた量子場理論のエンタングルメント再正規化

Entanglement Renormalization for Quantum Field Theories with Discrete Wavelet Transforms ( http://arxiv.org/abs/2404.11715v1 )

ライセンス: Link先を確認
Daniele S. M. Alves, (参考訳) 本稿では、離散ウェーブレット変換を用いて量子場理論に対するエンタングルメント再正規化の適応法を提案する。 我々のアプローチはwMERAと呼ばれ、MERAを連続体システムに適用する以前の試みよりもいくつかの利点がある。 特に i) wMERAは位置空間で直接定式化され、従ってエンタングルの準局所性と疎性を保存する。 (II) 実時間進化の実装や相関関数の計算においてRGフローを組み込むことが, 効率的な数値的実装の鍵となる。 例えば、(1+1)時空次元における自由スカラー理論とフェルミオン理論のためのwMERAアルゴリズムの2つの具体的実装について詳述する。 相互作用する場の理論のためのwMERAを構築するための可能性も議論されている。

We propose an adaptation of Entanglement Renormalization for quantum field theories that, through the use of discrete wavelet transforms, strongly parallels the tensor network architecture of the \emph{Multiscale Entanglement Renormalization Ansatz} (a.k.a. MERA). Our approach, called wMERA, has several advantages of over previous attempts to adapt MERA to continuum systems. In particular, (i) wMERA is formulated directly in position space, hence preserving the quasi-locality and sparsity of entanglers; and (ii) it enables a built-in RG flow in the implementation of real-time evolution and in computations of correlation functions, which is key for efficient numerical implementations. As examples, we describe in detail two concrete implementations of our wMERA algorithm for free scalar and fermionic theories in (1+1) spacetime dimensions. Possible avenues for constructing wMERAs for interacting field theories are also discussed.
翻訳日:2024-04-19 13:40:17 公開日:2024-04-17
# 建築エネルギー管理のためのセマンティックモデリングに関する調査

A Survey on Semantic Modeling for Building Energy Management ( http://arxiv.org/abs/2404.11716v1 )

ライセンス: Link先を確認
Miracle Aniakor, Vinicius V. Cogo, Pedro M. Ferreira, (参考訳) ビルは世界のエネルギー消費のかなりの部分を占めている。 建物のエネルギー使用量を減らすには、主に建物の性能を評価し最適化するのに役立つ建築システムや環境からデータを取得する必要がある。 しかし、さまざまなメーカーのデバイスが独自の方法でデータを表現しているため、この格差はセマンティック相互運用性の課題をもたらし、スケーラブルなビルディングアプリケーションを開発する上での障害を生み出します。 本調査では, 建物におけるエネルギー管理のための主要なセマンティックモデリング手法について検討する。 さらに、セマンティックモデルを適用し、各モデルに固有の重要な概念と制限に光を当てる、具体的なユースケースを提供することも目標としている。 本研究は,これらのモデルを様々なユースケースで活用するための適切な状況と方法論を明らかにする上で,研究者の支援となる。

Buildings account for a substantial portion of global energy consumption. Reducing buildings' energy usage primarily involves obtaining data from building systems and environment, which are instrumental in assessing and optimizing the building's performance. However, as devices from various manufacturers represent their data in unique ways, this disparity introduces challenges for semantic interoperability and creates obstacles in developing scalable building applications. This survey explores the leading semantic modeling techniques deployed for energy management in buildings. Furthermore, it aims to offer tangible use cases for applying semantic models, shedding light on the pivotal concepts and limitations intrinsic to each model. Our findings will assist researchers in discerning the appropriate circumstances and methodologies for employing these models in various use cases.
翻訳日:2024-04-19 13:30:33 公開日:2024-04-17
# パラフレーズ変動による自然言語推論における誤りの頻度について

How often are errors in natural language reasoning due to paraphrastic variability? ( http://arxiv.org/abs/2404.11717v1 )

ライセンス: Link先を確認
Neha Srikanth, Marine Carpuat, Rachel Rudinger, (参考訳) 大規模な言語モデルは、意味保存のパラフラスティック入力に反応して不整合に振る舞うことが示されている。 同時に、研究者はこれらのモデルの知識と推論能力を評価し、パラフラスティック変動が性能に与える影響を分解しない試験評価を行った。 本稿では,同じ問題の2つのパラフレーズに対して同じ正当性を達成するモデルの確率に基づいて,自然言語推論モデルのパラフラスティック一貫性を評価する指標を提案する。 我々は、この計量をパラフレーズ化に起因するモデルの正しさの分散の比率に数学的に結合する。 パラフラスティックな一貫性を推定するために,既存のベンチマークデータセット上に構築された7,782個の人文によるパラパラフラスティック推論問題のデータセットであるParaNLUを抽出した。 ParaNLUを用いて、いくつかのモデルクラスのパラフラスティック一貫性を測定し、事前学習によって一貫性が劇的に向上するが、微調整はしないことを示す。 試験された全てのモデルはパラフラスティック一貫性を改善する余地を示した。

Large language models have been shown to behave inconsistently in response to meaning-preserving paraphrastic inputs. At the same time, researchers evaluate the knowledge and reasoning abilities of these models with test evaluations that do not disaggregate the effect of paraphrastic variability on performance. We propose a metric for evaluating the paraphrastic consistency of natural language reasoning models based on the probability of a model achieving the same correctness on two paraphrases of the same problem. We mathematically connect this metric to the proportion of a model's variance in correctness attributable to paraphrasing. To estimate paraphrastic consistency, we collect ParaNLU, a dataset of 7,782 human-written and validated paraphrased reasoning problems constructed on top of existing benchmark datasets for defeasible and abductive natural language inference. Using ParaNLU, we measure the paraphrastic consistency of several model classes and show that consistency dramatically increases with pretraining but not finetuning. All models tested exhibited room for improvement in paraphrastic consistency.
翻訳日:2024-04-19 13:30:32 公開日:2024-04-17
# GEOBIND:衛星画像によるテキスト、画像、オーディオの結合

GEOBIND: Binding Text, Image, and Audio through Satellite Images ( http://arxiv.org/abs/2404.11720v1 )

ライセンス: Link先を確認
Aayush Dhakal, Subash Khanal, Srikumar Sastry, Adeel Ahmad, Nathan Jacobs, (参考訳) リモートセンシングでは、地理的な位置の様々なモダリティをモデル化することに興味がある。 いくつかの作品では、場所と風景の種類、居住性、オーディオ、テキスト記述などとの関係について学ぶことに重点を置いている。 近年,衛星画像を用いて位置の特異な特徴を推測する深層学習モデルを訓練する手法が一般的である。 本研究では、位置情報の衛星画像からテキスト、画像、音声など複数のモードを推測できるディープラーニングモデルGeoBindを提案する。 これを実現するために,衛星画像を結合要素として使用し,他のすべてのモダリティを衛星画像データと対比的に整列する。 トレーニングの結果,衛星画像,地上画像,音声,テキストなど,複数の種類のデータを用いた共同埋め込み空間が得られた。 さらに、上記の全てのモダリティを含む単一の複雑なデータセットは不要である。 むしろ、複数の衛星画像のペアデータしか必要としない。 本論文では, 3つのモダリティのみをアライメントするが, サテライトイメージを結合要素として用いることで, 任意のモダリティを持つ埋め込み空間を作成できる汎用フレームワークを提案する。 この結果から,GeoBindは従来型とは違って汎用性があり,衛星画像の入力に対して複数のモダリティを推論できることが示唆された。

In remote sensing, we are interested in modeling various modalities for some geographic location. Several works have focused on learning the relationship between a location and type of landscape, habitability, audio, textual descriptions, etc. Recently, a common way to approach these problems is to train a deep-learning model that uses satellite images to infer some unique characteristics of the location. In this work, we present a deep-learning model, GeoBind, that can infer about multiple modalities, specifically text, image, and audio, from satellite imagery of a location. To do this, we use satellite images as the binding element and contrastively align all other modalities to the satellite image data. Our training results in a joint embedding space with multiple types of data: satellite image, ground-level image, audio, and text. Furthermore, our approach does not require a single complex dataset that contains all the modalities mentioned above. Rather it only requires multiple satellite-image paired data. While we only align three modalities in this paper, we present a general framework that can be used to create an embedding space with any number of modalities by using satellite images as the binding element. Our results show that, unlike traditional unimodal models, GeoBind is versatile and can reason about multiple modalities for a given satellite image input.
翻訳日:2024-04-19 13:30:32 公開日:2024-04-17
# トルコ語モデルにおけるジェンダーバイアスの調査

Investigating Gender Bias in Turkish Language Models ( http://arxiv.org/abs/2404.11726v1 )

ライセンス: Link先を確認
Orhun Caglidil, Malte Ostendorff, Georg Rehm, (参考訳) 言語モデルは、主にWebデータに基づいて訓練されており、しばしばモデルが継承できる社会的ステレオタイプとバイアスを含んでいる。 モデルが下流のタスクやアプリケーションでこれらのバイアスを増幅できるため、これは潜在的にネガティブな結果をもたらす可能性がある。 しかし、先行研究は主に英語、特にジェンダーバイアスの文脈に焦点を当てている。 特に、トルコ語のような文法的にジェンダーニュートラルな言語は、言語モデルに異なる言語特性を表現しているにもかかわらず、バイアスに異なる影響を与える可能性があるにもかかわらず、過度に探索されている。 本稿では,この研究ギャップを埋め,トルコ語モデルにおけるジェンダーバイアスの重要性について考察する。 我々は、既存のバイアス評価フレームワークを構築し、既存の英語テストを翻訳し、T\"urkiye"の文脈で性別バイアスを測定するように設計された新しいものを作成することで、トルコ語に拡張する。 具体的には、クルド人の民族的偏見を埋め込んだトルコ語モデルも評価する。 実験結果から,モデルのサイズ,多言語性,学習コーパスなど,異なるモデル特性に偏りがある可能性が示唆された。 トルコのジェンダーバイアスデータセットを公開しています。

Language models are trained mostly on Web data, which often contains social stereotypes and biases that the models can inherit. This has potentially negative consequences, as models can amplify these biases in downstream tasks or applications. However, prior research has primarily focused on the English language, especially in the context of gender bias. In particular, grammatically gender-neutral languages such as Turkish are underexplored despite representing different linguistic properties to language models with possibly different effects on biases. In this paper, we fill this research gap and investigate the significance of gender bias in Turkish language models. We build upon existing bias evaluation frameworks and extend them to the Turkish language by translating existing English tests and creating new ones designed to measure gender bias in the context of T\"urkiye. Specifically, we also evaluate Turkish language models for their embedded ethnic bias toward Kurdish people. Based on the experimental results, we attribute possible biases to different model characteristics such as the model size, their multilingualism, and the training corpora. We make the Turkish gender bias dataset publicly available.
翻訳日:2024-04-19 13:30:32 公開日:2024-04-17
# 深層学習による気管内挿管技術の評価

Deep Learning for Video-Based Assessment of Endotracheal Intubation Skills ( http://arxiv.org/abs/2404.11727v1 )

ライセンス: Link先を確認
Jean-Paul Ainam, Erim Yanik, Rahul Rahul, Taylor Kunkes, Lora Cavuoto, Brian Clemency, Kaori Tanaka, Matthew Hackett, Jack Norfleet, Suvranu De, (参考訳) 気管内挿管(英:endotracheal intubation,ETI)は、民間人や戦闘者による気道整備のための緊急処置である。 ETIスキルの客観的かつ自動評価は、医療提供者のトレーニングと認定に不可欠である。 しかし、現在のアプローチは、主観的、時間的、リソース集約的な専門家による手動フィードバックに基づいており、信頼性やハロ効果が低い傾向にある。 本研究は,シングルビューおよびマルチビュービデオを用いたETIスキル評価フレームワークを提案する。 フレームワークは2つのステージで構成されます。 まず、2D畳み込みオートエンコーダ(AE)と事前訓練されたセルフスーパービジョンネットワークがビデオから特徴を抽出する。 第2に、クロスビューアテンションモジュールで強化された1D畳み込みは、入力としてAEの特徴を取り、スキル評価のための予測を出力する。 ETIデータセットは2つのフェーズで収集された。 第1フェーズでは、ETIはエキスパートと初心者という2つの主題のコホートによって実行される。 第2段階では、初級者は時間圧下でERIを行い、結果は成功か不成功かのいずれかとなる。 Experts and Novices用のヘッドマウントカメラの3番目のデータセットも分析されている。 この研究は、初期段階におけるエキスパート/ノヴィエティの同定において100%の精度を達成した。 第2段階では,有効/不必要手順の分類において85%の精度を示した。 ヘッドマウントカメラだけで、このモデルはエキスパートと初心者の分類では96%の精度を示し、成功と失敗の分類では85%の精度を維持した。 さらに、GradCAMはエキスパートと初心者の振る舞いと成功と不成功のトライアルの違いを説明するために提示される。 このアプローチは、ERIスキルの自動評価のための信頼性と客観的な方法を提供する。

Endotracheal intubation (ETI) is an emergency procedure performed in civilian and combat casualty care settings to establish an airway. Objective and automated assessment of ETI skills is essential for the training and certification of healthcare providers. However, the current approach is based on manual feedback by an expert, which is subjective, time- and resource-intensive, and is prone to poor inter-rater reliability and halo effects. This work proposes a framework to evaluate ETI skills using single and multi-view videos. The framework consists of two stages. First, a 2D convolutional autoencoder (AE) and a pre-trained self-supervision network extract features from videos. Second, a 1D convolutional enhanced with a cross-view attention module takes the features from the AE as input and outputs predictions for skill evaluation. The ETI datasets were collected in two phases. In the first phase, ETI is performed by two subject cohorts: Experts and Novices. In the second phase, novice subjects perform ETI under time pressure, and the outcome is either Successful or Unsuccessful. A third dataset of videos from a single head-mounted camera for Experts and Novices is also analyzed. The study achieved an accuracy of 100% in identifying Expert/Novice trials in the initial phase. In the second phase, the model showed 85% accuracy in classifying Successful/Unsuccessful procedures. Using head-mounted cameras alone, the model showed a 96% accuracy on Expert and Novice classification while maintaining an accuracy of 85% on classifying successful and unsuccessful. In addition, GradCAMs are presented to explain the differences between Expert and Novice behavior and Successful and Unsuccessful trials. The approach offers a reliable and objective method for automated assessment of ETI skills.
翻訳日:2024-04-19 13:30:32 公開日:2024-04-17
# 一般化Few-shotセグメンテーションのためのビジュアルプロンプティング : マルチスケールアプローチ

Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach ( http://arxiv.org/abs/2404.11732v1 )

ライセンス: Link先を確認
Mir Rayat Imtiaz Hossain, Mennatullah Siam, Leonid Sigal, James J. Little, (参考訳) 注意に基づく変圧器モデルの出現は、それらの優れた一般化と伝達特性のために、様々なタスクに広く使われるようになった。 近年の研究では、このようなモデルが適切に誘導されると、数発の推論に優れていることが示されている。 しかし、このような手法はセマンティックセグメンテーションのような密集した予測タスクには未熟である。 本研究では,GFSSタスクにおいて,学習した視覚的プロンプトを用いたトランスフォーマーデコーダの有効性を検討する。 我々のゴールは、限られた例を持つ新しいカテゴリだけでなく、基本カテゴリにおけるパフォーマンスを維持することにある。 限られた例で視覚的プロンプトを学習する手法を提案する。 これらの学習された視覚的プロンプトは、マルチスケールのトランスフォーマーデコーダに正確な密度予測を促すために使用される。 さらに,新しいプロンプトと限られた例で学習したベースプロンプトと,豊富なデータで学習したベースプロンプトとの間に一方向因果注意機構を導入する。 このメカニズムは、ベースクラスのパフォーマンスを劣化させることなく、小説のプロンプトを豊かにする。 全体として、このようなプロンプトは、テスト時間最適化(あるいはトランスダクション)を必要とせずに、2つの異なるベンチマークデータセット(COCO-$20^i$とPascal-$5^i$)でGFSSの最先端のパフォーマンスを達成するのに役立ちます。 さらに,非ラベリングテストデータを利用したテスト時最適化によりプロンプトの改善が可能であり,これをトランスダクティブ・プロンプトチューニングと呼ぶ。

The emergence of attention-based transformer models has led to their extensive use in various tasks, due to their superior generalization and transfer properties. Recent research has demonstrated that such models, when prompted appropriately, are excellent for few-shot inference. However, such techniques are under-explored for dense prediction tasks like semantic segmentation. In this work, we examine the effectiveness of prompting a transformer-decoder with learned visual prompts for the generalized few-shot segmentation (GFSS) task. Our goal is to achieve strong performance not only on novel categories with limited examples, but also to retain performance on base categories. We propose an approach to learn visual prompts with limited examples. These learned visual prompts are used to prompt a multiscale transformer decoder to facilitate accurate dense predictions. Additionally, we introduce a unidirectional causal attention mechanism between the novel prompts, learned with limited examples, and the base prompts, learned with abundant data. This mechanism enriches the novel prompts without deteriorating the base class performance. Overall, this form of prompting helps us achieve state-of-the-art performance for GFSS on two different benchmark datasets: COCO-$20^i$ and Pascal-$5^i$, without the need for test-time optimization (or transduction). Furthermore, test-time optimization leveraging unlabelled test data can be used to improve the prompts, which we refer to as transductive prompt tuning.
翻訳日:2024-04-19 13:30:32 公開日:2024-04-17
# ヒッチハイカーのSOへのガイドである3次元回転による学習(3)

Learning with 3D rotations, a hitchhiker's guide to SO(3) ( http://arxiv.org/abs/2404.11735v1 )

ライセンス: Link先を確認
A. René Geist, Jonas Frey, Mikel Zobro, Anna Levina, Georg Martius, (参考訳) 機械学習における多くの設定は回転表現の選択を必要とする。 しかし、利用可能な多くの選択肢から適切な表現を選択することは難しい。 本論文は、回転表現によるサーベイおよびガイドとして機能する。 勾配ベースの最適化でディープラーニングを損なう、あるいは利益をもたらす、彼らの特性を調べます。 回転に基づく学習からの洞察を集約することにより、回転表現を用いた学習機能の包括的概要を提供する。 モデルの入力や出力に回転があるか、データに主に小さな角度があるかに基づいて表現を選択するためのガイダンスを提供する。

Many settings in machine learning require the selection of a rotation representation. However, choosing a suitable representation from the many available options is challenging. This paper acts as a survey and guide through rotation representations. We walk through their properties that harm or benefit deep learning with gradient-based optimization. By consolidating insights from rotation-based learning, we provide a comprehensive overview of learning functions with rotation representations. We provide guidance on selecting representations based on whether rotations are in the model's input or output and whether the data primarily comprises small angles.
翻訳日:2024-04-19 13:30:32 公開日:2024-04-17
# LiDARオブジェクト検出のための等変時空間自己スーパービジョン

Equivariant Spatio-Temporal Self-Supervision for LiDAR Object Detection ( http://arxiv.org/abs/2404.11737v1 )

ライセンス: Link先を確認
Deepti Hegde, Suhas Lohit, Kuan-Chuan Peng, Michael J. Jones, Vishal M. Patel, (参考訳) 一般的な表現学習法は、入力に適用される変換の下で特徴不変性を奨励する。 しかし、物体の局所化やセグメンテーションのような3次元知覚タスクでは、出力は回転のようないくつかの変換と自然に同値である。 特定の変換の下での特徴の同値性を促進する事前学習損失関数を使用することで、変換された特徴表現間の幾何学的関係の情報を保持しつつ、強い自己超越信号が得られる。 これにより、このような変換に同値な下流タスクのパフォーマンスが向上する。 本稿では,空間的・時間的拡張を併用した時空間同変学習フレームワークを提案する。 本実験は,翻訳,スケーリング,フリップ,回転,シーンフローに等しくなる事前学習アプローチによって,最高の性能が生じることを示す。 空間拡張では、変換によっては、コントラスト目的か等分散的分類目的かによって最良の結果が得られることが分かる。 実世界の物体の変形と動きを活用するため、連続的なLiDARシーンペアを考察し、全体的な性能向上につながる新しい3Dシーンフローベースの等分散オブジェクトを開発する。 既存の等変および不変のアプローチを多くの設定で上回る3次元物体検出のための事前学習法を示す。

Popular representation learning methods encourage feature invariance under transformations applied at the input. However, in 3D perception tasks like object localization and segmentation, outputs are naturally equivariant to some transformations, such as rotation. Using pre-training loss functions that encourage equivariance of features under certain transformations provides a strong self-supervision signal while also retaining information of geometric relationships between transformed feature representations. This can enable improved performance in downstream tasks that are equivariant to such transformations. In this paper, we propose a spatio-temporal equivariant learning framework by considering both spatial and temporal augmentations jointly. Our experiments show that the best performance arises with a pre-training approach that encourages equivariance to translation, scaling, and flip, rotation and scene flow. For spatial augmentations, we find that depending on the transformation, either a contrastive objective or an equivariance-by-classification objective yields best results. To leverage real-world object deformations and motion, we consider sequential LiDAR scene pairs and develop a novel 3D scene flow-based equivariance objective that leads to improved performance overall. We show our pre-training method for 3D object detection which outperforms existing equivariant and invariant approaches in many settings.
翻訳日:2024-04-19 13:30:32 公開日:2024-04-17
# メタ分解:IoTに基づくアクティビティ認識における動的セグメンテーションアプローチの選択

Meta-Decomposition: Dynamic Segmentation Approach Selection in IoT-based Activity Recognition ( http://arxiv.org/abs/2404.11742v1 )

ライセンス: Link先を確認
Seyed M. R. Modaresi, Aomar Osmani, Mohammadreza Razzazi, Abdelghani Chibani, (参考訳) モノのインターネット(IoT)デバイスは、時間とともに異種データを生成する。 セグメンテーションは、IoTベースのアクティビティ認識を含む多くのIoTアプリケーションにおける一般的な前処理ステップであり、個々のイベントの制限に対処し、プロセスを合理化することを目的としている。 しかし、このステップは制御不能なバイアスの少なくとも2つのファミリーを導入する。 1つ目は、入力データを60秒のウィンドウに分割するなど、初期問題空間におけるセグメンテーションプロセスによる変更によって引き起こされる。 バイアスの第2のカテゴリは、セグメンテーション法とそのパラメータの固定を含むセグメンテーションプロセス自体から生じる。 これらのバイアスに対処するために,分解問題の特別な場合として分割問題を再定義することを提案する。 セグメンテーションプロセスに作曲家タスクを組み込むことは、セグメンテーション後の元の問題と問題との関係を評価するのに役立つ。 そのため, 評価プロセスの改善と, 適切なセグメンテーション法の選択に繋がる。 そこで我々は,新しいメタ分解・学習分解アプローチを正式に導入する。 外部学習問題によって最適化されるハイパーパラメータとしてセグメンテーションを考えることにより、セグメンテーションバイアスを低減する。 したがって、メタ分解は、上記バイアスを含まずに適切なセグメンテーション法を動的に選択することにより、システム全体の性能を向上させる。 4つの実世界のデータセットに対する大規模な実験により,提案手法の有効性が示された。

Internet of Things (IoT) devices generate heterogeneous data over time; and relying solely on individual data points is inadequate for accurate analysis. Segmentation is a common preprocessing step in many IoT applications, including IoT-based activity recognition, aiming to address the limitations of individual events and streamline the process. However, this step introduces at least two families of uncontrollable biases. The first is caused by the changes made by the segmentation process on the initial problem space, such as dividing the input data into 60 seconds windows. The second category of biases results from the segmentation process itself, including the fixation of the segmentation method and its parameters. To address these biases, we propose to redefine the segmentation problem as a special case of a decomposition problem, including three key components: a decomposer, resolutions, and a composer. The inclusion of the composer task in the segmentation process facilitates an assessment of the relationship between the original problem and the problem after the segmentation. Therefore, It leads to an improvement in the evaluation process and, consequently, in the selection of the appropriate segmentation method. Then, we formally introduce our novel meta-decomposition or learning-to-decompose approach. It reduces the segmentation biases by considering the segmentation as a hyperparameter to be optimized by the outer learning problem. Therefore, meta-decomposition improves the overall system performance by dynamically selecting the appropriate segmentation method without including the mentioned biases. Extensive experiments on four real-world datasets demonstrate the effectiveness of our proposal.
翻訳日:2024-04-19 13:30:32 公開日:2024-04-17
# 言語モデルはまだ時系列に関するゼロショット推論に固執している

Language Models Still Struggle to Zero-shot Reason about Time Series ( http://arxiv.org/abs/2404.11757v1 )

ライセンス: Link先を確認
Mike A. Merrill, Mingtian Tan, Vinayak Gupta, Tom Hartvigsen, Tim Althoff, (参考訳) 時系列は金融や医療といった分野における意思決定に不可欠だ。 それらの重要性は、最近の時系列を言語モデルに渡す作業の流入を招き、いくつかのデータセットでの非自明な予測につながった。 しかし、非自明な予測が言語モデルが時系列について推論できることを示すかどうかは不明である。 このギャップに対処するために、フォーマルなタスクや、10ドメインにわたるテキストキャプションと組み合わせたマルチスケール時系列のデータセットを含む、時系列推論のための第一種評価フレームワークを生成する。 これらのデータを用いて、言語モデルが3種類の推論を達成できるかどうかを調査する。(1) 階層的推論(Etiological Reasoning) - 入力時系列が与えられた場合、言語モデルはそれを最も生成しやすいシナリオを特定できるのか? 2)質問回答 - 言語モデルが時系列に関する事実質問に答えられるか? (3) 文脈支援型予測 - 関連性の高いテキストコンテキストは、言語モデルの時系列予測を改善するか? 言語モデルでは、時間列の推論が驚くほど制限されていることが分かりました。それらは、倫理的および質問応答タスク(人間よりも最大30パーセント悪い)においてランダムにスコアを付け、予測を改善するためにコンテキストを使用することで、控えめな成功を示します。 これらの弱点は、時系列推論が言語モデル研究にとって影響があるが、深く未発達の方向であることを示している。 また、データセットとコードを公開して、この方向のさらなる研究をhttps://github.com/behavioral-data/TSandLanguageでサポートしています。

Time series are critical for decision-making in fields like finance and healthcare. Their importance has driven a recent influx of works passing time series into language models, leading to non-trivial forecasting on some datasets. But it remains unknown whether non-trivial forecasting implies that language models can reason about time series. To address this gap, we generate a first-of-its-kind evaluation framework for time series reasoning, including formal tasks and a corresponding dataset of multi-scale time series paired with text captions across ten domains. Using these data, we probe whether language models achieve three forms of reasoning: (1) Etiological Reasoning - given an input time series, can the language model identify the scenario that most likely created it? (2) Question Answering - can a language model answer factual questions about time series? (3) Context-Aided Forecasting - does highly relevant textual context improve a language model's time series forecasts? We find that otherwise highly-capable language models demonstrate surprisingly limited time series reasoning: they score marginally above random on etiological and question answering tasks (up to 30 percentage points worse than humans) and show modest success in using context to improve forecasting. These weakness showcase that time series reasoning is an impactful, yet deeply underdeveloped direction for language model research. We also make our datasets and code public at to support further research in this direction at https://github.com/behavioral-data/TSandLanguage
翻訳日:2024-04-19 13:30:32 公開日:2024-04-17
# IrrNet:リモートセンシング画像を用いた増分パッチサイズトレーニングによる灌水マッピングの改善

IrrNet: Advancing Irrigation Mapping with Incremental Patch Size Training on Remote Sensing Imagery ( http://arxiv.org/abs/2404.11762v1 )

ライセンス: Link先を確認
Oishee Bintey Hoque, Samarth Swarup, Abhijin Adiga, Sayjro Kossi Nouwakpo, Madhav Marathe, (参考訳) 水質と水量の両方を維持するのに不可欠であり、水不足の世界的な問題を緩和する鍵となる水管理において、水マッピングは重要な役割を担っている。 農業分野の複雑さは、多種多様な灌水の慣行で装飾されており、特に複数のシステムが近辺で共存している場合、ユニークな課題となる。 この複雑さは、ランドサットのリモートセンシングデータの性質によってさらに複雑化しており、各ピクセルは密集した情報に富み、正確な灌水マッピングのタスクを複雑にしている。 本研究では,ランドサット5と7のデータセットを正確なラベル付けのためにWRLUデータセットにラベル付けすることで,トレーニングプロセス全体を通してパッチサイズを戦略的に増加させる,プログレッシブトレーニング手法を採用した革新的なアプローチを提案する。 この最初の焦点は、パッチのサイズが大きくなるにつれて、モデルがより詳細な機能をキャプチャし、より広くより一般的な機能に移行することである。 注目すべきは,既存の最先端モデルの性能を約20%向上させることである。 さらに,本分析では,様々なスペクトル帯域をモデルに組み込むことの重要性を考察し,その性能への影響を評価した。 これらの結果から,追加のバンドはモデルがより細部をより効果的に識別する上で有効であることが明らかとなった。 本研究は, 遠隔センシング画像を利用した灌水マッピングのための新しい規格を策定する。

Irrigation mapping plays a crucial role in effective water management, essential for preserving both water quality and quantity, and is key to mitigating the global issue of water scarcity. The complexity of agricultural fields, adorned with diverse irrigation practices, especially when multiple systems coexist in close quarters, poses a unique challenge. This complexity is further compounded by the nature of Landsat's remote sensing data, where each pixel is rich with densely packed information, complicating the task of accurate irrigation mapping. In this study, we introduce an innovative approach that employs a progressive training method, which strategically increases patch sizes throughout the training process, utilizing datasets from Landsat 5 and 7, labeled with the WRLU dataset for precise labeling. This initial focus allows the model to capture detailed features, progressively shifting to broader, more general features as the patch size enlarges. Remarkably, our method enhances the performance of existing state-of-the-art models by approximately 20%. Furthermore, our analysis delves into the significance of incorporating various spectral bands into the model, assessing their impact on performance. The findings reveal that additional bands are instrumental in enabling the model to discern finer details more effectively. This work sets a new standard for leveraging remote sensing imagery in irrigation mapping.
翻訳日:2024-04-19 13:30:32 公開日:2024-04-17
# 見えない領域におけるマルチモーダル3次元物体検出

Multimodal 3D Object Detection on Unseen Domains ( http://arxiv.org/abs/2404.11764v1 )

ライセンス: Link先を確認
Deepti Hegde, Suhas Lohit, Kuan-Chuan Peng, Michael J. Jones, Vishal M. Patel, (参考訳) 自動運転のためのLiDARデータセットは、点雲密度、範囲、オブジェクト次元などの特性に偏りを示す。 その結果、異なる環境で訓練および評価されたオブジェクト検出ネットワークは、しばしば性能劣化を経験する。 ドメイン適応アプローチは、この問題に対処するために、テストディストリビューションから無注釈のサンプルへのアクセスを前提とします。 しかし、現実の世界では、テストデータセットを表すサンプルへのデプロイとアクセスの正確な条件は、トレーニング中に利用できない可能性がある。 我々は、より現実的で挑戦的な定式化は、未確認のターゲットドメインに対して、パフォーマンスの堅牢性を要求することであると論じている。 我々はこの問題を2段階の方法で解決することを提案する。 まず、ほとんどの自律走行データセットに存在するペアのLiDAR画像データを利用して、マルチモーダル物体検出を行う。 画像とLiDAR点雲の両方をシーン理解タスクに利用することでマルチモーダルな特徴を扱うことにより、オブジェクト検出器がより堅牢になり、ドメインシフトが未確認となることを提案する。 第二に、3Dオブジェクト検出器をトレーニングして、異なる分布にまたがるマルチモーダルオブジェクトの特徴を学習し、これらのソースドメインにまたがる特徴不変性を促進し、未確認のターゲットドメインへの一般化性を向上させる。 この目的のために,CLIX$^\text{3D}$という3次元オブジェクト検出のためのマルチモーダル融合と教師付きコントラスト学習フレームワークを提案する。 CLIX$^\text{3D}$は、複数のデータセットシフト下での最先端のドメイン一般化性能を示す。

LiDAR datasets for autonomous driving exhibit biases in properties such as point cloud density, range, and object dimensions. As a result, object detection networks trained and evaluated in different environments often experience performance degradation. Domain adaptation approaches assume access to unannotated samples from the test distribution to address this problem. However, in the real world, the exact conditions of deployment and access to samples representative of the test dataset may be unavailable while training. We argue that the more realistic and challenging formulation is to require robustness in performance to unseen target domains. We propose to address this problem in a two-pronged manner. First, we leverage paired LiDAR-image data present in most autonomous driving datasets to perform multimodal object detection. We suggest that working with multimodal features by leveraging both images and LiDAR point clouds for scene understanding tasks results in object detectors more robust to unseen domain shifts. Second, we train a 3D object detector to learn multimodal object features across different distributions and promote feature invariance across these source domains to improve generalizability to unseen target domains. To this end, we propose CLIX$^\text{3D}$, a multimodal fusion and supervised contrastive learning framework for 3D object detection that performs alignment of object features from same-class samples of different domains while pushing the features from different classes apart. We show that CLIX$^\text{3D}$ yields state-of-the-art domain generalization performance under multiple dataset shifts.
翻訳日:2024-04-19 13:30:32 公開日:2024-04-17
# ハイブリッド深層学習ブラックボックスPDEソルバのエンドツーエンドメッシュ最適化

End-to-End Mesh Optimization of a Hybrid Deep Learning Black-Box PDE Solver ( http://arxiv.org/abs/2404.11766v1 )

ライセンス: Link先を確認
Shaocong Ma, James Diffenderfer, Bhavya Kailkhura, Yi Zhou, (参考訳) 深層学習は計算流体力学における偏微分方程式(PDE)の解法として広く応用されている。 最近の研究では、ディープラーニングを利用して、粗いメッシュ上のPDEソルバによって得られる解を補正するPDE補正フレームワークが提案されている。 しかしながら、メッシュパラメータやニューラルネットワークパラメータといったソルバに依存したパラメータに対して、そのようなPDE補正モデルのエンドツーエンドトレーニングでは、反復的な数値プロセスを通じてPDEソルバが自動微分をサポートする必要がある。 このような機能は、既存の多くの解決ツールでは簡単には利用できない。 本研究では,ブラックボックスPDEソルバと流体流予測のためのディープラーニングモデルを用いたハイブリッドモデルのエンドツーエンドトレーニングの実現可能性について検討する。 具体的には、ブラックボックスPDEソルバを微分可能なディープグラフニューラルネットワークに統合するハイブリッドモデルについて検討する。 このモデルをトレーニングするために、前向きの伝搬によりPDEソルバを区別するために、ゼロ階勾配推定器を用いる。 実験により, ゼロ階勾配推定に基づく提案手法は, 自動微分を用いた精度の高い微分を演算するベースラインを過小評価することを示したが, 提案手法は, 凍結した入力メッシュを用いて学習したベースラインよりも優れた性能を示した。 さらに、ニューラルネットワークパラメータの簡単なウォームスタートにより、これらのゼロ階アルゴリズムで訓練されたモデルが加速収束を実現し、一般化性能が向上することを示す。

Deep learning has been widely applied to solve partial differential equations (PDEs) in computational fluid dynamics. Recent research proposed a PDE correction framework that leverages deep learning to correct the solution obtained by a PDE solver on a coarse mesh. However, end-to-end training of such a PDE correction model over both solver-dependent parameters such as mesh parameters and neural network parameters requires the PDE solver to support automatic differentiation through the iterative numerical process. Such a feature is not readily available in many existing solvers. In this study, we explore the feasibility of end-to-end training of a hybrid model with a black-box PDE solver and a deep learning model for fluid flow prediction. Specifically, we investigate a hybrid model that integrates a black-box PDE solver into a differentiable deep graph neural network. To train this model, we use a zeroth-order gradient estimator to differentiate the PDE solver via forward propagation. Although experiments show that the proposed approach based on zeroth-order gradient estimation underperforms the baseline that computes exact derivatives using automatic differentiation, our proposed method outperforms the baseline trained with a frozen input mesh to the solver. Moreover, with a simple warm-start on the neural network parameters, we show that models trained by these zeroth-order algorithms achieve an accelerated convergence and improved generalization performance.
翻訳日:2024-04-19 13:30:32 公開日:2024-04-17
# テンソルネットワークスによる確率的セルオートマタダイナミクスの学習

Tensor-Networks-based Learning of Probabilistic Cellular Automata Dynamics ( http://arxiv.org/abs/2404.11768v1 )

ライセンス: Link先を確認
Heitor P. Casagrande, Bo Xing, William J. Munro, Chu Guo, Dario Poletti, (参考訳) テンソルネットワークのような多体量子問題を解くために開発されたアルゴリズムは、古典的な領域における問題に対処するための強力な量子インスパイアされたツールになる。 本研究では,多体量子系の研究,特に一次元における行列積演算子(行列積演算子)に焦点をあてる。 このようなツールは、分類、決定論的シーケンス・ツー・シーケンスプロセスの学習、および汎用量子プロセスの学習に使用できることがこれまで示されてきた。 さらに,確率的シーケンス・ツー・シーケンスの過程を学習する行列積演算子アルゴリズムを開発し,確率的セルオートマトンに適用する。 この新しいアプローチは、異なるカオス規則の確率論的混合である場合でも、異なる条件下で確率論的セルオートマトンプロセスを正確に学習することができる。 さらに、これらの力学を学習する能力は、規則と一方が他方よりもずっと高い確率であるかどうかのビットワイズ差の関数であることがわかった。

Algorithms developed to solve many-body quantum problems, like tensor networks, can turn into powerful quantum-inspired tools to tackle problems in the classical domain. In this work, we focus on matrix product operators, a prominent numerical technique to study many-body quantum systems, especially in one dimension. It has been previously shown that such a tool can be used for classification, learning of deterministic sequence-to-sequence processes and of generic quantum processes. We further develop a matrix product operator algorithm to learn probabilistic sequence-to-sequence processes and apply this algorithm to probabilistic cellular automata. This new approach can accurately learn probabilistic cellular automata processes in different conditions, even when the process is a probabilistic mixture of different chaotic rules. In addition, we find that the ability to learn these dynamics is a function of the bit-wise difference between the rules and whether one is much more likely than the other.
翻訳日:2024-04-19 13:30:32 公開日:2024-04-17
# CU-Mamba:画像復元のためのチャネル学習による選択状態空間モデル

CU-Mamba: Selective State Space Models with Channel Learning for Image Restoration ( http://arxiv.org/abs/2404.11778v1 )

ライセンス: Link先を確認
Rui Deng, Tianpei Gu, (参考訳) 劣化画像の再構成は画像処理において重要な課題である。 この分野ではCNNやTransformerベースのモデルが一般的であるが、不適切な長距離依存性モデリングや高い計算コストなど固有の制約がある。 これらの問題を克服するために、U-Netアーキテクチャに2つの状態空間モデル(SSM)フレームワークを組み込んだChannel-Aware U-Shaped Mamba(CU-Mamba)モデルを導入する。 CU-Mambaは、グローバルなコンテキストエンコーディングのための空間SSMモジュールとチャネルSSMコンポーネントを使用して、チャネル相関機能を保存している。 CU-Mambaが既存の最先端手法よりも優れており、画像復元における空間的・チャネル的コンテキストの統合の重要性が強調されている。

Reconstructing degraded images is a critical task in image processing. Although CNN and Transformer-based models are prevalent in this field, they exhibit inherent limitations, such as inadequate long-range dependency modeling and high computational costs. To overcome these issues, we introduce the Channel-Aware U-Shaped Mamba (CU-Mamba) model, which incorporates a dual State Space Model (SSM) framework into the U-Net architecture. CU-Mamba employs a Spatial SSM module for global context encoding and a Channel SSM component to preserve channel correlation features, both in linear computational complexity relative to the feature map size. Extensive experimental results validate CU-Mamba's superiority over existing state-of-the-art methods, underscoring the importance of integrating both spatial and channel contexts in image restoration.
翻訳日:2024-04-19 13:30:32 公開日:2024-04-17
# NonGEMM Bench:非GEMMワークロードによる最新のMLワークロードのパフォーマンス水平性を理解する

NonGEMM Bench: Understanding the Performance Horizon of the Latest ML Workloads with NonGEMM Workloads ( http://arxiv.org/abs/2404.11788v1 )

ライセンス: Link先を確認
Rachid Karami, Hemanth Kota, Sheng-Chun Kao, Hyoukjun Kwon, (参考訳) 機械学習(ML)オペレータは、さまざまなターゲットアプリケーションでMLモデルを設計するためのビルディングブロックである。 GEMM演算子は、MLモデルのバックボーンである。 彼らは何十億もの乗算と累積を必要とする計算コストで有名だ。 そのため,MLモデルの実行を高速化するため,GEMM演算子の研究と最適化に多大な努力が払われている。 GPUとアクセラレータは、GEMM演算子の実行を最適化することで、MLワークロードを高速化するために広くデプロイされている。 それでも、非GEMM演算子の性能はGEMMほど徹底的に研究されていない。 そこで本稿では,非GEMM演算子のベンチマークである \bench について述べる。 まず、さまざまなドメインから人気のMLワークロードを使用して‘bench’を構築し、次に様々なグレードのGPUプラットフォーム上でケーススタディを行い、GPUアクセラレーションシステムにおける非GEMM演算子の挙動を分析する。 最後に,GEMM と NonGEMM オペレータ間のギャップを埋める上で重要なポイントをいくつか提示し,新たな最適化の方向性をコミュニティに提供する。

Machine Learning (ML) operators are the building blocks to design ML models with various target applications. GEneral Matrix Multiplication (GEMM) operators are the backbone of ML models. They are notorious for being computationally expensive requiring billions of multiply-and-accumulate. Therefore, significant effort has been put to study and optimize the GEMM operators in order to speed up the execution of ML models. GPUs and accelerators are widely deployed to accelerate ML workloads by optimizing the execution of GEMM operators. Nonetheless, the performance of NonGEMM operators have not been studied as thoroughly as GEMMs. Therefore, this paper describes \bench, a benchmark to study NonGEMM operators. We first construct \bench using popular ML workloads from different domains, then perform case studies on various grade GPU platforms to analyze the behavior of NonGEMM operators in GPU accelerated systems. Finally, we present some key takeaways to bridge the gap between GEMM and NonGEMM operators and to offer the community with potential new optimization directions.
翻訳日:2024-04-19 13:20:47 公開日:2024-04-17
# ドメイン特化ファインチューニングと反復推論によるQ&Aの促進:比較研究

Enhancing Q&A with Domain-Specific Fine-Tuning and Iterative Reasoning: A Comparative Study ( http://arxiv.org/abs/2404.11792v1 )

ライセンス: Link先を確認
Zooey Nguyen, Anthony Annunziata, Vinh Luong, Sang Dinh, Quynh Le, Anh Hai Ha, Chanh Le, Hong An Phan, Shruti Raghavan, Christopher Nguyen, (参考訳) 本稿では,大規模言語モデル (LLM) と検索拡張生成 (RAG) を用いた質問応答(Q&A) システムの性能に及ぼすドメイン固有モデル微調整と推論機構の影響について検討する。 FinanceBench SECのファイナンシャルファイリングデータセットを用いて、RAGでは、微調整の埋め込みモデルと微調整のLLMを組み合わせることで、汎用モデルよりも精度が向上し、微調整の埋め込みモデルに起因する利得が比較的大きいことが観察された。 さらに、RAGの上に推論イテレーションを採用することで、パフォーマンスがさらに大きく向上し、Q&Aシステムが人間の専門的な品質に近づくことができます。 本稿では,その意義を考察し,Q&AAIの主要な技術コンポーネントを抽出する構造化技術設計空間を提案する。 我々は、AIチームのための実行可能なガイドと、RAGにおけるドメイン固有の拡張の影響と、高度な計画や推論などのエージェントAI機能への影響に関するさらなる調査で、この作業を続行する予定です。

This paper investigates the impact of domain-specific model fine-tuning and of reasoning mechanisms on the performance of question-answering (Q&A) systems powered by large language models (LLMs) and Retrieval-Augmented Generation (RAG). Using the FinanceBench SEC financial filings dataset, we observe that, for RAG, combining a fine-tuned embedding model with a fine-tuned LLM achieves better accuracy than generic models, with relatively greater gains attributable to fine-tuned embedding models. Additionally, employing reasoning iterations on top of RAG delivers an even bigger jump in performance, enabling the Q&A systems to get closer to human-expert quality. We discuss the implications of such findings, propose a structured technical design space capturing major technical components of Q&A AI, and provide recommendations for making high-impact technical choices for such components. We plan to follow up on this work with actionable guides for AI teams and further investigations into the impact of domain-specific augmentation in RAG and into agentic AI capabilities such as advanced planning and reasoning.
翻訳日:2024-04-19 13:20:47 公開日:2024-04-17
# 調書要約の強化:キーポイント生成における発声の優先順位付けと自動被覆評価指標の導入

Enhancing Argument Summarization: Prioritizing Exhaustiveness in Key Point Generation and Introducing an Automatic Coverage Evaluation Metric ( http://arxiv.org/abs/2404.11793v1 )

ライセンス: Link先を確認
Mohammad Khosravani, Chenyang Huang, Amine Trabelsi, (参考訳) ソーシャルメディアプラットフォームの普及は、オンライン討論や議論の量を増やしている。 したがって、このような議論のための自動要約法の必要性は不可欠であるが、この要約の領域はむしろ検討されている。 キーポイント分析(KPA)タスクは、キーポイントと呼ばれる弾頭形式の簡潔な文の形式で、大量の引数の集合の要約を表すものとして、引数の要約を定式化する。 キーポイント生成(KPG)と呼ばれるKPAのサブタスクは、引数からこれらのキーポイントを生成することに焦点を当てている。 本稿では,キーポイント生成のための新しい抽出手法を提案する。 提案手法では,より簡潔で高品質なキーポイント,参照サマリーのカバレッジの向上,冗長な出力の少ない抽出クラスタリング方式を用いる。 また,ROUGEなどの既存の評価基準では,異なる品質の鍵点を区別できないことを示す。 そこで本研究では,生成したキーポイントをカバー範囲別に評価するための新しい評価指標を提案する。 私たちのコードはオンラインでアクセスできます。

The proliferation of social media platforms has given rise to the amount of online debates and arguments. Consequently, the need for automatic summarization methods for such debates is imperative, however this area of summarization is rather understudied. The Key Point Analysis (KPA) task formulates argument summarization as representing the summary of a large collection of arguments in the form of concise sentences in bullet-style format, called key points. A sub-task of KPA, called Key Point Generation (KPG), focuses on generating these key points given the arguments. This paper introduces a novel extractive approach for key point generation, that outperforms previous state-of-the-art methods for the task. Our method utilizes an extractive clustering based approach that offers concise, high quality generated key points with higher coverage of reference summaries, and less redundant outputs. In addition, we show that the existing evaluation metrics for summarization such as ROUGE are incapable of differentiating between generated key points of different qualities. To this end, we propose a new evaluation metric for assessing the generated key points by their coverage. Our code can be accessed online.
翻訳日:2024-04-19 13:20:47 公開日:2024-04-17
# SDIP: 画像処理のための自己強化深部画像事前フレームワーク

SDIP: Self-Reinforcement Deep Image Prior Framework for Image Processing ( http://arxiv.org/abs/2404.12142v1 )

ライセンス: Link先を確認
Ziyu Shu, Zhixin Pan, (参考訳) 最近の研究で提案されたディープ画像先行(DIP)は、畳み込みニューラルネットワーク(CNN)の本質的な特性を明らかにし、かなりの低レベル画像統計値を取得する。 このフレームワークは、画像処理における逆問題に効果的に対処し、様々な領域で広範囲の応用を誘導している。 しかし、アルゴリズム全体がランダムに初期化されているため、DIPアルゴリズムは安定性に欠けることが多い。 したがって、この方法にはさらなる改善の余地がある。 本稿では,元のDIPの改良版として自己強化深度画像(SDIP)を提案する。 DIPネットワークのインプットとアウトプットの変化は,イテレーション毎に大きく相関していることがわかった。 SDIPは、この特性を強化学習方式で効率的に利用し、現在のイテレーションの出力をステアリングアルゴリズムで利用して、次のイテレーションのネットワーク入力を更新し、改善された結果に向けてアルゴリズムを誘導する。 複数のアプリケーションにまたがる実験結果から,提案するSDIPフレームワークは,従来のDIP手法や最先端手法と比較して改善されている。

Deep image prior (DIP) proposed in recent research has revealed the inherent trait of convolutional neural networks (CNN) for capturing substantial low-level image statistics priors. This framework efficiently addresses the inverse problems in image processing and has induced extensive applications in various domains. However, as the whole algorithm is initialized randomly, the DIP algorithm often lacks stability. Thus, this method still has space for further improvement. In this paper, we propose the self-reinforcement deep image prior (SDIP) as an improved version of the original DIP. We observed that the changes in the DIP networks' input and output are highly correlated during each iteration. SDIP efficiently utilizes this trait in a reinforcement learning manner, where the current iteration's output is utilized by a steering algorithm to update the network input for the next iteration, guiding the algorithm toward improved results. Experimental results across multiple applications demonstrate that our proposed SDIP framework offers improvement compared to the original DIP method and other state-of-the-art methods.
翻訳日:2024-04-19 12:31:46 公開日:2024-04-17
# 完全畳み込み幾何学的特徴とインシシットポーズ符号化を用いた点雲からのマッシュルーム分割と3次元ポス推定

Mushroom Segmentation and 3D Pose Estimation from Point Clouds using Fully Convolutional Geometric Features and Implicit Pose Encoding ( http://arxiv.org/abs/2404.12144v1 )

ライセンス: Link先を確認
George Retsinas, Niki Efthymiou, Petros Maragos, (参考訳) 現代の農業の応用は、ますますディープラーニングのソリューションに依存している。 しかし、十分な性能の深層ネットワークを訓練するには、利用できない大量の注釈付きデータが必要であり、3Dアノテーションの場合、人間のアノテーションには適用できないかもしれない。 本研究では,キノコを識別する深層学習手法を開発し,深度センサで取得した点雲の形で3次元データに基づくポーズを推定する。 アノテーション問題を回避するために,各キノコのポーズなどの3D情報を完全に認識する,キノコシーンの合成データセットを作成する。 提案したネットワークは完全な畳み込みバックボーンを持ち、スパース3Dデータを解析し、インスタンスセグメンテーションとポーズ推定タスクの両方を暗黙的に定義するポーズ情報を予測する。 提案手法の有効性を検証するとともに,深度センサ付き実点雲の小型集合に対する定性的結果も提示した。 コードはhttps://github.com/georgeretsi/mushroom-poseで公開されている。

Modern agricultural applications rely more and more on deep learning solutions. However, training well-performing deep networks requires a large amount of annotated data that may not be available and in the case of 3D annotation may not even be feasible for human annotators. In this work, we develop a deep learning approach to segment mushrooms and estimate their pose on 3D data, in the form of point clouds acquired by depth sensors. To circumvent the annotation problem, we create a synthetic dataset of mushroom scenes, where we are fully aware of 3D information, such as the pose of each mushroom. The proposed network has a fully convolutional backbone, that parses sparse 3D data, and predicts pose information that implicitly defines both instance segmentation and pose estimation task. We have validated the effectiveness of the proposed implicit-based approach for a synthetic test set, as well as provided qualitative results for a small set of real acquired point clouds with depth sensors. Code is publicly available at https://github.com/georgeretsi/mushroom-pose.
翻訳日:2024-04-19 12:31:46 公開日:2024-04-17
# 現代のサンドボックス環境に対する動的周波数ベースフィンガープリント攻撃

Dynamic Frequency-Based Fingerprinting Attacks against Modern Sandbox Environments ( http://arxiv.org/abs/2404.10715v2 )

ライセンス: Link先を確認
Debopriya Roy Dipta, Thore Tiemann, Berk Gulmezoglu, Eduard Marin, Thomas Eisenbarth, (参考訳) クラウドコンピューティングの展望は近年大きく進化し、現代のクラウドアプリケーションの多様な要求を満たすために、様々なサンドボックスを採用しています。 これらのサンドボックスには、DockerやgVisorといったコンテナベースのテクノロジ、FirecrackerのようなmicroVMベースのソリューション、Intel SGXやAMD SEVといったTrusted Execution Environment(TEE)に依存するセキュリティ中心のサンドボックスが含まれている。 しかし、複数のテナントを共有物理ハードウェアに配置するプラクティスは、セキュリティとプライバシの懸念を引き起こす。 本稿では,Intel および AMD CPU の CPU 周波数レポートセンサによる指紋認証の可能性について検討する。 私たちの攻撃の鍵となるのは、現在のCPU周波数情報がユーザ空間攻撃者によってアクセス可能であることです。 我々は、Dockerイメージがユニークな周波数シグネチャを示し、異なるコアで複数のコンテナが同時に実行されている場合でも、最大84.5%の精度で異なるコンテナを区別できることを示した。 さらに、GoogleのgVisor、AWSのFirecracker、Gramine(Intel SGXを活用する)やAMD SEVのようなTEEベースのプラットフォームなど、クラウド環境にデプロイされたいくつかのサンドボックスに対して実行された攻撃の有効性を評価します。 実験の結果、これらの攻撃は40秒未満で全てのサンドボックスに対して成功し、すべてのケースで70%以上の精度で実行可能であることが示された。 最後に,提案するクラウド環境に対する攻撃を軽減するため,ノイズ注入による対策を提案する。

The cloud computing landscape has evolved significantly in recent years, embracing various sandboxes to meet the diverse demands of modern cloud applications. These sandboxes encompass container-based technologies like Docker and gVisor, microVM-based solutions like Firecracker, and security-centric sandboxes relying on Trusted Execution Environments (TEEs) such as Intel SGX and AMD SEV. However, the practice of placing multiple tenants on shared physical hardware raises security and privacy concerns, most notably side-channel attacks. In this paper, we investigate the possibility of fingerprinting containers through CPU frequency reporting sensors in Intel and AMD CPUs. One key enabler of our attack is that the current CPU frequency information can be accessed by user-space attackers. We demonstrate that Docker images exhibit a unique frequency signature, enabling the distinction of different containers with up to 84.5% accuracy even when multiple containers are running simultaneously in different cores. Additionally, we assess the effectiveness of our attack when performed against several sandboxes deployed in cloud environments, including Google's gVisor, AWS' Firecracker, and TEE-based platforms like Gramine (utilizing Intel SGX) and AMD SEV. Our empirical results show that these attacks can also be carried out successfully against all of these sandboxes in less than 40 seconds, with an accuracy of over 70% in all cases. Finally, we propose a noise injection-based countermeasure to mitigate the proposed attack on cloud environments.
翻訳日:2024-04-19 11:42:38 公開日:2024-04-17
# 予測付きオンラインビンパッキング

Online Bin Packing with Predictions ( http://arxiv.org/abs/2102.03311v3 )

ライセンス: Link先を確認
Spyros Angelopoulos, Shahin Kamali, Kimia Shadkami, (参考訳) Bin Packingは、ロードバランシングからサプライチェーン管理に至るまで、幅広いアプリケーションにおいて古典的な最適化問題である。 本研究では,様々なサイズの項目の列を,一様容量のビンの最小個数に配置しなければならない問題のオンライン版について検討する。 オンラインアルゴリズムは、シーケンス内のアイテムサイズの頻度に関する(潜在的に誤った)予測で拡張される。 我々は、一貫性(すなわち、予測誤差を仮定しない競合比)と堅牢性(すなわち、逆誤差の下での競合比)との間の効率的なトレードオフを持つオンラインアルゴリズムを設計し、分析し、予測誤差の関数としてほぼ最適に性能が低下する。 これは、学習可能な予測の現実的な設定において、競争分析の下でのオンラインビンパッキングに関する最初の理論的、実験的研究である。 これまでの作業は、予測エラーに関して極端なケースにのみ対処し、過度に強力でエラーのないオラクルに依存していた。

Bin packing is a classic optimization problem with a wide range of applications, from load balancing to supply chain management. In this work, we study the online variant of the problem, in which a sequence of items of various sizes must be placed into a minimum number of bins of uniform capacity. The online algorithm is enhanced with a (potentially erroneous) prediction concerning the frequency of item sizes in the sequence. We design and analyze online algorithms with efficient tradeoffs between the consistency (i.e., the competitive ratio assuming no prediction error) and the robustness (i.e., the competitive ratio under adversarial error), and whose performance degrades near-optimally as a function of the prediction error. This is the first theoretical and experimental study of online bin packing under competitive analysis, in the realistic setting of learnable predictions. Previous work addressed only extreme cases with respect to the prediction error, and relied on overly powerful and error-free oracles.
翻訳日:2024-04-19 00:31:27 公開日:2024-04-17
# 極小問題に対する分散個人化フェデレーション学習

Decentralized Personalized Federated Learning for Min-Max Problems ( http://arxiv.org/abs/2106.07289v6 )

ライセンス: Link先を確認
Ekaterina Borodich, Aleksandr Beznosikov, Abdurakhmon Sadiev, Vadim Sushko, Nikolay Savelyev, Martin Takáč, Alexander Gasnikov, (参考訳) パーソナライズド・フェデレーション・ラーニング(PFL)は、トレーニングデータのプライバシを保存する革新的な機械学習アプリケーションの開発を可能にする、目覚ましい進歩を目撃している。 しかし、この分野での既存の理論的研究は主に最小化問題に対する分散最適化に焦点を当てている。 本論文は,最小化問題を解くこと以上の最適化問題を含むサドル点問題に対して,PFLを初めて研究したものである。 本研究では,グローバルモデルの学習をローカル分散学習者と組み合わせた手法である混合目的関数を用いた最近提案されたPFLについて考察する。 集中的な設定のみを考慮したこれまでのほとんどの作業とは異なり、我々はより汎用的で分散化された設定で作業し、デバイスをネットワークに接続するより実践的で連合的な方法の設計と分析を可能にしました。 我々はこの問題に対処する新しいアルゴリズムを提案し、確率的および決定論的ケースにおいて滑らかな(強く)凸(強い)凹点問題を理論的に解析した。 両線形問題と対向雑音を持つニューラルネットワークの数値実験により,提案手法の有効性が示された。

Personalized Federated Learning (PFL) has witnessed remarkable advancements, enabling the development of innovative machine learning applications that preserve the privacy of training data. However, existing theoretical research in this field has primarily focused on distributed optimization for minimization problems. This paper is the first to study PFL for saddle point problems encompassing a broader range of optimization problems, that require more than just solving minimization problems. In this work, we consider a recently proposed PFL setting with the mixing objective function, an approach combining the learning of a global model together with locally distributed learners. Unlike most previous work, which considered only the centralized setting, we work in a more general and decentralized setup that allows us to design and analyze more practical and federated ways to connect devices to the network. We proposed new algorithms to address this problem and provide a theoretical analysis of the smooth (strongly) convex-(strongly) concave saddle point problems in stochastic and deterministic cases. Numerical experiments for bilinear problems and neural networks with adversarial noise demonstrate the effectiveness of the proposed methods.
翻訳日:2024-04-19 00:31:27 公開日:2024-04-17
# ブール比

Boolean proportions ( http://arxiv.org/abs/2109.00388v9 )

ライセンス: Link先を確認
Christian Antić, (参考訳) 著者は最近、普遍代数学の一般設定の中で類比例の抽象的代数的枠組みを導入した。 本稿では,2つの元素0と1からなるブール領域の類似比について検討する。 我々のブール比の概念は、異なる設定の文献から得られた2つの顕著なモデルと一致することが判明した。 これは、数学的に魅力的であり、一般的なフレームワークの堅牢性と適用性に関するさらなる証拠を提供する単一のフレームワーク内で、ブール比の2つの別々のモデリングをキャプチャできることを意味している。

The author has recently introduced an abstract algebraic framework of analogical proportions within the general setting of universal algebra. This paper studies analogical proportions in the boolean domain consisting of two elements 0 and 1 within his framework. It turns out that our notion of boolean proportions coincides with two prominent models from the literature in different settings. This means that we can capture two separate modellings of boolean proportions within a single framework which is mathematically appealing and provides further evidence for the robustness and applicability of the general framework.
翻訳日:2024-04-19 00:31:27 公開日:2024-04-17
# 脳腫瘍シークエンス登録(BraTS-Reg)課題 : びまん性グリオーマ患者の術前MRIと術後MRIの対応

The Brain Tumor Sequence Registration (BraTS-Reg) Challenge: Establishing Correspondence Between Pre-Operative and Follow-up MRI Scans of Diffuse Glioma Patients ( http://arxiv.org/abs/2112.06979v2 )

ライセンス: Link先を確認
Bhakti Baheti, Satrajit Chakrabarty, Hamed Akbari, Michel Bilello, Benedikt Wiestler, Julian Schwarting, Evan Calabrese, Jeffrey Rudie, Syed Abidi, Mina Mousa, Javier Villanueva-Meyer, Brandon K. K. Fields, Florian Kofler, Russell Takeshi Shinohara, Juan Eugenio Iglesias, Tony C. W. Mok, Albert C. S. Chung, Marek Wodzinski, Artur Jurgas, Niccolo Marini, Manfredo Atzori, Henning Muller, Christoph Grobroehmer, Hanna Siebert, Lasse Hansen, Mattias P. Heinrich, Luca Canalini, Jan Klein, Annika Gerken, Stefan Heldmann, Alessa Hering, Horst K. Hahn, Mingyuan Meng, Lei Bi, Dagan Feng, Jinman Kim, Ramy A. Zeineldin, Mohamed E. Karar, Franziska Mathis-Ullrich, Oliver Burgert, Javid Abderezaei, Aymeric Pionteck, Agamdeep Chopra, Mehmet Kurt, Kewei Yan, Yonghong Yan, Zhe Tang, Jianqiang Ma, Sahar Almahfouz Nasser, Nikhil Cherian Kurian, Mohit Meena, Saqib Shamsi, Amit Sethi, Nicholas J. Tustison, Brian B. Avants, Philip Cook, James C. Gee, Lin Tian, Hastings Greer, Marc Niethammer, Andrew Hoopes, Malte Hoffmann, Adrian V. Dalca, Stergios Christodoulidis, Theo Estiene, Maria Vakalopoulou, Nikos Paragios, Daniel S. Marcus, Christos Davatzikos, Aristeidis Sotiras, Bjoern Menze, Spyridon Bakas, Diana Waldmannstetter, (参考訳) 病理像を含む経時的脳MRI検査の登録は, 組織像の劇的な変化により困難である。 汎用的な医用画像登録技術の開発は進展しているが,その複雑さを浮き彫りにして,必要な精度と信頼性がまだ得られていない。 本稿では,脳腫瘍シークエンス登録(BraTS-Reg)課題について,びまん性脳グリオーマと診断された同一患者の術前検診と追跡検診の対応性を評価することを目的とした,変形可能な登録アルゴリズムのための最初の公開ベンチマーク環境として記述する。 BraTS-Regデータは、非同定多施設多パラメータMRI(mpMRI)スキャンで構成され、標準解剖学的テンプレートに従ってサイズと解像度を算出し、トレーニング、検証、テストセットに分割される。 臨床専門家は、側頭葉領域で異なる解剖学的位置のランドマークポイント(GT)を注釈した。 定量的評価とランク付けは, 中間ユークリッド誤差(MEE), ロバスト性, 変位場のジャコビアン行列に基づいて行った。 トップランクの方法論は、すべての評価指標で同様のパフォーマンスを示し、事前調整、ディープニューラルネットワーク、逆整合解析、ケース単位のテスト時間インスタンス最適化など、いくつかの方法論の共通点を共有した。 評価されたランドマークの約60%は、レーダー間変動の程度以下でMEEを達成し、特に人間の専門家に対して、さらなる精度と堅牢性の向上のスコープを強調した。 BraTS-Regの目的は、データとオンライン評価ツールをhttps://bratsreg.github.io/.comで利用できるようにし、引き続き研究のためのアクティブなリソースとして機能することである。

Registration of longitudinal brain MRI scans containing pathologies is challenging due to dramatic changes in tissue appearance. Although there has been progress in developing general-purpose medical image registration techniques, they have not yet attained the requisite precision and reliability for this task, highlighting its inherent complexity. Here we describe the Brain Tumor Sequence Registration (BraTS-Reg) challenge, as the first public benchmark environment for deformable registration algorithms focusing on estimating correspondences between pre-operative and follow-up scans of the same patient diagnosed with a diffuse brain glioma. The BraTS-Reg data comprise de-identified multi-institutional multi-parametric MRI (mpMRI) scans, curated for size and resolution according to a canonical anatomical template, and divided into training, validation, and testing sets. Clinical experts annotated ground truth (GT) landmark points of anatomical locations distinct across the temporal domain. Quantitative evaluation and ranking were based on the Median Euclidean Error (MEE), Robustness, and the determinant of the Jacobian of the displacement field. The top-ranked methodologies yielded similar performance across all evaluation metrics and shared several methodological commonalities, including pre-alignment, deep neural networks, inverse consistency analysis, and test-time instance optimization per-case basis as a post-processing step. The top-ranked method attained the MEE at or below that of the inter-rater variability for approximately 60% of the evaluated landmarks, underscoring the scope for further accuracy and robustness improvements, especially relative to human experts. The aim of BraTS-Reg is to continue to serve as an active resource for research, with the data and online evaluation tools accessible at https://bratsreg.github.io/.
翻訳日:2024-04-19 00:31:27 公開日:2024-04-17
# E2R:階層学習にインスパイアされたノベルティ探索法 : 軌跡把握の多様なレパートリーを生成する

E2R: a Hierarchical-Learning inspired Novelty-Search method to generate diverse repertoires of grasping trajectories ( http://arxiv.org/abs/2210.07887v2 )

ライセンス: Link先を確認
Johann Huber, Oumar Sane, Alex Coninx, Faiz Ben Amar, Stephane Doncieux, (参考訳) ロボット・グリーピング(ロボティクス・グリーピング)とは、ロボット・システムが物体の表面に力とトルクを加えることによって物体を選ばせることを指す。 データ駆動アプローチの最近の進歩にもかかわらず、把握は未解決の問題のままである。 このタスクの作業の多くは、探索問題を避けるために、事前と重い制約に依存しています。 ノベルティ・サーチ(英: Novelty Search, NS)は、最も新しい個人の選択に取って代わる進化的アルゴリズムである。 このような手法は、既にハード探査問題に関する有望な結果を示している。 本研究では,プラットフォームに依存しない方法で軌道を把握可能な大規模なデータセットを生成可能な,NSに基づく新しい手法を提案する。 階層的な学習パラダイムにインスパイアされた我々の手法は、行動空間をより滑らかにするためにアプローチと理解を分離する。 3つの異なるロボット・グルーパー・セットアップおよびいくつかの標準オブジェクトを用いた実験により、我々の手法は、軌跡把握の多様なレパートリーを生成し、高いラン率を得るとともに、アプローチと理解の両面でより良い多様性をもたらすことを示す。 生成されたソリューションのいくつかは、実際のロボットにうまくデプロイされ、得られたレパートリーの活用性を示している。

Robotics grasping refers to the task of making a robotic system pick an object by applying forces and torques on its surface. Despite the recent advances in data-driven approaches, grasping remains an unsolved problem. Most of the works on this task are relying on priors and heavy constraints to avoid the exploration problem. Novelty Search (NS) refers to evolutionary algorithms that replace selection of best performing individuals with selection of the most novel ones. Such methods have already shown promising results on hard exploration problems. In this work, we introduce a new NS-based method that can generate large datasets of grasping trajectories in a platform-agnostic manner. Inspired by the hierarchical learning paradigm, our method decouples approach and prehension to make the behavioral space smoother. Experiments conducted on 3 different robot-gripper setups and on several standard objects shows that our method outperforms state-of-the-art for generating diverse repertoire of grasping trajectories, getting a higher successful run ratio, as well as a better diversity for both approach and prehension. Some of the generated solutions have been successfully deployed on a real robot, showing the exploitability of the obtained repertoires.
翻訳日:2024-04-19 00:26:13 公開日:2024-04-17
# LuViRAデータセット:測定記述

The LuViRA Dataset: Measurement Description ( http://arxiv.org/abs/2302.05309v2 )

ライセンス: Link先を確認
Ilayda Yaman, Guoda Tian, Martin Larsson, Patrik Persson, Michiel Sandra, Alexander Dürr, Erik Tegler, Nikhil Challa, Henrik Garde, Fredrik Tufvesson, Kalle Åström, Ove Edfors, Steffen Malkowsky, Liang Liu, (参考訳) 本稿では,Lund University Vision, Radio, and Audio (LuViRA) Dataset という視覚, オーディオ, 無線センサを用いたローカライゼーションアルゴリズムの評価データセットを提案する。 データセットには、RGB画像、対応する深度マップ、IMU読み取り、巨大なMIMOチャネルサウンドとユーザ機器間のチャネル応答、12マイクロフォンによるオーディオ記録、0.5mm精度の6DoFの真理を呈する6DoFが含まれている。 これらのセンサーを同期させて、すべてのデータが同時に記録されるようにします。 ゆっくりと動くサービスロボットの上にカメラ、スピーカ、送信アンテナを設置し、88軌道を記録する。 各軌道は、記録されたセンサデータと地上の真実ラベルの20秒から50秒を含む。 異なるセンサからのデータを別々または共同でローカライズタスクに使用することができ、ローカライズアルゴリズムによって得られた結果を検証するためにモーションキャプチャシステムを使用する。 このデータセットの主な目的は、ローカライゼーションタスクに最もよく使用されるセンサーを融合させる研究を可能にすることである。 しかし、完全なデータセットやその一部は、チャネル推定や画像分類など、他の研究領域にも使用することができる。 ハウジングセンサデータにより、ローカライズ精度と信頼性が向上し、レイテンシや消費電力が低下する可能性がある。 生成されたデータセットは、後日公開される予定だ。

We present a dataset to evaluate localization algorithms, which utilizes vision, audio, and radio sensors: the Lund University Vision, Radio, and Audio (LuViRA) Dataset. The dataset includes RGB images, corresponding depth maps, IMU readings, channel response between a massive MIMO channel sounder and a user equipment, audio recorded by 12 microphones, and 0.5 mm accurate 6DoF pose ground truth. We synchronize these sensors to make sure that all data are recorded simultaneously. A camera, speaker, and transmit antenna are placed on top of a slowly moving service robot and 88 trajectories are recorded. Each trajectory includes 20 to 50 seconds of recorded sensor data and ground truth labels. The data from different sensors can be used separately or jointly to conduct localization tasks and a motion capture system is used to verify the results obtained by the localization algorithms. The main aim of this dataset is to enable research on fusing the most commonly used sensors for localization tasks. However, the full dataset or some parts of it can also be used for other research areas such as channel estimation, image classification, etc. Fusing sensor data can lead to increased localization accuracy and reliability, as well as decreased latency and power consumption. The created dataset will be made public at a later date.
翻訳日:2024-04-19 00:26:13 公開日:2024-04-17
# 短期量子ハードウェアにおける正確な量子化学を実現するAb Initio Transcorrelated Method

Ab Initio Transcorrelated Method enabling accurate Quantum Chemistry on near-term Quantum Hardware ( http://arxiv.org/abs/2303.02007v3 )

ライセンス: Link先を確認
Werner Dobrautz, Igor O. Sokolov, Ke Liao, Pablo López Ríos, Martin Rahm, Ali Alavi, Ivano Tavernelli, (参考訳) 量子コンピューティングは、量子化学を含むいくつかの研究分野を変革する可能性を持つ新しい計算パラダイムとして登場しつつある。 しかし、現在のハードウェア制限(コヒーレンス時間制限、ゲート不完全性、接続性制限を含む)は、ほとんどの量子アルゴリズムの直接的な実装を妨げ、よりノイズ耐性のあるソリューションを要求する。 量子化学において、利用可能な量子ビットとゲート演算の数に制限があるのは、分子軌道ごとに、一般に2つの量子ビットを必要とするためである。 本研究では, 近似を使わずに, 波動関数から直接ハミルトニアンに相関するトランスコリックス (TC) アプローチに基づく明示的に相関したアンサッツを提案し, ノイズ, 短期量子デバイスで正確な結果を得るために必要なリソースの数を削減した。 特に, 正確なトランスコリックス手法により, より浅い回路を実現できるだけでなく, いわゆる基底集合極限への収束性も向上し, より小さな基底集合を実験するために, 化学的精度でエネルギーを供給し, 従って量子ビットを少なくすることを示した。 本研究では, 水素二量体と水素化リチウムの実験結果に近い結合長, 解離エネルギー, 振動周波数をそれぞれ4および6キュービットで計算し, 本手法を実証した。 従来の手法では、同じ精度で少なくとも10倍の量子ビットを必要とする。

Quantum computing is emerging as a new computational paradigm with the potential to transform several research fields, including quantum chemistry. However, current hardware limitations (including limited coherence times, gate infidelities, and limited connectivity) hamper the straightforward implementation of most quantum algorithms and call for more noise-resilient solutions. In quantum chemistry, the limited number of available qubits and gate operations is particularly restrictive since, for each molecular orbital, one needs, in general, two qubits. In this study, we propose an explicitly correlated Ansatz based on the transcorrelated (TC) approach, which transfers -- without any approximation -- correlation from the wavefunction directly into the Hamiltonian, thus reducing the number of resources needed to achieve accurate results with noisy, near-term quantum devices. In particular, we show that the exact transcorrelated approach not only allows for more shallow circuits but also improves the convergence towards the so-called basis set limit, providing energies within chemical accuracy to experiment with smaller basis sets and, therefore, fewer qubits. We demonstrate our method by computing bond lengths, dissociation energies, and vibrational frequencies close to experimental results for the hydrogen dimer and lithium hydride using just 4 and 6 qubits, respectively. Conventional methods require at least ten times more qubits for the same accuracy.
翻訳日:2024-04-19 00:26:13 公開日:2024-04-17
# 熱状態のペッツ・レニイ相対エントロピーとその変位

Petz-Rényi Relative Entropy of Thermal States and their Displacements ( http://arxiv.org/abs/2303.03380v2 )

ライセンス: Link先を確認
George Androulakis, Tiju Cherian John, (参考訳) 本稿では, 2つの熱状態が有限であるようなパラメータ $\alpha$ の値の精度範囲を, Petz-R\'enyi $\alpha$-relative entropy $D_{\alpha}(\rho||\sigma)$ とする。 より正確には、逆温度パラメータ $r_1, r_2,\dots, r_n$ と $s_1,s_2, \dots, s_n$ の2つの置換熱状態が与えられたとき、それぞれ \[ D_{\alpha}(\rho||\sigma)<\infty \Leftrightarrow \alpha < \min \left\{ \frac{s_j}{s_j-r_j}: j \in \{ 1 \ldots , n \} \text{ such } r_j<s_j \right\} \] が成立する。 その過程で、Seshdreesan, Lami and Wilde (J) の予想の特別な場合を証明する。 数学。 Phys 59,072204(2018)。

In this article, we obtain the precise range of the values of the parameter $\alpha$ such that Petz-R\'enyi $\alpha$-relative entropy $D_{\alpha}(\rho||\sigma)$ of two displaced thermal states is finite. More precisely, we prove that, given two displaced thermal states $\rho$ and $\sigma$ with inverse temperature parameters $r_1, r_2,\dots, r_n$ and $s_1,s_2, \dots, s_n$, respectively, we have \[ D_{\alpha}(\rho||\sigma)<\infty \Leftrightarrow \alpha < \min \left\{ \frac{s_j}{s_j-r_j}: j \in \{ 1, \ldots , n \} \text{ such that } r_j<s_j \right\}, \] where we adopt the convention that the minimum of an empty set is equal to infinity. Along the way, we prove a special case of a conjecture of Seshdreesan, Lami and Wilde (J. Math. Phys. 59, 072204 (2018)).
翻訳日:2024-04-19 00:26:13 公開日:2024-04-17
# 境界状態散乱の量子シミュレーション

Quantum Simulation of Bound State Scattering ( http://arxiv.org/abs/2305.07692v3 )

ライセンス: Link先を確認
Matteo Turco, Gonçalo M. Quinta, João Seixas, Yasser Omar, (参考訳) ここ数年、量子計算の量子場理論への応用が急速に発展してきた。 散乱の量子シミュレーションのための最初のアルゴリズムは、数千の論理量子ビットを必要とするスカラー理論とフェルミオン理論の文脈で提案されている。 これらのアルゴリズムは入射境界状態の散乱をシミュレートするには適さないが、初期状態の準備は典型的には自由理論の断熱的に変換されるウェーブパレットを相互作用理論のウェーブパレットに依存する。 本稿では、相互作用理論の真空から直接相互作用理論のウェーブパレットを励起し、複合粒子の状態を作成する方法を提案する。 これは、境界状態の散乱のデジタル量子シミュレーションに向けた最初のステップである。 このアプローチは、完全な非摂動的枠組みで理論の生成と消滅作用素を構築する方法を提供するハーグ=ルエル散乱理論に基づいている。 ウェーブパケットのサイズが対数的であり、格子パラメータやウェーブパケットのエネルギーの多項式のように、成功確率が最大でなくなるような、多数の補助量子ビットを必要とする量子アルゴリズムを提供する。 回路の単一イテレーションにおけるゲートの複雑さは、一定時間における時間進化のゲートの複雑さと同値である。 さらに,本アルゴリズムを用いた散乱シミュレーションのための完全なプロトコルを提案する。 本稿では,その効率性について検討し,文献における従来のアルゴリズムに対する改良点について述べる。

The last few years have seen rapid development of applications of quantum computation to quantum field theory. The first algorithms for quantum simulation of scattering have been proposed in the context of scalar and fermionic theories, requiring thousands of logical qubits. These algorithms are not suitable to simulate scattering of incoming bound states, as the initial-state preparation relies typically on adiabatically transforming wavepackets of the free theory into wavepackets of the interacting theory. In this paper we present a strategy to excite wavepackets of the interacting theory directly from the vacuum of the interacting theory, allowing the preparation of states of composite particles. This is the first step towards digital quantum simulation of scattering of bound states. The approach is based on the Haag-Ruelle scattering theory, which provides a way to construct creation and annihilation operators of a theory in a full, nonperturbative framework. We provide a quantum algorithm requiring a number of ancillary qubits that is logarithmic in the size of the wavepackets, and with a success probability vanishing at most like a polynomial in the lattice parameters and the energy of the wavepacket. The gate complexity for a single iteration of the circuit is equivalent to that of a time evolution for a fixed time. Furthermore, we propose a complete protocol for scattering simulation using this algorithm. We study its efficiency and find improvements with respect to previous algorithms in the literature.
翻訳日:2024-04-19 00:26:13 公開日:2024-04-17
# 全医用画像のワンプロンプト

One-Prompt to Segment All Medical Images ( http://arxiv.org/abs/2305.10300v5 )

ライセンス: Link先を確認
Junde Wu, Jiayuan Zhu, Yueming Jin, Min Xu, (参考訳) 強力なゼロショットの一般化で知られる大規模な基礎モデルは、視覚および言語応用に優れている。 しかし、様々な画像タイプとターゲットラベルを持つ領域である医療画像セグメンテーションにそれらを適用することは、未解決の課題である。 SAM(Segment Anything Model)のようなインタラクティブセグメンテーションモデルの適用など、現在のアプローチでは、推論中に各サンプルに対してユーザプロンプトが必要になる。 あるいは、少数/1ショットモデルのような転送学習手法では、ラベル付きサンプルが要求されるため、高いコストがかかる。 本稿では「ワン・プロンプト・セグメンテーション」と呼ばれる普遍的な医用画像セグメンテーションに向けた新しいパラダイムを紹介する。 ワン・プロンプト・セグメンテーションはワンショットとインタラクティブな手法の強みを組み合わせたものである。 推論段階では、textbf{one prompt sample} だけで、単一のフォワードパスで目に見えないタスクを順応的に処理できる。 私たちは64のオープンソース医療データセットでOne-Prompt Modelをトレーニングし、3,000以上のクリニックラベルのプロンプトを収集しています。 以前にない14のデータセットでテストされたOne-Prompt Modelは、優れたゼロショットセグメンテーション機能を示し、幅広い関連するメソッドを上回っている。 コードとデータはhttps://github.com/KidsWithTokens/one-promptとしてリリースされる。

Large foundation models, known for their strong zero-shot generalization, have excelled in visual and language applications. However, applying them to medical image segmentation, a domain with diverse imaging types and target labels, remains an open challenge. Current approaches, such as adapting interactive segmentation models like Segment Anything Model (SAM), require user prompts for each sample during inference. Alternatively, transfer learning methods like few/one-shot models demand labeled samples, leading to high costs. This paper introduces a new paradigm toward the universal medical image segmentation, termed 'One-Prompt Segmentation.' One-Prompt Segmentation combines the strengths of one-shot and interactive methods. In the inference stage, with just \textbf{one prompted sample}, it can adeptly handle the unseen task in a single forward pass. We train One-Prompt Model on 64 open-source medical datasets, accompanied by the collection of over 3,000 clinician-labeled prompts. Tested on 14 previously unseen datasets, the One-Prompt Model showcases superior zero-shot segmentation capabilities, outperforming a wide range of related methods. The code and data is released as https://github.com/KidsWithTokens/one-prompt.
翻訳日:2024-04-19 00:26:13 公開日:2024-04-17
# 収束性を改善した分散ランダムリシャッフル法

Distributed Random Reshuffling Methods with Improved Convergence ( http://arxiv.org/abs/2306.12037v2 )

ライセンス: Link先を確認
Kun Huang, Linli Zhou, Shi Pu, (参考訳) 本稿では,GT-RR(Gandient Tracking with Random Reshuffling)とED-RR(Exact Diffusion with Random Reshuffling)という2つの分散ランダムリシャフリング手法を提案する。 どちらのアルゴリズムも各エージェントに対するランダムリシャッフル(RR)更新を起動し、スムーズな非凸目的関数を最小化するためのRRの特徴を継承し、理論上も経験的にも従来の分散ランダムリシャッフル手法の性能を向上させる。 具体的には、GT-RR と ED-RR はともに、勾配の(最小)2乗ノルムを 0 に駆動するときに$O(1/[(1-\lambda)^{1/3}m^{1/3}T^{2/3}] の収束率を達成し、$T$ はエポックの数を表し、$m$ は各エージェントのサンプルサイズであり、1-\lambda$ は混合行列のスペクトルギャップを表す。 目的関数がpolyak-{\L}ojasiewicz (PL) 条件をさらに満足すると、GT-RR と ED-RR がそれぞれ$O(1/[(1-\lambda)mT^2])$収束することを示す。 特に、どちらの結果も集中型RR法の収束率(ネットワークトポロジに依存する定数要素まで)に匹敵し、従来の分散ランダムリシャッフルアルゴリズムよりも優れている。 さらに,一連の数値実験により理論的結果を支持する。

This paper proposes two distributed random reshuffling methods, namely Gradient Tracking with Random Reshuffling (GT-RR) and Exact Diffusion with Random Reshuffling (ED-RR), to solve the distributed optimization problem over a connected network, where a set of agents aim to minimize the average of their local cost functions. Both algorithms invoke random reshuffling (RR) update for each agent, inherit favorable characteristics of RR for minimizing smooth nonconvex objective functions, and improve the performance of previous distributed random reshuffling methods both theoretically and empirically. Specifically, both GT-RR and ED-RR achieve the convergence rate of $O(1/[(1-\lambda)^{1/3}m^{1/3}T^{2/3}])$ in driving the (minimum) expected squared norm of the gradient to zero, where $T$ denotes the number of epochs, $m$ is the sample size for each agent, and $1-\lambda$ represents the spectral gap of the mixing matrix. When the objective functions further satisfy the Polyak-{\L}ojasiewicz (PL) condition, we show GT-RR and ED-RR both achieve $O(1/[(1-\lambda)mT^2])$ convergence rate in terms of the averaged expected differences between the agents' function values and the global minimum value. Notably, both results are comparable to the convergence rates of centralized RR methods (up to constant factors depending on the network topology) and outperform those of previous distributed random reshuffling algorithms. Moreover, we support the theoretical findings with a set of numerical experiments.
翻訳日:2024-04-19 00:26:13 公開日:2024-04-17
# 関数線形モデルを用いた物理に基づく問題におけるディープラーニングの解釈と一般化

Interpreting and generalizing deep learning in physics-based problems with functional linear models ( http://arxiv.org/abs/2307.04569v2 )

ライセンス: Link先を確認
Amirhossein Arzani, Lingxiao Yuan, Pania Newell, Bei Wang, (参考訳) ディープラーニングは様々な科学的機械学習応用において顕著な成功を収めてきたが、その不透明な性質は、学習データ以外の解釈可能性や一般化能力に関する懸念を招いている。 解釈可能性は非常に重要であり、物理システムのモデリングにしばしば望まれる。 さらに、多くの物理ベースの学習タスクにおいて、入力機能の全範囲を含む広範なデータセットを取得することは困難であり、アウト・オブ・ディストリビューション(OOD)データに遭遇する際のエラーの増加につながる。 本研究は,関数型データ解析(FDA)の分野を動機として,訓練された深層学習モデルの解釈可能なサロゲートとして一般化された関数型線形モデルを提案する。 我々のモデルは、トレーニングされたニューラルネットワーク(ポストホック解釈)や、トレーニングデータ(解釈可能な演算子学習)から直接トレーニングできることを実証する。 異なるカーネル関数を持つ一般化汎関数線形モデルのライブラリを考慮し、スパース回帰を用いて解析的に提示できる解釈可能な代理モデルを発見する。 固体力学,流体力学,輸送の試験例を報告する。 我々のモデルはディープラーニングと同等の精度を達成でき、透明性と解釈可能性を提供しながらOODの一般化を向上できることを示す。 本研究は, 科学的機械学習における解釈可能表現の重要性を強調し, 深層学習の解釈と一般化のためのツールとして, 機能線形モデルの可能性を示す。

Although deep learning has achieved remarkable success in various scientific machine learning applications, its opaque nature poses concerns regarding interpretability and generalization capabilities beyond the training data. Interpretability is crucial and often desired in modeling physical systems. Moreover, acquiring extensive datasets that encompass the entire range of input features is challenging in many physics-based learning tasks, leading to increased errors when encountering out-of-distribution (OOD) data. In this work, motivated by the field of functional data analysis (FDA), we propose generalized functional linear models as an interpretable surrogate for a trained deep learning model. We demonstrate that our model could be trained either based on a trained neural network (post-hoc interpretation) or directly from training data (interpretable operator learning). A library of generalized functional linear models with different kernel functions is considered and sparse regression is used to discover an interpretable surrogate model that could be analytically presented. We present test cases in solid mechanics, fluid mechanics, and transport. Our results demonstrate that our model can achieve comparable accuracy to deep learning and can improve OOD generalization while providing more transparency and interpretability. Our study underscores the significance of interpretable representation in scientific machine learning and showcases the potential of functional linear models as a tool for interpreting and generalizing deep learning.
翻訳日:2024-04-19 00:26:13 公開日:2024-04-17
# インテリジェントシステムの複雑解析

Complex Analysis of Intelligent Systems ( http://arxiv.org/abs/2307.12905v4 )

ライセンス: Link先を確認
M. W. AlMasri, (参考訳) 論理ゲートは、入力と出力が複数の変数を持つ解析関数である複素微分作用素の言葉で書くことができる。 複素数の極表現を用いて、系の振動挙動と論理ゲートの間の即時接続に到達する。 本稿では,物理オブジェクトが情報処理に使用するユニバーサルプログラミング言語(UPL)について説明する。 UPLの因果構造を保証するため,各時間スケールの計算を特徴付けるレイヤの概念を導入する。

Logic gates can be written in terms of complex differential operators where the inputs and outputs are analytic functions with several variables. Using the polar representation of complex numbers, we arrive at an immediate connection between the oscillatory behavior of the system and logic gates. We explain the universal programming language (UPL) used by physical objects to process information. To assure the causality structure in UPL, we introduce the concept of layers that characterizes the computations for each time scale.
翻訳日:2024-04-19 00:26:13 公開日:2024-04-17
# 高能率拡散確率モデル:PET一貫性モデルを用いた低線量PETの全体PET合成

Full-dose Whole-body PET Synthesis from Low-dose PET Using High-efficiency Denoising Diffusion Probabilistic Model: PET Consistency Model ( http://arxiv.org/abs/2308.13072v3 )

ライセンス: Link先を確認
Shaoyan Pan, Elham Abouei, Junbo Peng, Joshua Qian, Jacob F Wynne, Tonghe Wang, Chih-Wei Chang, Justin Roper, Jonathon A Nye, Hui Mao, Xiaofeng Yang, (参考訳) 目的:ポジトロン・エミッション・トモグラフィ(PET)は、幅広い臨床応用において一般的に用いられる画像モダリティである。 PET画像における最も重要なトレードオフの1つは、画像品質と放射線線量の間にある。 画像品質の向上はすべての臨床応用に望ましいが, 患者へのリスク軽減には放射線被曝の最小化が必要である。 PET-CM(PET Consistency Model, PET-CM)は, 低線量PET画像から高画質のフルドーズPET画像を生成するための効率的な拡散法である。 2段階のプロセスを使用して、前方拡散における全線PET画像にガウスノイズを加え、逆拡散におけるPET-VITネットワークを用いてそれらをデノナイズする。 PET-VITネットワークは、ガウスノイズを直接フルドーズPET画像に分解できる一貫性関数を学習する。 PET-CMは、他の方法に比べて計算時間を大幅に削減しつつ、最先端の画像品質を実現する。 結果: PET-CM実験では,NMAEが1.278+/-0.122%,PSNRが33.783+/-0.824dB,SSIMが0.964+/-0.009,NCCが0.968+/-0.011,HRSが4343,SUVエラーが0.255+/-0.318%,平均生成時間が62秒であった。 これは,PET-CMを用いた最新拡散モデルに比べて12倍高速である。 同様に、フルドーズ画像実験においてPET-CMは競争的な結果をもたらし、NMAEの0.973+/-0.066%、PSNRの36.172+/-0.801dB、SSIMの0.984+/-0.004、NCCの0.990+/-0.005、HRSの4.428、SUVのエラーの0.151+/-0.192%を同じ生成法を用いて達成した。

Objective: Positron Emission Tomography (PET) has been a commonly used imaging modality in broad clinical applications. One of the most important tradeoffs in PET imaging is between image quality and radiation dose: high image quality comes with high radiation exposure. Improving image quality is desirable for all clinical applications while minimizing radiation exposure is needed to reduce risk to patients. Approach: We introduce PET Consistency Model (PET-CM), an efficient diffusion-based method for generating high-quality full-dose PET images from low-dose PET images. It employs a two-step process, adding Gaussian noise to full-dose PET images in the forward diffusion, and then denoising them using a PET Shifted-window Vision Transformer (PET-VIT) network in the reverse diffusion. The PET-VIT network learns a consistency function that enables direct denoising of Gaussian noise into clean full-dose PET images. PET-CM achieves state-of-the-art image quality while requiring significantly less computation time than other methods. Results: In experiments comparing eighth-dose to full-dose images, PET-CM demonstrated impressive performance with NMAE of 1.278+/-0.122%, PSNR of 33.783+/-0.824dB, SSIM of 0.964+/-0.009, NCC of 0.968+/-0.011, HRS of 4.543, and SUV Error of 0.255+/-0.318%, with an average generation time of 62 seconds per patient. This is a significant improvement compared to the state-of-the-art diffusion-based model with PET-CM reaching this result 12x faster. Similarly, in the quarter-dose to full-dose image experiments, PET-CM delivered competitive outcomes, achieving an NMAE of 0.973+/-0.066%, PSNR of 36.172+/-0.801dB, SSIM of 0.984+/-0.004, NCC of 0.990+/-0.005, HRS of 4.428, and SUV Error of 0.151+/-0.192% using the same generation process, which underlining its high quantitative and clinical precision in both denoising scenario.
翻訳日:2024-04-19 00:26:13 公開日:2024-04-17
# 単一電子源におけるタイミングノイズ誘起デコヒーレンスの特性と緩和

Characterizing and Mitigating Timing Noise-Induced Decoherence in Single Electron Sources ( http://arxiv.org/abs/2310.03728v2 )

ライセンス: Link先を確認
Sungguen Ryu, Rosa López, Llorenç Serra, David Sanchez, Michael Moskalets, (参考訳) 単一電子源(SES)におけるデコヒーレンスの同定と制御は、量子情報処理への応用において重要である。 最近の超短電子パルス(J. D. Fletcher et al , Nat. Commun. 10, 5298 (2019))による実験は、電子-電子相互作用や電子-フォノン相互作用のような従来のメカニズムでは起こらない強いデコヒーレンスを示す。 本稿では,超高速SESパルスの強いデコヒーレンスを説明するために,そのようなデコヒーレンスのための顕微鏡機構を使わずに,既存の実験データと整合した汎用モデルとしてタイミングノイズを提案する。 また,低エネルギーSESなど,他のデコヒーレンス効果の存在下でも動作するタイミングノイズを除去するプロトコルを提案する。

Identifying and controlling decoherence in single electron sources (SES) is important for their applications in quantum information processing. The recent experiments with ultrashort electron pulses [J. D. Fletcher et al., Nat. Commun. 10, 5298 (2019)] demonstrate strong decoherence that cannot be caused by traditional mechanisms such as electron-electron or electron-phonon interactions. Here we propose timing noise as a universal model, consistent with existing experimental data, to explain strong decoherence of ultrafast SES pulses, without resorting to any specific microscopic mechanism for such decoherence. We also propose a protocol to filter out timing noise which works even in the presence of other decoherence effects, such as those present in, e.g., low-energy SESs.
翻訳日:2024-04-19 00:26:13 公開日:2024-04-17
# ZeroからHero: 合成データインジェクションとモデルクエリによる漏洩データ検出

From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying ( http://arxiv.org/abs/2310.04145v2 )

ライセンス: Link先を確認
Biao Wu, Qiang Huang, Anthony K. H. Tung, (参考訳) 機械学習アプリケーションの普及が続けば、データの知的財産権(IP)の保護は極めて重要になり、その成功はトレーニングデータの質に大きく依存している。 ストレージ、送信、消費の間、データを保護するための様々なメカニズムが存在するが、認可なくモデルトレーニングのために既に漏洩しているかどうかを検出するための研究は少ない。 この問題は、潜在的な攻撃者が行うトレーニングプロセスに関する情報や制御が欠如しているため、特に困難である。 本稿では,表データの領域に集中して,分類モデルの学習に使用される漏洩データを検出するための新しい手法であるローカル分散シフト合成(\textsc{LDSS})を導入する。 textsc{LDSS}の背景にある中核的な概念は、少量の合成データ(クラス分布の局所的なシフトによって特徴付けられる)を所有者のデータセットに注入することである。 これにより、合成データインジェクションは、リークおよび修正データセットでトレーニングされたモデルの予測において、明らかな相違をもたらすため、モデルクエリだけで、リークデータでトレーニングされたモデルの効果的な識別が可能になる。 textsc{LDSS} は \emph{model-oblivious} であり、様々な分類モデルと互換性がある。 5つの実世界のデータセットにまたがる7種類の分類モデルについて広範な実験を行った。 総合的な結果は、 \textsc{LDSS}の信頼性、堅牢性、忠実性、セキュリティ、効率を裏付けるものである。 回帰タスクに \textsc{LDSS} を拡張することは、ベースラインメソッドと比較して、その汎用性と有効性をさらに強調する。

Safeguarding the Intellectual Property (IP) of data has become critically important as machine learning applications continue to proliferate, and their success heavily relies on the quality of training data. While various mechanisms exist to secure data during storage, transmission, and consumption, fewer studies have been developed to detect whether they are already leaked for model training without authorization. This issue is particularly challenging due to the absence of information and control over the training process conducted by potential attackers. In this paper, we concentrate on the domain of tabular data and introduce a novel methodology, Local Distribution Shifting Synthesis (\textsc{LDSS}), to detect leaked data that are used to train classification models. The core concept behind \textsc{LDSS} involves injecting a small volume of synthetic data--characterized by local shifts in class distribution--into the owner's dataset. This enables the effective identification of models trained on leaked data through model querying alone, as the synthetic data injection results in a pronounced disparity in the predictions of models trained on leaked and modified datasets. \textsc{LDSS} is \emph{model-oblivious} and hence compatible with a diverse range of classification models. We have conducted extensive experiments on seven types of classification models across five real-world datasets. The comprehensive results affirm the reliability, robustness, fidelity, security, and efficiency of \textsc{LDSS}. Extending \textsc{LDSS} to regression tasks further highlights its versatility and efficacy compared with baseline methods.
翻訳日:2024-04-19 00:26:13 公開日:2024-04-17
# 確率最適化問題における重圧遮音壁の破壊

Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems ( http://arxiv.org/abs/2311.04161v2 )

ライセンス: Link先を確認
Nikita Puchkin, Eduard Gorbunov, Nikolay Kutuzov, Alexander Gasnikov, (参考訳) 構造密度の重み付き雑音を伴う確率的最適化問題を考察する。 そのような問題に対して、確率勾配が位数 $\alpha \in (1, 2)$ の有限モーメントを持つとき、$\mathcal{O}(K^{-2(\alpha - 1)/\alpha})$ よりも早く収束できることを示す。 特に、我々の分析により、ノイズノルムは非有界な予測を持つことができる。 これらの結果を得るために,スムーズな平均中央値を用いて確率勾配を安定化する。 得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。 これにより、クリップされたSGDとクリップされたSSTMに慎重に組み込むことができ、考慮されたセットアップにおいて、新しい高確率複雑性境界を導出できる。

We consider stochastic optimization problems with heavy-tailed noise with structured density. For such problems, we show that it is possible to get faster rates of convergence than $\mathcal{O}(K^{-2(\alpha - 1)/\alpha})$, when the stochastic gradients have finite moments of order $\alpha \in (1, 2]$. In particular, our analysis allows the noise norm to have an unbounded expectation. To achieve these results, we stabilize stochastic gradients, using smoothed medians of means. We prove that the resulting estimates have negligible bias and controllable variance. This allows us to carefully incorporate them into clipped-SGD and clipped-SSTM and derive new high-probability complexity bounds in the considered setup.
翻訳日:2024-04-19 00:16:23 公開日:2024-04-17
# EPIM: エピトームに基づく効率的な処理-メモリ内加速器

EPIM: Efficient Processing-In-Memory Accelerators based on Epitome ( http://arxiv.org/abs/2311.07620v3 )

ライセンス: Link先を確認
Chenyu Wang, Zhen Dong, Daquan Zhou, Zhenhua Zhu, Yu Wang, Jiashi Feng, Kurt Keutzer, (参考訳) PIM(Processing-In-Memory)アクセラレータにおける大規模ニューラルネットワークの利用は、オンチップメモリ容量の制限による課題に直面する。 この問題に対処するため、現在の研究は、畳み込みニューラルネットワーク(CNN)のサイズを減らすためのモデル圧縮アルゴリズムを調査している。 これらのアルゴリズムのほとんどは、縮小サイズのパラメータ(例えば量子化)でニューラル演算子を表現することや、ニューラル演算子の最適な組み合わせ(例えばニューラルアーキテクチャ探索)を探索することを目的としている。 ニューラル演算子をPIMアクセラレーターの仕様に合わせるように設計することは、さらなる研究を保証している分野である。 本稿では、PIMアクセラレータ(EPIM)のためのメモリ効率の良いCNN演算子を構築するために、畳み込みのような機能を提供する軽量神経演算子であるEpitomeを紹介する。 ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価し,ハードウェア効率を向上させるため,PIM対応層設計手法を導入する。 エピトームを意識した量子化を適用して、エピトームのサイズをさらに小さくする。 ハードウェア面では,現在のPIMアクセラレータのデータパスをエピトームに適合させるために修正し,計算コストを削減するために特徴マップの再利用手法を実装した。 実験の結果、我々の3ビット量子化EPIM-ResNet50はImageNetで71.59%の精度を実現し、クロスバー面積を30.65倍削減した。 EPIMはPIMの最先端プルーニング手法を超越している。

The utilization of large-scale neural networks on Processing-In-Memory (PIM) accelerators encounters challenges due to constrained on-chip memory capacity. To tackle this issue, current works explore model compression algorithms to reduce the size of Convolutional Neural Networks (CNNs). Most of these algorithms either aim to represent neural operators with reduced-size parameters (e.g., quantization) or search for the best combinations of neural operators (e.g., neural architecture search). Designing neural operators to align with PIM accelerators' specifications is an area that warrants further study. In this paper, we introduce the Epitome, a lightweight neural operator offering convolution-like functionality, to craft memory-efficient CNN operators for PIM accelerators (EPIM). On the software side, we evaluate epitomes' latency and energy on PIM accelerators and introduce a PIM-aware layer-wise design method to enhance their hardware efficiency. We apply epitome-aware quantization to further reduce the size of epitomes. On the hardware side, we modify the datapath of current PIM accelerators to accommodate epitomes and implement a feature map reuse technique to reduce computation cost. Experimental results reveal that our 3-bit quantized EPIM-ResNet50 attains 71.59% top-1 accuracy on ImageNet, reducing crossbar areas by 30.65 times. EPIM surpasses the state-of-the-art pruning methods on PIM.
翻訳日:2024-04-19 00:16:23 公開日:2024-04-17
# 物理・生物学におけるデータ駆動型モデル縮小のための情報理論

Information theory for data-driven model reduction in physics and biology ( http://arxiv.org/abs/2312.06608v2 )

ライセンス: Link先を確認
Matthew S. Schmitt, Maciej Koch-Janusz, Michel Fruchart, Daniel S. Seara, Michael Rust, Vincenzo Vitelli, (参考訳) モデル還元は、いくつかの関連する変数の観点から、多体系の力学の単純かつ予測的な記述の構築である。 モデル還元の前提条件は、これらの関連する変数の同定であり、一般的な方法が存在しないタスクである。 そこで我々は,情報ボトルネックに基づく系統的なアプローチを開発し,関連する変数を同定する。 我々は、これらの変数とダイナミクスを記述する転送作用素の固有関数の関係を解析的に解明する。 さらに、高圧縮の極限において、関連する変数は、最も遅い遅延固有関数によって直接決定されることを示す。 我々の情報に基づくアプローチは、削減されたモデルの複雑さの増大を最適に止めるタイミングを示す。 さらに、モデルリダクションを実行する解釈可能なディープラーニングツールを構築するための強固な基盤を提供する。 これらのツールが実際にどのように機能するかを、我々のアルゴリズムが支配的な集団変数を自動的に抽出する大気の流れの未計算ビデオと、創発的な同期順序パラメータを発見するシアノバクテリアコロニーの実験ビデオから考察する。

Model reduction is the construction of simple yet predictive descriptions of the dynamics of many-body systems in terms of a few relevant variables. A prerequisite to model reduction is the identification of these relevant variables, a task for which no general method exists. Here, we develop a systematic approach based on the information bottleneck to identify the relevant variables, defined as those most predictive of the future. We elucidate analytically the relation between these relevant variables and the eigenfunctions of the transfer operator describing the dynamics. Further, we show that in the limit of high compression, the relevant variables are directly determined by the slowest-decaying eigenfunctions. Our information-based approach indicates when to optimally stop increasing the complexity of the reduced model. Furthermore, it provides a firm foundation to construct interpretable deep learning tools that perform model reduction. We illustrate how these tools work in practice by considering uncurated videos of atmospheric flows from which our algorithms automatically extract the dominant slow collective variables, as well as experimental videos of cyanobacteria colonies in which we discover an emergent synchronization order parameter.
翻訳日:2024-04-19 00:16:23 公開日:2024-04-17
# 2次元導波路QEDにおける強い相互作用光子

Strongly interacting photons in 2D waveguide QED ( http://arxiv.org/abs/2312.07668v3 )

ライセンス: Link先を確認
Matija Tečer, Marco Di Liberto, Pietro Silvi, Simone Montangero, Filippo Romanato, Giuseppe Calajò, (参考訳) 導波管量子力学(QED)の1次元閉じ込めは、光-物質相互作用を高め、強い量子非線形光学応答を誘導するために重要な役割を果たす。 2次元以上の条件下では、光子をより大きな位相空間内で放出できるため、この応答は減少し、強い光子-光子相互作用がまだ達成できるかどうかという疑問が解決される。 本研究では,2次元導波路に閉じ込められた光に結合した2次元正方形原子配列の場合,この疑問に正の答えを与える。 より具体的には、真の2次元特徴を持つ長寿命2光子反発性および有界状態の発生を実証する。 さらに、これらの効果のシグネチャを、弱いサブラディアント帯域内散乱共鳴の形で自由空間原子配列でも観察する。 本研究は2次元導波路QEDにおける強い光子-光子相互作用の存在をパラダイム的に示すものである。

One dimensional confinement in waveguide Quantum Electrodynamics (QED) plays a crucial role to enhance light-matter interactions and to induce a strong quantum nonlinear optical response. In two or higher dimensional settings, this response is reduced since photons can be emitted within a larger phase space, opening the question whether strong photon-photon interaction can be still achieved. In this study, we positively answer this question for the case of a 2D square array of atoms coupled to the light confined into a two-dimensional waveguide. More specifically, we demonstrate the occurrence of long-lived two-photon repulsive and bound states with genuine 2D features. Furthermore, we observe signatures of these effects also in free-space atomic arrays in the form of weakly-subradiant in-band scattering resonances. Our findings provide a paradigmatic signature of the presence of strong photon-photon interactions in 2D waveguide QED.
翻訳日:2024-04-19 00:16:23 公開日:2024-04-17
# 真空光非線形性観測のためのサニャック干渉計の性能

Performance of a Sagnac interferometer to observe vacuum optical nonlinearity ( http://arxiv.org/abs/2401.13720v3 )

ライセンス: Link先を確認
Aurélie Max Mailliet, Adrien E. Kraych, François Couchot, Xavier Sarazin, Elsa Baynard, Julien Demailly, Moana Pittman, Arache Djannati-Ataï, Sophie Kazamias, Scott Robertson, Marcel Urban, (参考訳) 量子電磁力学では、真空は非線形光学媒体となり、その光学指数は強い外部電磁場の存在下で修正されるべきである。 DeLLightプロジェクト(Deflection of Light by Light)は、LASERIXによって供給される集中フェムト秒レーザーパルスを用いて、この効果を観測することを目的としている。 原理は、サニャック干渉計を用いて、高強度パルス(ポンプ)によって誘導される真空指数勾配を横切る低強度集束パルス(プローブ)の偏向を測定することである。 フェムト秒レーザーパルスを用いたサニャック干渉計がDeLLightプロジェクトのために開発された。 以前のプロトタイプと比較すると、干渉計は相互作用領域におけるプローブビームの焦点を含むようになった。 本稿では,干渉計の感度,すなわち絶滅要因,空間分解能,腰をプローブパルスの焦点で測定し,評価する。 今後の改善について論じる。

In Quantum Electrodynamics, vacuum becomes a nonlinear optical medium: its optical index should be modified in the presence of intense external electromagnetic fields. The DeLLight project (Deflection of Light by Light) aims to observe this effect using intense focused femtosecond laser pulses delivered by LASERIX. The principle is to measure with a Sagnac interferometer the deflection of a low-intensity focused pulse (probe) crossing the vacuum index gradient induced by a high-intensity pulse (pump). A Sagnac interferometer working with femtosecond laser pulses has been developed for the DeLLight project. Compared to previous prototypes, the interferometer now includes the focusing of the probe beam in the interaction area. In this article, we measure and characterize the critical experimental parameters limiting the sensitivity of the interferometer, namely the extinction factor, the spatial resolution, and the waist at focus of the probe pulse. We discuss future improvements.
翻訳日:2024-04-19 00:16:23 公開日:2024-04-17
# 単一イオン異方性を有するフラストレーションスピン-S$強磁性鎖におけるFew-マグノン励起

Few-magnon excitations in a frustrated spin-$S$ ferromagnetic chain with single-ion anisotropy ( http://arxiv.org/abs/2401.14101v3 )

ライセンス: Link先を確認
Jiawei Li, Ye Cao, Ning Wu, (参考訳) 反強磁性next-nearest-neighbor (NNN) 相互作用は、単イオン(SI) 異方性$D$の存在下で、有限サイズのスピン-S$鎖と強磁性next-neighbor (NN) 相互作用$J>0$および反強磁性next-nearest-neighbor (NNN) 相互作用$J'<0$で研究する。 まず、ゼロ励起エネルギー状態の出現条件を明らかにする。 $\Delta=\Delta'=1$$$\Delta$ および $\Delta'$ が対応する異方性パラメータである等方性の場合、基底状態が強磁性であるしきい値である$J/|J'|$ は、短い鎖の正確な対角化によって決定される。 正確な2つのマグノンブロッホ状態の集合を用いて、2つのマグノン問題をNNとNNNのホッピングを持つ有効開鎖上の1つの粒子にマッピングする。 2つのマグノン励起スペクトル全体を大系で計算し, SI異方性相互作用とNNN相互作用の相互作用により, 最低ライディングモードにおける共分散遷移はS=1/2$と高スピンの異なる挙動を示すことがわかった。 余剰運動量$k=-\pi$ に対して、有効格子は2つのNN開鎖に分解され、平面波アンサッツによって正確に解ける。 これに基づいて、SI または NNN を支持する領域がバンドの端付近で2つのマグノン境界状態と交換する、$\Delta'-D/|J'|$平面を解析的に同定する。 特に、任意の$S\geq 1/2$ に対して、バンドエッジの近傍に下位の NN 交換 2-マグノン境界状態が常に存在することを証明している。 最後に,スピン演算行列要素法を用いて,$n$-magnon spectra for $S=1/2$ with $n\leq5$を数値計算する。 対応する$n$-magnon-commensurateの不安定性領域は有限鎖に対して決定され、先行文献と一貫した結果が観察される。

We study few-magnon excitations in a finite-size spin-$S$ chain with ferromagnetic nearest-neighbor (NN) interaction $J>0$ and antiferromagnetic next-nearest-neighbor (NNN) interaction $J'<0$, in the presence of the single-ion (SI) anisotropy $D$. We first reveal the condition for the emergence of zero-excitation-energy states. In the isotropic case with $\Delta=\Delta'=1$ ($\Delta$ and $\Delta'$ are the corresponding anisotropy parameters), a threshold of $J/|J'|$ above which the ground state is ferromagnetic is determined by exact diagonalization for short chains up to $12$ sites. Using a set of exact two-magnon Bloch states, we then map the two-magnon problem to a single-particle one on an effective open chain with both NN and NNN hoppings. The whole two-magnon excitation spectrum is calculated for large systems and the commensurate-incommensurate transition in the lowest-lying mode is found to exhibit different behaviors between $S=1/2$ and higher spins due to the interplay of the SI anisotropy and the NNN interaction. For the commensurate momentum $k=-\pi$, the effective lattice is decoupled into two NN open chains that can be exactly solved via a plane-wave ansatz. Based on this, we analytically identify in the $\Delta'-D/|J'|$ plane the regions supporting the SI or NNN exchange two-magnon bound states near the edge of the band. In particular, we prove that there always exists a lower-lying NN exchange two-magnon bound state near the band edge for arbitrary $S\geq 1/2$. Finally, we numerically calculate the $n$-magnon spectra for $S=1/2$ with $n\leq5$ by using a spin-operator matrix element method. The corresponding $n$-magnon commensurate instability regions are determined for finite chains and consistent results with prior literature are observed.
翻訳日:2024-04-19 00:16:23 公開日:2024-04-17
# ガウス曲面モデルからの距離と衝突確率の推定

Distance and Collision Probability Estimation from Gaussian Surface Models ( http://arxiv.org/abs/2402.00186v2 )

ライセンス: Link先を確認
Kshitij Goel, Wennie Tabib, (参考訳) 本稿では, 楕円形ロボットモデルとガウス分布の集合としてモデル化された環境表面との衝突確率, ユークリッド距離, 勾配を推定するための連続空間法について述べる。 連続空間衝突確率推定は不確実性を考慮した運動計画に重要である。 ほとんどの衝突検出と回避アプローチは、ロボットが球体としてモデル化されていると仮定するが、楕円形表現はより厳密な近似を提供し、散らばった狭い空間でのナビゲーションを可能にする。 最先端の手法はユークリッド距離と勾配を原点雲の処理によって導き出す。 ガウス曲面モデリング(例えば混合モデル、スプラッティング)の最近の進歩は、圧縮された高忠実な表面表現を可能にする。 そのようなモデルから連続空間占有率を推定する方法はほとんどない。 彼らはガウスに自由空間をモデル化することを求め、楕円体ロボットの衝突確率、ユークリッド距離、勾配を推定できない。 提案手法は, 楕円面から楕円面へのユークリッド距離とガウス面モデルとの衝突確率推定において, 先行作業を延長することにより, このギャップを埋めるものである。 衝突確率推定を改善するため,幾何学的ブレンディング手法も提案されている。 本手法は実世界の点雲データを用いて数値的な2次元および3次元実験により評価する。 現代の組込みコンピュータの低消費電力CPU上のシングルスレッドを用いて,エリスポイドペアあたり数マイクロ秒でこれらの量の効率的な計算方法が実証された。

This paper describes continuous-space methodologies to estimate the collision probability, Euclidean distance and gradient between an ellipsoidal robot model and an environment surface modeled as a set of Gaussian distributions. Continuous-space collision probability estimation is critical for uncertainty-aware motion planning. Most collision detection and avoidance approaches assume the robot is modeled as a sphere, but ellipsoidal representations provide tighter approximations and enable navigation in cluttered and narrow spaces. State-of-the-art methods derive the Euclidean distance and gradient by processing raw point clouds, which is computationally expensive for large workspaces. Recent advances in Gaussian surface modeling (e.g. mixture models, splatting) enable compressed and high-fidelity surface representations. Few methods exist to estimate continuous-space occupancy from such models. They require Gaussians to model free space and are unable to estimate the collision probability, Euclidean distance and gradient for an ellipsoidal robot. The proposed methods bridge this gap by extending prior work in ellipsoid-to-ellipsoid Euclidean distance and collision probability estimation to Gaussian surface models. A geometric blending approach is also proposed to improve collision probability estimation. The approaches are evaluated with numerical 2D and 3D experiments using real-world point cloud data. Methods for efficient calculation of these quantities are demonstrated to execute within a few microseconds per ellipsoid pair using a single-thread on low-power CPUs of modern embedded computers
翻訳日:2024-04-19 00:16:23 公開日:2024-04-17
# フェムトメトリ感度を持つマクロ量子力学のための高磁場懸濁干渉センサ

A High-Finesse Suspended Interferometric Sensor for Macroscopic Quantum Mechanics with Femtometre Sensitivity ( http://arxiv.org/abs/2402.00821v2 )

ライセンス: Link先を確認
Jiri Smetana, Tianliang Yan, Vincent Boyer, Denis Martynov, (参考訳) テーブルトップスケールのマクロ量子力学を解析するための干渉計センサを提案する。 センサーは、一対の吊り下げられた光学キャビティと、10gの溶融シリカミラーからなる10万個以上の微細さから構成される。 現在の室温動作では、読み出し雑音に制限された音響周波数帯において、SI{0.5}{\fmasd} のピーク感度を実現する。 読み出しノイズのさらなる抑制により、量子放射圧ノイズに到達し、量子バックアクション効果の新たな測定方法を示す。 このようなセンサーは最終的には、マクロな絡み合いを実証し、半古典的および量子重力モデルをテストするために利用することができる。

We present an interferometric sensor for investigating macroscopic quantum mechanics on a table-top scale. The sensor consists of pair of suspended optical cavities with a finesse in excess of 100,000 comprising 10 g fused-silica mirrors. In the current room-temperature operation, we achieve a peak sensitivity of \SI{0.5}{\fmasd} in the acoustic frequency band, limited by the readout noise. With additional suppression of the readout noise, we will be able to reach the quantum radiation pressure noise, which would represent a novel measurement of the quantum back-action effect. Such a sensor can eventually be utilised for demonstrating macroscopic entanglement and testing semi-classical and quantum gravity models.
翻訳日:2024-04-19 00:16:23 公開日:2024-04-17
# 完全連結スピンキャビティ系における離散時間結晶のパラメトリック共鳴の理論

Theory of parametric resonance for discrete time crystals in fully-connected spin-cavity systems ( http://arxiv.org/abs/2402.03729v2 )

ライセンス: Link先を確認
Roy D. Jara Jr., Dennis F. Salinel, Jayson G. Cosme, (参考訳) 完全連結スピンキャビティ系における離散時間結晶(DTC)形成に必要な条件を、これらの系を振動子のようなモデルにマッピングすることでパラメトリック共鳴の観点から特定する。 我々は,周期的に駆動されるオープンディックモデルを実効線形および非線形振動子モデルにマッピングし,非線形性および散逸性の役割を解明するとともに,可変異方性を持つリプキン・メシュコフ・グリックモデルを用いて大域対称性破壊の効果を解析した。 系の非線形性は, 共振駆動時の非有界化を抑制することを示す。 一方、消散は周期性不安定性の振動振幅を一定に保ち、これはDTCの重要な特徴である。 周期共振応答のパラメトリック共振器活性化には, 運転の有無による大域対称性の破れの存在が不可欠であることが判明した。 それぞれの発振器モデルを用いて,両系の共振周波数と振幅を解析的に予測する。

We pinpoint the conditions necessary for discrete time crystal (DTC) formation in fully connected spin-cavity systems from the perspective of parametric resonance by mapping these systems onto oscillator like models. We elucidate the role of nonlinearity and dissipation by mapping the periodically driven open Dicke model onto effective linear and nonlinear oscillator models, while we analyze the effect of global symmetry breaking using the Lipkin-Meshkov-Glick model with tunable anisotropy. We show that the system's nonlinearity restrains the dynamics from becoming unbounded when driven resonantly. On the other hand, dissipation keeps the oscillation amplitude of the period-doubling instability fixed, which is a key feature of DTCs. The presence of global symmetry breaking in the absence of driving is found to be crucial in the parametric resonant activation of period-doubling response. We provide analytic predictions for the resonant frequencies and amplitudes leading to DTC formation for both systems using their respective oscillator models.
翻訳日:2024-04-19 00:16:23 公開日:2024-04-17
# 搭載型完全畳み込みネットワークを用いた高出力ビジュアルナノドロ-ナノドロ-相対位置推定

High-throughput Visual Nano-drone to Nano-drone Relative Localization using Onboard Fully Convolutional Networks ( http://arxiv.org/abs/2402.13756v3 )

ライセンス: Link先を確認
Luca Crupi, Alessandro Giusti, Daniele Palossi, (参考訳) 相対的なドローンとドローンのローカライゼーションは、どんなSwarm操作でも基本的なビルディングブロックである。 この課題は, ナノ粒子径10cmの小型化, 形状因子の低減によって実現された新規な使用事例により, ますます関心が高まる, ナノ粒子の小型化という文脈において解決される。 汎用性のための価格には、センサー、処理ユニット、メモリなどのオンボードリソースが制限され、オンボードアルゴリズムの複雑さが制限される。 これらの制限を克服する従来のソリューションは、ナノドローンに直接デプロイされる軽量なディープラーニングモデルによって表現される。 この研究は、グレースケールの低解像度カメラと超低消費電力のSoC(System-on-Chip)をオンボードで搭載しただけで、ナノドロンの相対的なポーズ推定に挑戦する。 本稿では,GWT GAP8 SoCで拡張されたクレイジーフリーナノドローン上で,101mW以内39Hzで動作可能な,新しいビジョンベース完全畳み込みニューラルネットワーク(FCNN)に基づく垂直統合システムを提案する。 FCNNと3つのSoA(State-of-the-Art)システムを比較した。 その結果,水平画像座標では32~47%,垂直画像座標では18~55%,実世界の30k画像のデータセットでは18~55%の改善が得られた。 最後に,本試験では,前回のSoAと比較して平均トラッキング誤差を37%削減し,バッテリー寿命を4分に短縮した。

Relative drone-to-drone localization is a fundamental building block for any swarm operations. We address this task in the context of miniaturized nano-drones, i.e., 10cm in diameter, which show an ever-growing interest due to novel use cases enabled by their reduced form factor. The price for their versatility comes with limited onboard resources, i.e., sensors, processing units, and memory, which limits the complexity of the onboard algorithms. A traditional solution to overcome these limitations is represented by lightweight deep learning models directly deployed aboard nano-drones. This work tackles the challenging relative pose estimation between nano-drones using only a gray-scale low-resolution camera and an ultra-low-power System-on-Chip (SoC) hosted onboard. We present a vertically integrated system based on a novel vision-based fully convolutional neural network (FCNN), which runs at 39Hz within 101mW onboard a Crazyflie nano-drone extended with the GWT GAP8 SoC. We compare our FCNN against three State-of-the-Art (SoA) systems. Considering the best-performing SoA approach, our model results in an R-squared improvement from 32 to 47% on the horizontal image coordinate and from 18 to 55% on the vertical image coordinate, on a real-world dataset of 30k images. Finally, our in-field tests show a reduction of the average tracking error of 37% compared to a previous SoA work and an endurance performance up to the entire battery lifetime of 4 minutes.
翻訳日:2024-04-19 00:16:23 公開日:2024-04-17
# GenSERP:全ページ表示のための大規模言語モデル

GenSERP: Large Language Models for Whole Page Presentation ( http://arxiv.org/abs/2402.14301v2 )

ライセンス: Link先を確認
Zhenning Zhang, Yunan Zhang, Suyu Ge, Guangwei Weng, Mridu Narang, Xia Song, Saurabh Tiwary, (参考訳) 大規模言語モデル(LLMs)の出現は、検索エンジン検索結果ページ(SERP)の組織における労力を最小限にする機会をもたらす。 本稿では, ユーザからの問い合わせに基づいて, チャット応答, ウェブサイトスニペット, マルチメディアデータ, 知識パネルなどの中間検索結果を協調したSERPレイアウトに動的に整理する手法であるGenSERPを提案する。 提案手法は,(1) LLMがAPIツールを継続的に編成して,異なる種類の項目を検索し,検索した項目に基づいて候補レイアウトを提案する情報収集フェーズを,最終結果が十分に得られるまで行う。 2) LLM が取得したコンテンツでレイアウトをポップアップさせる応答生成フェーズ。 このフェーズでは、LLMはSERPのアイテムとUX設定のランキングを適応的に最適化する。 その結果、UX表示の詳細とともに、ページ上のロケーションを各アイテムに割り当てる。 (3) 視覚を持つLCMが、ユーザ満足度に基づいて生成したSERPを全てスコアするスコアリングフェーズ。 そして、最も高いスコアでレンダリングに送信する。 GenSERPには2つの世代パラダイムがある。 まず、より管理しやすい方法で最適レイアウトにアプローチできる粗い粒度(coarse-to-fine)、(2)ビームサーチ(ビームサーチ)。 実世界のデータに対するオフライン実験の結果は、LLMが文脈的に不均一な検索結果をオンザフライで整理し、有望なユーザエクスペリエンスを提供する方法を示している。

The advent of large language models (LLMs) brings an opportunity to minimize the effort in search engine result page (SERP) organization. In this paper, we propose GenSERP, a framework that leverages LLMs with vision in a few-shot setting to dynamically organize intermediate search results, including generated chat answers, website snippets, multimedia data, knowledge panels into a coherent SERP layout based on a user's query. Our approach has three main stages: (1) An information gathering phase where the LLM continuously orchestrates API tools to retrieve different types of items, and proposes candidate layouts based on the retrieved items, until it's confident enough to generate the final result. (2) An answer generation phase where the LLM populates the layouts with the retrieved content. In this phase, the LLM adaptively optimize the ranking of items and UX configurations of the SERP. Consequently, it assigns a location on the page to each item, along with the UX display details. (3) A scoring phase where an LLM with vision scores all the generated SERPs based on how likely it can satisfy the user. It then send the one with highest score to rendering. GenSERP features two generation paradigms. First, coarse-to-fine, which allow it to approach optimal layout in a more manageable way, (2) beam search, which give it a better chance to hit the optimal solution compared to greedy decoding. Offline experimental results on real-world data demonstrate how LLMs can contextually organize heterogeneous search results on-the-fly and provide a promising user experience.
翻訳日:2024-04-19 00:16:23 公開日:2024-04-17
# Lin, Kim, Hsiehの不等式と強部分付加性について

On an inequality of Lin, Kim and Hsieh and Strong Subadditivity ( http://arxiv.org/abs/2402.15920v2 )

ライセンス: Link先を確認
Eric A. Carlen, Michael P. Loss, (参考訳) 我々は、非ノイマンエントロピーの強い部分加法性を意味するLin, Kim, Hsiehの不等式の初等証明を与える。

We give an elementary proof of an inequality of Lin, Kim and Hsieh that implies strong subadditivity of the non Neumann entropy.
翻訳日:2024-04-19 00:06:38 公開日:2024-04-17
# 量子化学の効率的な量子コンピューティングを目指して:トランスコラートおよび適応アンザッツ法による回路複雑度低減

Towards Efficient Quantum Computing for Quantum Chemistry: Reducing Circuit Complexity with Transcorrelated and Adaptive Ansatz Techniques ( http://arxiv.org/abs/2402.16659v2 )

ライセンス: Link先を確認
Erika Magnusson, Aaron Fitzpatrick, Stefan Knecht, Martin Rahm, Werner Dobrautz, (参考訳) 量子コンピュータの短期的な実用性は、ノイズという形でハードウェアの制約によって妨げられている。 ハイブリッド量子アルゴリズムにおけるノイズレジリエンスを達成するための道の1つは、与えられた問題を解決するために必要な回路深さ、すなわち応用ゲートの数を減らすことである。 本研究は,変分量子想像時間進化(AVQITE)の文脈において,トランスコリックス(TC)アプローチと適応量子アンセアゼとその実装を組み合わせることで回路深さを低減する方法を示す。 組み合わせたTC-AVQITE法は、H$_4$, LiH, H$_2$Oのポテンシャルエネルギー面における基底状態エネルギーを計算するために用いられる。 特に、H$_4$は単体や二重励起を含む一元結合クラスタ理論が正確な結果を与えることができないという、非常に難しいケースである。 TC を追加すると、適応 ans\atze において必要な演算子(つまり回路深さ)の数を減らしながら、完全基底集合 (CBS) の極限に近いエネルギーが得られる。 さらに回路深さの低減により,よりノイズ耐性が増し,収束が加速される。 本研究は, 適応型 ans\atze とTC 法を組み合わせることで, CBS 限界に近い精度の量子化学結果が得られる小型, 耐雑音性, 最適化容易な量子回路が得られることを示す。

The near-term utility of quantum computers is hindered by hardware constraints in the form of noise. One path to achieving noise resilience in hybrid quantum algorithms is to decrease the required circuit depth -- the number of applied gates -- to solve a given problem. This work demonstrates how to reduce circuit depth by combining the transcorrelated (TC) approach with adaptive quantum ans\"atze and their implementations in the context of variational quantum imaginary time evolution (AVQITE). The combined TC-AVQITE method is used to calculate ground state energies across the potential energy surfaces of H$_4$, LiH, and H$_2$O. In particular, H$_4$ is a notoriously difficult case where unitary coupled cluster theory, including singles and doubles excitations, fails to provide accurate results. Adding TC yields energies close to the complete basis set (CBS) limit while reducing the number of necessary operators -- and thus circuit depth -- in the adaptive ans\"atze. The reduced circuit depth furthermore makes our algorithm more noise-resilient and accelerates convergence. Our study demonstrates that combining the TC method with adaptive ans\"atze yields compact, noise-resilient, and easy-to-optimize quantum circuits that yield accurate quantum chemistry results close to the CBS limit.
翻訳日:2024-04-19 00:06:38 公開日:2024-04-17
# PE-MVCNet:肺塞栓症予測のための多視点・クロスモーダル核融合ネットワーク

PE-MVCNet: Multi-view and Cross-modal Fusion Network for Pulmonary Embolism Prediction ( http://arxiv.org/abs/2402.17187v3 )

ライセンス: Link先を確認
Zhaoxin Guo, Zhipeng Wang, Ruiquan Ge, Jianxun Yu, Feiwei Qin, Yuan Tian, Yuqing Peng, Yonghong Li, Changmiao Wang, (参考訳) 肺塞栓症(PE)の早期発見は、患者の生存率を高めるために重要である。 画像ベースと非画像ベースの両方の特徴は、医療分類タスクにおいて最も重要である。 臨床現場では、医師は医療画像の解釈に電子医療記録(EMR)が提供する文脈情報に頼る傾向がある。 しかし、画像データと臨床情報を効果的に統合するモデルはほとんどない。 この欠点に対処するため, PE-MVCNetと呼ばれる多モード融合法を提案する。 統合マルチビューブロックとEMRのみモジュールとCross-modal Attention Fusion (CMAF)モジュールを備える。 これらのモジュールは協調して、PEの予測を生成する包括的な特徴を抽出する。 AUROCは94.1%、精度は90.2%、F1スコアは90.6%である。 提案モデルは既存の手法より優れており, 単一のデータモダリティを用いたモデルと比較して, マルチモーダル融合モデルの方が優れていることを裏付けるものである。 ソースコードはhttps://github.com/LeavingStarW/PE-MVCNETで公開されています。

The early detection of a pulmonary embolism (PE) is critical for enhancing patient survival rates. Both image-based and non-image-based features are of utmost importance in medical classification tasks. In a clinical setting, physicians tend to rely on the contextual information provided by Electronic Medical Records (EMR) to interpret medical imaging. However, very few models effectively integrate clinical information with imaging data. To address this shortcoming, we suggest a multimodal fusion methodology, termed PE-MVCNet, which capitalizes on Computed Tomography Pulmonary Angiography imaging and EMR data. This method comprises the Image-only module with an integrated multi-view block, the EMR-only module, and the Cross-modal Attention Fusion (CMAF) module. These modules cooperate to extract comprehensive features that subsequently generate predictions for PE. We conducted experiments using the publicly accessible Stanford University Medical Center dataset, achieving an AUROC of 94.1%, an accuracy rate of 90.2%, and an F1 score of 90.6%. Our proposed model outperforms existing methodologies, corroborating that our multimodal fusion model excels compared to models that use a single data modality. Our source code is available at https://github.com/LeavingStarW/PE-MVCNET.
翻訳日:2024-04-19 00:06:38 公開日:2024-04-17
# 格子シュウィンガーモデルにおけるリアルタイム散乱

Real-time scattering in the lattice Schwinger model ( http://arxiv.org/abs/2402.18429v2 )

ライセンス: Link先を確認
Irene Papaefstathiou, Johannes Knolle, Mari Carmen Bañuls, (参考訳) テンソルネットワーク法は、連続極限に近い格子ゲージ理論の平衡特性の研究に適合性を示した。 我々は、格子シュウィンガーモデルにおける複合中間子のリアルタイム衝突をシミュレートすることで、これまでよりはるかに少ない平衡シナリオでそれらを利用した。 異なるタイミングでベクトル中間子の波束を構成することで、2つの重い中間子を生成する非弾性チャネルの開口を観察し、運動量閾値を同定する。 強結合系における衝突生成物を検出するために,現在の量子シミュレーションプラットフォームで測定可能な局所量子化法を提案する。

Tensor network methods have demonstrated their suitability for the study of equilibrium properties of lattice gauge theories, even close to the continuum limit. We use them in an out-of-equilibrium scenario, much less explored so far, by simulating the real-time collisions of composite mesons in the lattice Schwinger model. Constructing wave-packets of vector mesons at different incoming momenta, we observe the opening of the inelastic channel in which two heavier mesons are produced and identify the momentum threshold. To detect the products of the collision in the strong coupling regime we propose local quantitites that could be measured in current quantum simulation platforms.
翻訳日:2024-04-19 00:06:38 公開日:2024-04-17
# 放射線診断におけるコンテンツベース医用画像検索のための基礎モデルの構築

Leveraging Foundation Models for Content-Based Medical Image Retrieval in Radiology ( http://arxiv.org/abs/2403.06567v3 )

ライセンス: Link先を確認
Stefan Denner, David Zimmerer, Dimitrios Bounias, Markus Bujotzek, Shuhan Xiao, Lisa Kausch, Philipp Schader, Tobias Penzkofer, Paul F. Jäger, Klaus Maier-Hein, (参考訳) CBIR(Content-based Image Search)は、放射線学における診断支援と医学研究を大幅に改善する可能性がある。 現在のCBIRシステムは、特定の病態の専門化による限界に直面しており、実用性は制限されている。 そこで本研究では,視覚基盤モデルを用いて,コンテンツに基づく医用画像検索のための特徴抽出器を提案する。 これらのモデルを4つのモダリティと161の病理にまたがる1.6万の2D画像の総合的なデータセットでベンチマークすることにより、弱い教師付きモデルが優れていると判断し、最大0.594のP@1を達成する。 このパフォーマンスは、特殊なモデルと競合するだけでなく、微調整を必要としない。 さらに, 病理組織と解剖学的構造を検索する際の課題について検討し, 病理学的特徴の正確な検索が困難であることが示唆された。 これらの課題にも拘わらず,放射線学におけるCBIRの基礎モデルの可能性は大きく,特定のチューニングを必要としない汎用的な医用画像検索システムへの移行が提案されている。

Content-based image retrieval (CBIR) has the potential to significantly improve diagnostic aid and medical research in radiology. Current CBIR systems face limitations due to their specialization to certain pathologies, limiting their utility. In response, we propose using vision foundation models as powerful and versatile off-the-shelf feature extractors for content-based medical image retrieval. By benchmarking these models on a comprehensive dataset of 1.6 million 2D radiological images spanning four modalities and 161 pathologies, we identify weakly-supervised models as superior, achieving a P@1 of up to 0.594. This performance not only competes with a specialized model but does so without the need for fine-tuning. Our analysis further explores the challenges in retrieving pathological versus anatomical structures, indicating that accurate retrieval of pathological features presents greater difficulty. Despite these challenges, our research underscores the vast potential of foundation models for CBIR in radiology, proposing a shift towards versatile, general-purpose medical image retrieval systems that do not require specific tuning.
翻訳日:2024-04-19 00:06:38 公開日:2024-04-17
# BurstAttention: 極端に長いシーケンスのための効率的な分散注意フレームワーク

BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences ( http://arxiv.org/abs/2403.09347v2 )

ライセンス: Link先を確認
Sun Ao, Weilin Zhao, Xu Han, Cheng Yang, Zhiyuan Liu, Chuan Shi, Maosong Sun, Shengnan Wang, Teng Su, (参考訳) 効果的なアテンションモジュールはTransformerベースの大規模言語モデル(LLM)の成功に重要な役割を果たしてきたが、これらのアテンションモジュールの二次時間とメモリの複雑さは、長いシーケンスを処理する際にも問題となる。 ロングシーケンス問題の潜在的な解決策の1つは、分散クラスタを使用して、複数のデバイス(GPUなど)にわたるアテンションモジュールの計算を並列化することである。 しかし、分散アプローチを採用すると、必然的に局所的な注意を格納するためのメモリオーバーヘッドが増加し、局所的な結果をグローバルなものに集約するための通信コストが増大する。 本稿では,グローバルクラスタとローカルデバイスレベルでのメモリアクセスと通信操作を最適化する分散アテンションフレームワークである `BurstAttention' を提案する。 実験では,BurstAttentionと他の競合分散アテンション・ソリューションとの比較を行った。 異なる長さ設定下での実験結果から、BurstAttentionはこれらの競合するベースラインと比較して長いシーケンスを処理する上で大きな利点があり、通信オーバーヘッドを40%削減し、32 X A100で128Kのシーケンス長のトレーニング中に1.37Xのスピードアップを達成した。

Effective attention modules have played a crucial role in the success of Transformer-based large language models (LLMs), but the quadratic time and memory complexities of these attention modules also pose a challenge when processing long sequences. One potential solution for the long sequence problem is to utilize distributed clusters to parallelize the computation of attention modules across multiple devices (e.g., GPUs). However, adopting a distributed approach inevitably introduces extra memory overheads to store local attention results and incurs additional communication costs to aggregate local results into global ones. In this paper, we propose a distributed attention framework named ``BurstAttention'' to optimize memory access and communication operations at both the global cluster and local device levels. In our experiments, we compare BurstAttention with other competitive distributed attention solutions for long sequence processing. The experimental results under different length settings demonstrate that BurstAttention offers significant advantages for processing long sequences compared with these competitive baselines, reducing 40% communication overheads and achieving 1.37 X speedup during training 128K sequence length on 32 X A100.
翻訳日:2024-04-19 00:06:38 公開日:2024-04-17
# GOLF:Goal-Oriented Long-term liFe tasks Support by Human-AI collaboration

GOLF: Goal-Oriented Long-term liFe tasks supported by human-AI collaboration ( http://arxiv.org/abs/2403.17089v2 )

ライセンス: Link先を確認
Ben Wang, (参考訳) ChatGPTと類似の大規模言語モデル(LLM)の出現は、人間とAIの相互作用と情報検索プロセスに革命をもたらした。 LLMを検索エンジンの代替として活用することで、ユーザはクエリに合わせて要約された情報にアクセスでき、膨大な情報リソースをナビゲートする際の認知的負荷を大幅に削減できる。 このシフトは、情報アクセスパラダイムを再定義するLLMの可能性を浮き彫りにしている。 本研究は、タスク中心の情報検索とLCMのタスク計画能力の基盤を基礎として、日常的なタスク自動化を超えてLLM機能の範囲を広げ、長期的かつ重要なライフタスクのユーザを支援する。 GOLFフレームワーク(Goal-Oriented Long-term liFe task)を導入し、ゴール指向と長期計画を通じて重要な人生決定を支援するLLMの能力を向上することに焦点を当てた。 この手法は、フレームワークの有効性をテストするための総合的なシミュレーション研究を含み、続いてモデルと人間の評価を行い、長期のライフタスクのためのデータセットベンチマークを開発し、異なるモデルと設定をまたいだ実験を行う。 本研究は、短期的課題から長期的目標の範囲に焦点を移すことにより、人間の意思決定プロセスとタスクマネジメントの強化におけるLLMの変革的ポテンシャルを浮き彫りにして、人間とAIのコラボレーションの進化における大きな一歩を踏み出した。

The advent of ChatGPT and similar large language models (LLMs) has revolutionized the human-AI interaction and information-seeking process. Leveraging LLMs as an alternative to search engines, users can now access summarized information tailored to their queries, significantly reducing the cognitive load associated with navigating vast information resources. This shift underscores the potential of LLMs in redefining information access paradigms. Drawing on the foundation of task-focused information retrieval and LLMs' task planning ability, this research extends the scope of LLM capabilities beyond routine task automation to support users in navigating long-term and significant life tasks. It introduces the GOLF framework (Goal-Oriented Long-term liFe tasks), which focuses on enhancing LLMs' ability to assist in significant life decisions through goal orientation and long-term planning. The methodology encompasses a comprehensive simulation study to test the framework's efficacy, followed by model and human evaluations to develop a dataset benchmark for long-term life tasks, and experiments across different models and settings. By shifting the focus from short-term tasks to the broader spectrum of long-term life goals, this research underscores the transformative potential of LLMs in enhancing human decision-making processes and task management, marking a significant step forward in the evolution of human-AI collaboration.
翻訳日:2024-04-19 00:06:38 公開日:2024-04-17
# 2体ディラック方程式の新しい解法:ポジトロニウムにおける対称性違反項の重み推定

New method for the solution of the two-body Dirac equation: Estimation of the weights of $C$, $P$ and $CP$ symmetry violating terms in positronium ( http://arxiv.org/abs/2404.00444v3 )

ライセンス: Link先を確認
E. M. Tursunov, Sh. G. Norbutaev, (参考訳) ポジトロニウムの2体境界状態ディラック方程式の解法として新しい理論法を開発した。 クーロンポテンシャルのみがディラック・ハミルトンに含まれていた。 2体のディラック・ハミルトン多様体は、四進数 4$ のエルミート行列形式で書くことができ、$P$、$C$、$CP$対称性の違反の原因となる項を含むことが示されている。 振動子基底関数を用いた変分法で実行されるパラポジトロニウム基底状態のエネルギースペクトルの数値計算結果は、T.C. Scottらによる高精度有限要素法とよく一致している。 C$ と $CP$ 対称性違反成分の重みは、それぞれこの値の 2/3 と 1/3 の部分と等しい。 これらの数は、現在の実験施設の精度限界よりも2桁以下である。

A new theoretical method is developed for the solution of the two-body bound-state Dirac equation for positronium. Only Coulomb potential was included in the Dirac Hamiltonian. It is shown that the two-body Dirac Hamiltonian can be written in the Hermitian matrix form of the $4\times 4$ size and contains terms, responsible for the violation of the $P$, $C$, and $CP$ symmetries. Numerical results for the energy spectrum of the para- and ortho-positronium ground states performed within the variational method using the harmonic oscillator basis functions are in good agreement with a high-precision finite-element method of T.C. Scott et al. The weights of the $P$ and $CP$ symmetry-violating components in the para-positronium ground state are identical to the weight of the $P$ symmetry-violating component of the ortho-Ps and are estimated to be 6.6E-6. The weights of the $C$ and $CP$ symmetry-violating components of the ortho-Ps are equal to the 2/3 and 1/3 parts of this value, respectively. These numbers are less by two orders of magnitude than the precision limit of current experimental facilities.
翻訳日:2024-04-19 00:06:38 公開日:2024-04-17
# 2状態量子系の厳密な人口動態のための新しい位相空間表現法と三角窓関数との関係

A Novel Class of Phase Space Representations for the Exact Population Dynamics of Two-State Quantum Systems and the Relation to Triangle Window Functions ( http://arxiv.org/abs/2404.04868v2 )

ライセンス: Link先を確認
Xiangsong Cheng, Xin He, Jian Liu, (参考訳) 2状態系の同型性は、古典的な相似性を持たない最も単純な最も単純な量子系の力学的あるいは統計的挙動を理解することにヒューリスティックである。 J. Chem で開発された制約位相空間を用いる。 Phys 2016年: 145, 204105; 2019年: 151, 024105, J. Phys。 Chem Lett! 2021, 12, 2496-2501, 非共変位相空間関数, 時間依存重み関数, 時間依存正規化因子は、2状態量子系の正確な人口動態の位相空間表現の新しいクラスを構築する。 制約位相空間上の軌道の運動方程式は、時間依存的なシュリンガー方程式に同型である。 集団力学の積分表現に対する各軌道の寄与は常に正の半定値である。 また、J. Chem のヒューリスティックな経験モデルとして提案されている三角形窓関数のアプローチも証明した。 Phys 2016年、145, 144108は、新しいクラスの特別な場合と関連付けられ、2状態量子系の正確な人口動態の同型表現をもたらす。

Isomorphism of the two-state system is heuristic in understanding the dynamical or statistical behavior of the simplest yet most quantum system that has no classical counterpart. We use the constraint phase space developed in J. Chem. Phys. 2016, 145, 204105; 2019, 151, 024105 and J. Phys. Chem. Lett. 2021, 12, 2496-2501, non-covariant phase space functions, time-dependent weight functions, and time-dependent normalization factors to construct a novel class of phase space representations of the exact population dynamics of the two-state quantum system. The equations of motion of the trajectory on constraint phase space are isomorphic to the time-dependent Schr\"odinger equation. The contribution of each trajectory to the integral expression for the population dynamics is always positive semi-definite. We also prove that the triangle window function approach, albeit proposed as a heuristic empirical model in J. Chem. Phys. 2016, 145, 144108, is related to a special case of the novel class and leads to an isomorphic representation of the exact population dynamics of the two-state quantum system.
翻訳日:2024-04-19 00:06:38 公開日:2024-04-17
# オンライン自己監督型自己蒸留(Sequential Recommendation)

Leave No One Behind: Online Self-Supervised Self-Distillation for Sequential Recommendation ( http://arxiv.org/abs/2404.07219v2 )

ライセンス: Link先を確認
Shaowei Wei, Zhengwei Wu, Xin Li, Qintong Wu, Zhiqiang Zhang, Jun Zhou, Lihong Gu, Jinjie Gu, (参考訳) シーケンシャルレコメンデーション手法は、現代のレコメンデーションシステムにおいて重要な役割を担っている。 重要な課題は、データの疎さに直面したユーザの好みを正確にモデル化することである。 この課題に対処するために,近年の手法では,従来のユーザ行動シーケンスの2つの拡張ビューの相互情報を最大化することにより,コントラッシブラーニング(CL)を利用して自己超越信号を導出する手法が提案されている。 その効果にもかかわらず、CLベースの手法は、限られた行動データを持つユーザには、完全な自己超越シグナルを活用できる限界に直面する。 この問題に対処するために,オンライン自己監督型自己蒸留(Online Self-Supervised Self-distillation for Sequential Recommendation)(S^4$Rec)という新たな学習パラダイムを導入する。 具体的には,オンラインクラスタリングを用いて,ユーザを個別にグループ化する。 また、対向学習戦略を用いて、クラスタリング手順が行動長因子の影響を受けないようにする。 その後、幅広い行動を持つユーザ(教師)から限られた行動を持つユーザ(学生)への知識伝達を容易にするために、自己蒸留を用いる。 4つの実世界のデータセットを用いて実験を行い,提案手法の有効性を検証した。

Sequential recommendation methods play a pivotal role in modern recommendation systems. A key challenge lies in accurately modeling user preferences in the face of data sparsity. To tackle this challenge, recent methods leverage contrastive learning (CL) to derive self-supervision signals by maximizing the mutual information of two augmented views of the original user behavior sequence. Despite their effectiveness, CL-based methods encounter a limitation in fully exploiting self-supervision signals for users with limited behavior data, as users with extensive behaviors naturally offer more information. To address this problem, we introduce a novel learning paradigm, named Online Self-Supervised Self-distillation for Sequential Recommendation ($S^4$Rec), effectively bridging the gap between self-supervised learning and self-distillation methods. Specifically, we employ online clustering to proficiently group users by their distinct latent intents. Additionally, an adversarial learning strategy is utilized to ensure that the clustering procedure is not affected by the behavior length factor. Subsequently, we employ self-distillation to facilitate the transfer of knowledge from users with extensive behaviors (teachers) to users with limited behaviors (students). Experiments conducted on four real-world datasets validate the effectiveness of the proposed method.
翻訳日:2024-04-19 00:06:38 公開日:2024-04-17
# 依存性に基づく異常検出:汎用フレームワークと総合評価

Dependency-based Anomaly Detection: a General Framework and Comprehensive Evaluation ( http://arxiv.org/abs/2011.06716v2 )

ライセンス: Link先を確認
Sha Lu, Lin Liu, Kui Yu, Thuc Duy Le, Jixue Liu, Jiuyong Li, (参考訳) 異常検出は、データ内の異常な振る舞いを理解するために不可欠である。 本稿では,依存性に基づく異常検出(DepAD,Dependency-based Anomaly Detection)を提案する。 DepADは教師なしの異常検出を教師付き特徴選択と予測タスクとして再設定し、ユーザーは特定の問題やデータに対して異常検出アルゴリズムを調整できる。 我々は,DepADフレームワークの市販技術の代表的手法を広く評価した。 2つのDepADアルゴリズムは、9つの最先端の異常検出方法と比較して、幅広いデータセットを扱う上で、全ラウンドと優れたパフォーマーとして出現する。 さらに,検出された異常に対して,DepADアルゴリズムが新たな,洞察に富んだ解釈を提供することを示す。

Anomaly detection is crucial for understanding unusual behaviors in data, as anomalies offer valuable insights. This paper introduces Dependency-based Anomaly Detection (DepAD), a general framework that utilizes variable dependencies to uncover meaningful anomalies with better interpretability. DepAD reframes unsupervised anomaly detection as supervised feature selection and prediction tasks, which allows users to tailor anomaly detection algorithms to their specific problems and data. We extensively evaluate representative off-the-shelf techniques for the DepAD framework. Two DepAD algorithms emerge as all-rounders and superior performers in handling a wide range of datasets compared to nine state-of-the-art anomaly detection methods. Additionally, we demonstrate that DepAD algorithms provide new and insightful interpretations for detected anomalies.
翻訳日:2024-04-18 20:15:17 公開日:2024-04-17
# 任意の次元の四重項上のマジック状態を持つ量子計算のための隠れ変数モデル

Hidden variable model for quantum computation with magic states on qudits of any dimension ( http://arxiv.org/abs/2110.12318v3 )

ライセンス: Link先を確認
Michael Zurel, Cihan Okay, Robert Raussendorf, Arne Heimendahl, (参考訳) 近年、量子ビット上のマジック状態を持つ普遍量子計算のために隠れ変数モデルを構築することが可能であることが示されている。 ここでは、この結果は拡張可能であることを示し、ヒルベルト空間次元の任意のキューディット上のマジック状態を持つ量子計算に対して隠れ変数モデルを定義することができる。 このモデルは、普遍量子計算のための古典的なシミュレーションアルゴリズムにつながる。

It was recently shown that a hidden variable model can be constructed for universal quantum computation with magic states on qubits. Here we show that this result can be extended, and a hidden variable model can be defined for quantum computation with magic states on qudits with any Hilbert space dimension. This model leads to a classical simulation algorithm for universal quantum computation.
翻訳日:2024-04-18 20:15:17 公開日:2024-04-17
# トポロジカルコーディングにおけるグラフのセットカラー化とハイパーグラフ

Graph Set-colorings And Hypergraphs In Topological Coding ( http://arxiv.org/abs/2201.13354v2 )

ライセンス: Link先を確認
Bing Yao, Fei Ma, (参考訳) 量子コンピューティングを備えた知的攻撃を防御し、量子コンピューティング時代の効果的な保護技術を提供するため、トポロジカルコーディングからより複雑な数列を作成するため、暗号解析上の重要なセットカラー化を許容するセットカラーグラフを導入し、特にハイパーグラフに関連付ける。 グラフの集合色付けを用いて要素の交叉を反映し、(ハイパーエッジとして)集合間のより多くの接続を表現するために他の制約条件を追加します。 グラフ理論に基づく実用的手法として,ハイパーグラフ,文字列型Topcode-matrix,セット型Topcode-matrix,グラフ型Topcode-matrix,ハイパーグラフ型Topcode-matrix,行列型Topcode-matrix \emph{etc} のトポロジ構造を観察するために,ハイパーエッジ集合上に定義された集合色を許容する交差グラフを用いる。 各連結グラフがハイパーグラフの交叉グラフであることを示し、ハイパーグラフの接続性、ハイパーグラフの彩色、ハイパーグラフの準同型、ハイパーネットワーク、スケールフリーなネットワーク生成器、超グラフの交叉グラフを持つ複合ハイパーグラフ(高次元拡張図)について調べる。 当然、エッジ共役グラフ格子、頂点共役グラフ格子、エッジ-ハミルトニアングラフ格子、ハイパーグラフ格子、インターセクト-ネットワーク格子など様々なグラフィック格子が得られる。 本論文では, ハイパーグラフとグラフ集合カラー化を同相暗号や非対称暗号に適用することを目的としているため, 多項式アルゴリズムへの変換が可能である。

In order to make more complex number-based strings from topological coding for defending against the intelligent attacks equipped with quantum computing and providing effective protection technology for the age of quantum computing, we will introduce set-colored graphs admitting set-colorings that has been considerable cryptanalytic significance, and especially related with hypergraphs. We use the set-coloring of graphs to reflect the intersection of elements, and add other constraint requirements to express more connections between sets (as hyperedges). Since we try to find some easy and effective techniques based on graph theory for practical application, we use intersected-graphs admitting set-colorings defined on hyperedge sets to observe topological structures of hypergraphs, string-type Topcode-matrix, set-type Topcode-matrix, graph-type Topcode-matrix, hypergraph-type Topcode-matrix, matrix-type Topcode-matrix \emph{etc}. We will show that each connected graph is the intersected-graph of some hypergraph and investigate hypergraph's connectivity, colorings of hypergraphs, hypergraph homomorphism, hypernetworks, scale-free network generator, compound hypergraphs having their intersected-graphs with vertices to be hypergraphs (for high-dimensional extension diagram). Naturally, we get various graphic lattices, such as edge-coincided intersected-graph lattice, vertex-coincided intersected-graph lattice, edge-hamiltonian graphic lattice, hypergraph lattice and intersected-network lattice. Many techniques in this article can be translated into polynomial algorithms, since we are aiming to apply hypergraphs and graph set-colorings to homomorphic encryption and asymmetric cryptograph.
翻訳日:2024-04-18 20:15:17 公開日:2024-04-17
# 競合エージェントによる政策学習

Policy Learning with Competing Agents ( http://arxiv.org/abs/2204.01884v4 )

ライセンス: Link先を確認
Roshni Sahoo, Stefan Wager, (参考訳) 意思決定者は、しばしば、治療できるエージェントの数に制限された能力の下で、治療の割り当てポリシーを学ぶことを目指している。 エージェントがこのようなポリシーに戦略的に対応できる場合、最適なポリシーの見積もりを複雑にし、競争が発生する。 本稿では,そのような干渉が存在する場合のキャパシティ制約された処理課題について検討する。 意思決定者が各タイミングで処理を割り当て、異種エージェントが前回の処理の割り当てポリシーにミオプティカルに最も反応する動的モデルを考える。 エージェントの数が大きくなるが有限である場合、与えられたポリシーの下での処理を受けるしきい値は、ポリシーの平均場平衡しきい値に収束することを示す。 この結果に基づいて,政策勾配に対する一貫した推定器を開発する。 1988年の国立教育縦断研究のデータを用いた半合成実験において,この推定器は,戦略行動の存在下での能力制約された政策の学習に利用できることを示した。

Decision makers often aim to learn a treatment assignment policy under a capacity constraint on the number of agents that they can treat. When agents can respond strategically to such policies, competition arises, complicating estimation of the optimal policy. In this paper, we study capacity-constrained treatment assignment in the presence of such interference. We consider a dynamic model where the decision maker allocates treatments at each time step and heterogeneous agents myopically best respond to the previous treatment assignment policy. When the number of agents is large but finite, we show that the threshold for receiving treatment under a given policy converges to the policy's mean-field equilibrium threshold. Based on this result, we develop a consistent estimator for the policy gradient. In a semi-synthetic experiment with data from the National Education Longitudinal Study of 1988, we demonstrate that this estimator can be used for learning capacity-constrained policies in the presence of strategic behavior.
翻訳日:2024-04-18 20:09:36 公開日:2024-04-17
# Topic-Controllable Summarization: Topic-Aware Evaluation と Transformer Methods

Topic-Controllable Summarization: Topic-Aware Evaluation and Transformer Methods ( http://arxiv.org/abs/2206.04317v4 )

ライセンス: Link先を確認
Tatiana Passali, Grigorios Tsoumakas, (参考訳) Topic-controllable summarization(トピック制御可能な要約)は、幅広い潜在的応用を持つ新興の研究分野である。 しかし、既存のアプローチは重大な制限に悩まされている。 例えば、リカレントアーキテクチャ上に構築されている既存のメソッドのほとんどは、最近のTransformerベースのアーキテクチャと比較してパフォーマンスを著しく制限するが、トピックを制御するにはモデルのアーキテクチャを変更する必要がある。 同時に、現在トピック制御可能な要約のために特別に設計された評価基準は確立されていない。 本研究は、生成した要約と所望のトピック間のトピック親和性に基づいて、生成した要約を自動的に評価する新しいトピック指向評価尺度を提案する。 提案手法の信頼性は,適切な設計による評価によって実証される。 さらに,強力なトランスフォーマーアーキテクチャを扱うためにトピック埋め込みを適用し,制御トークンによる要約生成を導くための,新しい,効率的なアプローチを提案する。 実験結果から、制御トークンはより複雑な埋め込みベースのアプローチよりも性能が向上し、しかも大幅に高速であることが判明した。

Topic-controllable summarization is an emerging research area with a wide range of potential applications. However, existing approaches suffer from significant limitations. For example, the majority of existing methods built upon recurrent architectures, which can significantly limit their performance compared to more recent Transformer-based architectures, while they also require modifications to the model's architecture for controlling the topic. At the same time, there is currently no established evaluation metric designed specifically for topic-controllable summarization. This work proposes a new topic-oriented evaluation measure to automatically evaluate the generated summaries based on the topic affinity between the generated summary and the desired topic. The reliability of the proposed measure is demonstrated through appropriately designed human evaluation. In addition, we adapt topic embeddings to work with powerful Transformer architectures and propose a novel and efficient approach for guiding the summary generation through control tokens. Experimental results reveal that control tokens can achieve better performance compared to more complicated embedding-based approaches while also being significantly faster.
翻訳日:2024-04-18 20:09:36 公開日:2024-04-17
# TCJA-SNN:スパイクニューラルネットワークのための時空連成注意

TCJA-SNN: Temporal-Channel Joint Attention for Spiking Neural Networks ( http://arxiv.org/abs/2206.10177v3 )

ライセンス: Link先を確認
Rui-Jie Zhu, Malu Zhang, Qihang Zhao, Haoyu Deng, Yule Duan, Liang-Jian Deng, (参考訳) スパイキングニューラルネットワーク(SNN)は、生物学的な可視性、エネルギー効率、強力な時空間情報表現能力によって、広く関心を集めている。 ニューラルネットワークの性能向上において注意機構が重要な役割を担っていることから、SNNと注意機構の統合は、エネルギー効率と高性能コンピューティングパラダイムを提供する可能性を示している。 本稿では,TJA-SNNと呼ばれるSNNの時間・チャネル共同注意機構について述べる。 提案するTJA-SNNフレームワークは,空間次元と時間次元の両方からスパイクシーケンスの意義を効果的に評価することができる。 より具体的に言えば、私たちの重要な技術的貢献は次のとおりです。 1) スパイクストリームを平均行列に圧縮するために, 圧縮操作を用いる。 そして,効率的な1次元畳み込みに基づく2つの局所的注意機構を活用し,時間・チャネルレベルでの包括的特徴抽出を容易にする。 2) 時間領域とチャネル領域の相互依存性をモデル化するための新しいアプローチとして,クロス・コンボリューショナル・フュージョン(CCF)層を導入する。 このレイヤは2つの次元の独立性を破り、機能間の相互作用を可能にします。 実験の結果、提案されたTJA-SNNは、Fashion-MNIST、CIFAR10-DVS、N-Caltech 101、DVS128 Gestureなど、標準的な静的およびニューロモルフィックなデータセットで最大15.7%の精度でSOTAを上回った。 さらに、可変オートエンコーダを利用して、画像生成タスクにTJA-SNNフレームワークを適用する。 我々の知る限り、この研究は、画像分類と生成タスクにSNNアテンション機構が採用された最初の事例である。 特に,本手法は両領域でSOTA性能を達成し,この分野において大きな進歩を遂げた。 コードはhttps://github.com/ridgerchu/TCJA.comで入手できる。

Spiking Neural Networks (SNNs) are attracting widespread interest due to their biological plausibility, energy efficiency, and powerful spatio-temporal information representation ability. Given the critical role of attention mechanisms in enhancing neural network performance, the integration of SNNs and attention mechanisms exhibits potential to deliver energy-efficient and high-performance computing paradigms. We present a novel Temporal-Channel Joint Attention mechanism for SNNs, referred to as TCJA-SNN. The proposed TCJA-SNN framework can effectively assess the significance of spike sequence from both spatial and temporal dimensions. More specifically, our essential technical contribution lies on: 1) We employ the squeeze operation to compress the spike stream into an average matrix. Then, we leverage two local attention mechanisms based on efficient 1D convolutions to facilitate comprehensive feature extraction at the temporal and channel levels independently. 2) We introduce the Cross Convolutional Fusion (CCF) layer as a novel approach to model the inter-dependencies between the temporal and channel scopes. This layer breaks the independence of these two dimensions and enables the interaction between features. Experimental results demonstrate that the proposed TCJA-SNN outperforms SOTA by up to 15.7% accuracy on standard static and neuromorphic datasets, including Fashion-MNIST, CIFAR10-DVS, N-Caltech 101, and DVS128 Gesture. Furthermore, we apply the TCJA-SNN framework to image generation tasks by leveraging a variation autoencoder. To the best of our knowledge, this study is the first instance where the SNN-attention mechanism has been employed for image classification and generation tasks. Notably, our approach has achieved SOTA performance in both domains, establishing a significant advancement in the field. Codes are available at https://github.com/ridgerchu/TCJA.
翻訳日:2024-04-18 20:09:36 公開日:2024-04-17
# ビデオに基づく人文推定のためのキネマティクスモデリングネットワーク

Kinematics Modeling Network for Video-based Human Pose Estimation ( http://arxiv.org/abs/2207.10971v2 )

ライセンス: Link先を確認
Yonghao Dang, Jianqin Yin, Shaojie Zhang, Jiping Liu, Yanzhu Hu, (参考訳) ビデオから人間のポーズを推定することは、人間とコンピュータの相互作用において重要である。 関節は人間の動きの中で独立して動くのではなく協力する。 関節には空間的相関と時間的相関がある。 従来のアプローチの肯定的な結果にもかかわらず、ほとんどの焦点は、関節間の空間的相関をモデル化することであり、関節間の時間的相関を無視しながら、時間的次元に沿った特徴を直接統合することであった。 本研究では,異なるフレーム間での関節間の時間的相関を,時間的類似性を計算することによって明示的にモデル化するKMMを提案する。 このようにして、KMMは、すべての関節に対して異なる時間で現在の関節の動きを捉えることができる。 さらに,ビデオに基づく人間のポーズ推定をマルコフ決定プロセスとして定式化し,新しいキネマティクスモデリングネットワーク(KIMNet)を設計してマルコフ連鎖をシミュレートし,KIMNetが再帰的に関節の位置を推定できるようにする。 提案手法は,2つの試行錯誤ベンチマークの最先端結果を実現する。 特に、KIMNetは閉塞に対して堅牢性を示している。 コードはhttps://github.com/YHDang/KIMNet.comで公開される。

Estimating human poses from videos is critical in human-computer interaction. Joints cooperate rather than move independently during human movement. There are both spatial and temporal correlations between joints. Despite the positive results of previous approaches, most focus on modeling the spatial correlation between joints while only straightforwardly integrating features along the temporal dimension, ignoring the temporal correlation between joints. In this work, we propose a plug-and-play kinematics modeling module (KMM) to explicitly model temporal correlations between joints across different frames by calculating their temporal similarity. In this way, KMM can capture motion cues of the current joint relative to all joints in different time. Besides, we formulate video-based human pose estimation as a Markov Decision Process and design a novel kinematics modeling network (KIMNet) to simulate the Markov Chain, allowing KIMNet to locate joints recursively. Our approach achieves state-of-the-art results on two challenging benchmarks. In particular, KIMNet shows robustness to the occlusion. The code will be released at https://github.com/YHDang/KIMNet.
翻訳日:2024-04-18 20:09:36 公開日:2024-04-17
# マルチビヘイビア勧告における公正のための因果介入

Causal Intervention for Fairness in Multi-behavior Recommendation ( http://arxiv.org/abs/2209.04589v3 )

ライセンス: Link先を確認
Xi Wang, Wenjie Wang, Fuli Feng, Wenge Rong, Chuantao Yin, Zhang Xiong, (参考訳) レコメンダシステムは、クリックやクリック後の動作(例えば、いいね! しかし、これらの行動は必然的に人気バイアスを示し、不公平な問題を引き起こします。 1) 類似品質の品目については、より人気の高い品目が露出しやすくなり、 2) 人気度が低い人気商品の方が露出が大きくなる可能性がある。 人気バイアスを緩和する既存の作業は、偏見を盲目的に排除し、アイテムの品質の影響を無視する。 異なるユーザ行動(例えば変換率)の関係は、実際にはアイテムの品質を反映している、と我々は主張する。 そこで本稿では,不公平な問題に対処するため,複数のユーザの行動を考慮した人気バイアスを軽減することを提案する。 本研究では,多行動レコメンデーションにおけるインタラクション生成手法の背景にある因果関係について検討する。 特に、私たちはこう発見しています。 1)アイテムの人気は、露出したアイテムとユーザーのクリック後のインタラクションの共創者であり、最初の不公平につながる。 2) 隠れた共同設立者(例えば、商品生産者の評判)は、商品の人気と品質の両方に影響を与え、2番目の不公平をもたらす。 これらの問題点を解消するため,共同設立者によるバックドア経路の抑制にバックドア調整を利用する因果効果を推定する因果枠組みを提案する。 推論段階では、人気のネガティブな効果を排除し、品質のよい効果を推薦に活用する。 2つの実世界のデータセット実験により,提案手法の有効性が検証された。

Recommender systems usually learn user interests from various user behaviors, including clicks and post-click behaviors (e.g., like and favorite). However, these behaviors inevitably exhibit popularity bias, leading to some unfairness issues: 1) for items with similar quality, more popular ones get more exposure; and 2) even worse the popular items with lower popularity might receive more exposure. Existing work on mitigating popularity bias blindly eliminates the bias and usually ignores the effect of item quality. We argue that the relationships between different user behaviors (e.g., conversion rate) actually reflect the item quality. Therefore, to handle the unfairness issues, we propose to mitigate the popularity bias by considering multiple user behaviors. In this work, we examine causal relationships behind the interaction generation procedure in multi-behavior recommendation. Specifically, we find that: 1) item popularity is a confounder between the exposed items and users' post-click interactions, leading to the first unfairness; and 2) some hidden confounders (e.g., the reputation of item producers) affect both item popularity and quality, resulting in the second unfairness. To alleviate these confounding issues, we propose a causal framework to estimate the causal effect, which leverages backdoor adjustment to block the backdoor paths caused by the confounders. In the inference stage, we remove the negative effect of popularity and utilize the good effect of quality for recommendation. Experiments on two real-world datasets validate the effectiveness of our proposed framework, which enhances fairness without sacrificing recommendation accuracy.
翻訳日:2024-04-18 20:09:36 公開日:2024-04-17
# DeepVARwT:トレンド付きVARモデルのディープラーニング

DeepVARwT: Deep Learning for a VAR Model with Trend ( http://arxiv.org/abs/2209.10587v3 )

ライセンス: Link先を確認
Xixi Li, Jingsong Yuan, (参考訳) ベクトル自己回帰(VAR)モデルは、複数の時系列間の依存を記述するために使われてきた。 これは定常時系列のモデルであり、各系列に決定論的傾向が存在するように拡張することができる。 VARモデルに適合する前に、データをパラメトリックまたは非パラメトリックに遅延すると、後半部ではより多くのエラーが発生する。 本研究では,DeepVARwTと呼ばれる新しい手法を提案する。この手法は,トレンドと依存構造を同時に最大に推定する深層学習手法を用いている。 この目的のためにLong Short-Term Memory (LSTM) ネットワークが使用される。 モデルの安定性を確保するため、Ansley & Kohn (1986) の変換を用いて自己回帰係数の因果条件を適用する。 シミュレーション研究と実データへの適用について述べる。 本研究では,実データから生成した現実的傾向関数を用いて,実関数/パラメータ値と比較する。 実データアプリケーションでは,本モデルの予測性能を文献の最先端モデルと比較する。

The vector autoregressive (VAR) model has been used to describe the dependence within and across multiple time series. This is a model for stationary time series which can be extended to allow the presence of a deterministic trend in each series. Detrending the data either parametrically or nonparametrically before fitting the VAR model gives rise to more errors in the latter part. In this study, we propose a new approach called DeepVARwT that employs deep learning methodology for maximum likelihood estimation of the trend and the dependence structure at the same time. A Long Short-Term Memory (LSTM) network is used for this purpose. To ensure the stability of the model, we enforce the causality condition on the autoregressive coefficients using the transformation of Ansley & Kohn (1986). We provide a simulation study and an application to real data. In the simulation study, we use realistic trend functions generated from real data and compare the estimates with true function/parameter values. In the real data application, we compare the prediction performance of this model with state-of-the-art models in the literature.
翻訳日:2024-04-18 20:09:36 公開日:2024-04-17
# 恒星ネットワークにおける量子ステアリング

Quantum steering in a star network ( http://arxiv.org/abs/2210.01430v2 )

ライセンス: Link先を確認
Guangming Jiang, Xiaohua Wu, Tao Zhou, (参考訳) この研究では、中央のパーティが信頼されるスターネットワークのシナリオについて検討し、一方、すべてのエッジパーティ($n$)は信頼できない。 ネットワークステアリングは、$n$ローカル隠れ状態モデルで定義されており、特別な種類のローカル隠れ変数モデルと見なすことができる。 非線形ステアリング不等式と線形ステアリング不等式という2つの異なる基準が、恒星ネットワークにおける量子ステアリングを検証するために構築される。 線形ステアリングの不等式に基づいて、固定された測定値でネットワークステアリングを検出する方法について論じる。

In this work, we will consider the star network scenario where the central party is trusted while all the edge parties (with a number of $n$) are untrusted. Network steering is defined with an $n$ local hidden state model which can be viewed as a special kind of $n$ local hidden variable model. Two different types of sufficient criteria, nonlinear steering inequality and linear steering inequality will be constructed to verify the quantum steering in a star network. Based on the linear steering inequality, how to detect the network steering with a fixed measurement will be discussed.
翻訳日:2024-04-18 20:09:36 公開日:2024-04-17
# 精度行列上の多様体ガウス変分ベイズ

Manifold Gaussian Variational Bayes on the Precision Matrix ( http://arxiv.org/abs/2210.14598v5 )

ライセンス: Link先を確認
Martin Magris, Mostafa Shabani, Alexandros Iosifidis, (参考訳) 複雑なモデルにおける変分推論(VI)の最適化アルゴリズムを提案する。 我々のアプローチは、変分空間がリーマン多様体であるような自然な勾配の更新に依存する。 本研究では,変分行列上の正定値制約を満たすガウス変分推論の効率的なアルゴリズムを開発した。 精密行列 (MGVBP) 上の多様体ガウス変分ベイズは, 簡単な更新規則を提供し, 実装が容易であり, 高精度行列パラメトリゼーションは計算上の優位性が高い。 MGVBPはブラックボックスの性質のため、複雑なモデルにおけるVIのための準備が整ったソリューションである。 5つ以上のデータセットで、異なる統計モデルおよび計量モデルに対する実現可能なアプローチを実証的に検証し、ベースライン法についてその性能を議論する。

We propose an optimization algorithm for Variational Inference (VI) in complex models. Our approach relies on natural gradient updates where the variational space is a Riemann manifold. We develop an efficient algorithm for Gaussian Variational Inference whose updates satisfy the positive definite constraint on the variational covariance matrix. Our Manifold Gaussian Variational Bayes on the Precision matrix (MGVBP) solution provides simple update rules, is straightforward to implement, and the use of the precision matrix parametrization has a significant computational advantage. Due to its black-box nature, MGVBP stands as a ready-to-use solution for VI in complex models. Over five datasets, we empirically validate our feasible approach on different statistical and econometric models, discussing its performance with respect to baseline methods.
翻訳日:2024-04-18 20:09:36 公開日:2024-04-17
# 量子ワークキャパシタンス:ノイズ量子電池におけるエネルギー抽出の究極の限界

Quantum Work Capacitances: ultimate limits for energy extraction on noisy quantum batteries ( http://arxiv.org/abs/2211.02685v2 )

ライセンス: Link先を確認
Salvatore Tirone, Raffaele Salvia, Stefano Chessa, Vittorio Giovannetti, (参考訳) 雑音を受ける多くの同一の量子セルからなる量子電池のエネルギー回収効率に関する理論的解析を行った。 電池の充電過程を高速化するために量子効果を用いる可能性については,研究が進められている。これらのアイデアを動作装置にトラスレートするためには,環境騒音に接する場合に,量子電池素子の記憶状態の安定性を評価することが重要である。 本研究は、同一および独立な要素(量子セルまたはqセル)の大規模なコレクションによって形成される量子電池モデルから有用なエネルギーを回収する上で、最も効率のよいもの(ワークコンデンサと最大漸近作業/エネルギー比)を計測する一連の操作的に明確に定義された図形(ワークコンデンサ)を導入して、この問題を定式化する。 このような量の明示的な評価は, 減音・脱分極ノイズを通したエネルギー貯蔵システムにおいて行われる。

We present a theoretical analysis of the energy recovery efficiency for quantum batteries composed of many identical quantum cells undergoing noise. While the possibility of using quantum effects to speed up the charging processes of batteries have been vastly investigated, In order to traslate these ideas into working devices it is crucial to assess the stability of the storage phase in the quantum battery elements when they are in contact with environmental noise. In this work we formalize this problem introducing a series of operationally well defined figures of merit (the work capacitances and the Maximal Asymptotic Work/Energy Ratios) which gauge the highest efficiency one can attain in recovering useful energy from quantum battery models that are formed by large collections of identical and independent elements (quantum cells or q-cells). Explicit evaluations of such quantities are presented for the case where the energy storing system undergoes through dephasing and depolarizing noise.
翻訳日:2024-04-18 20:09:36 公開日:2024-04-17
# 付加共分散行列モデル:イギリスにおける地域電力ネットデマンドのモデル化

Additive Covariance Matrix Models: Modelling Regional Electricity Net-Demand in Great Britain ( http://arxiv.org/abs/2211.07451v3 )

ライセンス: Link先を確認
V. Gioia, M. Fasiolo, J. Browell, R. Bellio, (参考訳) 地域電力需要の予測、消費の最小化は、信頼性と経済力の運用、エネルギー取引に欠かせないインプットである。 このような予測は地域によって行われるのが一般的であるが、電力フローの管理などの操作は、地域間の依存関係を考慮に入れた空間的に一貫性のある共同予測を必要とする。 ここでは、イギリスの電力網を構成する14の地域において、ネット需要の同時分布を予測する。 統合モデリングは、地域ごとの需要変動と地域間の依存関係が、時間的、社会経済的、気象的要因によって異なるという事実によって複雑である。 修正されたコレスキーパラメトリションに基づいて多変量ガウスモデルを提案し、加法モデルを用いて各非拘束パラメータをモデル化することができる。 モデルパラメータと共変量が多くなると、勾配増加に基づくモデル選択に対する半自動的アプローチを採用する。 提案したモデルの予測性能と2つの非ガウスコプラモデルとの比較に加えて、共変量がどのようにネット需要の変動と依存に影響を及ぼすかを理解するために、モデル出力を視覚的に探索する。 この論文で結果を再現するためのコードはhttps://doi.org/10.5281/zenodo.7315105で、多変量ガウス加法モデルの構築と適合の方法は、https://github.com/VinGioia90/SCMで入手できるSCM Rパッケージによって提供されている。

Forecasts of regional electricity net-demand, consumption minus embedded generation, are an essential input for reliable and economic power system operation, and energy trading. While such forecasts are typically performed region by region, operations such as managing power flows require spatially coherent joint forecasts, which account for cross-regional dependencies. Here, we forecast the joint distribution of net-demand across the 14 regions constituting Great Britain's electricity network. Joint modelling is complicated by the fact that the net-demand variability within each region, and the dependencies between regions, vary with temporal, socio-economical and weather-related factors. We accommodate for these characteristics by proposing a multivariate Gaussian model based on a modified Cholesky parametrisation, which allows us to model each unconstrained parameter via an additive model. Given that the number of model parameters and covariates is large, we adopt a semi-automated approach to model selection, based on gradient boosting. In addition to comparing the forecasting performance of several versions of the proposed model with that of two non-Gaussian copula-based models, we visually explore the model output to interpret how the covariates affect net-demand variability and dependencies. The code for reproducing the results in this paper is available at https://doi.org/10.5281/zenodo.7315105, while methods for building and fitting multivariate Gaussian additive models are provided by the SCM R package, available at https://github.com/VinGioia90/SCM.
翻訳日:2024-04-18 20:09:36 公開日:2024-04-17
# 混合一般化線形モデルにおけるスペクトル法の精密漸近

Precise Asymptotics for Spectral Methods in Mixed Generalized Linear Models ( http://arxiv.org/abs/2211.11368v3 )

ライセンス: Link先を確認
Yihan Zhang, Marco Mondelli, Ramji Venkataramanan, (参考訳) 混合一般化線形モデルにおいて、目的はラベルのない観測から複数の信号を学習することであり、それぞれのサンプルは正確に1つの信号から来ているが、どれがどれであるかは分かっていない。 ガウス共変量との混合一般化線形モデルにおいて、2つの統計的に独立な信号を推定する原型的問題を考える。 スペクトル法は、適切なデータ依存行列のトップ2固有ベクトルを出力する一般的な推定器のクラスである。 しかし、幅広い適用性にもかかわらず、その設計はいまだヒューリスティックな考察によって得られており、回復を保証するのに必要なサンプル数$n$は信号次元$d$の超直線的である。 本稿では,n,d$が大きく成長し,その比が有限定数に収束する挑戦的比例法において,スペクトル法に関する正確な漸近法を開発する。 これにより、スペクトル法の設計を最適化し、単純な線形推定器と組み合わせることで、推定誤差を最小限に抑えることができる。 我々の特徴付けは、ランダム行列、自由確率、および近似メッセージパッシングアルゴリズムの理論からのツールの混合を利用する。 混合線形回帰法と位相探索法を併用した数値シミュレーションにより,既存のスペクトル法の設計に対する解析により,その利点を実証した。

In a mixed generalized linear model, the objective is to learn multiple signals from unlabeled observations: each sample comes from exactly one signal, but it is not known which one. We consider the prototypical problem of estimating two statistically independent signals in a mixed generalized linear model with Gaussian covariates. Spectral methods are a popular class of estimators which output the top two eigenvectors of a suitable data-dependent matrix. However, despite the wide applicability, their design is still obtained via heuristic considerations, and the number of samples $n$ needed to guarantee recovery is super-linear in the signal dimension $d$. In this paper, we develop exact asymptotics on spectral methods in the challenging proportional regime in which $n, d$ grow large and their ratio converges to a finite constant. By doing so, we are able to optimize the design of the spectral method, and combine it with a simple linear estimator, in order to minimize the estimation error. Our characterization exploits a mix of tools from random matrices, free probability and the theory of approximate message passing algorithms. Numerical simulations for mixed linear regression and phase retrieval demonstrate the advantage enabled by our analysis over existing designs of spectral methods.
翻訳日:2024-04-18 20:09:36 公開日:2024-04-17
# 事前トレーニングされたコードの公開 - 構文とセマンティクス能力の調査

Unveiling Code Pre-Trained Models: Investigating Syntax and Semantics Capacities ( http://arxiv.org/abs/2212.10017v3 )

ライセンス: Link先を確認
Wei Ma, Shangqing Liu, Mengjie Zhao, Xiaofei Xie, Wenhan Wang, Qiang Hu, Jie Zhang, Yang Liu, (参考訳) 過去の調査では、これらのモデルがどのようにコードの構文をよく把握するか検討されているが、コードセマンティクスの理解はいまだに検討する必要がある。 コードモデルがどのようにコード構文とセマンティクスを表現するかを調べるため、7つのコードモデルを広範囲に分析する。 これには、4つの著名なコード事前トレーニングモデル(CodeBERT、GraphCodeBERT、CodeT5、UnixCoder)と3つの大きな言語モデル(StarCoder、CodeLlama、CodeT5+)が含まれる。 コード構文とセマンティクスを学習するモデルの能力を評価するための4つの探索タスクを開発した。 これらのタスクは、AST、CFG、CDG、DDGなどのコード構文とセマンティック構造をモデル表現空間内で再構築することに焦点を当てている。 これらの構造は、コードを理解するのに基本的です。 さらに、各トークン表現における構文トークンの役割と、コードトークン間の依存関係の拡張についても検討する。 さらに,コード意味構造に関する注意重みの分布について検討した。 より詳細な分析により,コード構文と意味論を習得する上で,様々なコードモデルの長所と短所を強調した。 その結果,これらのモデルはコード構文の把握に長けており,構文トークンの関係や役割を効果的に把握していることがわかった。 しかし、コードセマンティクスをエンコードする能力は、より多様性を示している。 本研究は,構文解析と意味解析におけるコードモデルの有用性の理解を深めるものである。 私たちの発見は、将来のコードモデル拡張に対する貴重な洞察を提供し、さまざまなコード関連タスクにわたるアプリケーションの最適化を支援します。

Past research has examined how well these models grasp code syntax, yet their understanding of code semantics still needs to be explored. We extensively analyze seven code models to investigate how code models represent code syntax and semantics. This includes four prominent code pre-trained models (CodeBERT, GraphCodeBERT, CodeT5, and UnixCoder) and three large language models (StarCoder, CodeLlama, and CodeT5+). We have developed four probing tasks to evaluate the models' abilities to learn code syntax and semantics. These tasks focus on reconstructing code syntax and semantic structures-such as AST, CFG, CDG, and DDG - within the models' representation spaces. These structures are fundamental to understanding code. Additionally, we explore the role of syntax tokens in each token representation and the extended dependencies among code tokens. Furthermore, we examine the distribution of attention weights concerning code semantic structures. Through detailed analysis, our results emphasize the strengths and weaknesses of various code models in mastering code syntax and semantics. The findings reveal that these models are proficient in grasping code syntax, effectively capturing the relationships and roles of syntax tokens. However, their ability to encode code semantics shows more variability. This study enriches our understanding of the capabilities of code models in analyzing syntax and semantics. Our findings offer valuable insights for future code model enhancements, helping optimize their application across a range of code-related tasks.
翻訳日:2024-04-18 19:59:48 公開日:2024-04-17
# 世界モデルによる多言語ドメインのマスタリング

Mastering Diverse Domains through World Models ( http://arxiv.org/abs/2301.04104v2 )

ライセンス: Link先を確認
Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap, (参考訳) 幅広いアプリケーションでタスクを解くことを学ぶ一般的なアルゴリズムの開発は、人工知能の基本的な課題である。 現在の強化学習アルゴリズムは、彼らが開発したものと同様のタスクに容易に適用できるが、新しいアプリケーション領域のためにそれらを設定するには、かなりの専門知識と実験が必要である。 本稿では,150以上のタスクにまたがる特殊メソッドを1つの構成で高速化するDreamerV3を提案する。 ドリーマーは環境のモデルを学び、将来のシナリオを想像することでその振る舞いを改善する。 正規化、バランス、変換に基づくロバストネス技術は、ドメイン間の安定した学習を可能にする。 Dreamerは、人間のデータやカリキュラムを使わずにMinecraftでダイヤモンドをスクラッチから収集する最初のアルゴリズムだ。 この成果は、オープンな世界でピクセルやスパース報酬から遠視的な戦略を探求する必要がある人工知能において重要な課題として挙げられている。 我々の研究は、広範囲な実験をすることなく、困難な制御問題の解決を可能にし、強化学習を広く適用できるようにする。

Developing a general algorithm that learns to solve tasks across a wide range of applications has been a fundamental challenge in artificial intelligence. Although current reinforcement learning algorithms can be readily applied to tasks similar to what they have been developed for, configuring them for new application domains requires significant human expertise and experimentation. We present DreamerV3, a general algorithm that outperforms specialized methods across over 150 diverse tasks, with a single configuration. Dreamer learns a model of the environment and improves its behavior by imagining future scenarios. Robustness techniques based on normalization, balancing, and transformations enable stable learning across domains. Applied out of the box, Dreamer is the first algorithm to collect diamonds in Minecraft from scratch without human data or curricula. This achievement has been posed as a significant challenge in artificial intelligence that requires exploring farsighted strategies from pixels and sparse rewards in an open world. Our work allows solving challenging control problems without extensive experimentation, making reinforcement learning broadly applicable.
翻訳日:2024-04-18 19:59:48 公開日:2024-04-17
# 他のシステムと共存する古典システムにおけるベル非局所性

Bell Nonlocality in Classical Systems Coexisting with other System Types ( http://arxiv.org/abs/2301.10885v4 )

ライセンス: Link先を確認
Giulio Chiribella, Lorenzo Giannelli, Carlo Maria Scandolo, (参考訳) 古典理論の現実的な解釈は、すべての古典系が明確に定義された性質を持っていると仮定するが、これは観測者にとって未知であるが、それでも現実の一部であり、原理的には測定によって明らかにすることができる。 ここでは、古典力学系が他の物理系と共存している場合、この解釈は原則としてファルシフィケート可能であることを示す。 これを実現するために、我々はおもちゃ理論を構築した。 (i)古典的理論を義語として含み、 (ii) 古典的システムと他の種類のシステムとの絡み合いを許容し、反古典的(anti-classical)と呼ばれる。 我々の玩具理論は、設定の1つが古典的なシステムで実行される局所的な測定に対応する場合の2つのシナリオにおいてベルの不等式を犯すことを許している。 この事実に基づいて、古典理論における測定結果は、一般に、基礎となる現実の状態によって事前に決定されるものではないことを示す。

The realistic interpretation of classical theory assumes that every classical system has well-defined properties, which may be unknown to the observer but are nevertheless part of reality and can in principle be revealed by measurements. Here we show that this interpretation can in principle be falsified if classical systems coexist with other types of physical systems. To make this point, we construct a toy theory that (i) includes classical theory as a subtheory and (ii) allows classical systems to be entangled with another type of systems, called anti-classical. We show that our toy theory allows for the violation of Bell inequalities in two-party scenarios where one of the settings corresponds to a local measurement performed on a classical system alone. Building on this fact, we show that measurements outcomes in classical theory cannot, in general, be regarded as pre-determined by the state of an underlying reality.
翻訳日:2024-04-18 19:59:48 公開日:2024-04-17
# 希土類還元を利用したトラスト設計

Design for Trust utilizing Rareness Reduction ( http://arxiv.org/abs/2302.08984v2 )

ライセンス: Link先を確認
Aruna Jayasena, Prabhat Mishra, (参考訳) 設計の複雑さの増大と市場投入時間の短縮により、メーカーはSystem-on-Chip (SoC) デザインフローの一部をサードパーティベンダーにアウトソースする動機となった。 これにより攻撃者は、まれなイベント(例:レアシ信号、状態、遷移)からなるステルストリガーを構築することで、ハードウェアトロイの木馬を導入する機会を提供する。 希少事象の活性化に依存するテスト生成ベースのハードウェアであるTrojan検出技術は有望である。 本稿では,トロイの木馬を隠蔽する(トロイの木馬の検出を容易にする)ために,トラスト法の設計法としてレアネス低減について検討する。 具体的には、設計の多様性や領域最適化など、潜在的に稀なトリガーケースを減らすために、さまざまな経路を分析します。 面積, 電力, エネルギー, 性能の関係はよく理解されているが, 本研究は, 地域とセキュリティ間の依存性について, より深い知見を提供する。 実験により, 面積の減少が希薄化につながることが示された。 また、希少性を減らすことでトロイの木馬の検出が高速化され、トロイの木馬の検出方法によるカバレッジが向上することを明らかにした。

Increasing design complexity and reduced time-to-market have motivated manufacturers to outsource some parts of the System-on-Chip (SoC) design flow to third-party vendors. This provides an opportunity for attackers to introduce hardware Trojans by constructing stealthy triggers consisting of rare events (e.g., rare signals, states, and transitions). There are promising test generation-based hardware Trojan detection techniques that rely on the activation of rare events. In this paper, we investigate rareness reduction as a design-for-trust solution to make it harder for an adversary to hide Trojans (easier for Trojan detection). Specifically, we analyze different avenues to reduce the potential rare trigger cases, including design diversity and area optimization. While there is a good understanding of the relationship between area, power, energy, and performance, this research provides a better insight into the dependency between area and security. Our experimental evaluation demonstrates that area reduction leads to a reduction in rareness. It also reveals that reducing rareness leads to faster Trojan detection as well as improved coverage by Trojan detection methods.
翻訳日:2024-04-18 19:59:48 公開日:2024-04-17
# EVJVQAチャレンジ:多言語視覚質問応答

EVJVQA Challenge: Multilingual Visual Question Answering ( http://arxiv.org/abs/2302.11752v5 )

ライセンス: Link先を確認
Ngan Luu-Thuy Nguyen, Nghia Hieu Nguyen, Duong T. D Vo, Khanh Quoc Tran, Kiet Van Nguyen, (参考訳) VQA(Visual Question Answering)は自然言語処理(NLP)とコンピュータビジョン(CV)の課題であり、研究者から大きな注目を集めている。 英語はリソースに富む言語であり、視覚的な質問応答のためのデータセットやモデルで様々な発展を目撃してきた。 他の言語での視覚的な質問応答も、リソースやモデルのために開発されるだろう。 さらに、特定の国の視覚的内容をターゲットにした多言語データセットは存在しない。 この弱点に対処するため、ベトナム語、英語、日本語の3つの言語で33,000組以上の質問応答を含むEVJVQAというベンチマークデータセットを研究コミュニティに提供する。 EVJVQAはベトナム語と音声処理に関する第9回ワークショップ(VLSP 2022)で、多言語視覚質問応答の課題に対するベンチマークデータセットとして使用されている。 この課題は、様々な大学や組織から62の参加者を惹きつけた。 本稿では,課題の組織化,共有タスク参加者が採用した手法の概要,その結果について述べる。 最高パフォーマンスはF1スコアの0.4392、プライベートテストセットのBLUEの0.4009である。 トップ2チームが提案した多言語QAシステムは、事前訓練された視覚モデルにViT、事前訓練された言語モデルにmT5を使用している。 EVJVQAは、NLPとCV研究者が視覚的質問応答システムのための多言語モデルやシステムをさらに探求するために、難しいデータセットである。 我々は、さらなる研究のためのコダラブ評価システム上での課題を公表した。

Visual Question Answering (VQA) is a challenging task of natural language processing (NLP) and computer vision (CV), attracting significant attention from researchers. English is a resource-rich language that has witnessed various developments in datasets and models for visual question answering. Visual question answering in other languages also would be developed for resources and models. In addition, there is no multilingual dataset targeting the visual content of a particular country with its own objects and cultural characteristics. To address the weakness, we provide the research community with a benchmark dataset named EVJVQA, including 33,000+ pairs of question-answer over three languages: Vietnamese, English, and Japanese, on approximately 5,000 images taken from Vietnam for evaluating multilingual VQA systems or models. EVJVQA is used as a benchmark dataset for the challenge of multilingual visual question answering at the 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022). This task attracted 62 participant teams from various universities and organizations. In this article, we present details of the organization of the challenge, an overview of the methods employed by shared-task participants, and the results. The highest performances are 0.4392 in F1-score and 0.4009 in BLUE on the private test set. The multilingual QA systems proposed by the top 2 teams use ViT for the pre-trained vision model and mT5 for the pre-trained language model, a powerful pre-trained language model based on the transformer architecture. EVJVQA is a challenging dataset that motivates NLP and CV researchers to further explore the multilingual models or systems for visual question answering systems. We released the challenge on the Codalab evaluation system for further research.
翻訳日:2024-04-18 19:59:48 公開日:2024-04-17
# レースが観測されない場合の人種格差の推定

Estimating Racial Disparities When Race is Not Observed ( http://arxiv.org/abs/2303.02580v2 )

ライセンス: Link先を確認
Cory McCartan, Robin Fisher, Jacob Goldin, Daniel E. Ho, Kosuke Imai, (参考訳) 様々な分野における人種格差の推定は、個人レベルの人種情報の欠如によってしばしば妨げられる。 多くの場合、この法律はそのような情報の収集を禁止し、直接の人種差別を防ぐ。 その結果、アナリストはベイジアン改良サーネームジオコーディング(BISG)とその変種を頻繁に採用し、個々の名前と住所と国勢調査データを組み合わせて人種を予測する。 残念なことに、BISGの残差は、しばしば興味の結果と相関しており、一般的に人種格差の見積もりを減らしている。 このバイアスを正すために,氏姓が与えられた(観測されていない)人種,居住地,その他の観察された特徴から条件的に独立しているという前提の下で,代替的な識別戦略を提案する。 我々は,BISGの確率を入力として捉え,人種的不一致推定を人種的不一致推定の指標変数として用い,新しいモデルであるベイジアン・インストゥルメンタル・レグレッション・フォー・ディパリティ・アセスメント(BIRDiE)を導入する。 提案手法はスケーラブルであり,大規模管理データの解析が可能となる。 また、鍵識別の前提に違反する可能性のある問題にも対処する方法を示す。 ノースカロライナの有権者ファイルに基づく検証調査では、BISG+BIRDiEは政党登録における人種的違いを推定すると、誤りを最大84%減らす。 最後に、提案手法を適用し、米国内国歳入庁の個人レベルの税率データを用いて住宅ローン利子控除の恩恵を受けた者の人種差を推定する。 提案手法を実装したオープンソースソフトウェアが利用可能である。

The estimation of racial disparities in various fields is often hampered by the lack of individual-level racial information. In many cases, the law prohibits the collection of such information to prevent direct racial discrimination. As a result, analysts have frequently adopted Bayesian Improved Surname Geocoding (BISG) and its variants, which combine individual names and addresses with Census data to predict race. Unfortunately, the residuals of BISG are often correlated with the outcomes of interest, generally attenuating estimates of racial disparities. To correct this bias, we propose an alternative identification strategy under the assumption that surname is conditionally independent of the outcome given (unobserved) race, residence location, and other observed characteristics. We introduce a new class of models, Bayesian Instrumental Regression for Disparity Estimation (BIRDiE), that take BISG probabilities as inputs and produce racial disparity estimates by using surnames as an instrumental variable for race. Our estimation method is scalable, making it possible to analyze large-scale administrative data. We also show how to address potential violations of the key identification assumptions. A validation study based on the North Carolina voter file shows that BISG+BIRDiE reduces error by up to 84% when estimating racial differences in party registration. Finally, we apply the proposed methodology to estimate racial differences in who benefits from the home mortgage interest deduction using individual-level tax data from the U.S. Internal Revenue Service. Open-source software is available which implements the proposed methodology.
翻訳日:2024-04-18 19:59:48 公開日:2024-04-17
# 光フローと線形ぼかしを用いたビデオシャッター角推定

Video shutter angle estimation using optical flow and linear blur ( http://arxiv.org/abs/2303.10247v2 )

ライセンス: Link先を確認
David Korcak, Jiri Matas, (参考訳) 動きを含むビデオクリップの露出時間とフレームレートの相反比である露光率を推定する手法を提案する。 この手法は露光率、光流、線形運動のぼかしの関係を利用する。 ロバスト性は、光学フローとボケ推定の両方が信頼できる画像パッチを選択して、一貫性をチェックすることで達成される。 この手法は一般に公開されているビームスプリッターデータセットで0.015から0.36までの露光率で評価された。 推定値の平均絶対誤差は0.039である。 フレーム除去・挿入によるビデオ改ざん検出の法医学的応用のための手法の適性検証に成功した。

We present a method for estimating the shutter angle, a.k.a. exposure fraction - the ratio of the exposure time and the reciprocal of frame rate - of videoclips containing motion. The approach exploits the relation of the exposure fraction, optical flow, and linear motion blur. Robustness is achieved by selecting image patches where both the optical flow and blur estimates are reliable, checking their consistency. The method was evaluated on the publicly available Beam-Splitter Dataset with a range of exposure fractions from 0.015 to 0.36. The best achieved mean absolute error of estimates was 0.039. We successfully test the suitability of the method for a forensic application of detection of video tampering by frame removal or insertion
翻訳日:2024-04-18 19:59:48 公開日:2024-04-17
# 逆量子アニーリングによる親ハミルトニアン再構成

Parent Hamiltonian Reconstruction via Inverse Quantum Annealing ( http://arxiv.org/abs/2303.11200v3 )

ライセンス: Link先を確認
Davide Rattacaso, Gianluca Passarelli, Angelo Russomanno, Procolo Lucignano, Giuseppe E. Santoro, Rosario Fazio, (参考訳) 局所ハミルトニアン $\hat{\mathcal{H}}$ が与えられた多体波動関数 $|\psi\rangle$ を基底状態、すなわち親ハミルトニアンとして見つけることは、量子技術における基本的な重要性の挑戦である。 ここでは、量子アニールにインスパイアされた数値的手法を導入し、このタスクを人工的逆ダイナミクスにより効率的に実行する: 状態 $|\psi(\lambda(t))\rangle$ の遅い変形は、単純な状態 $|\psi_0\rangle$ から始まり、既知の $\hat{\mathcal{H}}_0$ から始まる。 このアプローチを逆量子アニールと呼ぶ。 この方法は局所作用素の集合への射影によって実装され、局所期待値の知識が要求されるだけであり、長いアニーリング時間の間、局所性の度合いは状態 $|\psi(\lambda)\rangle$ によって構築された相関に依存する親ハミルトニアンに導かれる。 北エフフェルミオン鎖と、縦方向および横方向の場の量子イジング鎖の2つのパラダイムモデルについて説明する。

Finding a local Hamiltonian $\hat{\mathcal{H}}$ having a given many-body wavefunction $|\psi\rangle$ as its ground state, i.e. a parent Hamiltonian, is a challenge of fundamental importance in quantum technologies. Here we introduce a numerical method, inspired by quantum annealing, that efficiently performs this task through an artificial inverse dynamics: a slow deformation of the states $|\psi(\lambda(t))\rangle$, starting from a simple state $|\psi_0\rangle$ with a known $\hat{\mathcal{H}}_0$, generates an adiabatic evolution of the corresponding Hamiltonian. We name this approach inverse quantum annealing. The method, implemented through a projection onto a set of local operators, only requires the knowledge of local expectation values, and, for long annealing times, leads to an approximate parent Hamiltonian whose degree of locality depends on the correlations built up by the states $|\psi(\lambda)\rangle$. We illustrate the method on two paradigmatic models: the Kitaev fermionic chain and a quantum Ising chain in longitudinal and transverse fields.
翻訳日:2024-04-18 19:59:48 公開日:2024-04-17
# セマンティックセグメンテーションに及ぼすインフルエンサーバックドアアタックの影響

Influencer Backdoor Attack on Semantic Segmentation ( http://arxiv.org/abs/2303.12054v5 )

ライセンス: Link先を確認
Haoheng Lan, Jindong Gu, Philip Torr, Hengshuang Zhao, (参考訳) 深層ニューラルネットワークのトレーニングデータセットに少量の有毒なサンプルが注入されると、ネットワークは推論中に悪意のある振る舞いを示すように誘導され、現実世界のアプリケーションに潜在的な脅威をもたらす。 分類学では主に研究されているが、セマンティックセグメンテーションに対するバックドア攻撃はほとんど見過ごされている。 分類とは異なり、セマンティックセグメンテーションは、与えられた画像内のすべてのピクセルを分類することを目的としている。 本研究では,インフルエンサー・バックドア・アタック (IBA) と呼ばれる推論中に,非ビビティ・ピクチャーに特定のトリガーを注入することにより,セグメンテーション・モデルに対するバックドア・アタックを調査し,被害者クラスのすべてのピクセルを誤分類する。 IBAは, 実世界のシーンに容易に適用可能な, 暗黙的でないピクセルの分類精度と, 全ての犠牲者画素の誤字分類の維持が期待されている。 セグメンテーションモデルのコンテキストアグリゲーション能力に基づき, 簡便かつ効果的にニアス・ニーバー・トリガー・インジェクション・ストラテジーを提案した。 また, 危険画素から離れた位置にトリガを配置しても, 最適な性能を維持する, 革新的なPixel Random Labeling戦略も導入する。 大規模な実験により,現在のセグメンテーションモデルがバックドアアタックに悩まされていることが判明し,実世界の適用性を示すとともに,提案手法が攻撃性能をさらに向上することを示す。

When a small number of poisoned samples are injected into the training dataset of a deep neural network, the network can be induced to exhibit malicious behavior during inferences, which poses potential threats to real-world applications. While they have been intensively studied in classification, backdoor attacks on semantic segmentation have been largely overlooked. Unlike classification, semantic segmentation aims to classify every pixel within a given image. In this work, we explore backdoor attacks on segmentation models to misclassify all pixels of a victim class by injecting a specific trigger on non-victim pixels during inferences, which is dubbed Influencer Backdoor Attack (IBA). IBA is expected to maintain the classification accuracy of non-victim pixels and mislead classifications of all victim pixels in every single inference and could be easily applied to real-world scenes. Based on the context aggregation ability of segmentation models, we proposed a simple, yet effective, Nearest-Neighbor trigger injection strategy. We also introduce an innovative Pixel Random Labeling strategy which maintains optimal performance even when the trigger is placed far from the victim pixels. Our extensive experiments reveal that current segmentation models do suffer from backdoor attacks, demonstrate IBA real-world applicability, and show that our proposed techniques can further increase attack performance.
翻訳日:2024-04-18 19:59:48 公開日:2024-04-17
# 形態学的類推の解法--検索から生成まで

Solving morphological analogies: from retrieval to generation ( http://arxiv.org/abs/2303.18062v2 )

ライセンス: Link先を確認
Esteban Marquer, Miguel Couceiro, (参考訳) 分析推論は人間の推論の顕著な能力であり、難解な推論タスクの解決に用いられてきた。 アナロジーに基づく推論(AR)は、人工知能コミュニティから関心が高まり、分類、意思決定、競争結果による推薦など、複数の機械学習タスクにおいてその可能性を示している。 本稿では,ARにおける2つの重要な課題である類似検出と解決に対処し,対処するためのディープラーニング(DL)フレームワークを提案する。 このフレームワークは、単語間の形態的類似比(APs)のSiganalogiesデータセットで徹底的にテストされ、多くの言語においてシンボル的アプローチよりも優れていることを示す。 従来,アナロジーニューラルネットワークのアナロジー検出とアナロジーニューラルネットワークの検索によるアナロジー解法における挙動と,解語を生成することでアナロジー解法のためのオートエンコーダ(AE)の可能性について検討されてきた。 本稿では、これらの知見を要約し、ANNrとAE埋め込みモデルを組み合わせて拡張し、ANNcの性能を検索手法として検証する。 ANNrとAEの組み合わせは、ほぼすべてのケースにおいて他のアプローチよりも優れており、ANNcは3CosMulよりも競争力や性能が高い。 我々は、我々のフレームワークをDLでAPに対処するための一般的なガイドラインで締めくくった。

Analogical inference is a remarkable capability of human reasoning, and has been used to solve hard reasoning tasks. Analogy based reasoning (AR) has gained increasing interest from the artificial intelligence community and has shown its potential in multiple machine learning tasks such as classification, decision making and recommendation with competitive results. We propose a deep learning (DL) framework to address and tackle two key tasks in AR: analogy detection and solving. The framework is thoroughly tested on the Siganalogies dataset of morphological analogical proportions (APs) between words, and shown to outperform symbolic approaches in many languages. Previous work have explored the behavior of the Analogy Neural Network for classification (ANNc) on analogy detection and of the Analogy Neural Network for retrieval (ANNr) on analogy solving by retrieval, as well as the potential of an autoencoder (AE) for analogy solving by generating the solution word. In this article we summarize these findings and we extend them by combining ANNr and the AE embedding model, and checking the performance of ANNc as an retrieval method. The combination of ANNr and AE outperforms the other approaches in almost all cases, and ANNc as a retrieval method achieves competitive or better performance than 3CosMul. We conclude with general guidelines on using our framework to tackle APs with DL.
翻訳日:2024-04-18 19:59:48 公開日:2024-04-17
# オンラインクナップサック問題における時間公平性

Time Fairness in Online Knapsack Problems ( http://arxiv.org/abs/2305.13293v2 )

ライセンス: Link先を確認
Adam Lechowicz, Rik Sengupta, Bo Sun, Shahin Kamali, Mohammad Hajiesmaili, (参考訳) オンラインのknapsack問題は、オンラインアルゴリズムの分野における古典的な問題である。 標準的なバージョンでは、登録されたアイテムの総価値を最大化するために、オンラインで到着するさまざまな値と重量のアイテムをキャパシティ限定のクナップサックに詰め込む方法が求められている。 最適な競合アルゴリズムはこの問題で知られているが、それらは根本的に不公平であるかもしれない。 我々は,クラウドリソース割り当てなどのモチベーションアプリケーションにおいて,静的価格と動的価格のトレードオフを効果的にモデル化する,時間フェアネスの実用的関連概念を定式化し,既存のアルゴリズムがこの基準の下では不十分であることを示す。 本稿では,パラメータが公正性(静的価格)と競争性(動的価格)の間のパレート最適トレードオフを正確に捉えるパラメータ化決定性アルゴリズムを提案する。 ランダム化は理論上は競争力と公正性を兼ね備えるほど強力であることを示すが、実験ではうまく機能しない。 フェアネスと競争性の間のトレードオフをさらに改善するため, 公平で一貫性があり, 頑健な(競争性のある)ほぼ最適学習拡張アルゴリズムを開発し, 数値実験でかなりの性能向上を示した。

The online knapsack problem is a classic problem in the field of online algorithms. Its canonical version asks how to pack items of different values and weights arriving online into a capacity-limited knapsack so as to maximize the total value of the admitted items. Although optimal competitive algorithms are known for this problem, they may be fundamentally unfair, i.e., individual items may be treated inequitably in different ways. We formalize a practically-relevant notion of time fairness which effectively models a trade off between static and dynamic pricing in a motivating application such as cloud resource allocation, and show that existing algorithms perform poorly under this metric. We propose a parameterized deterministic algorithm where the parameter precisely captures the Pareto-optimal trade-off between fairness (static pricing) and competitiveness (dynamic pricing). We show that randomization is theoretically powerful enough to be simultaneously competitive and fair; however, it does not work well in experiments. To further improve the trade-off between fairness and competitiveness, we develop a nearly-optimal learning-augmented algorithm which is fair, consistent, and robust (competitive), showing substantial performance improvements in numerical experiments.
翻訳日:2024-04-18 19:59:47 公開日:2024-04-17
# ChatCAD+:LLMを用いたユニバーサルで信頼性の高いインタラクティブCADを目指して

ChatCAD+: Towards a Universal and Reliable Interactive CAD using LLMs ( http://arxiv.org/abs/2305.15964v5 )

ライセンス: Link先を確認
Zihao Zhao, Sheng Wang, Jinchen Gu, Yitao Zhu, Lanzhuju Mei, Zixu Zhuang, Zhiming Cui, Qian Wang, Dinggang Shen, (参考訳) コンピュータ支援診断 (CAD) とLarge Language Models (LLMs) の統合は臨床応用において有望なフロンティアを示し、特に放射線科医が行う診断プロセスの自動化や、仮想ファミリードクターと似た相談を行っている。 この統合の有望な可能性にもかかわらず、現在の研究は少なくとも2つの制限に直面している: (1) 放射線技師の観点からすると、既存の研究は通常、適用可能な画像領域の範囲を限定しており、異なる患者の診断のニーズを満たすことができない。 また, LLMの診断能力の不足により, 医療報告の品質や信頼性が損なわれている。 2)現在のLSMは,専門知識が欠如しているため,患者相談におけるアドバイスの不信感から,仮想的な家族医師としての役割が低下している。 これらの制限に対処するため、我々はChatCAD+を導入し、普遍的で信頼性が高いものにした。 具体的には、(1)信頼性のあるレポート生成と(2)信頼性のあるインタラクションの2つの主要なモジュールによって特徴付けられる。 Reliable Report Generationモジュールは、さまざまなドメインの医療画像を解釈し、提案した階層型インコンテキスト学習を通じて高品質な医療レポートを生成することができる。 同時に、対話モジュールは、信頼できる医療アドバイスを提供するために、信頼できる医療ウェブサイトからの最新の情報を活用する。 これらの設計されたモジュールは、人間の医療専門家の専門知識と密に連携し、解釈とアドバイスのための一貫性と信頼性を向上する。 ソースコードはhttps://github.com/zhaozh10/ChatCADで入手できる。

The integration of Computer-Aided Diagnosis (CAD) with Large Language Models (LLMs) presents a promising frontier in clinical applications, notably in automating diagnostic processes akin to those performed by radiologists and providing consultations similar to a virtual family doctor. Despite the promising potential of this integration, current works face at least two limitations: (1) From the perspective of a radiologist, existing studies typically have a restricted scope of applicable imaging domains, failing to meet the diagnostic needs of different patients. Also, the insufficient diagnostic capability of LLMs further undermine the quality and reliability of the generated medical reports. (2) Current LLMs lack the requisite depth in medical expertise, rendering them less effective as virtual family doctors due to the potential unreliability of the advice provided during patient consultations. To address these limitations, we introduce ChatCAD+, to be universal and reliable. Specifically, it is featured by two main modules: (1) Reliable Report Generation and (2) Reliable Interaction. The Reliable Report Generation module is capable of interpreting medical images from diverse domains and generate high-quality medical reports via our proposed hierarchical in-context learning. Concurrently, the interaction module leverages up-to-date information from reputable medical websites to provide reliable medical advice. Together, these designed modules synergize to closely align with the expertise of human medical professionals, offering enhanced consistency and reliability for interpretation and advice. The source code is available at https://github.com/zhaozh10/ChatCAD.
翻訳日:2024-04-18 19:50:03 公開日:2024-04-17
# Reward-Agnostic Preference-based Reinforcement Learning

Provable Reward-Agnostic Preference-Based Reinforcement Learning ( http://arxiv.org/abs/2305.18505v3 )

ライセンス: Link先を確認
Wenhao Zhan, Masatoshi Uehara, Wen Sun, Jason D. Lee, (参考訳) PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、明示的な報酬信号ではなく、軌道上のペアワイズに基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。 PbRLは微調整言語モデルで実用的成功をおさめたが、既存の理論的研究は後悔の最小化に重点を置いており、実践的なフレームワークのほとんどを捉えていない。 本研究では, 隠れた報酬関数の正確な学習を可能にする探索軌道を, 人間のフィードバックを収集する前に獲得する理論的な報酬に依存しないPbRLフレームワークを提案することにより, 理論的PbRLと実用的アルゴリズムのギャップを埋める。 理論的解析により,線形パラメータ化と未知遷移を伴う選好モデルの下での最適方針の学習には,既存の理論文献と比較して,人間のフィードバックが少なくなることが示された。 特に,本フレームワークは,効率的なサンプル複雑性を持つ線形および低ランクのMDPを組み込むことができる。 さらに,アクションベース比較フィードバックを用いた報酬非依存型RLについて検討し,このシナリオに合わせた効率的なクエリアルゴリズムを提案する。

Preference-based Reinforcement Learning (PbRL) is a paradigm in which an RL agent learns to optimize a task using pair-wise preference-based feedback over trajectories, rather than explicit reward signals. While PbRL has demonstrated practical success in fine-tuning language models, existing theoretical work focuses on regret minimization and fails to capture most of the practical frameworks. In this study, we fill in such a gap between theoretical PbRL and practical algorithms by proposing a theoretical reward-agnostic PbRL framework where exploratory trajectories that enable accurate learning of hidden reward functions are acquired before collecting any human feedback. Theoretical analysis demonstrates that our algorithm requires less human feedback for learning the optimal policy under preference-based models with linear parameterization and unknown transitions, compared to the existing theoretical literature. Specifically, our framework can incorporate linear and low-rank MDPs with efficient sample complexity. Additionally, we investigate reward-agnostic RL with action-based comparison feedback and introduce an efficient querying algorithm tailored to this scenario.
翻訳日:2024-04-18 19:50:03 公開日:2024-04-17
# 半監督残差変換器を用いた予算アノテーションを用いた効率的な異常検出

Efficient Anomaly Detection with Budget Annotation Using Semi-Supervised Residual Transformer ( http://arxiv.org/abs/2306.03492v2 )

ライセンス: Link先を確認
Hanxi Li, Jingqi Wu, Hao Chen, Mingwen Wang, Chunhua Shen, (参考訳) 異常検出は、通常、訓練中に通常のサンプルのみが見られ、検出器は飛行中の異常を検出する必要があるため、難しい。 最近提案されたディープラーニングベースのアプローチは、この問題を緩和する可能性があるが、実世界のアプリケーションのための産業レベルの異常検知器を得るには、まだまだ長い道のりがある。 一方、特定のADタスクでは、精度を高めるために、いくつかの異常サンプルを手動でラベル付けする。 しかし、このパフォーマンス向上には相当なアノテーションの努力が費やされているため、多くの実践的なシナリオでは難解である。 この研究では、上記の2つの問題を統一されたフレームワークで解決する。 まず、パッチマッチングベースのADアルゴリズムの成功に触発されて、新しい位置制約パッチマッチングによって生成される残差に対して、スライディング・ビジョン・トランスフォーマーを訓練する。 第二に、従来の画素ワイドセグメンテーション問題をブロックワイド分類問題に投入する。 これにより、スライディング変圧器は、アノテーションの手間をはるかに少なくして、さらに高い精度が得られる。 第3に,ラベル付けコストをさらに削減するために,境界ボックスのみを用いて異常領域をラベル付けすることを提案する。 弱ラベルによる未ラベル領域を、2つの新しいデータ拡張手法を備えた高度にカスタマイズされた半教師付き学習スキームを用いて効果的に活用する。 提案手法は、教師なしシナリオと教師なしシナリオの両方において、すべての評価指標を用いて、最先端のアプローチよりも優れている。 一般的なMVTec-ADデータセットでは、SemiRESTアルゴリズムは、教師なし状態における平均精度(AP)が81.2%、教師付き異常検出のためのAPが84.4%である。 意外なことに、バウンディングボックスベースのセミスーパービジョンでは、SemiRESTはMVTec-AD上で完全な監視(83.8%AP)でSOTAメソッドよりも優れています。

Anomaly Detection is challenging as usually only the normal samples are seen during training and the detector needs to discover anomalies on-the-fly. The recently proposed deep-learning-based approaches could somehow alleviate the problem but there is still a long way to go in obtaining an industrial-class anomaly detector for real-world applications. On the other hand, in some particular AD tasks, a few anomalous samples are labeled manually for achieving higher accuracy. However, this performance gain is at the cost of considerable annotation efforts, which can be intractable in many practical scenarios. In this work, the above two problems are addressed in a unified framework. Firstly, inspired by the success of the patch-matching-based AD algorithms, we train a sliding vision transformer over the residuals generated by a novel position-constrained patch-matching. Secondly, the conventional pixel-wise segmentation problem is cast into a block-wise classification problem. Thus the sliding transformer can attain even higher accuracy with much less annotation labor. Thirdly, to further reduce the labeling cost, we propose to label the anomalous regions using only bounding boxes. The unlabeled regions caused by the weak labels are effectively exploited using a highly-customized semi-supervised learning scheme equipped with two novel data augmentation methods. The proposed method outperforms all the state-of-the-art approaches using all the evaluation metrics in both the unsupervised and supervised scenarios. On the popular MVTec-AD dataset, our SemiREST algorithm obtains the Average Precision (AP) of 81.2% in the unsupervised condition and 84.4% AP for supervised anomaly detection. Surprisingly, with the bounding-box-based semi-supervisions, SemiREST still outperforms the SOTA methods with full supervision (83.8% AP) on MVTec-AD.
翻訳日:2024-04-18 19:50:03 公開日:2024-04-17
# 大規模言語モデルは相関から因果関係を推定できるか?

Can Large Language Models Infer Causation from Correlation? ( http://arxiv.org/abs/2306.05836v3 )

ライセンス: Link先を確認
Zhijing Jin, Jiarui Liu, Zhiheng Lyu, Spencer Poff, Mrinmaya Sachan, Rada Mihalcea, Mona Diab, Bernhard Schölkopf, (参考訳) 因果推論は人間の知能の目印の1つである。 近年、CausalNLPの分野は注目されているが、NLPの既存の因果推論データセットは主に経験的知識(例:常識知識)から因果関係を発見することに依存している。 本研究では,大規模言語モデル(LLM)の純粋因果推論スキルをテストするための最初のベンチマークデータセットを提案する。 具体的には,新しいタスクCorr2Causeを定式化し,相関文の集合を取り,変数間の因果関係を決定する。 我々は,200万以上のサンプルからなる大規模データセットをキュレートし,既存のLLMを17個評価した。 実験により, LLMの因果推論能力において重要な欠点を同定し, これらのモデルがタスクのランダムな性能にほぼ近いことを示す。 しかし、これらのモデルは、クエリで使用される変数名とテキスト式がトレーニングセットのものと似ている場合のみ、因果推論を実行できますが、これらのクエリを摂動することで生成されたアウト・オブ・ディストリビューション設定では失敗します。 Corr2CauseはLLMにとって難しい課題であり、LLMの純粋推論スキルと一般化可能性を改善するための将来の研究を導くのに役立つだろう。 私たちのデータはhttps://huggingface.co/datasets/causalnlp/corr2です。 私たちのコードはhttps://github.com/causalNLP/corr2だからです。

Causal inference is one of the hallmarks of human intelligence. While the field of CausalNLP has attracted much interest in the recent years, existing causal inference datasets in NLP primarily rely on discovering causality from empirical knowledge (e.g., commonsense knowledge). In this work, we propose the first benchmark dataset to test the pure causal inference skills of large language models (LLMs). Specifically, we formulate a novel task Corr2Cause, which takes a set of correlational statements and determines the causal relationship between the variables. We curate a large-scale dataset of more than 200K samples, on which we evaluate seventeen existing LLMs. Through our experiments, we identify a key shortcoming of LLMs in terms of their causal inference skills, and show that these models achieve almost close to random performance on the task. This shortcoming is somewhat mitigated when we try to re-purpose LLMs for this skill via finetuning, but we find that these models still fail to generalize -- they can only perform causal inference in in-distribution settings when variable names and textual expressions used in the queries are similar to those in the training set, but fail in out-of-distribution settings generated by perturbing these queries. Corr2Cause is a challenging task for LLMs, and would be helpful in guiding future research on improving LLMs' pure reasoning skills and generalizability. Our data is at https://huggingface.co/datasets/causalnlp/corr2cause. Our code is at https://github.com/causalNLP/corr2cause.
翻訳日:2024-04-18 19:50:03 公開日:2024-04-17
# GBSD: ステージ拡散による生成型ボケ

GBSD: Generative Bokeh with Stage Diffusion ( http://arxiv.org/abs/2306.08251v3 )

ライセンス: Link先を確認
Jieren Deng, Xin Zhou, Hao Tian, Zhihong Pan, Derek Aguiar, (参考訳) ボケ効果(ボケエフェクト、bokeh effect)は、写真中の焦点領域をぼかす芸術的手法であり、テキストから画像への合成や、スマートフォンカメラや写真共有アプリの普及により関心を集めている。 ボケ効果のレンダリングに関する以前の研究は、古典的なコンピュータグラフィックスやニューラルレンダリング技術を用いて、既存の写真に類似したぼやけた効果を生み出すために、ポストホック画像操作に焦点を合わせてきたが、深度不連続アーティファクトを持つか、トレーニングデータに存在するボケ効果の再生に制限されている。 より最近の拡散モデルでは、イメージを芸術的なスタイルで合成することができるが、高次元マスクの生成、高価な微調整、あるいはグローバルなイメージ特性に影響を与える必要がある。 本稿では、ボケスタイルでフォトリアリスティック画像を合成する最初の生成テキスト・画像モデルであるGBSDについて述べる。 拡散モデルにおいて、画像合成がどのように徐々に起こるかによって、我々のアプローチは、潜在拡散モデルと2段階条件付けアルゴリズムを組み合わせて、意味論的に定義されたオブジェクトにボケ効果をレンダリングする。 オブジェクトに効果を集中させることができるので、このセマンティックボケ効果は古典的なレンダリング技術よりも多用途である。 我々はGBSDを定量的かつ質的に評価し、テキスト・ツー・イメージ設定と画像・画像設定の両方に適用できることを実証した。

The bokeh effect is an artistic technique that blurs out-of-focus areas in a photograph and has gained interest due to recent developments in text-to-image synthesis and the ubiquity of smart-phone cameras and photo-sharing apps. Prior work on rendering bokeh effects have focused on post hoc image manipulation to produce similar blurring effects in existing photographs using classical computer graphics or neural rendering techniques, but have either depth discontinuity artifacts or are restricted to reproducing bokeh effects that are present in the training data. More recent diffusion based models can synthesize images with an artistic style, but either require the generation of high-dimensional masks, expensive fine-tuning, or affect global image characteristics. In this paper, we present GBSD, the first generative text-to-image model that synthesizes photorealistic images with a bokeh style. Motivated by how image synthesis occurs progressively in diffusion models, our approach combines latent diffusion models with a 2-stage conditioning algorithm to render bokeh effects on semantically defined objects. Since we can focus the effect on objects, this semantic bokeh effect is more versatile than classical rendering techniques. We evaluate GBSD both quantitatively and qualitatively and demonstrate its ability to be applied in both text-to-image and image-to-image settings.
翻訳日:2024-04-18 19:50:03 公開日:2024-04-17
# チカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカ

The False Dawn: Reevaluating Google's Reinforcement Learning for Chip Macro Placement ( http://arxiv.org/abs/2306.09633v8 )

ライセンス: Link先を確認
Igor L. Markov, (参考訳) Google 2021 Natureの論文で、シリコンチップの物理的設計のための強化学習(RL)が議論を巻き起こした。 論文は、結果の再現に必要な重要な方法論のステップとほとんどのインプットを支持した。 我々のメタ分析は、2つの異なる評価がギャップを埋め、Google RLが遅れていることを示す。 (i)人間デザイナー。 (ii)よく知られたアルゴリズム(Simulated Annealing)、及び また、2023年のオープンな研究コンテストでは、RLメソッドはトップ5には含まれなかった。 クロスチェックデータによると、Nature論文の完全性は、行動、分析、報告の誤りによって著しく損なわれている。 発表前、Googleは内部告発を却下したが、それは今も続いている。 チップ設計におけるポリシーの影響と結論に留意する。

Reinforcement learning (RL) for physical design of silicon chips in a Google 2021 Nature paper stirred controversy due to poorly documented claims that raised eyebrows and drew critical media coverage. The paper withheld critical methodology steps and most inputs needed to reproduce results. Our meta-analysis shows how two separate evaluations filled in the gaps and demonstrated that Google RL lags behind (i) human designers, (ii) a well-known algorithm (Simulated Annealing), and (iii) generally-available commercial software, while being slower; and in a 2023 open research contest, RL methods weren't in top 5. Crosschecked data indicate that the integrity of the Nature paper is substantially undermined owing to errors in conduct, analysis and reporting. Before publishing, Google rebuffed internal allegations of fraud, which still stand. We note policy implications and conclusions for chip design.
翻訳日:2024-04-18 19:50:03 公開日:2024-04-17
# ICSVR:ビデオ検索モデルにおける構成的・構文的理解の検討

ICSVR: Investigating Compositional and Syntactic Understanding in Video Retrieval Models ( http://arxiv.org/abs/2306.16533v2 )

ライセンス: Link先を確認
Avinash Madasu, Vasudev Lal, (参考訳) ビデオ検索(VR)は、テキストキャプションまたはリバーサが与えられたビデオデータベースから地上の真理ビデオを取得することを含む。 コンポジションの2つの重要なコンポーネント:オブジェクトと属性とアクションは正しい構文を使って結合され、適切なテキストクエリを形成する。 これらのコンポーネント(オブジェクト、属性、アクション、構文)は、それぞれがビデオの区別を助け、正しい真実のビデオを検索するために重要な役割を果たす。 しかし,これらの成分がビデオ検索性能に与える影響は明らかでない。 そこで我々は,MSRVTT,MSVD,DIDEMOなどの標準ベンチマークを用いて,映像検索モデルの合成および構文的理解を評価するための体系的研究を行った。 この研究は、ビデオ検索モデルの2つのカテゴリで実施されている。 (i)ビデオテキストペアで事前学習し、下流ビデオ検索データセット(例えば、Frozen-in-Time、Violet、MCQなど)で微調整する。 (ii) ビデオ検索にCLIP(CLIP4Clip、XCLIP、CLIP2Videoなど)のような事前訓練済みの画像テキスト表現を適用する。 ビデオ理解におけるオブジェクトや属性と比較して,アクションや構文が軽微な役割を担っていることが明らかとなった。 さらに、事前学習された画像テキスト表現(CLIP)を用いたビデオ検索モデルは、ビデオテキストデータに事前学習されたモデルと比較して、構文的および構成的理解が優れている。 コードはhttps://github.com/IntelLabs/multimodal_cognitive_ai/tree/main/ICSVRで公開されている。

Video retrieval (VR) involves retrieving the ground truth video from the video database given a text caption or vice-versa. The two important components of compositionality: objects & attributes and actions are joined using correct syntax to form a proper text query. These components (objects & attributes, actions and syntax) each play an important role to help distinguish among videos and retrieve the correct ground truth video. However, it is unclear what is the effect of these components on the video retrieval performance. We therefore, conduct a systematic study to evaluate the compositional and syntactic understanding of video retrieval models on standard benchmarks such as MSRVTT, MSVD and DIDEMO. The study is performed on two categories of video retrieval models: (i) which are pre-trained on video-text pairs and fine-tuned on downstream video retrieval datasets (Eg. Frozen-in-Time, Violet, MCQ etc.) (ii) which adapt pre-trained image-text representations like CLIP for video retrieval (Eg. CLIP4Clip, XCLIP, CLIP2Video etc.). Our experiments reveal that actions and syntax play a minor role compared to objects & attributes in video understanding. Moreover, video retrieval models that use pre-trained image-text representations (CLIP) have better syntactic and compositional understanding as compared to models pre-trained on video-text data. The code is available at https://github.com/IntelLabs/multimodal_cognitive_ai/tree/main/ICSVR
翻訳日:2024-04-18 19:50:03 公開日:2024-04-17
# 状態依存バランス係数を用いたランドマークのアクティブ探索

Landmark Guided Active Exploration with State-specific Balance Coefficient ( http://arxiv.org/abs/2306.17484v2 )

ライセンス: Link先を確認
Fei Cui, Jiaojiao Fang, Mengke Yang, Guizhong Liu, (参考訳) ゴール条件付き階層強化学習(GCHRL)は,階層的な枠組みを通じて長期タスクをサブタスクに分解し,様々な領域で有望な結果を示した。 しかし、高水準政策の行動空間は、しばしば過度に大きくなり、効果的な探索に重大な挑戦をし、潜在的に非効率な訓練をもたらす。 本稿では,ゴール条件付き値関数に基づく目標空間の計画によるサブゴールの予測尺度を設計する。 本研究は, 予測の尺度に基づいて, エージェントが効率的に探索し, サンプル効率を向上させることを目的とした, 予測と新規性の尺度を統合したランドマーク誘導探索戦略を提案する。 探索における確率と新規性の影響を動的に考察するため,確率と新規性の重要性のバランスをとるために,州固有のバランス係数を導入する。 実験の結果,提案手法は複数のタスクにまたがるベースライン手法よりも有意に優れていた。

Goal-conditioned hierarchical reinforcement learning (GCHRL) decomposes long-horizon tasks into sub-tasks through a hierarchical framework and it has demonstrated promising results across a variety of domains. However, the high-level policy's action space is often excessively large, presenting a significant challenge to effective exploration and resulting in potentially inefficient training. In this paper, we design a measure of prospect for sub-goals by planning in the goal space based on the goal-conditioned value function. Building upon the measure of prospect, we propose a landmark-guided exploration strategy by integrating the measures of prospect and novelty which aims to guide the agent to explore efficiently and improve sample efficiency. In order to dynamically consider the impact of prospect and novelty on exploration, we introduce a state-specific balance coefficient to balance the significance of prospect and novelty. The experimental results demonstrate that our proposed exploration strategy significantly outperforms the baseline methods across multiple tasks.
翻訳日:2024-04-18 19:50:03 公開日:2024-04-17
# Fourier-Mixed Window Attention: 時系列時系列予測のためのインバータ高速化

Fourier-Mixed Window Attention: Accelerating Informer for Long Sequence Time-Series Forecasting ( http://arxiv.org/abs/2307.00493v3 )

ライセンス: Link先を確認
Nhat Thanh Tran, Jack Xin, (参考訳) Informerを高速化するための高速なローカル・グローバル・ウィンドウベースアテンション手法について検討した。 ウィンドウアテンションが局所的であることはかなりの計算上の節約であるが、後のフーリエ変換ブロックによって補償されるグローバルトークン情報をキャプチャする能力は欠如している。 提案手法は,クエリの空間性仮説と,InformerのProbSparseの注意を基礎とした経験的近似に依存しない。 単変量および多変量データセットの実験により、FWinトランスフォーマーはInformerの全体的な予測精度を改善しつつ、推論速度を1.6倍から2倍に加速することを示した。 また,FWinアテンションの数学的定義も提供し,アテンション行列のブロック対角可逆性(BDI)条件下でのカノニカルフルアテンションと等価であることを証明した。 BDIは、典型的なベンチマークデータセットに対して高い確率で保持するように実験的に示される。

We study a fast local-global window-based attention method to accelerate Informer for long sequence time-series forecasting. While window attention being local is a considerable computational saving, it lacks the ability to capture global token information which is compensated by a subsequent Fourier transform block. Our method, named FWin, does not rely on query sparsity hypothesis and an empirical approximation underlying the ProbSparse attention of Informer. Through experiments on univariate and multivariate datasets, we show that FWin transformers improve the overall prediction accuracies of Informer while accelerating its inference speeds by 1.6 to 2 times. We also provide a mathematical definition of FWin attention, and prove that it is equivalent to the canonical full attention under the block diagonal invertibility (BDI) condition of the attention matrix. The BDI is shown experimentally to hold with high probability for typical benchmark datasets.
翻訳日:2024-04-18 19:50:03 公開日:2024-04-17
# 大規模言語モデル(LLM)時代のレコメンダシステム

Recommender Systems in the Era of Large Language Models (LLMs) ( http://arxiv.org/abs/2307.02046v4 )

ライセンス: Link先を確認
Zihuai Zhao, Wenqi Fan, Jiatong Li, Yunqing Liu, Xiaowei Mei, Yiqi Wang, Zhen Wen, Fei Wang, Xiangyu Zhao, Jiliang Tang, Qing Li, (参考訳) eコマースとWebアプリケーションの繁栄により、Recommender Systems(RecSys)は私たちの日常生活の重要なコンポーネントとなり、ユーザの好みに合わせてパーソナライズされた提案を提供しています。 ディープニューラルネットワーク(DNN)は、ユーザとイテムのインタラクションをモデル化し、テキスト側情報を取り入れることでレコメンダシステムの強化に大きく進歩しているが、DNNベースの手法は、ユーザの関心の理解の困難さやテキスト側情報の取得、さまざまなレコメンデーションシナリオの一般化の障害、予測の推論など、制限に直面している。 一方、ChatGPTやGPT4といった大規模言語モデル(LLM)の出現は、自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。 その結果、最近の研究はレコメンダシステムを強化するためにLLMのパワーを活用しようと試みている。 推薦システムにおけるこの研究方向の急速な進化を考えると、既存のLLMを利用した推薦システムを要約した体系的な概要が必要である。 そこで本稿では, プレトレーニング, ファインチューニング, プロンプティングなど, LLMを活用したレコメンデータシステムの総合的なレビューを行う。 具体的には、まず、ユーザやアイテムの表現を学習するためのLLM(機能エンコーダ)のパワーを利用する代表的手法を紹介する。 次に,3つのパラダイム,すなわち事前学習,微調整,プロンプトからレコメンデーションシステムを強化するためのLLMの最近の技術について概説する。 最後に、この新興分野における今後の方向性を包括的に論じる。

With the prosperity of e-commerce and web applications, Recommender Systems (RecSys) have become an important component of our daily life, providing personalized suggestions that cater to user preferences. While Deep Neural Networks (DNNs) have made significant advancements in enhancing recommender systems by modeling user-item interactions and incorporating textual side information, DNN-based methods still face limitations, such as difficulties in understanding users' interests and capturing textual side information, inabilities in generalizing to various recommendation scenarios and reasoning on their predictions, etc. Meanwhile, the emergence of Large Language Models (LLMs), such as ChatGPT and GPT4, has revolutionized the fields of Natural Language Processing (NLP) and Artificial Intelligence (AI), due to their remarkable abilities in fundamental responsibilities of language understanding and generation, as well as impressive generalization and reasoning capabilities. As a result, recent studies have attempted to harness the power of LLMs to enhance recommender systems. Given the rapid evolution of this research direction in recommender systems, there is a pressing need for a systematic overview that summarizes existing LLM-empowered recommender systems, to provide researchers in relevant fields with an in-depth understanding. Therefore, in this paper, we conduct a comprehensive review of LLM-empowered recommender systems from various aspects including Pre-training, Fine-tuning, and Prompting. More specifically, we first introduce representative methods to harness the power of LLMs (as a feature encoder) for learning representations of users and items. Then, we review recent techniques of LLMs for enhancing recommender systems from three paradigms, namely pre-training, fine-tuning, and prompting. Finally, we comprehensively discuss future directions in this emerging field.
翻訳日:2024-04-18 19:50:03 公開日:2024-04-17
# 質問応答に対する指示追従モデルの正確性と忠実度の評価

Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering ( http://arxiv.org/abs/2307.16877v2 )

ライセンス: Link先を確認
Vaibhav Adlakha, Parishad BehnamGhader, Xing Han Lu, Nicholas Meade, Siva Reddy, (参考訳) Retriever-augmented instruction-following modelは、質問応答(QA)のような情報検索タスクのための微調整されたアプローチの魅力的な代替品である。 取得した文書をインストラクションとともに入力にプリプレッションすることで、これらのモデルは追加の微調整なしで様々な情報領域やタスクに適応することができる。 モデル応答は自然で流動的である傾向にあるが、追加の冗長性により、モデル性能を正確に定量化するための正確なマッチング(EM)やF1のような従来のQA評価指標は信頼できない。 本研究では,3つの情報探索QAタスクにおける命令追従モデルの性能について検討する。 我々は、これらのモデルを2次元に沿って評価するために、自動評価と人的評価の両方を使用します。 1)ユーザの情報ニーズ(正確性)をどの程度満足させるか、そして 2) 提供された知識(信心性)に基づいて回答を得られるか否か。 人間の評価と分析によって導かれ、正確性と忠実性の両方において従来の指標の欠点を強調した。 次に、これらのモデルの真のパフォーマンスを反映した単純なトークンオーバーラップとモデルベースのメトリクスを提案する。 分析の結果,命令追従モデルは競争力があり,時には微調整モデルよりも精度が高いことが判明した。 しかし、これらのモデルは提供された知識に固執し、しばしばその反応に幻覚を与えるのに苦労する。 我々の研究は、QAのための命令追従モデルのより包括的な評価を促進することを願っている。 私たちのコードとデータはhttps://github.com/McGill-NLP/instruct-qaで公開されています。

Retriever-augmented instruction-following models are attractive alternatives to fine-tuned approaches for information-seeking tasks such as question answering (QA). By simply prepending retrieved documents in its input along with an instruction, these models can be adapted to various information domains and tasks without additional fine-tuning. While the model responses tend to be natural and fluent, the additional verbosity makes traditional QA evaluation metrics such as exact match (EM) and F1 unreliable for accurately quantifying model performance. In this work, we investigate the performance of instruction-following models across three information-seeking QA tasks. We use both automatic and human evaluation to evaluate these models along two dimensions: 1) how well they satisfy the user's information need (correctness), and 2) whether they produce a response based on the provided knowledge (faithfulness). Guided by human evaluation and analysis, we highlight the shortcomings of traditional metrics for both correctness and faithfulness. We then propose simple token-overlap based and model-based metrics that reflect the true performance of these models. Our analysis reveals that instruction-following models are competitive, and sometimes even outperform fine-tuned models for correctness. However, these models struggle to stick to the provided knowledge and often hallucinate in their responses. We hope our work encourages a more holistic evaluation of instruction-following models for QA. Our code and data is available at https://github.com/McGill-NLP/instruct-qa
翻訳日:2024-04-18 19:50:03 公開日:2024-04-17
# 学習したモデルに適応してアップデートされたアプリをテストする

Testing Updated Apps by Adapting Learned Models ( http://arxiv.org/abs/2308.05549v2 )

ライセンス: Link先を確認
Chanh-Duc Ngo, Fabrizio Pastore, Lionel Briand, (参考訳) アプリの更新は頻繁に行われており、ソフトウェアエンジニアは更新された機能のみを検証する必要があるが、自動テスト技術はアプリ全体を検証し、そのためリソースを浪費している。 学習されたモデルの継続的適応(CALM:Continuous Adaptation of Learned Models)は、アプリの更新を効率よくテストする自動テスト手法である。 CALMは機能テストに重点を置いている。 機能的正当性は、主にAppスクリーンの視覚的検査によって検証できるため、CALMは、ソフトウェアテスタによって視覚化されるAppスクリーンの数を最小限に抑えつつ、更新されたメソッドや命令の比率を最大化する。 経験的評価の結果,CALMは6つの最先端アプローチよりも更新手法と命令の比率が有意に高く,同じ数のAppスクリーンを視覚的に検査できることがわかった。 さらに、ごく少数のメソッドが更新される一般的なアップデートシナリオでは、CALMは競合するすべてのアプローチを、より重要な方法でより高速に上回る。

Although App updates are frequent and software engineers would like to verify updated features only, automated testing techniques verify entire Apps and are thus wasting resources. We present Continuous Adaptation of Learned Models (CALM), an automated App testing approach that efficiently test App updates by adapting App models learned when automatically testing previous App versions. CALM focuses on functional testing. Since functional correctness can be mainly verified through the visual inspection of App screens, CALM minimizes the number of App screens to be visualized by software testers while maximizing the percentage of updated methods and instructions exercised. Our empirical evaluation shows that CALM exercises a significantly higher proportion of updated methods and instructions than six state-of-the-art approaches, for the same maximum number of App screens to be visually inspected. Further, in common update scenarios, where only a small fraction of methods are updated, CALM is even quicker to outperform all competing approaches in a more significant way.
翻訳日:2024-04-18 19:40:10 公開日:2024-04-17
# 一般粒度表記法(Long Version)における差分プライバシーの構成

Composition in Differential Privacy for General Granularity Notions (Long Version) ( http://arxiv.org/abs/2308.14649v2 )

ライセンス: Link先を確認
Patricia Guerra-Balboa, Àlex Miranda-Pascual, Javier Parra-Arnau, Thorsten Strufe, (参考訳) 差分プライバシー(DP)の合成定理により、データキュレーターは異なるアルゴリズムを組み合わせてDPを満たす新しいアルゴリズムを得ることができる。 しかし、古典的な合成定理がカバーしていないという文献には、新しい粒度の概念(すなわち、近傍の定義)、データ領域、構成設定が出現している。 例えば、原平行合成定理は一般の粒度の概念によく翻訳されない。 これにより、新しい設定でDP機構を構成する機会が複雑になり、構成後のプライバシー損失の正確な推定値が得られる。 これらの制約を克服するため、一般のフレームワークにおけるDPの構成可能性や、データドメインや近傍の定義について検討する。 独立版と適応版の両方で一般的な合成定理を与え、近似的、ゼロ集中型、ガウスDPに対して類似した合成結果を与える。 さらに,最適な構成境界を得るために必要な仮説について検討する。 私たちの定理は、並列およびシーケンシャルな構成設定の両方をカバーする。 重要なことに、これらはすべての設定をカバーしています。これにより、コンポジションの最終的なプライバシ損失を、精度を大幅に向上して計算することができます。

The composition theorems of differential privacy (DP) allow data curators to combine different algorithms to obtain a new algorithm that continues to satisfy DP. However, new granularity notions (i.e., neighborhood definitions), data domains, and composition settings have appeared in the literature that the classical composition theorems do not cover. For instance, the original parallel composition theorem does not translate well to general granularity notions. This complicates the opportunity of composing DP mechanisms in new settings and obtaining accurate estimates of the incurred privacy loss after composition. To overcome these limitations, we study the composability of DP in a general framework and for any kind of data domain or neighborhood definition. We give a general composition theorem in both independent and adaptive versions and we provide analogous composition results for approximate, zero-concentrated, and Gaussian DP. Besides, we study the hypothesis needed to obtain the best composition bounds. Our theorems cover both parallel and sequential composition settings. Importantly, they also cover every setting in between, allowing us to compute the final privacy loss of a composition with greatly improved accuracy.
翻訳日:2024-04-18 19:40:10 公開日:2024-04-17
# Adaptive Lasso, Transfer Lasso, and Beyond: Asymptotic Perspective

Adaptive Lasso, Transfer Lasso, and Beyond: An Asymptotic Perspective ( http://arxiv.org/abs/2308.15838v2 )

ライセンス: Link先を確認
Masaaki Takada, Hironori Fujisawa, (参考訳) 本稿では,Adaptive LassoとTransfer Lassoに固有の理論的性質を包括的に探求する。 アダプティブ・ラッソ(Adaptive Lasso)は、よく確立された手法であり、初期推定器によって分割された正規化を採用し、漸近正規性と変分整合を特徴とする。 対照的に、最近提案されたTransfer Lassoでは、非漸近的推定誤差を削減できる能力を持つ初期推定器によって抽出される正規化を採用している。 アダプティブ・ラッソとトランスファー・ラッソが初期推定器を用いている異なる方法を考えると、この格差はそれぞれの方法にどのような利点や欠点があるのか? 本稿では,トランスファーラッソの漸近特性に関する理論的検討を行い,適応ラッソとの違いを解明する。 そこで本研究では,両手法の弱点を補う新しい手法を提案する。 本稿では,本理論の検証とシミュレーション実験による手法の比較を行った。

This paper presents a comprehensive exploration of the theoretical properties inherent in the Adaptive Lasso and the Transfer Lasso. The Adaptive Lasso, a well-established method, employs regularization divided by initial estimators and is characterized by asymptotic normality and variable selection consistency. In contrast, the recently proposed Transfer Lasso employs regularization subtracted by initial estimators with the demonstrated capacity to curtail non-asymptotic estimation errors. A pivotal question thus emerges: Given the distinct ways the Adaptive Lasso and the Transfer Lasso employ initial estimators, what benefits or drawbacks does this disparity confer upon each method? This paper conducts a theoretical examination of the asymptotic properties of the Transfer Lasso, thereby elucidating its differentiation from the Adaptive Lasso. Informed by the findings of this analysis, we introduce a novel method, one that amalgamates the strengths and compensates for the weaknesses of both methods. The paper concludes with validations of our theory and comparisons of the methods via simulation experiments.
翻訳日:2024-04-18 19:40:10 公開日:2024-04-17
# HIVE:シナリオベースの分解と自動ヒント抽出によるスケーラブルハードウェアファームウェアの共検証

HIVE: Scalable Hardware-Firmware Co-Verification using Scenario-based Decomposition and Automated Hint Extraction ( http://arxiv.org/abs/2309.08002v2 )

ライセンス: Link先を確認
Aruna Jayasena, Prabhat Mishra, (参考訳) ハードウェア確認ソフトの共検証は、信頼できるシステムの設計に不可欠である。 形式的手法は検証の保証を提供するが、ファームウェアとハードウェアの複雑さのため、状態空間の爆発につながる可能性がある。 ハードウェアを手動で抽象化したり、ヒントを手動で生成することで、ファームウェア検証中の状態空間を削減できる有望な方法がある。 抽象化やヒントを手作業で開発するにはドメインの専門知識が必要で、時間がかかりエラーが発生しやすいため、誤った証明や不正確な結果につながる可能性がある。 本稿では,シミュレーションに基づく検証のスケーラビリティと形式検証の完全性とを効果的に組み合わせる。 提案手法は,正式なモデル生成やヒント抽出において手作業による介入を必要とせず,実際のファームウェアやハードウェアの実装に適用可能である。 状態空間の複雑さを低減するため,静的モジュールレベルの解析と検証シナリオの動的実行の両方を用いてシステムレベルのヒントを自動的に生成する。 これらのヒントは、証明を用いてスケーラブルな等価チェックを実行するために、基礎となる解法を導く。 抽出されたヒントは、証明に使用する前に実装に対して検証される。 RISC-Vに基づくシステムにおいて,シナリオベースの分解と自動ヒント抽出により,提案手法がスケーラブルであることを示す。 さらに、我々の完全に自動化されたフレームワークは、実際のファームウェア・ハードウエア実装における複雑なバグを特定することができる。

Hardware-firmware co-verification is critical to design trustworthy systems. While formal methods can provide verification guarantees, due to the complexity of firmware and hardware, it can lead to state space explosion. There are promising avenues to reduce the state space during firmware verification through manual abstraction of hardware or manual generation of hints. Manual development of abstraction or hints requires domain expertise and can be time-consuming and error-prone, leading to incorrect proofs or inaccurate results. In this paper, we effectively combine the scalability of simulation-based validation and the completeness of formal verification. Our proposed approach is applicable to actual firmware and hardware implementations without requiring any manual intervention during formal model generation or hint extraction. To reduce the state space complexity, we utilize both static module-level analysis and dynamic execution of verification scenarios to automatically generate system-level hints. These hints guide the underlying solver to perform scalable equivalence checking using proofs. The extracted hints are validated against the implementation before using them in the proofs. Experimental evaluation on RISC-V based systems demonstrates that our proposed framework is scalable due to scenario-based decomposition and automated hint extraction. Moreover, our fully automated framework can identify complex bugs in actual firmware-hardware implementations.
翻訳日:2024-04-18 19:40:10 公開日:2024-04-17
# ギャップを埋める:オープンワールドセミスーパービジョンラーニングのための学習ペース同期

Bridging the Gap: Learning Pace Synchronization for Open-World Semi-Supervised Learning ( http://arxiv.org/abs/2309.11930v2 )

ライセンス: Link先を確認
Bo Ye, Kai Gan, Tong Wei, Min-Ling Zhang, (参考訳) オープンワールド半教師付き学習において、機械学習モデルはラベル付きデータから新しいカテゴリを抽出し、ラベル付きデータから見るカテゴリのパフォーマンスを維持する。 モデルは、正確な監督情報によって、前者をより早く学習する。 また,ラベル情報不足のため,未ラベルの新規カテゴリのセマンティクスの取得も困難である。 上記の問題に対処するため、紹介する。 1) モデル偏差を軽減するためにクラス固有の負のマージンを課するアダプティブ・シンクロナイジング・限界損失、及び 2) モデルによって予測される擬似ラベルを利用して同一カテゴリの未ラベルデータを出力空間にまとめる擬似ラベルコントラストクラスタリングを行う。 ベンチマークデータセットに対する大規模な実験により、従来の手法は新しいクラス学習を著しく阻害することが示されたが、我々の手法は目に見えるクラスと新しいクラスの間の学習速度を著しくバランスさせ、ImageNetデータセットの平均精度が顕著に3%向上した。 重要なことは、自己教師付き事前学習モデルの微調整によって性能が著しく向上し、従来の文献では見落とされてしまうことである。 私たちのコードはhttps://github.com/yebo0216best/LPS-mainで利用可能です。

In open-world semi-supervised learning, a machine learning model is tasked with uncovering novel categories from unlabeled data while maintaining performance on seen categories from labeled data. The central challenge is the substantial learning gap between seen and novel categories, as the model learns the former faster due to accurate supervisory information. Moreover, capturing the semantics of unlabeled novel category samples is also challenging due to the missing label information. To address the above issues, we introduce 1) the adaptive synchronizing marginal loss which imposes class-specific negative margins to alleviate the model bias towards seen classes, and 2) the pseudo-label contrastive clustering which exploits pseudo-labels predicted by the model to group unlabeled data from the same category together in the output space. Extensive experiments on benchmark datasets demonstrate that previous approaches may significantly hinder novel class learning, whereas our method strikingly balances the learning pace between seen and novel classes, achieving a remarkable 3% average accuracy increase on the ImageNet dataset. Importantly, we find that fine-tuning the self-supervised pre-trained model significantly boosts the performance, which is overlooked in prior literature. Our code is available at https://github.com/yebo0216best/LPS-main.
翻訳日:2024-04-18 19:40:10 公開日:2024-04-17
# MEVをスリップさせない: Uniswap プロトコルのスワッピングコスト

Don't Let MEV Slip: The Costs of Swapping on the Uniswap Protocol ( http://arxiv.org/abs/2309.13648v2 )

ライセンス: Link先を確認
Austin Adams, Benjamin Y Chan, Sarit Markovich, Xin Wan, (参考訳) 本稿では、分散取引所(DEX)における取引コストの詳細な評価について述べる。 2つのプール(USDC-ETH(5bps)とPEPE-ETH(30bps))のUnixwap Labsインターフェースからの引用価格を利用して、DEXの取引効率を評価します。 また、リオーダースリップ(reordering slippage)と呼ばれるトランザクションの再注文によるスリップの定量化と識別を行う方法も提案する。 取引コストの構成は、取引の特性によって大きく異なることが分かりました。 特に小さなスワップでは、ガスコストがコストを上回りますが、大きなスワップでは価格への影響と滑り込みが大部分を占めています。 また,PEPEを取引する際には,USDCのような成熟した資産を取引する場合よりも,対向すべりの確率が約80%高い。 全体として、私たちの結果は、デジタル資産を取引するための中央集権的な取引所に対して、DECが説得力のある信頼のない代替手段を提供するという予備的な証拠を提供する。

We present the first in-depth empirical characterization of the costs of trading on a decentralized exchange (DEX). Using quoted prices from the Uniswap Labs interface for two pools -- USDC-ETH (5bps) and PEPE-ETH (30bps) -- we evaluate the efficiency of trading on DEXs. Our main tool is slippage -- the difference between the realized execution price of a trade, and its quoted price -- which we breakdown into its benign and adversarial components. We also present an alternative way to quantify and identify slippage due to adversarial reordering of transactions, which we call reordering slippage, that does not require quoted prices or mempool data to calculate. We find that the composition of transaction costs varies tremendously with the trade's characteristics. Specifically, while for small swaps, gas costs dominate costs, for large swaps price-impact and slippage account for the majority of it. Moreover, when trading PEPE, a popular 'memecoin', the probability of adversarial slippage is about 80% higher than when trading a mature asset like USDC. Overall, our results provide preliminary evidence that DEXs offer a compelling trust-less alternative to centralized exchanges for trading digital assets.
翻訳日:2024-04-18 19:40:10 公開日:2024-04-17
# AsymFormer:モバイルプラットフォームリアルタイムRGB-Dセマンティックセマンティックセグメンテーションのための非対称クロスプラットフォーム表現学習

AsymFormer: Asymmetrical Cross-Modal Representation Learning for Mobile Platform Real-Time RGB-D Semantic Segmentation ( http://arxiv.org/abs/2309.14065v7 )

ライセンス: Link先を確認
Siqi Du, Weixi Wang, Renzhong Guo, Ruisheng Wang, Yibin Tian, Shengjun Tang, (参考訳) 屋内の風景を理解することは都市研究にとって不可欠である。 屋内環境の動的特性を考慮すると,実効的なセマンティックセグメンテーションにはリアルタイム操作と高精度の両方が必要であり,ネットワークの複雑さを大幅に増大させることなく,RGB-Dマルチモーダル情報を用いたリアルタイムセマンティックセグメンテーションの精度を向上させる新しいネットワークであるAsymFormerを提案する。 AsymFormerはマルチモーダルな特徴抽出に非対称のバックボーンを使用し、計算資源分布を最適化することで冗長なパラメータを削減する。 非対称なマルチモーダル機能をフューズするために、LAFS(Local Attention-Guided Feature Selection)モジュールを使用して、依存関係を活用することで、異なるモーダルから機能を選択的にフューズする。 その後、CMA(Cross-Modal Attention-Guided Feature correlation Embedding)モジュールを導入し、クロスモーダル表現をさらに抽出する。 AsymFormerは、NYUv2で54.1% mIoU、SUNRGBDで49.1% mIoUの競争結果を示す。 特に、AsymFormer は RTX3090 上で65 FPS (79 FPS) の推論速度を達成し、AsymFormer が高い精度と効率のバランスをとれることを示した。

Understanding indoor scenes is crucial for urban studies. Considering the dynamic nature of indoor environments, effective semantic segmentation requires both real-time operation and high accuracy.To address this, we propose AsymFormer, a novel network that improves real-time semantic segmentation accuracy using RGB-D multi-modal information without substantially increasing network complexity. AsymFormer uses an asymmetrical backbone for multimodal feature extraction, reducing redundant parameters by optimizing computational resource distribution. To fuse asymmetric multimodal features, a Local Attention-Guided Feature Selection (LAFS) module is used to selectively fuse features from different modalities by leveraging their dependencies. Subsequently, a Cross-Modal Attention-Guided Feature Correlation Embedding (CMA) module is introduced to further extract cross-modal representations. The AsymFormer demonstrates competitive results with 54.1% mIoU on NYUv2 and 49.1% mIoU on SUNRGBD. Notably, AsymFormer achieves an inference speed of 65 FPS (79 FPS after implementing mixed precision quantization) on RTX3090, demonstrating that AsymFormer can strike a balance between high accuracy and efficiency.
翻訳日:2024-04-18 19:40:10 公開日:2024-04-17
# 注意満足度:言語モデルの実際の誤りに対する制約満足度レンズ

Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models ( http://arxiv.org/abs/2309.15098v2 )

ライセンス: Link先を確認
Mert Yuksekgonul, Varun Chandrasekaran, Erik Jones, Suriya Gunasekar, Ranjita Naik, Hamid Palangi, Ece Kamar, Besmira Nushi, (参考訳) 本稿では,トランスフォーマーを用いた大規模言語モデル (LLM) の内部動作について検討する。 本稿では,制約満足度問題として事実クエリをモデル化し,LLMが実制約と内部的にどのように相互作用するかを考察する。 制約トークンに対するLLMの注意と世代毎の事実的正確性との間には,強い正の相関関係が認められた。 全スケール(7B,13B,70B)で、Llama-2ファミリーで事実エラーを予測するタスクを研究するために、4万以上のプロンプトを含む10のデータセットをキュレートする。 本稿では,注意パターンを探索するSAT Probeを提案する。これは,事実の誤りやきめ細かな制約満足度を予測し,早期の誤り識別を可能にする手法である。 このアプローチと知見は,LSMの機械的理解を用いて信頼性を高めるための新たな一歩を踏み出した。

We investigate the internal behavior of Transformer-based Large Language Models (LLMs) when they generate factually incorrect text. We propose modeling factual queries as constraint satisfaction problems and use this framework to investigate how the LLM interacts internally with factual constraints. We find a strong positive relationship between the LLM's attention to constraint tokens and the factual accuracy of generations. We curate a suite of 10 datasets containing over 40,000 prompts to study the task of predicting factual errors with the Llama-2 family across all scales (7B, 13B, 70B). We propose SAT Probe, a method probing attention patterns, that can predict factual errors and fine-grained constraint satisfaction, and allow early error identification. The approach and findings take another step towards using the mechanistic understanding of LLMs to enhance their reliability.
翻訳日:2024-04-18 19:40:10 公開日:2024-04-17
# 低品質データによるゼロショット強化学習

Zero-Shot Reinforcement Learning from Low Quality Data ( http://arxiv.org/abs/2309.15178v2 )

ライセンス: Link先を確認
Scott Jeen, Tom Bewley, Jonathan M. Cullen, (参考訳) ゼロショット強化学習(Zero-shot reinforcement learning, RL)は、オフラインで報酬なしの事前トレーニングフェーズの後に、環境内であらゆるタスクを実行できるエージェントを提供することを約束する。 後継尺度と後継特徴を利用する手法はこの設定では高い性能を示してきたが、実際のほとんどの問題には期待できない事前学習のための大きな異種データセットへのアクセスが必要である。 本稿では、ゼロショットRL法の性能が、小さな均一なデータセットでトレーニングされた場合、どのように劣化するかを考察し、パフォーマンスの高い単一タスクオフラインRLアルゴリズムの確立した特徴である保守性に着想を得た修正を提案する。 提案手法は,各種データセット,ドメイン,タスクにまたがって評価し,保守的ゼロショットRLアルゴリズムが低品質データセットにおいて非保守的アルゴリズムよりも優れており,高品質データセットでは悪い結果が得られないことを示す。 驚くべきことに、私たちの提案はトレーニング中にタスクを見るためのベースラインよりも優れています。 私たちのコードはhttps://enjeeneer.io/projects/zero-shot-rl/で利用可能です。

Zero-shot reinforcement learning (RL) promises to provide agents that can perform any task in an environment after an offline, reward-free pre-training phase. Methods leveraging successor measures and successor features have shown strong performance in this setting, but require access to large heterogenous datasets for pre-training which cannot be expected for most real problems. Here, we explore how the performance of zero-shot RL methods degrades when trained on small homogeneous datasets, and propose fixes inspired by conservatism, a well-established feature of performant single-task offline RL algorithms. We evaluate our proposals across various datasets, domains and tasks, and show that conservative zero-shot RL algorithms outperform their non-conservative counterparts on low quality datasets, and perform no worse on high quality datasets. Somewhat surprisingly, our proposals also outperform baselines that get to see the task during training. Our code is available via https://enjeeneer.io/projects/zero-shot-rl/.
翻訳日:2024-04-18 19:40:10 公開日:2024-04-17
# 機械学習におけるLeave-one-out Distinguishability

Leave-one-out Distinguishability in Machine Learning ( http://arxiv.org/abs/2309.17310v4 )

ライセンス: Link先を確認
Jiayuan Ye, Anastasia Borovykh, Soufiane Hayou, Reza Shokri, (参考訳) 本稿では,機械学習アルゴリズムの出力分布の変化を,トレーニングセットにいくつかのデータポイントを含めることで定量化する分析フレームワークを提案する。 これは、データ**記憶*と情報*記憶*と、機械学習におけるデータポイントのトレーニング**影響*とを測る鍵となります。 本手法は,トレーニングデータに関連する記憶とプライバシーのリスクに関する実証的な尺度をいかに拡張し,洗練するかを説明する。 我々はガウス過程を用いて機械学習アルゴリズムのランダム性をモデル化し、メンバーシップ推論攻撃による漏洩の広範な経験的分析によりLOODを検証する。 解析的枠組みにより, 漏洩の原因と漏洩の程度を調査できる。 例えば、アクティベーション関数がデータ記憶に与える影響を分析する。 さらに,本手法では,トレーニングデータに関する最も多くの情報を公開するクエリを,アウト・ワン・アウト・セッティングで特定することができる。 トレーニングデータの正確な**再構成**に最適なクエリをどのように使用できるかを説明する。

We introduce an analytical framework to quantify the changes in a machine learning algorithm's output distribution following the inclusion of a few data points in its training set, a notion we define as leave-one-out distinguishability (LOOD). This is key to measuring data **memorization** and information **leakage** as well as the **influence** of training data points in machine learning. We illustrate how our method broadens and refines existing empirical measures of memorization and privacy risks associated with training data. We use Gaussian processes to model the randomness of machine learning algorithms, and validate LOOD with extensive empirical analysis of leakage using membership inference attacks. Our analytical framework enables us to investigate the causes of leakage and where the leakage is high. For example, we analyze the influence of activation functions, on data memorization. Additionally, our method allows us to identify queries that disclose the most information about the training data in the leave-one-out setting. We illustrate how optimal queries can be used for accurate **reconstruction** of training data.
翻訳日:2024-04-18 19:40:10 公開日:2024-04-17
# アンロックバイアス検出:コンテント分析のためのトランスフォーマーモデルを活用する

Unlocking Bias Detection: Leveraging Transformer-Based Models for Content Analysis ( http://arxiv.org/abs/2310.00347v3 )

ライセンス: Link先を確認
Shaina Raza, Oluwanifemi Bamgbose, Veronica Chatrath, Shardul Ghuge, Yan Sidyakin, Abdullah Y Muaad, (参考訳) テキストにおけるバイアス検出は、負のステレオタイプ、誤情報、偏りのある意思決定の拡散と戦うために不可欠である。 従来の言語モデルは、トレーニングデータを超えて一般化する上で、しばしば課題に直面し、典型的には単一のタスクのために設計され、文レベルでのバイアス検出に焦点を当てる。 これを解決するために、Contextualized Bi-Directional Dual Transformer (CBDT) \textcolor{green}{\faLeaf} 分類器を提案する。 このモデルは、Context TransformerとEntity Transformerの2つの補完的なトランスフォーマーネットワークと、バイアス検出機能の改善に重点を置いている。 テキスト内のバイアスを特定し、特定するために、これらのモデルをトレーニングするためのデータセットを用意しました。 各種データセットを対象とした評価では, 偏りのある物語と中性な物語を識別し, 偏りのある言葉を識別するCBDT \textcolor{green} の有効性が示された。 この研究は、CBDT \textcolor{green} モデルを様々な言語的・文化的文脈に適用する方法を舗装し、バイアス検出におけるその有用性を高める。 また、アノテートされたデータセットを研究目的で利用可能にしています。

Bias detection in text is crucial for combating the spread of negative stereotypes, misinformation, and biased decision-making. Traditional language models frequently face challenges in generalizing beyond their training data and are typically designed for a single task, often focusing on bias detection at the sentence level. To address this, we present the Contextualized Bi-Directional Dual Transformer (CBDT) \textcolor{green}{\faLeaf} classifier. This model combines two complementary transformer networks: the Context Transformer and the Entity Transformer, with a focus on improving bias detection capabilities. We have prepared a dataset specifically for training these models to identify and locate biases in texts. Our evaluations across various datasets demonstrate CBDT \textcolor{green} effectiveness in distinguishing biased narratives from neutral ones and identifying specific biased terms. This work paves the way for applying the CBDT \textcolor{green} model in various linguistic and cultural contexts, enhancing its utility in bias detection efforts. We also make the annotated dataset available for research purposes.
翻訳日:2024-04-18 19:40:10 公開日:2024-04-17
# 映像の動作成分のセグメンテーション:長期的教師なしモデル

Segmenting the motion components of a video: A long-term unsupervised model ( http://arxiv.org/abs/2310.01040v3 )

ライセンス: Link先を確認
Etienne Meunier, Patrick Bouthemy, (参考訳) 人間は動画を継続的に分析し、すぐに動き成分を抽出する能力を持つ。 我々はこのパラダイムを採用して、ビデオシーケンス上のコヒーレントで安定した動きのセグメンテーションを提供したいと思っています。 そこで本研究では,非教師的手法で運用する新しい長期時空間モデルを提案する。 連続する光学フロー(OF)フィールドの体積を入力として、ビデオ上に一連のコヒーレントな動きのセグメントを出力する。 具体的には、数学的に確立されたフレームワークであるELBO(Evidence Lower Bound)を利用して損失関数を導出するトランスフォーマーベースのネットワークを設計した。 損失関数は、空間次元の多項式(四次)運動モデルと、ビデオシーケンスの時間次元のB-スプラインと、セグメントの時間的一貫性を強制する正規化項とを組み合わせた時空間パラメトリック運動モデルを含むフロー再構成項を結合する。 我々は,4つのVOSベンチマーク実験を報告し,競争力のある定量的結果を示すとともに,1回に1回の連続で動きのセグメンテーションを行う。 また,この手法がもたらす時間的整合性に対する重要な貢献について,視覚的結果を通して強調する。

Human beings have the ability to continuously analyze a video and immediately extract the motion components. We want to adopt this paradigm to provide a coherent and stable motion segmentation over the video sequence. In this perspective, we propose a novel long-term spatio-temporal model operating in a totally unsupervised way. It takes as input the volume of consecutive optical flow (OF) fields, and delivers a volume of segments of coherent motion over the video. More specifically, we have designed a transformer-based network, where we leverage a mathematically well-founded framework, the Evidence Lower Bound (ELBO), to derive the loss function. The loss function combines a flow reconstruction term involving spatio-temporal parametric motion models combining, in a novel way, polynomial (quadratic) motion models for the spatial dimensions and B-splines for the time dimension of the video sequence, and a regularization term enforcing temporal consistency on the segments. We report experiments on four VOS benchmarks, demonstrating competitive quantitative results, while performing motion segmentation on a whole sequence in one go. We also highlight through visual results the key contributions on temporal consistency brought by our method.
翻訳日:2024-04-18 19:40:10 公開日:2024-04-17
# 非マルコフ力学における量子メモリの局所的開示

Local disclosure of quantum memory in non-Markovian dynamics ( http://arxiv.org/abs/2310.01205v2 )

ライセンス: Link先を確認
Charlotte Bäcker, Konstantin Beyer, Walter T. Strunz, (参考訳) 非マルコフ過程は、環境自由度の記憶効果によって物理学で生じる可能性がある。 量子非マルコビアン性については、そのようなメモリ効果が検証可能な量子起源を持つかどうか、あるいは古典的メモリによって等しくモデル化されるかどうかを明らかにするための議論が進行中である。 本論文では,真の量子メモリのためのローカルなテスト基準を提案する。 このアプローチは環境に関して非依存であり、利害関係システムの局所力学にのみ依存する。 実験的な実現は特に容易であり、システム自体の単一時間計測のみを行う必要がある。 本研究では,時間差の場合と時間連続力学の場合の両方において,物理的に動機づけられた様々な例の記憶について検討する。 後者の場合、古典的メモリを持つ非マルコフ的マスター方程式の興味深いクラスを提供することができ、物理的に測定可能な量子軌道表現が可能である。

Non-Markovian processes may arise in physics due to memory effects of environmental degrees of freedom. For quantum non-Markovianity, it is an ongoing debate to clarify whether such memory effects have a verifiable quantum origin, or whether they might equally be modeled by a classical memory. In this contribution, we propose a criterion to test locally for a truly quantum memory. The approach is agnostic with respect to the environment, as it solely depends on the local dynamics of the system of interest. Experimental realizations are particularly easy, as only single-time measurements on the system itself have to be performed. We study memory in a variety of physically motivated examples, both for a time-discrete case, and for time-continuous dynamics. For the latter, we are able to provide an interesting class of non-Markovian master equations with classical memory that allows for a physically measurable quantum trajectory representation.
翻訳日:2024-04-18 19:40:10 公開日:2024-04-17
# T$^3$Bench: テキストから3D生成におけるベンチマークの最新動向

T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation ( http://arxiv.org/abs/2310.02977v2 )

ライセンス: Link先を確認
Yuze He, Yushi Bai, Matthieu Lin, Wang Zhao, Yubin Hu, Jenny Sheng, Ran Yi, Juanzi Li, Yong-Jin Liu, (参考訳) テキスト・トゥ・3Dの最近の手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。 特に、これらの手法は3Dデータをトレーニングすることなく高品質な3Dシーンを作成できる。 課題のオープンな性質のため、ほとんどの研究は主観的なケーススタディとユーザ実験で結果を評価しており、この疑問に定量的に対処する上での課題が提示されている。 本稿では,T$^3$Benchについて紹介する。T$^3$Benchは,3次元生成に特化して設計された3つの複雑さレベルの多種多様なテキストプロンプトを含む,最初の総合的なテキスト・ツー・3Dベンチマークである。 主観的品質とテキストアライメントの両方を評価するため、3Dコンテンツから生成された多視点画像に基づく2つの自動メトリクスを提案する。 品質指標は、多視点テキスト画像スコアと地域畳み込みを組み合わせて、品質と不整合を検出する。 アライメントメトリックは、テキスト3Dの一貫性を測定するために、マルチビューキャプションとGPT-4評価を使用する。 どちらの指標も人間の判断の異なる次元と密接に相関し、テキストから3Dモデルを評価するためのパラダイムを提供する。 ベンチマークの結果は、Fig 1で示された。 本分析は, 周辺環境と多目的シーンの生成における現在の手法と, 3次元生成における2次元ガイダンスの活用のボトルネックを更に強調するものである。 私たちのプロジェクトページは、https://t3bench.com.comで公開されています。

Recent methods in text-to-3D leverage powerful pretrained diffusion models to optimize NeRF. Notably, these methods are able to produce high-quality 3D scenes without training on 3D data. Due to the open-ended nature of the task, most studies evaluate their results with subjective case studies and user experiments, thereby presenting a challenge in quantitatively addressing the question: How has current progress in Text-to-3D gone so far? In this paper, we introduce T$^3$Bench, the first comprehensive text-to-3D benchmark containing diverse text prompts of three increasing complexity levels that are specially designed for 3D generation. To assess both the subjective quality and the text alignment, we propose two automatic metrics based on multi-view images produced by the 3D contents. The quality metric combines multi-view text-image scores and regional convolution to detect quality and view inconsistency. The alignment metric uses multi-view captioning and GPT-4 evaluation to measure text-3D consistency. Both metrics closely correlate with different dimensions of human judgments, providing a paradigm for efficiently evaluating text-to-3D models. The benchmarking results, shown in Fig. 1, reveal performance differences among an extensive 10 prevalent text-to-3D methods. Our analysis further highlights the common struggles for current methods on generating surroundings and multi-object scenes, as well as the bottleneck of leveraging 2D guidance for 3D generation. Our project page is available at: https://t3bench.com.
翻訳日:2024-04-18 19:30:24 公開日:2024-04-17
# ChatGPTにおけるジェンダーバイアスはどの程度有効か -- ドイツ語と英語のChatGPT応答を探る

How Prevalent is Gender Bias in ChatGPT? -- Exploring German and English ChatGPT Responses ( http://arxiv.org/abs/2310.03031v2 )

ライセンス: Link先を確認
Stefanie Urchs, Veronika Thurner, Matthias Aßenmacher, Christian Heumann, Stephanie Thiemichen, (参考訳) ChatGPTの導入により、OpenAIは、ITの専門知識に制限のあるユーザに対して、大規模な言語モデル(LLM)をアクセスできるようにした。 しかし、自然言語処理(NLP)のバックグラウンドを持たないユーザは、LLMを適切に理解していないかもしれない。 したがって、それら固有の制限を認識し、従ってシステムの出力をフェースバリューで取り込むことになる。 本稿では,システムアウトプットの処理においてユーザが意識する必要のあるジェンダーバイアスに特化して,潜在的な問題を特定するためのプロンプトと生成した応答を体系的に分析する。 英語やドイツ語のChatGPTが、女性、男性、中立的な視点から答えるように促された場合、どのように反応するかを考察する。 詳細な調査では,選択されたプロンプトを検証し,同じ方法で数回トリガーした場合の応答の程度を解析する。 この結果から,ChatGPTは非ITユーザが日々の作業のためにテキストを起草するのに役立つことがわかった。 しかし、システムの応答のバイアスと構文的および文法的誤りを徹底的にチェックすることは、絶対的に重要である。

With the introduction of ChatGPT, OpenAI made large language models (LLM) accessible to users with limited IT expertise. However, users with no background in natural language processing (NLP) might lack a proper understanding of LLMs. Thus the awareness of their inherent limitations, and therefore will take the systems' output at face value. In this paper, we systematically analyse prompts and the generated responses to identify possible problematic issues with a special focus on gender biases, which users need to be aware of when processing the system's output. We explore how ChatGPT reacts in English and German if prompted to answer from a female, male, or neutral perspective. In an in-depth investigation, we examine selected prompts and analyse to what extent responses differ if the system is prompted several times in an identical way. On this basis, we show that ChatGPT is indeed useful for helping non-IT users draft texts for their daily work. However, it is absolutely crucial to thoroughly check the system's responses for biases as well as for syntactic and grammatical mistakes.
翻訳日:2024-04-18 19:30:24 公開日:2024-04-17
# 無限分解能評価による創発能力の予測

Predicting Emergent Abilities with Infinite Resolution Evaluation ( http://arxiv.org/abs/2310.03262v3 )

ライセンス: Link先を確認
Shengding Hu, Xin Liu, Xu Han, Xinrong Zhang, Chaoqun He, Weilin Zhao, Yankai Lin, Ning Ding, Zebin Ou, Guoyang Zeng, Zhiyuan Liu, Maosong Sun, (参考訳) 大規模言語モデル(LLM)の科学的スケールアップは、そのスケーリング特性を包括的に理解する必要がある。 しかし、既存のスケーリング特性に関する文献では、モデルのサイズが大きくなるにつれて最適化損失は予測通りに減少するが、タスクのスケーリング法則は確立されておらず、スケーリング中にタスクパフォーマンスが予測できないという不完全な答えしか得られていない。 タスクパフォーマンスは、モデルがサイズ閾値を超えると劇的に改善するまで、小さなモデルで小さなゲインを示し、‘emergent abilities’を例示する。 本研究では, 従来の評価手法では測定精度が低かったため, 重要かつ一貫したタスク性能の向上が示されるが, 測定精度が低かったため, 従来の評価手法では得られなかった。 このような改善を測るために、復号フェーズにおける大規模なサンプリングを通じて、理論的に無限の分解能を持つ評価戦略であるPassUntilを導入する。 PassUntilでは,タスクパフォーマンスのスケーリング法則を定量的に検討する。 調査には2つの部分が含まれる。 まず、従来は存在していなかった厳格なタスクスケーリング法を定め、タスク性能の予測可能性を高める。 注目すべきは、トレーニング開始前の0.05\%の偏差だけでコード生成における2.4Bモデルのパフォーマンスを予測できることです。 第二に、創発能力について定量的に研究することができる。 スケーリング曲線が標準スケーリング法則関数に適合できず,速度が向上する,高速化された出現種を同定する。 次に、2つの仮説を検証し、「複数回路仮説」が加速された出現に寄与する可能性を示唆する。

The scientific scale-up of large language models (LLMs) necessitates a comprehensive understanding of their scaling properties. However, the existing literature on the scaling properties only yields an incomplete answer: optimization loss decreases predictably as the model size increases, in line with established scaling law; yet no scaling law for task has been established and the task performances are far from predictable during scaling. Task performances typically show minor gains on small models until they improve dramatically once models exceed a size threshold, exemplifying the ``emergent abilities''. In this study, we discover that small models, although they exhibit minor performance, demonstrate critical and consistent task performance improvements that are not captured by conventional evaluation strategies due to insufficient measurement resolution. To measure such improvements, we introduce PassUntil, an evaluation strategy with theoretically infinite resolution, through massive sampling in the decoding phase. With PassUntil, we conduct a quantitative investigation into the scaling law of task performance. The investigation contains two parts. Firstly, a strict task scaling law that is not conventionally known to exist, is identified, enhancing the predictability of task performances. Remarkably, we are able to predict the performance of the 2.4B model on code generation with merely 0.05\% deviation before training starts, which is the first systematic attempt to verify predictable scaling proposed by GPT-4's report. Secondly, we are able to study emergent abilities quantitatively. We identify a kind of accelerated emergence whose scaling curve cannot be fitted by standard scaling law function and has a increasing speed. We then examine two hypothesis and imply that the ``multiple circuits hypothesis'' might be responsible for the accelerated emergence.
翻訳日:2024-04-18 19:30:24 公開日:2024-04-17
# ソフトウェア工学における大規模言語モデルの批判的レビュー:ChatGPTと自動プログラム修復の例

A Critical Review of Large Language Model on Software Engineering: An Example from ChatGPT and Automated Program Repair ( http://arxiv.org/abs/2310.08879v2 )

ライセンス: Link先を確認
Quanjun Zhang, Tongke Zhang, Juan Zhai, Chunrong Fang, Bowen Yu, Weisong Sun, Zhenyu Chen, (参考訳) 大規模言語モデル(LLM)は注目を集めており、自動プログラム修復(APR)、コードの要約、コード補完など、様々なソフトウェア工学(SE)タスクで有望なパフォーマンスを示している。 例えば、最新のブラックボックスLSMであるChatGPTは、近年多くの研究によって研究されており、様々なタスクにおいて顕著な性能を示している。 しかしながら、これらのLCMは、通常、未知のトレーニング詳細、例えば事前トレーニングデータセットで、クローズソースされているため、データ漏洩の潜在的なリスクがある。 本稿では,ChatGPTのバグ修正機能について,研究目的の異なるクリーンAPRベンチマークで検討する。 最初に、2023年からChatGPTのトレーニングカットポイントの後に、競合プログラミング問題からバギーとそれに対応する修正プログラムを備えた新しいベンチマークである {\benchmark}を紹介した。 以上の結果から,ChatGPTは35ラウンド以内の基本的なプロンプトを用いて,バグジプログラム151件中109件を修正可能であり,最先端のLLM CodeT5とPLBARTを27.5\%,予測精度62.4\%で上回った。 また、問題記述、エラーフィードバック、バグローカライゼーションの3種類のプロンプトの影響を調査し、34の修正バグを発生させた。 さらに、ChatGPTのインタラクティブな性質から、9つの追加バグを伴うダイアログベースの修復ワークフローの能力について、さらに議論する。 これらの知見に触発されて、近い将来にこのようなLCM(eg ,~ChatGPT)を用いた先進的なSE研究の課題と機会を更に特定する。 より重要なことは、我々の研究は、APR上のChatGPTに限らず、様々なSEタスクにまたがる既存のブラックボックスLSMによる成果の再評価に関するさらなる研究を要求することである。

Large Language Models (LLMs) have been gaining increasing attention and demonstrated promising performance across a variety of Software Engineering (SE) tasks, such as Automated Program Repair (APR), code summarization, and code completion. For example, ChatGPT, the latest black-box LLM, has been investigated by numerous recent research studies and has shown impressive performance in various tasks. However, there exists a potential risk of data leakage since these LLMs are usually close-sourced with unknown specific training details, e.g., pre-training datasets. In this paper, we seek to review the bug-fixing capabilities of ChatGPT on a clean APR benchmark with different research objectives. We first introduce {\benchmark}, a new benchmark with buggy and the corresponding fixed programs from competitive programming problems starting from 2023, after the training cutoff point of ChatGPT. The results on {\benchmark} show that ChatGPT is able to fix 109 out of 151 buggy programs using the basic prompt within 35 independent rounds, outperforming state-of-the-art LLMs CodeT5 and PLBART by 27.5\% and 62.4\% prediction accuracy. We also investigate the impact of three types of prompts, i.e., problem description, error feedback, and bug localization, leading to additional 34 fixed bugs. Besides, we provide additional discussion from the interactive nature of ChatGPT to illustrate the capacity of a dialog-based repair workflow with 9 additional fixed bugs. Inspired by the findings, we further pinpoint various challenges and opportunities for advanced SE study equipped with such LLMs (e.g.,~ChatGPT) in the near future. More importantly, our work calls for more research on the reevaluation of the achievements obtained by existing black-box LLMs across various SE tasks, not limited to ChatGPT on APR.
翻訳日:2024-04-18 19:30:24 公開日:2024-04-17
# Qilin-Med:多段階知識注入医療大言語モデル

Qilin-Med: Multi-stage Knowledge Injection Advanced Medical Large Language Model ( http://arxiv.org/abs/2310.09089v2 )

ライセンス: Link先を確認
Qichen Ye, Junling Liu, Dading Chong, Peilin Zhou, Yining Hua, Fenglin Liu, Meng Cao, Ziming Wang, Xuxin Cheng, Zhu Lei, Zhenhua Guo, (参考訳) 大きな言語モデル(LLM)を医療に統合することは大きな可能性を秘めているが、課題に直面している。 医学のような領域でゼロからLLMを事前訓練することは、資源が豊富であり、しばしば不可能である。 一方、Supervised Fine-tuning (SFT) のみに依存すると、自信過剰な予測が発生し、ドメイン固有の洞察を取り入れない可能性がある。 そこで本研究では,ドメイン固有型継続事前学習(DCPT),SFT,DPOを組み合わせた多段階学習手法を提案する。 さらに,医学的質問応答,平文,知識グラフ,対話を含む3Gb Chinese Medicine (ChiMed)データセットを3つの訓練段階に分けて公開する。 当社のパイプラインでトレーニングした医療用LLMであるQilin-Medは、大幅なパフォーマンス向上を示している。 CPTとSFTの段階では、Qilin-MedはCMExamテストセットでそれぞれ38.4%と40.0%の精度を達成した。 ベースモデルBaichuan-7B(精度33.5%)を7.5%上回った。 DPOフェーズでは、BLEU-1で16.66点、Huatuo-26MでROUGE-1で27.44点を記録し、SFTフェーズ(BLEU-1で12.69点、ROUGE-1で24.21点)をさらに改善した。 さらに,Retrieval Augmented Generation (RAG) アプローチにより,モデルの性能をさらに向上させた。 実験により、Qilin-Med-RAGはCMExamで42.8%の精度を達成することが示された。 これらの結果は,医学的応用のためのLSM構築における新たなトレーニングアプローチの貢献を浮き彫りにしている。

Integrating large language models (LLMs) into healthcare holds great potential but faces challenges. Pre-training LLMs from scratch for domains like medicine is resource-heavy and often unfeasible. On the other hand, sole reliance on Supervised Fine-tuning (SFT) can result in overconfident predictions and may not tap into domain-specific insights. In response, we present a multi-stage training method combining Domain-specific Continued Pre-training (DCPT), SFT, and Direct Preference Optimization (DPO). In addition, we publish a 3Gb Chinese Medicine (ChiMed) dataset, encompassing medical question answering, plain texts, knowledge graphs, and dialogues, segmented into three training stages. The medical LLM trained with our pipeline, Qilin-Med, shows substantial performance improvement. In the CPT and SFT phases, Qilin-Med achieved 38.4% and 40.0% accuracy on the CMExam test set, respectively. It outperformed the basemodel Baichuan-7B (accuracy: 33.5%), by 7.5%. In the DPO phase, it scored 16.66 in BLEU-1 and 27.44 in ROUGE-1 on the Huatuo-26M test set, bringing further improvement to the SFT phase (12.69 in BLEU-1 and 24.21 in ROUGE-1). Additionally, we have further enhanced the model's performance through the Retrieval Augmented Generation (RAG) approach. Experiments demonstrate that Qilin-Med-RAG achieves an accuracy rate of 42.8% on CMExam. These results highlight the contribution of our novel training approach in building LLMs for medical applications.
翻訳日:2024-04-18 19:30:24 公開日:2024-04-17
# マルチタスク整合性制約を用いたトランスフォーマーによるマルチモーダル変化検出

Transformer-based Multimodal Change Detection with Multitask Consistency Constraints ( http://arxiv.org/abs/2310.09276v3 )

ライセンス: Link先を確認
Biyuan Liu, Huaixin Chen, Kun Li, Michael Ying Yang, (参考訳) 変化検出は、時間とともに時間的反復を分析するために、地球観測において基本的な役割を果たす。 しかし、近年の研究では、単一モーダルアプローチと比較して、実用的および技術的優位性を示すマルチモーダルデータの利用をほとんど無視している。 本研究では,2次元を超える変化を検出するために,<pre-event>デジタル表面モデル(DSM)データと<post-event>デジタル空中画像を活用することに焦点を当てた。 本研究では,現在行われている変化検出手法が,意味変化検出タスクと高さ変化検出タスクのマルチタスク競合に悩まされていることを観察する。 この課題に対処するために,クロスアテンションによる多次元入力間の共有表現を学習する,効率的なトランスフォーマーベースネットワークを提案する。 これは、マルチモーダル関係を確立するために一貫性制約を採用する。 当初、擬似変化は高さ変化閾値を用いて引き起こされる。 その後、重複領域内の意味的変化と擬似変化の間の$L2$距離を最小化する。 これにより、ハイトチェンジ検出(回帰タスク)とセマンティックチェンジ検出(分類タスク)に表現整合性を持たせることができる。 オランダの3都市を対象とするDSM-to-imageマルチモーダルデータセットを構築した。 二次元の入力から2次元的変化を検出するための新しい基礎を築いている。 提案手法は,5つの現状変化検出手法と比較して,意味的および高さ変化検出の観点から,一貫したマルチタスク優位性を示す。 さらに、一貫性戦略は他の手法にシームレスに適応でき、有望な改善をもたらす。

Change detection plays a fundamental role in Earth observation for analyzing temporal iterations over time. However, recent studies have largely neglected the utilization of multimodal data that presents significant practical and technical advantages compared to single-modal approaches. This research focuses on leveraging {pre-event} digital surface model (DSM) data and {post-event} digital aerial images captured at different times for detecting change beyond 2D. We observe that the current change detection methods struggle with the multitask conflicts between semantic and height change detection tasks. To address this challenge, we propose an efficient Transformer-based network that learns shared representation between cross-dimensional inputs through cross-attention. {It adopts a consistency constraint to establish the multimodal relationship. Initially, pseudo-changes are derived by employing height change thresholding. Subsequently, the $L2$ distance between semantic and pseudo-changes within their overlapping regions is minimized. This explicitly endows the height change detection (regression task) and semantic change detection (classification task) with representation consistency.} A DSM-to-image multimodal dataset encompassing three cities in the Netherlands was constructed. It lays a new foundation for beyond-2D change detection from cross-dimensional inputs. Compared to five state-of-the-art change detection methods, our model demonstrates consistent multitask superiority in terms of semantic and height change detection. Furthermore, the consistency strategy can be seamlessly adapted to the other methods, yielding promising improvements.
翻訳日:2024-04-18 19:30:24 公開日:2024-04-17
# オープンワールドにおけるランニングビデオからのランナー再識別

Runner re-identification from single-view running video in the open-world setting ( http://arxiv.org/abs/2310.11700v2 )

ライセンス: Link先を確認
Tomohiro Suzuki, Kazushi Tsutsui, Kazuya Takeda, Keisuke Fujii, (参考訳) 多くのスポーツにおいて、プレイヤーの再識別は自動ビデオ処理と分析に不可欠である。 しかし,近年の多視点スポーツビデオやシングルビュースポーツビデオにおけるプレイヤー再識別に関する研究の多くは,ラベル付き画像データセットを用いた閉世界設定におけるプレイヤー再識別に焦点を合わせており,自動ビデオ解析のためのオープンワールド設定におけるプレイヤー再識別は未発達である。 本稿では,オープンワールド設定に対処するために,シングルビュー映像を直接処理するランナー再識別システムを提案する。 オープンワールド設定では、ラベル付きデータセットは使用できず、ビデオを直接処理する必要があります。 提案システムは,入力として生映像を自動処理してランナーを識別し,複数回フレームアウトしてもランナーを識別する。 自動処理では、事前に訓練されたYOLOv8と微調整されたEfficientNetを用いて、ビデオ中のランナーを検出する。 次に、ByteTrackを使用してランナーを追跡し、微調整されたYOLOv8で靴を検出する。 最後に、ゲート型再帰ユニットオートエンコーダとグローバルおよびローカルな特徴混合を用いた教師なし手法を用いて、ランナーの画像特徴を抽出する。 ランナー再識別の精度を向上させるため,ランニングシーケンス画像の局所像特徴と動的特徴として靴画像を用いる。 ランニング実践ビデオデータセットを用いてシステム評価を行い,教師なし再同定における最先端モデルよりも高い精度でランナーを特定した。 また,提案する局所画像特徴と実行動的特徴がランニング再同定に有効であることを示した。 ランニングビデオの自動解析には,ランナーの身元確認システムが有用である。

In many sports, player re-identification is crucial for automatic video processing and analysis. However, most of the current studies on player re-identification in multi- or single-view sports videos focus on re-identification in the closed-world setting using labeled image dataset, and player re-identification in the open-world setting for automatic video analysis is not well developed. In this paper, we propose a runner re-identification system that directly processes single-view video to address the open-world setting. In the open-world setting, we cannot use labeled dataset and have to process video directly. The proposed system automatically processes raw video as input to identify runners, and it can identify runners even when they are framed out multiple times. For the automatic processing, we first detect the runners in the video using the pre-trained YOLOv8 and the fine-tuned EfficientNet. We then track the runners using ByteTrack and detect their shoes with the fine-tuned YOLOv8. Finally, we extract the image features of the runners using an unsupervised method with the gated recurrent unit autoencoder and global and local features mixing. To improve the accuracy of runner re-identification, we use shoe images as local image features and dynamic features of running sequence images. We evaluated the system on a running practice video dataset and showed that the proposed method identified runners with higher accuracy than some state-of-the-art models in unsupervised re-identification. We also showed that our proposed local image feature and running dynamic feature were effective for runner re-identification. Our runner re-identification system can be useful for the automatic analysis of running videos.
翻訳日:2024-04-18 19:30:24 公開日:2024-04-17
# バイオメディカルトリプル抽出における大規模ランゲージモデルの作成

Benchingmaking Large Langage Models in Biomedical Triple Extraction ( http://arxiv.org/abs/2310.18463v5 )

ライセンス: Link先を確認
Mingchen Li, Huixue Zhou, Rui Zhang, (参考訳) バイオメディカルトリプル抽出システムは、自動的にバイオメディカルエンティティとエンティティ間の関係を抽出することを目的としている。 大規模言語モデル(LLM)を3重抽出に適用することの探索は、まだ比較的未検討である。 本研究では,主に文レベルのバイオメディカルトリプル抽出に注目した。 さらに,高品質なバイオメディカルトリプル抽出データセットの欠如は,ロバストトリプル抽出システムの開発の進展を妨げている。 これらの課題に対処するため、まず様々な大規模言語モデルの性能を比較する。 さらに,より広範な関係型をカバーする,専門家によるバイオメディカルトリプル抽出データセットであるGITを提案する。

Biomedical triple extraction systems aim to automatically extract biomedical entities and relations between entities. The exploration of applying large language models (LLM) to triple extraction is still relatively unexplored. In this work, we mainly focus on sentence-level biomedical triple extraction. Furthermore, the absence of a high-quality biomedical triple extraction dataset impedes the progress in developing robust triple extraction systems. To address these challenges, initially, we compare the performance of various large language models. Additionally, we present GIT, an expert-annotated biomedical triple extraction dataset that covers a wider range of relation types.
翻訳日:2024-04-18 19:30:24 公開日:2024-04-17
# 非凸確率勾配における非調整一般化ハミルトンモンテカルロの反射結合

Reflection coupling for unadjusted generalized Hamiltonian Monte Carlo in the nonconvex stochastic gradient case ( http://arxiv.org/abs/2310.18774v2 )

ライセンス: Link先を確認
Martin Chak, Pierre Monmarché, (参考訳) ワッサーシュタイン 1-距離の明示的な速度での縮約は、非凸条件下で確率勾配を持つ一般化ハミルトニアン・モンテカルロに対して成立する。 検討されたアルゴリズムは、速度論的ランゲヴィン拡散の分割スキームを含む。 その結果、定量的ガウス濃度境界は経験的平均に対して与えられる。 ワッサーシュタインの2次元距離と全変動の収束性も、数値バイアス推定とともに与えられる。

Contraction in Wasserstein 1-distance with explicit rates is established for generalized Hamiltonian Monte Carlo with stochastic gradients under possibly nonconvex conditions. The algorithms considered include splitting schemes of kinetic Langevin diffusion. As consequence, quantitative Gaussian concentration bounds are provided for empirical averages. Convergence in Wasserstein 2-distance and total variation are also given, together with numerical bias estimates.
翻訳日:2024-04-18 19:30:24 公開日:2024-04-17
# 表面異常を利用したディープフェイク検出:SurFakeアプローチ

Deepfake detection by exploiting surface anomalies: the SurFake approach ( http://arxiv.org/abs/2310.20621v2 )

ライセンス: Link先を確認
Andrea Ciamarra, Roberto Caldelli, Federico Becattini, Lorenzo Seidenari, Alberto Del Bimbo, (参考訳) 日常のさまざまな分野における、あらゆるメディア情報に対する合成コンテンツの利用は、変化したメッセージの拡散を避けるために、ディープフェイク検出ツールを強く必要としています。 操作されたコンテンツ、特に画像やビデオを特定するプロセスは、基本的に、フェイク生成プロセスのために、いくつかの不整合や/または異常の存在を探すことによって実行される。 様々な技術が科学的文献に存在し、様々なアドホックな特徴を活用して修正の可能性を強調している。 本稿では, ディープフェイク生成が, 買収時のシーン全体の特性に与える影響について検討する。 特に、画像(ビデオ)がシーンの全体形状(eg面)をキャプチャし、取得プロセス(eg照明)が画像画素値によって直接表現される単焦点環境を決定する場合、これら固有の関係は、ディープフェイク生成プロセスによって変更される可能性がある。 画像に表される表面の特性を解析することにより、深度検出のためにCNNを訓練するのに使える記述子を得ることができる。 異なる種類のディープフェイクフォージェリーのためのFF++データセットと多種多様なディープラーニングモデルによる実験結果から、プリスタン画像と修正画像の識別にそのような機能を適用できることが確認され、さらに、視覚データと組み合わせることで検出精度を一定に向上させることができることが実証された。

The ever-increasing use of synthetically generated content in different sectors of our everyday life, one for all media information, poses a strong need for deepfake detection tools in order to avoid the proliferation of altered messages. The process to identify manipulated content, in particular images and videos, is basically performed by looking for the presence of some inconsistencies and/or anomalies specifically due to the fake generation process. Different techniques exist in the scientific literature that exploit diverse ad-hoc features in order to highlight possible modifications. In this paper, we propose to investigate how deepfake creation can impact on the characteristics that the whole scene had at the time of the acquisition. In particular, when an image (video) is captured the overall geometry of the scene (e.g. surfaces) and the acquisition process (e.g. illumination) determine a univocal environment that is directly represented by the image pixel values; all these intrinsic relations are possibly changed by the deepfake generation process. By resorting to the analysis of the characteristics of the surfaces depicted in the image it is possible to obtain a descriptor usable to train a CNN for deepfake detection: we refer to such an approach as SurFake. Experimental results carried out on the FF++ dataset for different kinds of deepfake forgeries and diverse deep learning models confirm that such a feature can be adopted to discriminate between pristine and altered images; furthermore, experiments witness that it can also be combined with visual data to provide a certain improvement in terms of detection accuracy.
翻訳日:2024-04-18 19:30:24 公開日:2024-04-17
# 高光子数光猫状態のメトロロジカルロバスト性

Metrological robustness of high photon number optical cat states ( http://arxiv.org/abs/2311.01371v2 )

ライセンス: Link先を確認
Philipp Stammer, Tomás Fernández Martos, Maciej Lewenstein, Grzegorz Rajchel-Mieldzioć, (参考訳) 量子力学の分野では、猫の状態は損失に関して固有の脆弱さにもかかわらず、その実用性を実証している。 本稿では,高光子数状態における位相推定のためのメロジカルロバスト性を示すノイズロバスト光猫状態を紹介する。 これらの猫状態は高調波発生(HHG)の強いレーザー駆動過程から得られ、光子損失に対する耐性を示す。 実験的な不完全性を含む現実的なシナリオに注目して、最良のケースシナリオを分析するのではなく、量子フィッシャー情報(QFI)の下位境界を最大化できるケースを選択する。 その結果, 損失ケースにおけるQFIの減少は, 偶数および奇数と比較してHHG-cat状態に対して抑制されることがわかった。 わずか1光子の小さな損失の状態では、HHG-cat状態はほとんど純度が保たれ、偶数/負の猫状態は急速に最大混合状態に分解される。 さらに重要なことに、これは光子損失に対するHHG-catの強靭性を大幅に向上させ、光子数の高い光猫状態が、損失の存在下においても、メートル法的な応用に実際に利用できることを示した。

In the domain of quantum metrology, cat states have demonstrated their utility despite their inherent fragility with respect to losses. Here, we introduce noise robust optical cat states which exhibit a metrological robustness for phase estimation in the regime of high photon numbers. These cat states are obtained from the intense laser driven process of high harmonic generation (HHG), and show a resilience against photon losses. Focusing on a realistic scenario including experimental imperfections we opt for the case in which we can maximize the lower bound of the quantum Fisher information (QFI) instead of analyzing the best case scenario. We show that the decrease of the QFI in the lossy case is suppressed for the HHG-cat state compared to the even and odd counterparts. In the regime of small losses of just a single photon, the HHG-cat state remains almost pure while the even/odd cat state counterparts rapidly decohere to the maximally mixed state. More importantly, this translates to a significantly enhanced robustness for the HHG-cat against photon loss, demonstrating that high photon number optical cat states can indeed be used for metrological applications even in the presence of losses.
翻訳日:2024-04-18 19:30:24 公開日:2024-04-17
# 言語モデリングの形式的側面

Formal Aspects of Language Modeling ( http://arxiv.org/abs/2311.04329v2 )

ライセンス: Link先を確認
Ryan Cotterell, Anej Svete, Clara Meister, Tianyu Liu, Li Du, (参考訳) 大規模言語モデルは最も一般的なNLP発明の1つとなっている。 過去半年で、彼らの中核となる自然言語処理ツールへの統合は、そうしたツールのパフォーマンスを劇的に向上させ、人工知能を取り巻く公の場に入った。 したがって、開発者も研究者も、大規模言語モデルの数学的基礎や実装方法を理解することが重要である。 これらのノートは、ETH Z\"urich course on large language modelの理論的部分の伴奏であり、形式的、理論的観点から言語モデルを構成するものをカバーしている。

Large language models have become one of the most commonly deployed NLP inventions. In the past half-decade, their integration into core natural language processing tools has dramatically increased the performance of such tools, and they have entered the public discourse surrounding artificial intelligence. Consequently, it is important for both developers and researchers alike to understand the mathematical foundations of large language models, as well as how to implement them. These notes are the accompaniment to the theoretical portion of the ETH Z\"urich course on large language models, covering what constitutes a language model from a formal, theoretical perspective.
翻訳日:2024-04-18 19:30:24 公開日:2024-04-17
# Babelライブラリからの文字列: プロンプト最適化のための強力なベースラインとしてのランダムサンプリング

Strings from the Library of Babel: Random Sampling as a Strong Baseline for Prompt Optimisation ( http://arxiv.org/abs/2311.09569v2 )

ライセンス: Link先を確認
Yao Lu, Jiayi Wang, Raphael Tang, Sebastian Riedel, Pontus Stenetorp, (参考訳) 最近のプロンプト最適化アプローチでは、言語モデルの生成特性を使ってプロンプトを生成します。 本稿では,「セパレータ」としてモデル語彙からランダムにトークンをサンプリングすることは,プロンプトスタイルのテキスト分類における言語モデルと同じくらい効果的であることを示す。 実験の結果、ランダムセパレータは、従来の自己最適化手法に比べて1%未満の差があり、9つのテキスト分類タスクと8つの言語モデルにまたがって、強い人間のベースラインよりも12%平均的な改善が見られた。 さらに、この現象を3つの異なるランダム生成戦略を用いて詳細に分析し、言語空間が有意なセパレータに富んでいることを確認した。 これらの観察は、効果的なプロンプトが人間の可読性またはタスクに関連し、迅速な最適化研究のための強力なベースラインを確立するべきだという一般的な仮定に挑戦する。

Recent prompt optimisation approaches use the generative nature of language models to produce prompts -- even rivaling the performance of human-curated prompts. In this paper, we demonstrate that randomly sampling tokens from the model vocabulary as ``separators'' can be as effective as language models for prompt-style text classification. Our experiments show that random separators are competitive baselines, having less than a 1% difference compared to previous self-optimisation methods and showing a 12% average relative improvement over strong human baselines across nine text classification tasks and eight language models. We further analyse this phenomenon in detail using three different random generation strategies, establishing that the language space is rich with potentially good separators, with a greater than 40% average chance that a randomly drawn separator performs better than human-curated separators. These observations challenge the common assumption that an effective prompt should be human readable or task relevant and establish a strong baseline for prompt optimisation research.
翻訳日:2024-04-18 19:30:24 公開日:2024-04-17
# ML-Bench:リポジトリレベルの機械学習タスクにおけるコード生成のための大規模言語モデルの評価

ML-Bench: Evaluating Large Language Models for Code Generation in Repository-Level Machine Learning Tasks ( http://arxiv.org/abs/2311.09835v2 )

ライセンス: Link先を確認
Yuliang Liu, Xiangru Tang, Zefan Cai, Junjie Lu, Yichi Zhang, Yanjun Shao, Zexuan Deng, Helan Hu, Kaikai An, Ruijun Huang, Shuzheng Si, Sheng Chen, Haozhe Zhao, Liang Chen, Yan Wang, Tianyu Liu, Zhiwei Jiang, Baobao Chang, Yujia Qin, Wangchunshu Zhou, Yilun Zhao, Arman Cohan, Mark Gerstein, (参考訳) 大規模言語モデル(LLM)は、コード生成ベンチマークの習熟度を示しているが、これらの結果を実践的な開発シナリオ(既存のリポジトリレベルのライブラリを活用するのが一般的である)に変換することは、依然として困難である。 実験室規模のベンチマークと実世界のコーディングプラクティスのギャップを埋めるために、ML-Benchを紹介します。 ML-Benchは18のGitHubリポジトリから派生した169の異なるタスクにわたる9,641のサンプルで構成されている。 GPT-4は他のLSMより優れているが、33.82%のタスクにしか対応せず、課題の複雑さを強調している。 相補的に,優れたコードベースナビゲーションと機能コードセグメントの正確な生成が可能なベースラインエージェントML-Agentを導入する。 本研究は,現実のプログラミングの複雑さを扱える,より洗練されたLLMエージェントの開発を支援することを目的としている。 私たちのコード、データ、モデルはhttps://github.com/gersteinlab/ML-bench.orgで公開されています。

While Large Language Models (LLMs) have demonstrated proficiency in code generation benchmarks, translating these results into practical development scenarios - where leveraging existing repository-level libraries is the norm - remains challenging. To bridge the gap between lab-scale benchmarks and real-world coding practices, we introduce ML-Bench: a novel benchmark designed to assess LLMs' ability to integrate and utilize repository-level open-source libraries to complete machine learning tasks. ML-Bench comprises a diverse set of 9,641 samples across 169 distinct tasks derived from 18 GitHub repositories. Our findings reveal that while GPT-4 outshines other LLMs, it successfully addresses only 33.82% of the tasks, highlighting the complexity of the challenge. Complementarily, we introduce a baseline agent, ML-Agent, capable of skillful codebase navigation and precise generation of functional code segments. This groundwork aims at catalyzing the development of more sophisticated LLM agents that can handle the intricacies of real-world programming. Our code, data, and models are available at https://github.com/gersteinlab/ML-bench.
翻訳日:2024-04-18 19:20:39 公開日:2024-04-17
# A2XP: プライベートドメインの一般化に向けて

A2XP: Towards Private Domain Generalization ( http://arxiv.org/abs/2311.10339v2 )

ライセンス: Link先を確認
Geunhyeok Yu, Hyoseok Hwang, (参考訳) ディープニューラルネットワーク(DNN)は様々な分野、特にコンピュータビジョンにおいて重要な役割を担い、従来の手法よりも優れている。 デプロイメントにおける重要な課題は、イメージスタイルや環境条件など、さまざまな領域にまたがるデータに固有のバイアスが、ドメインのギャップにつながることだ。 この手法は、偏りのある訓練データから一般表現を学習する技術を必要とする。 本稿では,ネットワークアーキテクチャのプライバシと整合性を維持するドメイン一般化の新しいアプローチである,eXpert Prompts (A2XP)について述べる。 A2XPはExpert AdaptationとDomain Generalizationの2つのフェーズで構成されている。 第1フェーズでは、各ソースドメインに対するプロンプトが最適化され、モデルを最適な方向へ導く。 第2フェーズでは、2つの埋め込みネットワークがトレーニングされ、これらのエキスパートプロンプトを効果的にアマルゲイトし、最適な出力を目指しています。 我々は,A2XPが既存の非私的領域一般化法よりも最先端の結果を得られることを実証した。 実験結果は,提案手法がDNNの領域一般化問題に対処するだけでなく,コンピュータビジョンの幅広い分野に対して,プライバシ保護と効率的なソリューションを提供することを示した。

Deep Neural Networks (DNNs) have become pivotal in various fields, especially in computer vision, outperforming previous methodologies. A critical challenge in their deployment is the bias inherent in data across different domains, such as image style and environmental conditions, leading to domain gaps. This necessitates techniques for learning general representations from biased training data, known as domain generalization. This paper presents Attend to eXpert Prompts (A2XP), a novel approach for domain generalization that preserves the privacy and integrity of the network architecture. A2XP consists of two phases: Expert Adaptation and Domain Generalization. In the first phase, prompts for each source domain are optimized to guide the model towards the optimal direction. In the second phase, two embedder networks are trained to effectively amalgamate these expert prompts, aiming for an optimal output. Our extensive experiments demonstrate that A2XP achieves state-of-the-art results over existing non-private domain generalization methods. The experimental results validate that the proposed approach not only tackles the domain generalization challenge in DNNs but also offers a privacy-preserving, efficient solution to the broader field of computer vision.
翻訳日:2024-04-18 19:20:39 公開日:2024-04-17
# クリップバイアスのない個人用SGD : エラーフィードバックアプローチ

Differentially Private SGD Without Clipping Bias: An Error-Feedback Approach ( http://arxiv.org/abs/2311.14632v2 )

ライセンス: Link先を確認
Xinwei Zhang, Zhiqi Bu, Zhiwei Steven Wu, Mingyi Hong, (参考訳) Differentially Private Stochastic Gradient Descent with Gradient Clipping (DPSGD-GC)は、センシティブなデータを使用してディープラーニングモデルをトレーニングする強力なツールである。 しかし、DPSGD-GCを用いることで、差分プライバシー(DP)がDPノイズインジェクションと勾配クリッピングによってモデル性能の低下を引き起こすことを保証する。 既存の研究では、DPSGD-GCの理論的収束を広く分析し、問題固有のパラメータに依存する大きなクリッピング閾値を使用する場合にのみ収束することが示されている。 残念ながら、これらのパラメータは実際にはよく知られておらず、最適なクリッピングしきい値を選択することは困難である。 したがって、実際には、DPSGD-GCはクリッピングによって引き起こされる {\it constant} バイアスによって劣化した性能に悩まされる。 本研究では,DPSGD-GCに代わる新しい誤りフィードバック(EF)DPアルゴリズムを提案する。 本稿では,提案アルゴリズムに対して,R{\'e}nyi DPに基づくプライバシ保証を提供するアルゴリズム固有のDP解析手法を確立する。 さらに, 緩やかな条件下では, 勾配クリッピングを伴わずにDPSGDとほぼ同等の効用が得られることを示した。 我々のCifar-10/100データセットとE2Eデータセットに対する実験結果から,提案アルゴリズムはDP保証レベルを維持しつつ,DPSGDよりも高い精度を達成することが示された。

Differentially Private Stochastic Gradient Descent with Gradient Clipping (DPSGD-GC) is a powerful tool for training deep learning models using sensitive data, providing both a solid theoretical privacy guarantee and high efficiency. However, using DPSGD-GC to ensure Differential Privacy (DP) comes at the cost of model performance degradation due to DP noise injection and gradient clipping. Existing research has extensively analyzed the theoretical convergence of DPSGD-GC, and has shown that it only converges when using large clipping thresholds that are dependent on problem-specific parameters. Unfortunately, these parameters are often unknown in practice, making it hard to choose the optimal clipping threshold. Therefore, in practice, DPSGD-GC suffers from degraded performance due to the {\it constant} bias introduced by the clipping. In our work, we propose a new error-feedback (EF) DP algorithm as an alternative to DPSGD-GC, which not only offers a diminishing utility bound without inducing a constant clipping bias, but more importantly, it allows for an arbitrary choice of clipping threshold that is independent of the problem. We establish an algorithm-specific DP analysis for our proposed algorithm, providing privacy guarantees based on R{\'e}nyi DP. Additionally, we demonstrate that under mild conditions, our algorithm can achieve nearly the same utility bound as DPSGD without gradient clipping. Our empirical results on Cifar-10/100 and E2E datasets, show that the proposed algorithm achieves higher accuracies than DPSGD while maintaining the same level of DP guarantee.
翻訳日:2024-04-18 19:20:39 公開日:2024-04-17
# VehicleGAN: 車両再識別のためのPair-flexible Poseガイド画像合成

VehicleGAN: Pair-flexible Pose Guided Image Synthesis for Vehicle Re-identification ( http://arxiv.org/abs/2311.16278v3 )

ライセンス: Link先を確認
Baolu Li, Ping Liu, Lan Fu, Jinlong Li, Jianwu Fang, Zhigang Xu, Hongkai Yu, (参考訳) 車両再識別(Re-ID)は、過去10年間に広く研究されてきたが、様々なポーズの車両の特徴部分空間において、異なるカメラビュー角が混同され、現実世界の車両再識別モデルでは依然として困難である。 そこで本研究では,多種多様なポーズの車両を統一されたターゲットポーズに投影し,特徴の識別を高めることを目的として,多数の車両イメージを対象ポーズに合成することを提案する。 異なる交通監視カメラにおける同一車両のペア化データが現実世界では利用できない可能性があることを考慮し, 幾何学的3次元モデルの知識を必要とせず, 教師なしと教師なしの両方で機能する, 車両用リレーIDのためのPair-flexible Pose Guided Image Synthesis法を提案する。 実データと合成データの特徴分布の違いから,従来の計量学習に基づくRe-IDモデルをデータレベルでの融合(すなわちデータ拡張)で訓練することは不十分であり,実データと合成データの両方から有効な特徴レベルの融合を通した新しいジョイントメトリックラーニング(JML)を提案する。 パブリックなVeRi-776とVaviIDデータセットの総合的な実験結果から,提案したVaviGANとJMLの精度と有効性が確認された。

Vehicle Re-identification (Re-ID) has been broadly studied in the last decade; however, the different camera view angle leading to confused discrimination in the feature subspace for the vehicles of various poses, is still challenging for the Vehicle Re-ID models in the real world. To promote the Vehicle Re-ID models, this paper proposes to synthesize a large number of vehicle images in the target pose, whose idea is to project the vehicles of diverse poses into the unified target pose so as to enhance feature discrimination. Considering that the paired data of the same vehicles in different traffic surveillance cameras might be not available in the real world, we propose the first Pair-flexible Pose Guided Image Synthesis method for Vehicle Re-ID, named as VehicleGAN in this paper, which works for both supervised and unsupervised settings without the knowledge of geometric 3D models. Because of the feature distribution difference between real and synthetic data, simply training a traditional metric learning based Re-ID model with data-level fusion (i.e., data augmentation) is not satisfactory, therefore we propose a new Joint Metric Learning (JML) via effective feature-level fusion from both real and synthetic data. Intensive experimental results on the public VeRi-776 and VehicleID datasets prove the accuracy and effectiveness of our proposed VehicleGAN and JML.
翻訳日:2024-04-18 19:20:39 公開日:2024-04-17
# MV-CLIP:ゼロショット3次元形状認識のためのマルチビューCLIP

MV-CLIP: Multi-View CLIP for Zero-shot 3D Shape Recognition ( http://arxiv.org/abs/2311.18402v2 )

ライセンス: Link先を確認
Dan Song, Xinwei Fu, Weizhi Nie, Wenhui Li, Lanjun Wang, You Yang, Anan Liu, (参考訳) 大規模な事前訓練モデルでは、オープンワールドシナリオにおける視覚と言語タスクのパフォーマンスが著しく向上している。 近年,3次元形状に対する事前学習モデルが不足しているため,ゼロショット3次元形状認識を実現するために言語画像事前学習が用いられている。 しかし、モダリティギャップのため、事前訓練された言語画像モデルは3次元形状認識への一般化に十分な自信を持っていない。 そこで本稿は、ビュー選択と階層的プロンプトによる信頼性の向上を目的としている。 例として、CLIPモデルを応用し、3次元形状の複数の描画されたビューから高い予測信頼度を持つビューを識別することにより、視覚面のビュー選択を採用する。 テキスト側では、階層的なプロンプトの戦略が初めて提案される。 第1の層は、いくつかの分類候補に伝統的なクラスレベルの記述を与え、第2の層は、関数レベルの記述や候補間のさらなる区別に基づいて予測を洗練させる。 ここでは,ModelNet40,ModelNet10,ShapeNet Core55でそれぞれ84.44%,91.51%,66.17%のゼロショット3D分類精度を達成した。 さらに、この領域の再現性やさらなる研究を容易にするために、コードを公開します。

Large-scale pre-trained models have demonstrated impressive performance in vision and language tasks within open-world scenarios. Due to the lack of comparable pre-trained models for 3D shapes, recent methods utilize language-image pre-training to realize zero-shot 3D shape recognition. However, due to the modality gap, pretrained language-image models are not confident enough in the generalization to 3D shape recognition. Consequently, this paper aims to improve the confidence with view selection and hierarchical prompts. Leveraging the CLIP model as an example, we employ view selection on the vision side by identifying views with high prediction confidence from multiple rendered views of a 3D shape. On the textual side, the strategy of hierarchical prompts is proposed for the first time. The first layer prompts several classification candidates with traditional class-level descriptions, while the second layer refines the prediction based on function-level descriptions or further distinctions between the candidates. Remarkably, without the need for additional training, our proposed method achieves impressive zero-shot 3D classification accuracies of 84.44%, 91.51%, and 66.17% on ModelNet40, ModelNet10, and ShapeNet Core55, respectively. Furthermore, we will make the code publicly available to facilitate reproducibility and further research in this area.
翻訳日:2024-04-18 19:20:39 公開日:2024-04-17
# 顔部分分割の幾何学的誘導による3次元顔再構成

3D Face Reconstruction with the Geometric Guidance of Facial Part Segmentation ( http://arxiv.org/abs/2312.00311v3 )

ライセンス: Link先を確認
Zidu Wang, Xiangyu Zhu, Tianshuo Zhang, Baiqin Wang, Zhen Lei, (参考訳) 3D Morphable Models (3DMM) は様々な用途で有望な3D顔再構成を提供する。 しかし、既存の方法では、スパースや不正確なランドマークなどの監督信号の欠陥により、極端な表現で顔の再構築に苦慮している。 セグメント情報には、顔再構成のための効果的な幾何学的コンテキストが含まれている。 ある試みは直感的に微分可能なレンダラーに頼って再構成のレンダリングされたシルエットとセグメンテーションを比較し、これは局所最適や勾配不安定のような問題を引き起こす。 本稿では,部分再投射距離損失(PRDL)を導入し,顔部分のセグメンテーションを十分に活用する。 具体的には、PRDLは顔部分のセグメンテーションを2Dポイントに変換し、再構成を画像面に再投影する。 その後、グリッドアンカーを導入し、これらのアンカーから点集合への異なる統計距離を計算することにより、PRDLは顔再構成のための点集合の分布を最適化するための幾何学記述子を確立する。 PRDLは、レンダラーベースの手法と比較して明確な勾配を示し、広範囲な量的および定性的な実験において、最先端の再構築性能を示す。 私たちのプロジェクトはhttps://github.com/wang-zidu/3DDFA-V3で利用可能です。

3D Morphable Models (3DMMs) provide promising 3D face reconstructions in various applications. However, existing methods struggle to reconstruct faces with extreme expressions due to deficiencies in supervisory signals, such as sparse or inaccurate landmarks. Segmentation information contains effective geometric contexts for face reconstruction. Certain attempts intuitively depend on differentiable renderers to compare the rendered silhouettes of reconstruction with segmentation, which is prone to issues like local optima and gradient instability. In this paper, we fully utilize the facial part segmentation geometry by introducing Part Re-projection Distance Loss (PRDL). Specifically, PRDL transforms facial part segmentation into 2D points and re-projects the reconstruction onto the image plane. Subsequently, by introducing grid anchors and computing different statistical distances from these anchors to the point sets, PRDL establishes geometry descriptors to optimize the distribution of the point sets for face reconstruction. PRDL exhibits a clear gradient compared to the renderer-based methods and presents state-of-the-art reconstruction performance in extensive quantitative and qualitative experiments. Our project is available at https://github.com/wang-zidu/3DDFA-V3 .
翻訳日:2024-04-18 19:20:39 公開日:2024-04-17
# Retina : イベントカメラとスパイクハードウェアを用いた低消費電力アイトラッキング

Retina : Low-Power Eye Tracking with Event Camera and Spiking Hardware ( http://arxiv.org/abs/2312.00425v2 )

ライセンス: Link先を確認
Pietro Bonazzi, Sizhen Bian, Giovanni Lippolis, Yawei Li, Sadique Sheik, Michele Magno, (参考訳) 本稿では、ダイナミック・ビジョン・センサー(DVS)カメラで捉えた純粋な事象データを利用した、視線追跡のためのニューロモルフィック手法を提案する。 このフレームワークは、直接訓練されたスパイキングニューロンネットワーク(SNN)回帰モデルを統合し、最新の最先端の低消費電力エッジニューロモルフィックプロセッサであるSpeckを活用する。 まず、30名のボランティアから2台のガラス搭載DVSカメラで収集した、代表的なイベントベースのアイトラッキングデータセット「Ini-30」を紹介した。 次に、Integrate And Fire (IAF) ニューロンをベースとした SNN モデル "Retina" について記述し、64k パラメータ(最新の 6.63 倍)のみを特徴とし、64x64 DVS 入力でわずか 3.24 ピクセルの瞳孔追跡誤差を達成している。 連続回帰出力は、出力スパイキング層にスライドした非スパイキング時間1Dフィルタを用いて畳み込みにより得られる。 最後に、ニューロモルフィックプロセッサ上で網膜を評価し、時間ウィンドウに依存する2.89-4.8 mWと5.57-8.01 mSのレイテンシのエンドツーエンドのパワーを示す。 また、イベントフレーム上に構築された最新のイベントベースのアイトラッキング手法である"3ET"に対して、当社のモデルをベンチマークする。 その結果、網膜は1.24pxの瞳孔偏心誤差を低減し、計算複雑性を35倍のMAC演算で低減できることがわかった。 この研究は、クローズループニューロモルフィックソリューションのさらなる研究と、エッジパフォーマンスを追求する真のイベントベースのトレーニングのための道を開くことを願っている。

This paper introduces a neuromorphic methodology for eye tracking, harnessing pure event data captured by a Dynamic Vision Sensor (DVS) camera. The framework integrates a directly trained Spiking Neuron Network (SNN) regression model and leverages a state-of-the-art low power edge neuromorphic processor - Speck, collectively aiming to advance the precision and efficiency of eye-tracking systems. First, we introduce a representative event-based eye-tracking dataset, "Ini-30", which was collected with two glass-mounted DVS cameras from thirty volunteers. Then,a SNN model, based on Integrate And Fire (IAF) neurons, named "Retina", is described , featuring only 64k parameters (6.63x fewer than the latest) and achieving pupil tracking error of only 3.24 pixels in a 64x64 DVS input. The continous regression output is obtained by means of convolution using a non-spiking temporal 1D filter slided across the output spiking layer. Finally, we evaluate Retina on the neuromorphic processor, showing an end-to-end power between 2.89-4.8 mW and a latency of 5.57-8.01 mS dependent on the time window. We also benchmark our model against the latest event-based eye-tracking method, "3ET", which was built upon event frames. Results show that Retina achieves superior precision with 1.24px less pupil centroid error and reduced computational complexity with 35 times fewer MAC operations. We hope this work will open avenues for further investigation of close-loop neuromorphic solutions and true event-based training pursuing edge performance.
翻訳日:2024-04-18 19:20:39 公開日:2024-04-17
# 拡散モデルを保存するPACプライバシ

PAC Privacy Preserving Diffusion Models ( http://arxiv.org/abs/2312.01201v3 )

ライセンス: Link先を確認
Qipan Xu, Youlong Ding, Xinxi Zhang, Jie Gao, Hao Wang, (参考訳) データプライバシー保護は、研究者の間で注目を集めている。 拡散モデル(DM)、特に厳密な差分プライバシーは、高いプライバシーと視覚的品質の両方で画像を生成する可能性がある。 しかしながら、特定のデータ属性の民営化において堅牢な保護を確保すること、現在のモデルがしばしば不足する領域などの課題が発生する。 これらの課題に対処するため,PACプライバシー保護拡散モデル(PAC Privacy Preserving Diffusion Model)を導入する。 我々は、Langevinサンプリングプロセスにプライベート分類器ガイダンスを統合することにより、プライバシー保護を強化する。 さらに、モデルのプライバシを測定する際のギャップを認識し、プライバシレベルを測定するための新しい指標を開発した。 PACバウンドに対するガウス行列計算によって評価された本モデルでは,ベンチマークテストにより,既存の主要なプライベート生成モデルに比べて,プライバシ保護性能が優れていた。

Data privacy protection is garnering increased attention among researchers. Diffusion models (DMs), particularly with strict differential privacy, can potentially produce images with both high privacy and visual quality. However, challenges arise such as in ensuring robust protection in privatizing specific data attributes, areas where current models often fall short. To address these challenges, we introduce the PAC Privacy Preserving Diffusion Model, a model leverages diffusion principles and ensure Probably Approximately Correct (PAC) privacy. We enhance privacy protection by integrating a private classifier guidance into the Langevin Sampling Process. Additionally, recognizing the gap in measuring the privacy of models, we have developed a novel metric to gauge privacy levels. Our model, assessed with this new metric and supported by Gaussian matrix computations for the PAC bound, has shown superior performance in privacy protection over existing leading private generative models according to benchmark tests.
翻訳日:2024-04-18 19:20:39 公開日:2024-04-17
# D$^2$ST-Adapter:Few-shot行動認識のための不整形と変形可能な時空間適応器

D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition ( http://arxiv.org/abs/2312.01431v2 )

ライセンス: Link先を確認
Wenjie Pei, Qizhong Tan, Guangming Lu, Jiandong Tian, (参考訳) 大規模な事前学習された画像モデルを数発のアクション認識に適応させることは、数発の学習に不可欠である頑健な特徴抽出器を学習する上で、効果的かつ効率的な戦略であることが証明されている。 典型的な微調整ベースの適応パラダイムは、数ショットの学習シナリオで過度に適合する傾向があり、ビデオデータの時間的特徴を学習するためのモデリングの柔軟性がほとんどない。 本研究では,D$^2$ST-Adapter (Disentangled-and-Deformable Spatio-Temporal Adapter, D$^2$ST-Adapter) を提案する。 空間的特徴と時間的特徴を絡み合った方法で符号化するデュアルパスアーキテクチャで設計されている。 特に,D$^2$ST-Adapterのコアコンポーネントとして異方性変形型時空間アテンションモジュールを考案し,空間的および時間的領域に沿って異方性サンプリング密度を調整し,対応する経路で特に空間的・時間的特徴を学習し,D$^2$ST-Adapterにより3次元時空間のグローバルな視野における特徴を符号化し,軽量な設計を維持した。 プレトレーニングされたResNetとViTの両方における本手法のインスタンス化による広範囲な実験は、数発のアクション認識のための最先端の手法よりも、本手法が優れていることを示す。 本手法は,時間的ダイナミクスが行動認識に不可欠である難易度シナリオに特に適している。

Adapting large pre-trained image models to few-shot action recognition has proven to be an effective and efficient strategy for learning robust feature extractors, which is essential for few-shot learning. Typical fine-tuning based adaptation paradigm is prone to overfitting in the few-shot learning scenarios and offers little modeling flexibility for learning temporal features in video data. In this work we present the Disentangled-and-Deformable Spatio-Temporal Adapter (D$^2$ST-Adapter), which is a novel adapter tuning framework well-suited for few-shot action recognition due to lightweight design and low parameter-learning overhead. It is designed in a dual-pathway architecture to encode spatial and temporal features in a disentangled manner. In particular, we devise the anisotropic Deformable Spatio-Temporal Attention module as the core component of D$^2$ST-Adapter, which can be tailored with anisotropic sampling densities along spatial and temporal domains to learn spatial and temporal features specifically in corresponding pathways, allowing our D$^2$ST-Adapter to encode features in a global view in 3D spatio-temporal space while maintaining a lightweight design. Extensive experiments with instantiations of our method on both pre-trained ResNet and ViT demonstrate the superiority of our method over state-of-the-art methods for few-shot action recognition. Our method is particularly well-suited to challenging scenarios where temporal dynamics are critical for action recognition.
翻訳日:2024-04-18 19:20:39 公開日:2024-04-17
# Re-Nerfing:新しいビュー合成による新しいビュー合成の改善

Re-Nerfing: Improving Novel Views Synthesis through Novel Views Synthesis ( http://arxiv.org/abs/2312.02255v2 )

ライセンス: Link先を確認
Felix Tristram, Stefano Gasperini, Nassir Navab, Federico Tombari, (参考訳) ニューラル・ラジアンス・フィールド(Neural Radiance Fields、NeRF)は、数百のビューを必要とするにもかかわらず、大規模で無制限のシーンでも、スペーサー設定でアーティファクトを導入することで、目覚ましいビュー合成能力を示している。 それらの最適化は、小さな視覚的重なりしか持たない形状のあいまいさに悩まされる。 これは誤ったシーンの幾何学やアーティファクトに繋がる。 本稿では,これらの制約に対処するためのNeRF独自のビュー合成機能を活用する,シンプルで汎用的な多段階データ拡張手法であるRe-Nerfingを提案する。 Re-Nerfingでは、新しいビューの幾何学的整合性を高める。 そして、最適化されたNeRFを用いて、元のビューに関する擬似ビューをビュー選択戦略で合成し、カバレッジを改善し、ビュー品質を維持する。 最後に、原画像と疑似ビューの両方が不確実領域を隠蔽する第2のNeRFを訓練する。 Gaussian Splattingを含む、mip-NeRF 360データセット上のさまざまなパイプラインにRe-Nerfingを適用する大規模な実験は、より密集したスペーサー入力シナリオにおいて、外部データや監視なしで達成可能な改善に関する貴重な洞察を提供する。 プロジェクトページ: https://renerfing.github.io

Neural Radiance Fields (NeRFs) have shown remarkable novel view synthesis capabilities even in large-scale, unbounded scenes, albeit requiring hundreds of views or introducing artifacts in sparser settings. Their optimization suffers from shape-radiance ambiguities wherever only a small visual overlap is available. This leads to erroneous scene geometry and artifacts. In this paper, we propose Re-Nerfing, a simple and general multi-stage data augmentation approach that leverages NeRF's own view synthesis ability to address these limitations. With Re-Nerfing, we enhance the geometric consistency of novel views as follows: First, we train a NeRF with the available views. Then, we use the optimized NeRF to synthesize pseudo-views around the original ones with a view selection strategy to improve coverage and preserve view quality. Finally, we train a second NeRF with both the original images and the pseudo views masking out uncertain regions. Extensive experiments applying Re-Nerfing on various pipelines on the mip-NeRF 360 dataset, including Gaussian Splatting, provide valuable insights into the improvements achievable without external data or supervision, on denser and sparser input scenarios. Project page: https://renerfing.github.io
翻訳日:2024-04-18 19:20:39 公開日:2024-04-17
# 非等角形状マッチングのためのハイブリッド関数写像

Hybrid Functional Maps for Crease-Aware Non-Isometric Shape Matching ( http://arxiv.org/abs/2312.03678v2 )

ライセンス: Link先を確認
Lennart Bastian, Yizheng Xie, Nassir Navab, Zorah Lähner, (参考訳) 非等尺形状対応はコンピュータビジョンの基本的な課題である。 Laplace-Beltrami演算子 (LBO) を用いた従来の手法は、曲げやクレーゼのような高周波外形変化を特徴付けるために、限界に直面している。 本稿では,LBOの固有関数と弾性薄殻ヘシアンの固有関数の非直交外部基底を結合し,汎函数写像を構成するハイブリッドスペクトル空間を創出する手法を提案する。 そこで本研究では,非直交基底関数を記述子および学習に基づく関数マップ手法に効果的に統合する理論的枠組みを提案する。 我々のアプローチは、様々なアプリケーションにまたがる既存の機能的マップパイプラインに簡単に組み込むことができ、アイソメトリーを超えた複雑な変形を処理できる。 各種の教師なしおよび教師なしの設定に対して広範囲な評価を行い,大幅な改善を示した。 提案手法は,非等尺対応設定における測地誤差を最大15%改善し,トポロジカルノイズのあるシナリオでは最大45%改善した。

Non-isometric shape correspondence remains a fundamental challenge in computer vision. Traditional methods using Laplace-Beltrami operator (LBO) eigenmodes face limitations in characterizing high-frequency extrinsic shape changes like bending and creases. We propose a novel approach of combining the non-orthogonal extrinsic basis of eigenfunctions of the elastic thin-shell hessian with the intrinsic ones of the LBO, creating a hybrid spectral space in which we construct functional maps. To this end, we present a theoretical framework to effectively integrate non-orthogonal basis functions into descriptor- and learning-based functional map methods. Our approach can be incorporated easily into existing functional map pipelines across varying applications and is able to handle complex deformations beyond isometries. We show extensive evaluations across various supervised and unsupervised settings and demonstrate significant improvements. Notably, our approach achieves up to 15% better mean geodesic error for non-isometric correspondence settings and up to 45% improvement in scenarios with topological noise.
翻訳日:2024-04-18 19:20:39 公開日:2024-04-17
# MICRO:保守的ベルマン演算子を用いたモデルベースオフライン強化学習

MICRO: Model-Based Offline Reinforcement Learning with a Conservative Bellman Operator ( http://arxiv.org/abs/2312.03991v2 )

ライセンス: Link先を確認
Xiao-Yin Liu, Xiao-Hu Zhou, Guotao Li, Hao Li, Mei-Jiang Gui, Tian-Yu Xiang, De-Xing Huang, Zeng-Guang Hou, (参考訳) オフライン強化学習(RL)は分布シフトの大きな課題に直面している。 モデルフリーオフラインRLは、アウト・オブ・ディストリビューション(OOD)データに対するQ値や、この問題に対処するために行動ポリシーに閉じたポリシーを罰するが、これはOOD領域の探索を阻害する。 モデルベースオフラインRLは、トレーニングされた環境モデルを用いて、より多くのOODデータを生成し、そのモデル内で保守的なポリシー最適化を行う。 しかし、現在のモデルベースアルゴリズムは、保守主義をポリシーに組み込む際に、エージェントの堅牢性を考慮することは稀である。 そこで,保守的ベルマン演算子 (MICRO) を用いた新しいモデルベースオフラインアルゴリズムを提案する。 この方法は、堅牢なベルマン演算子をアルゴリズムに導入することで、性能と堅牢性をトレードオフする。 MICROは、従来のモデルベースアルゴリズムと頑健な逆数モデルと比較して、状態不確実性セットの最小Q値のみを選択することで、計算コストを大幅に削減することができる。 大規模な実験により、MICROはオフラインのRLベンチマークにおいて以前のRLアルゴリズムよりも優れており、敵の摂動に対してかなり堅牢であることが示された。

Offline reinforcement learning (RL) faces a significant challenge of distribution shift. Model-free offline RL penalizes the Q value for out-of-distribution (OOD) data or constrains the policy closed to the behavior policy to tackle this problem, but this inhibits the exploration of the OOD region. Model-based offline RL, which uses the trained environment model to generate more OOD data and performs conservative policy optimization within that model, has become an effective method for this problem. However, the current model-based algorithms rarely consider agent robustness when incorporating conservatism into policy. Therefore, the new model-based offline algorithm with a conservative Bellman operator (MICRO) is proposed. This method trades off performance and robustness via introducing the robust Bellman operator into the algorithm. Compared with previous model-based algorithms with robust adversarial models, MICRO can significantly reduce the computation cost by only choosing the minimal Q value in the state uncertainty set. Extensive experiments demonstrate that MICRO outperforms prior RL algorithms in offline RL benchmark and is considerably robust to adversarial perturbations.
翻訳日:2024-04-18 19:10:55 公開日:2024-04-17
# StructComp: グラフコントラスト学習における構造圧縮による伝達の代替

StructComp: Substituting propagation with Structural Compression in Training Graph Contrastive Learning ( http://arxiv.org/abs/2312.04865v2 )

ライセンス: Link先を確認
Shengzhong Zhang, Wenjie Yang, Xinyuan Cao, Hongwei Zhang, Zengfeng Huang, (参考訳) グラフコントラスト学習(GCL)は、グラフデータを学習するための強力なツールとなっているが、そのスケーラビリティは依然として大きな課題である。 本研究では,この問題を解決するために,構造圧縮(StructComp)と呼ばれるシンプルで効果的なトレーニングフレームワークを提案する。 拡散行列上の疎低ランク近似にインスパイアされたStructCompは、圧縮ノードでエンコーダを訓練する。 これにより、エンコーダはトレーニング期間中にメッセージパッシングを行わず、対照的な損失でサンプルペアの数を大幅に削減できる。 理論的には、元のGCL損失はStructCompによって計算された対照的な損失と近似できる。 さらに、StructCompはGCLモデルのさらなる正規化用語と見なすことができ、より堅牢なエンコーダとなる。 様々なデータセットに関する実証的研究により、StructCompは、バニラGCLモデルやスケーラブルなトレーニング手法と比較して、モデルパフォーマンスを改善しながら、時間とメモリ消費を大幅に削減することが示された。

Graph contrastive learning (GCL) has become a powerful tool for learning graph data, but its scalability remains a significant challenge. In this work, we propose a simple yet effective training framework called Structural Compression (StructComp) to address this issue. Inspired by a sparse low-rank approximation on the diffusion matrix, StructComp trains the encoder with the compressed nodes. This allows the encoder not to perform any message passing during the training stage, and significantly reduces the number of sample pairs in the contrastive loss. We theoretically prove that the original GCL loss can be approximated with the contrastive loss computed by StructComp. Moreover, StructComp can be regarded as an additional regularization term for GCL models, resulting in a more robust encoder. Empirical studies on various datasets show that StructComp greatly reduces the time and memory consumption while improving model performance compared to the vanilla GCL models and scalable training methods.
翻訳日:2024-04-18 19:10:55 公開日:2024-04-17
# メタラーニングにおけるタスク共同創設者のハック

Hacking Task Confounder in Meta-Learning ( http://arxiv.org/abs/2312.05771v2 )

ライセンス: Link先を確認
Jingyao Wang, Yi Ren, Zeen Song, Jianqi Zhang, Changwen Zheng, Wenwen Qiang, (参考訳) メタラーニングは、様々なタスクから知識を学習することで、新しいタスクへの迅速な一般化を可能にする。 トレーニングが進むにつれて、モデルはより豊かな知識を獲得し、より良い一般化性能をもたらすと直感的に仮定される。 しかし,本実験では,タスク間の負の知識伝達が一般化性能に影響を及ぼすという予期せぬ結果が得られた。 この現象を説明するために、我々は因果解析のための構造因果モデル(Structure Causal Models, SCMs)を実施している。 メタラーニングにおいて,タスク固有の因果関係因子とラベルとの間に急激な相関関係があることを明らかにする。 さらに、相違要因はバッチによって異なる。 これらの相反する要因を ``Task Confounders" と呼ぶ。 これらの知見に基づいて,タスク共同創設者の排除を目的としたメタ学習因果表現学習システム(MetaCRL)を提案する。 複数のタスクから生成する因子をエンコードし、不変なバイレベル最適化機構を使用して、メタ学習の因果性を保証する。 様々なベンチマークデータセットに対する大規模な実験により、我々の研究がSOTA(State-of-the-art)のパフォーマンスを達成することを示す。

Meta-learning enables rapid generalization to new tasks by learning knowledge from various tasks. It is intuitively assumed that as the training progresses, a model will acquire richer knowledge, leading to better generalization performance. However, our experiments reveal an unexpected result: there is negative knowledge transfer between tasks, affecting generalization performance. To explain this phenomenon, we conduct Structural Causal Models (SCMs) for causal analysis. Our investigation uncovers the presence of spurious correlations between task-specific causal factors and labels in meta-learning. Furthermore, the confounding factors differ across different batches. We refer to these confounding factors as ``Task Confounders". Based on these findings, we propose a plug-and-play Meta-learning Causal Representation Learner (MetaCRL) to eliminate task confounders. It encodes decoupled generating factors from multiple tasks and utilizes an invariant-based bi-level optimization mechanism to ensure their causality for meta-learning. Extensive experiments on various benchmark datasets demonstrate that our work achieves state-of-the-art (SOTA) performance.
翻訳日:2024-04-18 19:10:55 公開日:2024-04-17
# SuperPrimitive: 原始レベルでのシーン再構築

SuperPrimitive: Scene Reconstruction at a Primitive Level ( http://arxiv.org/abs/2312.05889v2 )

ライセンス: Link先を確認
Kirill Mazur, Gwangbin Bae, Andrew J. Davison, (参考訳) 連写カメラのポーズと画像やモノクロビデオからの密度の高い幾何学的推定は、その計算複雑性と固有の視覚的曖昧さのため、依然として難しい問題である。 多くの高密度増分再構成システムは、画像画素を直接操作し、多視点幾何学的手がかりを用いて3次元位置を解く。 このようなピクセルレベルのアプローチは、多視点整合性の曖昧さや違反(例えば、テクスチャレスや特異面によって引き起こされる)に悩まされる。 我々はスーパープリミティブ(SuperPrimitive)と呼ばれる新しいイメージ表現でこの問題に対処する。 超プリミティブは、イメージを意味的に相関した局所領域に分割し、それらを予測された表面正規方向で拡張することで得られる。 これはスーパープリミティブ当たりの局所幾何学的推定を提供し、相対的な位置は多視点観測に基づいて調整される。 本研究は,3つの3次元再構成タスク,奥行きの完了,動きからの少数視点構造,モノクロ高密度視覚計測の3つの課題に対処することで,新しい表現の汎用性を実証する。

Joint camera pose and dense geometry estimation from a set of images or a monocular video remains a challenging problem due to its computational complexity and inherent visual ambiguities. Most dense incremental reconstruction systems operate directly on image pixels and solve for their 3D positions using multi-view geometry cues. Such pixel-level approaches suffer from ambiguities or violations of multi-view consistency (e.g. caused by textureless or specular surfaces). We address this issue with a new image representation which we call a SuperPrimitive. SuperPrimitives are obtained by splitting images into semantically correlated local regions and enhancing them with estimated surface normal directions, both of which are predicted by state-of-the-art single image neural networks. This provides a local geometry estimate per SuperPrimitive, while their relative positions are adjusted based on multi-view observations. We demonstrate the versatility of our new representation by addressing three 3D reconstruction tasks: depth completion, few-view structure from motion, and monocular dense visual odometry.
翻訳日:2024-04-18 19:10:55 公開日:2024-04-17
# EgoPlan-Bench: マルチモーダルな大規模言語モデルによるエゴセントリックな実施計画のベンチマーク

EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal Large Language Models ( http://arxiv.org/abs/2312.06722v2 )

ライセンス: Link先を確認
Yi Chen, Yuying Ge, Yixiao Ge, Mingyu Ding, Bohao Li, Rui Wang, Ruifeng Xu, Ying Shan, Xihui Liu, (参考訳) 大規模言語モデル(LLM)の顕著な推論と一般化能力と視覚的入力の理解能力を組み合わせたマルチモーダル大規模言語モデルが,具体的タスク計画のための新たな道を開いた。 リアルタイムタスクの進行、視覚観察、オープンフォーム言語指示などの多様な環境入力を前提として、熟練したタスクプランナーは、マルチモーダル大規模言語モデル(MLLM)によって本質的に達成可能な、実行可能なアクションを予測することが期待されている。 本稿では,エゴプランベンチ(EgoPlan-Bench)というアノテーションを用いたベンチマークを導入することで,実環境シナリオにおけるMLLMの具体的タスクプランナとしての可能性について定量的に検討することを目的とする。 我々のベンチマークは、現実世界のビデオから得られた現実的なタスク、何百もの異なるオブジェクトとのインタラクションを含む多様なアクションセット、そして様々なシーンからの複雑な視覚的観察によって区別されている。 我々はMLLMを幅広く評価し、これらのモデルがまだ具体化計画ジェネラリスト(GPT-4V)に進化していないことを明らかにした。 実世界の複雑な状況下での高レベルのタスクプランニングの学習を容易にするため、人間とオブジェクトの相互作用のあるビデオからインストラクションチューニングデータセットEgoPlan-ITを構築した。 実験結果から,EgoPlan-ITで調整したモデルでは,ベンチマークの性能が大幅に向上するだけでなく,シミュレーションにおいて具体的エージェントを導くタスクプランナとしても適用可能であることが示された。

Multimodal Large Language Models, combining the remarkable reasoning and generalization capabilities of Large Language Models (LLMs) with the ability to comprehend visual inputs, have opened up new avenues for embodied task planning. Given diverse environmental inputs, including real-time task progress, visual observations, and open-form language instructions, a proficient task planner is expected to predict feasible actions, which is a feat inherently achievable by Multimodal Large Language Models (MLLMs). In this paper, we aim to quantitatively investigate the potential of MLLMs as embodied task planners in real-world scenarios by introducing a benchmark with human annotations named EgoPlan-Bench. Our benchmark is distinguished by realistic tasks derived from real-world videos, a diverse set of actions involving interactions with hundreds of different objects, and complex visual observations from varied scenes. We evaluate a wide range of MLLMs, revealing that these models have not yet evolved into embodied planning generalists (even GPT-4V). We further construct an instruction-tuning dataset EgoPlan-IT from videos with human-object interactions, to facilitate the learning of high-level task planning in intricate real-world situations. The experiment results demonstrate that the model tuned on EgoPlan-IT not only significantly improves performance on our benchmark, but can also be applied as a task planner for guiding embodied agents in simulations.
翻訳日:2024-04-18 19:10:55 公開日:2024-04-17
# 大規模言語モデルアライメントの多様化

On Diversified Preferences of Large Language Model Alignment ( http://arxiv.org/abs/2312.07401v4 )

ライセンス: Link先を確認
Dun Zeng, Yong Dai, Pengyu Cheng, Longyue Wang, Tianhao Hu, Wanshun Chen, Nan Du, Zenglin Xu, (参考訳) 大規模言語モデル(LLM)を人間の好みに合わせることが,LLMのインタラクション品質向上の鍵であると認識されている。 しかし、この多元的世界では、アノテータの嗜好が異なるため、人間の嗜好が多様化し、LCMアライメント手法の有効性を妨げている。 本稿では,ヒトのフィードバックデータセットを定量的に分析し,多彩な嗜好が報酬モデルに与える影響について検討する。 本研究では,報酬モデル(RM)の校正性能とLLMのアライメント性能の相関関係を明らかにする。 その結果,Hamless\&Helpfulなどの人為的嗜好に対するRMの校正性能に悪影響を及ぼし,LCMのアライメント性能を損なうことがわかった。 そこで本研究では, RMの校正性能を向上するMORE(Multi-Objective Reward Learning Method)を提案する。 3つのモデルと5つの人間の嗜好データセットを用いた実験により,本研究の結果を検証した。 提案手法はRMの予測キャリブレーションを大幅に改善し,Alpaca-7BモデルとHarmless\&Helpfulの好みとの整合性が向上する。 さらに,報奨校正性能と選好アライメント性能の関連性から,キャリブレーション誤差がRM評価の指標となることが示唆された。 オープンソースコードとデータはhttps://github.com/dunzeng/MOREで公開されている。

Aligning large language models (LLMs) with human preferences has been recognized as the key to improving LLMs' interaction quality. However, in this pluralistic world, human preferences can be diversified due to annotators' different tastes, which hinders the effectiveness of LLM alignment methods. This paper presents the first quantitative analysis of commonly used human feedback datasets to investigate the impact of diversified preferences on reward modeling. Our analysis reveals a correlation between the calibration performance of reward models (RMs) and the alignment performance of LLMs. We find that diversified preference data negatively affect the calibration performance of RMs on human-shared preferences, such as Harmless\&Helpful, thereby impairing the alignment performance of LLMs. To address the ineffectiveness, we propose a novel Multi-Objective Reward learning method (MORE) to enhance the calibration performance of RMs on shared preferences. We validate our findings by experiments on three models and five human preference datasets. Our method significantly improves the prediction calibration of RMs, leading to better alignment of the Alpaca-7B model with Harmless\&Helpful preferences. Furthermore, the connection between reward calibration and preference alignment performance suggests that calibration error can be adopted as a key metric for evaluating RMs. The open-source code and data are available at https://github.com/dunzeng/MORE.
翻訳日:2024-04-18 19:10:55 公開日:2024-04-17
# 分布選好学習:RLHFにおける隠れコンテキストの理解と説明

Distributional Preference Learning: Understanding and Accounting for Hidden Context in RLHF ( http://arxiv.org/abs/2312.08358v2 )

ライセンス: Link先を確認
Anand Siththaranjan, Cassidy Laidlaw, Dylan Hadfield-Menell, (参考訳) 実際には、人間のフィードバックからの好みの学習は、隠れたコンテキストを持つ不完全なデータに依存する。 隠れたコンテキストとは、受信したフィードバックに影響を与えるデータを指すが、嗜好モデルのトレーニングに使用されるデータには表現されない。 これは、人間のアノテータに様々な好みを持たせること、不合理な振る舞いをもたらす認知プロセス、異なる基準に従ってラベル付けされたデータを組み合わせることなど、データ収集の一般的な問題を捉えている。 人間のフィードバックからの強化学習(RLHF)を含む嗜好学習の標準的な応用は、ボルダカウントと呼ばれるよく知られた投票規則に従って暗黙的に隠れた文脈を集約することを証明する。 これは、期待されたユーティリティを通じて暗黙的に集約する他の方法と非常に異なる反直感的な結果をもたらす可能性があることを示す。 さらに,多様な価値を持つユーザからの嗜好学習が社会的選択関数を暗黙的に実装する方法を定式化した。 この結果の重要な意味は、アノテータが学習モデルに影響を与えるために好みを誤って報告するインセンティブを持ち、RLHFのデプロイに脆弱性をもたらすことである。 これらの問題を緩和するためのステップとして,分布選好学習(DPL)と呼ばれる手法を導入する。 DPL法は、隠れたコンテキストをよりよく考慮するために、それぞれの選択肢に対して可能なスコア値の分布を推定する。 LLMチャットボットにDPLをRLHFに適用すると、データ中に隠れたコンテキストが識別され、その後のジェイルブレイクの脆弱性が大幅に減少することを示す。 私たちのコードとデータはhttps://github.com/cassidylaidlaw/hidden-contextで公開されています。

In practice, preference learning from human feedback depends on incomplete data with hidden context. Hidden context refers to data that affects the feedback received, but which is not represented in the data used to train a preference model. This captures common issues of data collection, such as having human annotators with varied preferences, cognitive processes that result in seemingly irrational behavior, and combining data labeled according to different criteria. We prove that standard applications of preference learning, including reinforcement learning from human feedback (RLHF), implicitly aggregate over hidden contexts according to a well-known voting rule called Borda count. We show this can produce counter-intuitive results that are very different from other methods which implicitly aggregate via expected utility. Furthermore, our analysis formalizes the way that preference learning from users with diverse values tacitly implements a social choice function. A key implication of this result is that annotators have an incentive to misreport their preferences in order to influence the learned model, leading to vulnerabilities in the deployment of RLHF. As a step towards mitigating these problems, we introduce a class of methods called distributional preference learning (DPL). DPL methods estimate a distribution of possible score values for each alternative in order to better account for hidden context. Experimental results indicate that applying DPL to RLHF for LLM chatbots identifies hidden context in the data and significantly reduces subsequent jailbreak vulnerability. Our code and data are available at https://github.com/cassidylaidlaw/hidden-context
翻訳日:2024-04-18 19:10:55 公開日:2024-04-17
# KDAS:ポリプセグメンテーションのための意識監視フレームワークによる知識蒸留

KDAS: Knowledge Distillation via Attention Supervision Framework for Polyp Segmentation ( http://arxiv.org/abs/2312.08555v2 )

ライセンス: Link先を確認
Quoc-Huy Trinh, Minh-Van Nguyen, Phuoc-Thao Vo Thi, (参考訳) 医療画像における論争的な問題であるポリプセグメンテーションでは、セグメンテーションマスクの品質向上を目的とした多くの手法が提案されている。 現在の最先端技術は印象的な結果をもたらすが、これらのモデルのサイズと計算コストは、実用的な産業アプリケーションのための課題を生み出している。 この課題に対処するために,注目の監視を取り入れた知識蒸留フレームワークであるKDASと,提案したシンメトリカルガイドモジュールを提案する。 このフレームワークは、より少ないパラメータでコンパクトな学生モデルを促進するために設計されており、教師モデルの強みを学習し、教師の特徴と生徒の特徴との整合性を緩和することができる。 より広範な実験により, 提案するコンパクトモデルは, 最先端の手法を用いて, 競合する結果を達成し, ポリープセグメンテーションや医用画像分野において高い精度でコンパクトなモデルを作成するための有望なアプローチを提供することによって, それらの強みを実証した。 実装はhttps://github.com/huyquoctrinh/KDASで公開されている。

Polyp segmentation, a contentious issue in medical imaging, has seen numerous proposed methods aimed at improving the quality of segmented masks. While current state-of-the-art techniques yield impressive results, the size and computational cost of these models create challenges for practical industry applications. To address this challenge, we present KDAS, a Knowledge Distillation framework that incorporates attention supervision, and our proposed Symmetrical Guiding Module. This framework is designed to facilitate a compact student model with fewer parameters, allowing it to learn the strengths of the teacher model and mitigate the inconsistency between teacher features and student features, a common challenge in Knowledge Distillation, via the Symmetrical Guiding Module. Through extensive experiments, our compact models demonstrate their strength by achieving competitive results with state-of-the-art methods, offering a promising approach to creating compact models with high accuracy for polyp segmentation and in the medical imaging field. The implementation is available on https://github.com/huyquoctrinh/KDAS.
翻訳日:2024-04-18 19:10:55 公開日:2024-04-17
# 自己拡張型自己拡張型フェデレーションクラスインクリメンタルラーニング

Federated Class-Incremental Learning with New-Class Augmented Self-Distillation ( http://arxiv.org/abs/2401.00622v3 )

ライセンス: Link先を確認
Zhiyuan Wu, Tianliu He, Sheng Sun, Yuwei Wang, Min Liu, Bo Gao, Xuefeng Jiang, (参考訳) フェデレートラーニング(FL)は、生データのプライバシーを確保しつつ、参加者間の協調的なモデルトレーニングを可能にする。 メインストリームFL手法は、実世界のデータの動的な性質、特にその量は増大し、時間とともにクラスが多様化する傾向を見落としている。 この監視により、FL手法は破滅的な忘れ込みに悩まされ、トレーニングされたモデルは、新しいデータを同化して学習した情報を不注意に捨ててしまう。 この課題に対応するために,新しいフェデレート・クラス・インクリメンタル・ラーニング (FCIL) 手法を提案し,新しいクラス・クラス・インクリメンタル・ラーニング (FedCLASS) を用いた「フェデレーション・クラス・インクリメンタル・ラーニング (FedCLASS)」を提案する。 FedCLASSの中核は、歴史モデルのクラススコアを、現在のモデルによって予測される新しいクラススコアで強化し、自己蒸留に組み合わせた知識を利用することで、歴史モデルから現在のモデルへのより十分な正確な知識伝達を可能にすることである。 理論分析により、FedCLASSは、歴史モデルによって予測される古いクラスのスコアを、新しいクラスが存在しない場合に条件付き確率として考慮し、そして、現在のモデルによって予測される新しいクラスのスコアを、歴史的モデルから派生したクラススコアの条件付き確率として考慮し、信頼性の高い基礎の上に立つことが示されている。 実験により,FedCLASSが4つのベースラインアルゴリズムよりも優れていることを示す。

Federated Learning (FL) enables collaborative model training among participants while guaranteeing the privacy of raw data. Mainstream FL methodologies overlook the dynamic nature of real-world data, particularly its tendency to grow in volume and diversify in classes over time. This oversight results in FL methods suffering from catastrophic forgetting, where the trained models inadvertently discard previously learned information upon assimilating new data. In response to this challenge, we propose a novel Federated Class-Incremental Learning (FCIL) method, named \underline{Fed}erated \underline{C}lass-Incremental \underline{L}earning with New-Class \underline{A}ugmented \underline{S}elf-Di\underline{S}tillation (FedCLASS). The core of FedCLASS is to enrich the class scores of historical models with new class scores predicted by current models and utilize the combined knowledge for self-distillation, enabling a more sufficient and precise knowledge transfer from historical models to current models. Theoretical analyses demonstrate that FedCLASS stands on reliable foundations, considering scores of old classes predicted by historical models as conditional probabilities in the absence of new classes, and the scores of new classes predicted by current models as the conditional probabilities of class scores derived from historical models. Empirical experiments demonstrate the superiority of FedCLASS over four baseline algorithms in reducing average forgetting rate and boosting global accuracy.
翻訳日:2024-04-18 19:10:55 公開日:2024-04-17
# CLIP-Fourierガイドウェーブレット拡散による低照度画像強調

Low-light Image Enhancement via CLIP-Fourier Guided Wavelet Diffusion ( http://arxiv.org/abs/2401.03788v2 )

ライセンス: Link先を確認
Minglong Xue, Jinhong He, Wenhai Wang, Mingliang Zhou, (参考訳) 低照度画像強調技術は大幅に進歩しているが、画像品質の不安定な回復と不満足な視覚知覚は依然として重要な課題である。 これらの問題を解決するために,CLIP-Fourier Guided Wavelet Diffusion(CFWD)による新しい低照度画像強調手法を提案する。 具体的には、CFWDは多重ウェーブレット変換によって生成された周波数領域空間におけるマルチモーダル視覚言語情報を活用して、拡張プロセスの導出を行う。 異なるモダリティ間のマルチスケールの監視は、ウェーブレット拡散過程における画像特徴と意味的特徴のアライメントを促進し、劣化ドメインと正常ドメインのギャップを効果的に埋める。 さらに、画像詳細の有効回復をさらに促進するため、ウェーブレット変換に基づくフーリエ変換とハイブリッド高周波知覚モジュール(HFPM)を組み合わせ、詳細な特徴を顕著に認識する。 このモジュールは、拡張結果の微細な構造回復を導くことによって、ウェーブレット拡散過程の多様性の混乱を回避し、好適なメートル法と知覚指向のエンハンスメントを実現する。 公開されている実世界のベンチマークにおける大規模定量的および定性的な実験により、我々の手法は既存の最先端手法よりも優れており、画像品質とノイズ抑制の著しい進歩を達成している。 プロジェクトのコードはhttps://github.com/hejh8/CFWDで公開されている。

Low-light image enhancement techniques have significantly progressed, but unstable image quality recovery and unsatisfactory visual perception are still significant challenges. To solve these problems, we propose a novel and robust low-light image enhancement method via CLIP-Fourier Guided Wavelet Diffusion, abbreviated as CFWD. Specifically, CFWD leverages multimodal visual-language information in the frequency domain space created by multiple wavelet transforms to guide the enhancement process. Multi-scale supervision across different modalities facilitates the alignment of image features with semantic features during the wavelet diffusion process, effectively bridging the gap between degraded and normal domains. Moreover, to further promote the effective recovery of the image details, we combine the Fourier transform based on the wavelet transform and construct a Hybrid High Frequency Perception Module (HFPM) with a significant perception of the detailed features. This module avoids the diversity confusion of the wavelet diffusion process by guiding the fine-grained structure recovery of the enhancement results to achieve favourable metric and perceptually oriented enhancement. Extensive quantitative and qualitative experiments on publicly available real-world benchmarks show that our approach outperforms existing state-of-the-art methods, achieving significant progress in image quality and noise suppression. The project code is available at https://github.com/hejh8/CFWD.
翻訳日:2024-04-18 19:10:55 公開日:2024-04-17
# RoboFusion:SAMによるロバストなマルチモーダル3Dオブジェクト検出を目指して

RoboFusion: Towards Robust Multi-Modal 3D Object Detection via SAM ( http://arxiv.org/abs/2401.03907v2 )

ライセンス: Link先を確認
Ziying Song, Guoxing Zhang, Lin Liu, Lei Yang, Shaoqing Xu, Caiyan Jia, Feiyang Jia, Li Wang, (参考訳) マルチモーダルな3Dオブジェクト検出器は、自律運転(AD)のための安全で信頼性の高い認識システムを探究することを目的としている。 しかし、クリーンなベンチマークデータセット上での最先端(SOTA)パフォーマンスを達成する一方で、現実の環境の複雑さと厳しい条件を見落としてしまう傾向がある。 一方、視覚基礎モデル(VFM)の出現に伴い、自律運転におけるマルチモーダル3次元物体検出の堅牢性と一般化を改善するための機会と課題が提示される。 そこで,本研究では,SAM などの VFM を利用した強靭なフレームワークであるRoboFusion を提案する。 まず、SAM-ADと呼ばれる自律走行シナリオにオリジナルのSAMを適用する。 SAM や SAM-AD をマルチモーダルな手法に合わせるため,SAM が抽出した画像特徴のアップサンプリングを行う AD-FPN を導入する。 我々はウェーブレット分解法を用いて深度誘導画像のノイズ低減と気象干渉を行う。 最後に、自己注意機構を用いて、融合した特徴を適応的に重み付けし、余剰雑音を抑えながら情報的特徴を高める。 まとめると、我々のRoboFusionは、VFMの一般化とロバスト性を利用してノイズを徐々に低減し、マルチモーダル3Dオブジェクト検出のレジリエンスを高める。 その結果、我々のRoboFusionは、KITTI-CとnuScenes-Cベンチマークで示されているように、ノイズの多いシナリオで最先端のパフォーマンスを実現している。

Multi-modal 3D object detectors are dedicated to exploring secure and reliable perception systems for autonomous driving (AD). However, while achieving state-of-the-art (SOTA) performance on clean benchmark datasets, they tend to overlook the complexity and harsh conditions of real-world environments. Meanwhile, with the emergence of visual foundation models (VFMs), opportunities and challenges are presented for improving the robustness and generalization of multi-modal 3D object detection in autonomous driving. Therefore, we propose RoboFusion, a robust framework that leverages VFMs like SAM to tackle out-of-distribution (OOD) noise scenarios. We first adapt the original SAM for autonomous driving scenarios named SAM-AD. To align SAM or SAM-AD with multi-modal methods, we then introduce AD-FPN for upsampling the image features extracted by SAM. We employ wavelet decomposition to denoise the depth-guided images for further noise reduction and weather interference. Lastly, we employ self-attention mechanisms to adaptively reweight the fused features, enhancing informative features while suppressing excess noise. In summary, our RoboFusion gradually reduces noise by leveraging the generalization and robustness of VFMs, thereby enhancing the resilience of multi-modal 3D object detection. Consequently, our RoboFusion achieves state-of-the-art performance in noisy scenarios, as demonstrated by the KITTI-C and nuScenes-C benchmarks.
翻訳日:2024-04-18 19:10:55 公開日:2024-04-17
# 連続変数を用いた量子カーネル機械学習

Quantum Kernel Machine Learning With Continuous Variables ( http://arxiv.org/abs/2401.05647v3 )

ライセンス: Link先を確認
Laura J. Henderson, Rishi Goel, Sally Shrapnel, (参考訳) 人気の高いqubitフレームワークは、量子カーネル機械学習に関する最近の研究を支配しており、表現性、学習可能性、一般化を特徴付けている。 今のところ、連続変数(CV)量子コンピューティングプラットフォームにおいて、これらの概念を理解するための比較フレームワークは存在しない。 本稿では,CV量子カーネルを閉形式関数として表現し,この表現を用いていくつかの重要な理論的知見を提供する。 すべてのCV量子核に対して一般閉形式解を導出し、そのようなすべての核をガウス函数と代数函数の項の積として表現できることを示す。 さらに、量子カーネル特徴写像の「恒星ランク」の階層的概念を用いて、全ての量子カーネルに対して量子古典的分離の量子化を示す。 CVカーネルの特定のサブクラスに対しては、この概念を直接カーネル自体に拡張することができる。 すべての場合において、量子核の古典的シミュラビリティの硬さを定量化することができる。 そして、GKP状態符号化のような無限星級数の特徴写像で定義されるカーネルを、有限星級数の特徴写像で定義されるカーネルで任意に近似できることを示す。 最後に、単一モードのFock状態の符号化で学習をシミュレートし、そのことを示す。 i) 特定のタスク(環状データセット)の精度は、星級によって増加する。 (ii)不適合モデルでは、帯域幅ハイパーパラメータを増大させることで精度を向上させることができる。 第三に、過度に適合するノイズデータの場合、帯域幅を減らせば一般化が向上するが、有効星位と量子的優位性が犠牲になる。

The popular qubit framework has dominated recent work on quantum kernel machine learning, with results characterising expressivity, learnability and generalisation. As yet, there is no comparative framework to understand these concepts for continuous variable (CV) quantum computing platforms. In this paper we represent CV quantum kernels as closed form functions and use this representation to provide several important theoretical insights. We derive a general closed form solution for all CV quantum kernels and show every such kernel can be expressed as the product of Gaussian and algebraic function terms. Furthermore, we present quantification of a quantum-classical separation for all quantum kernels via a hierarchical notion of the ``stellar rank" of the quantum kernel feature map. For a particular subclass of CV kernels, we are able to directly extend this notion to the kernels themselves. In all such cases we can quantify the hardness of classical simulability of the quantum kernel. We then prove kernels defined by feature maps of infinite stellar rank, such as GKP-state encodings, can be approximated arbitrarily well by kernels defined by feature maps of finite stellar rank. Finally, we simulate learning with a single-mode displaced Fock state encoding and show that (i) accuracy on our specific task (an annular data set) increases with stellar rank, (ii) for underfit models, accuracy can be improved by increasing a bandwidth hyperparameter, and (iii) for noisy data that is overfit, decreasing the bandwidth will improve generalisation but does so at the cost of effective stellar rank and thus quantum advantage.
翻訳日:2024-04-18 19:10:55 公開日:2024-04-17
# マルチモーダル・エゴセントリックデータセットにおける欠落モードの探索

Exploring Missing Modality in Multimodal Egocentric Datasets ( http://arxiv.org/abs/2401.11470v2 )

ライセンス: Link先を確認
Merey Ramazanova, Alejandro Pardo, Humam Alwassel, Bernard Ghanem, (参考訳) マルチモーダルビデオ理解は、複数の感覚信号を統合することで、行動認識とモーメントローカライゼーションを大幅に向上させる。 しかし、プライバシの懸念、効率の要求、ハードウェアの故障などの要因により、実用アプリケーションは不完全なモダリティに悩まされることが多い。 そこで本研究では,エゴセントリックな行動認識,特にトランスフォーマーモデルにおけるモダリティの欠如の影響について検討した。 モダリティが欠如している場合でも、パフォーマンスを維持するための新しい概念として、Ego4D、Epic-Kitchens、Epic-Soundsデータセットに有効な戦略を提案する。 テストセットの半分がモダル不完全である場合、元の$\sim 30\%$ drop から $\sim 10\%$ に還元する。 広範囲な実験を通じて,MMTの異なる訓練シナリオへの適応性や,既存の手法と比較して欠落したモダリティを扱う上での優位性を実証した。 我々の研究は包括的分析と革新的なアプローチに寄与し、現実世界の環境においてよりレジリエンスなマルチモーダルシステムへの道を開く。

Multimodal video understanding is crucial for analyzing egocentric videos, where integrating multiple sensory signals significantly enhances action recognition and moment localization. However, practical applications often grapple with incomplete modalities due to factors like privacy concerns, efficiency demands, or hardware malfunctions. Addressing this, our study delves into the impact of missing modalities on egocentric action recognition, particularly within transformer-based models. We introduce a novel concept -Missing Modality Token (MMT)-to maintain performance even when modalities are absent, a strategy that proves effective in the Ego4D, Epic-Kitchens, and Epic-Sounds datasets. Our method mitigates the performance loss, reducing it from its original $\sim 30\%$ drop to only $\sim 10\%$ when half of the test set is modal-incomplete. Through extensive experimentation, we demonstrate the adaptability of MMT to different training scenarios and its superiority in handling missing modalities compared to current methods. Our research contributes a comprehensive analysis and an innovative approach, opening avenues for more resilient multimodal systems in real-world settings.
翻訳日:2024-04-18 19:01:11 公開日:2024-04-17
# ToDA:リコメンデーションシステムに対するターゲット指向拡散攻撃装置

ToDA: Target-oriented Diffusion Attacker against Recommendation System ( http://arxiv.org/abs/2401.12578v2 )

ライセンス: Link先を確認
Xiaohao Liu, Zhulin Tao, Ting Jiang, He Chang, Yunshan Ma, Xianglin Huang, Xiang Wang, (参考訳) レコメンデーションシステム(RS)は、Webサービスが情報過負荷に対処するために必要なツールとなり、ユーザーエクスペリエンスを高め、プラットフォームの売上を伸ばす。 しかし、そのユビキタス化に伴い、セキュリティ上の懸念も浮かび上がっている。 RSのパブリックアクセシビリティとして、敵がユーザープロファイルを操作できる特定の悪意のある攻撃を受けやすいため、バイアスのあるレコメンデーションにつながる。 最近の研究は、しばしばジェネレーティブモデルを用いて、これらの偽りのユーザープロファイルを構築するために追加のモジュールを統合し、意図した害を発生させながら、それらが認識できないことを保証している。 その有効性にもかかわらず、これらのモデルは不安定な訓練と探索・探索ジレンマの難題に直面しており、これは準最適結果をもたらす可能性がある。 本稿では,拡散モデル (DM) によるシリング攻撃の可能性について検討する。 具体的には,ターゲット指向拡散攻撃モデル(ToDA)を提案する。 ユーザープロファイルを高次元空間に変換し、ToDAのコアコンポーネントであるLatent Diffusion Attacker (LDA)と組み合わせる、事前訓練されたオートエンコーダが組み込まれている。 LDAは、この潜伏空間内のプロファイルにノイズを導入し、クロスアテンション機構を通じてターゲットアイテムに対する近似を順応的に制御する。 2部グラフによって実装されたグローバルな水平線は、LDAに関与しており、符号化されたユーザプロファイル機能から導出されている。 これにより、LDAは、オンプロセッシングユーザ機能自体の外部へ生成を拡張し、拡散されたユーザ機能とターゲットアイテム機能の間のギャップを埋めることが可能になる。 いくつかのSOTAベースラインと比較して大規模な実験は、ToDAの有効性を示している。 特定の研究は、ToDAのエラボレーティブデザインを活用し、このような文脈における先進的な生成モデルの有効性を強調している。

Recommendation systems (RS) have become indispensable tools for web services to address information overload, thus enhancing user experiences and bolstering platforms' revenues. However, with their increasing ubiquity, security concerns have also emerged. As the public accessibility of RS, they are susceptible to specific malicious attacks where adversaries can manipulate user profiles, leading to biased recommendations. Recent research often integrates additional modules using generative models to craft these deceptive user profiles, ensuring them are imperceptible while causing the intended harm. Albeit their efficacy, these models face challenges of unstable training and the exploration-exploitation dilemma, which can lead to suboptimal results. In this paper, we pioneer to investigate the potential of diffusion models (DMs), for shilling attacks. Specifically, we propose a novel Target-oriented Diffusion Attack model (ToDA). It incorporates a pre-trained autoencoder that transforms user profiles into a high dimensional space, paired with a Latent Diffusion Attacker (LDA)-the core component of ToDA. LDA introduces noise into the profiles within this latent space, adeptly steering the approximation towards targeted items through cross-attention mechanisms. The global horizon, implemented by a bipartite graph, is involved in LDA and derived from the encoded user profile feature. This makes LDA possible to extend the generation outwards the on-processing user feature itself, and bridges the gap between diffused user features and target item features. Extensive experiments compared to several SOTA baselines demonstrate ToDA's effectiveness. Specific studies exploit the elaborative design of ToDA and underscore the potency of advanced generative models in such contexts.
翻訳日:2024-04-18 19:01:11 公開日:2024-04-17
# エネルギーのグラディエントフロー:エンティティアライメントデコーディングのための汎用的で効率的なアプローチ

Gradient Flow of Energy: A General and Efficient Approach for Entity Alignment Decoding ( http://arxiv.org/abs/2401.12798v3 )

ライセンス: Link先を確認
Yuanyi Wang, Haifeng Sun, Jingyu Wang, Qi Qi, Shaoling Sun, Jianxin Liao, (参考訳) マルチソース知識グラフ(KG)を統合する上で重要なプロセスであるエンティティアライメント(EA)は、これらのグラフにまたがる同等のエンティティペアを特定することを目指している。 既存のアプローチの多くは、EAをグラフ表現学習タスクとみなし、グラフエンコーダの拡張に集中している。 しかし、EAにおけるデコードプロセス(効果的な操作とアライメントの正確性に不可欠なもの)は、限定的な注目を集め、特定のデータセットやモデルアーキテクチャに合わせて調整され、エンティティと追加の明示的な関係の埋め込みが必要である。 この特異性は、特にGNNベースのモデルにおける適用性を制限する。 このギャップに対処するために、私たちはエンティティの埋め込みのみに依存する、新しい、一般化され、効率的なEAデコーディングアプローチを導入します。 本手法はディリクレエネルギーを最小化することでデコード処理を最適化し,グラフ内の勾配流を最大化し,グラフのホモフィリーを最大化する。 勾配流の離散化は、Triple Feature Propagation (TFP)と呼ばれる高速でスケーラブルなアプローチを生み出す。 TFPは革新的に隣接行列を多視点行列(entity-to-entity、 entity-to-relation、relation-to-entity、relation-to-triple)に一般化する。 一般化行列による勾配流により、TFPはKGの多視点構造情報を利用することができる。 多様な公開データセットに対する厳密な実験は、我々のアプローチが様々なEA手法を著しく強化することを示す。 特に、この手法は6秒未満の計算時間でこれらの進歩を達成し、将来のEA手法の効率性と適応性に関する新しいベンチマークを確立する。

Entity alignment (EA), a pivotal process in integrating multi-source Knowledge Graphs (KGs), seeks to identify equivalent entity pairs across these graphs. Most existing approaches regard EA as a graph representation learning task, concentrating on enhancing graph encoders. However, the decoding process in EA - essential for effective operation and alignment accuracy - has received limited attention and remains tailored to specific datasets and model architectures, necessitating both entity and additional explicit relation embeddings. This specificity limits its applicability, particularly in GNN-based models. To address this gap, we introduce a novel, generalized, and efficient decoding approach for EA, relying solely on entity embeddings. Our method optimizes the decoding process by minimizing Dirichlet energy, leading to the gradient flow within the graph, to maximize graph homophily. The discretization of the gradient flow produces a fast and scalable approach, termed Triple Feature Propagation (TFP). TFP innovatively generalizes adjacency matrices to multi-views matrices:entity-to-entity, entity-to-relation, relation-to-entity, and relation-to-triple. The gradient flow through generalized matrices enables TFP to harness the multi-view structural information of KGs. Rigorous experimentation on diverse public datasets demonstrates that our approach significantly enhances various EA methods. Notably, the approach achieves these advancements with less than 6 seconds of additional computational time, establishing a new benchmark in efficiency and adaptability for future EA methods.
翻訳日:2024-04-18 19:01:11 公開日:2024-04-17
# オンライン世界モデル学習のための局所感性スパース符号化

Locality Sensitive Sparse Encoding for Learning World Models Online ( http://arxiv.org/abs/2401.13034v4 )

ライセンス: Link先を確認
Zichen Liu, Chao Du, Wee Sun Lee, Min Lin, (参考訳) モデルベース強化学習(MBRL)のためにオンラインで正確な世界モデルを取得することは、データ非定常性のため困難である。 オンライン学習の観点からは、FTL(Follow-The-Leader)の世界モデルが望ましい。 残念なことに、NNベースのモデルは、生涯にわたるエージェントにとって計算コストのかかるFTLを達成するために、すべてのインタラクションステップで蓄積されたデータを再トレーニングする必要がある。 本稿では,FTLをインクリメンタルアップデートで実現可能なモデルを再検討する。 特に、我々の世界モデルは非線形ランダムな特徴によって支持される線形回帰モデルである。 線形部分は効率的なFTL更新を保証し、非線形ランダム特徴は複雑な環境の整合性を高める。 モデルキャパシティと計算効率を最大限に両立させるため,高次元の非線形特徴を伴っても効率的なスパース更新を行うことのできる局所性敏感なスパース符号化を導入する。 符号化の表現力を検証し、データ共変量シフトの下で効率的なオンライン学習を可能にすることを検証する。 また、Dyna MBRL設定では、我々の世界モデルは、リプレイやその他の連続学習手法で訓練された深層世界のモデルの性能に匹敵するか、あるいは一致した1パスの軌跡データを用いてオンラインに学習したことを示す。

Acquiring an accurate world model online for model-based reinforcement learning (MBRL) is challenging due to data nonstationarity, which typically causes catastrophic forgetting for neural networks (NNs). From the online learning perspective, a Follow-The-Leader (FTL) world model is desirable, which optimally fits all previous experiences at each round. Unfortunately, NN-based models need re-training on all accumulated data at every interaction step to achieve FTL, which is computationally expensive for lifelong agents. In this paper, we revisit models that can achieve FTL with incremental updates. Specifically, our world model is a linear regression model supported by nonlinear random features. The linear part ensures efficient FTL update while the nonlinear random feature empowers the fitting of complex environments. To best trade off model capacity and computation efficiency, we introduce a locality sensitive sparse encoding, which allows us to conduct efficient sparse updates even with very high dimensional nonlinear features. We validate the representation power of our encoding and verify that it allows efficient online learning under data covariate shift. We also show, in the Dyna MBRL setting, that our world models learned online using a single pass of trajectory data either surpass or match the performance of deep world models trained with replay and other continual learning methods.
翻訳日:2024-04-18 19:01:11 公開日:2024-04-17
# AIエージェントへの可視性

Visibility into AI Agents ( http://arxiv.org/abs/2401.13138v5 )

ライセンス: Link先を確認
Alan Chan, Carson Ezell, Max Kaufmann, Kevin Wei, Lewis Hammond, Herbie Bradley, Emma Bluemke, Nitarshan Rajkumar, David Krueger, Noam Kolt, Lennart Heim, Markus Anderljung, (参考訳) 商業的、科学的、政府的、個人的活動をAIエージェントに委任し、限られた監督下で複雑な目標を追求できるシステムに委任することで、既存の社会的リスクが悪化し、新たなリスクがもたらされる可能性がある。 これらのリスクを理解し緩和するには、既存のガバナンス構造を批判的に評価し、必要に応じてこれらの構造を修正し、適応し、主要なステークホルダーの責任を保証することが必要です。 特定のAIエージェントが使われている場所、理由、方法、そして誰が使用されるのかに関する情報は、これらの目的に不可欠である。 本稿では,エージェント識別子,リアルタイム監視,アクティビティログという,AIエージェントの視認性を高めるための3つの尺度を評価する。 それぞれ、侵入性と情報性に異なる潜在的な実装について概説する。 ハードウェアやソフトウェアサービスプロバイダを含むサプライチェーンのさまざまなアクターを考慮し、分散デプロイメントのコンテキストを通じて、この措置が中央集権的な範囲でどのように適用されるかを分析する。 最後に、プライバシと集中力に対する我々の対策がもたらす意味について論じる。 措置の理解と負の影響軽減に関するさらなる取り組みは、AIエージェントのガバナンスのための基盤を構築するのに役立つ。

Increased delegation of commercial, scientific, governmental, and personal activities to AI agents -- systems capable of pursuing complex goals with limited supervision -- may exacerbate existing societal risks and introduce new risks. Understanding and mitigating these risks involves critically evaluating existing governance structures, revising and adapting these structures where needed, and ensuring accountability of key stakeholders. Information about where, why, how, and by whom certain AI agents are used, which we refer to as visibility, is critical to these objectives. In this paper, we assess three categories of measures to increase visibility into AI agents: agent identifiers, real-time monitoring, and activity logging. For each, we outline potential implementations that vary in intrusiveness and informativeness. We analyze how the measures apply across a spectrum of centralized through decentralized deployment contexts, accounting for various actors in the supply chain including hardware and software service providers. Finally, we discuss the implications of our measures for privacy and concentration of power. Further work into understanding the measures and mitigating their negative impacts can help to build a foundation for the governance of AI agents.
翻訳日:2024-04-18 19:01:11 公開日:2024-04-17
# 混合整数最適化を用いた期待最大化アルゴリズムの収束性

Convergence of Expectation-Maximization Algorithm with Mixed-Integer Optimization ( http://arxiv.org/abs/2401.17763v2 )

ライセンス: Link先を確認
Geethu Joseph, (参考訳) 期待最大化(EM)に基づくアルゴリズムの収束は、通常、未知のパラメータ(最適化変数)すべてに対して確率関数の連続性を必要とする。 この要件は、パラメータが離散変数と連続変数の両方を構成するときに満たされず、収束解析は非自明である。 本稿では、離散パラメータと連続パラメータの混合を推定する特定の種類のEMアルゴリズムの収束を保証する一連の条件を紹介する。 本研究では,混合整数非線形最適化問題の解法として,反復アルゴリズムの新しい解析手法を提案する。 具体例として,線形力学系の状態を推定するEMに基づくスパースベイズ学習アルゴリズムの[1]における収束性を証明する。 この結果、[1] のアルゴリズムは、連続最適化変数に対する最大極大コストの定常点の集合に収束することを証明した。

The convergence of expectation-maximization (EM)-based algorithms typically requires continuity of the likelihood function with respect to all the unknown parameters (optimization variables). The requirement is not met when parameters comprise both discrete and continuous variables, making the convergence analysis nontrivial. This paper introduces a set of conditions that ensure the convergence of a specific class of EM algorithms that estimate a mixture of discrete and continuous parameters. Our results offer a new analysis technique for iterative algorithms that solve mixed-integer non-linear optimization problems. As a concrete example, we prove the convergence of the EM-based sparse Bayesian learning algorithm in [1] that estimates the state of a linear dynamical system with jointly sparse inputs and bursty missing observations. Our results establish that the algorithm in [1] converges to the set of stationary points of the maximum likelihood cost with respect to the continuous optimization variables.
翻訳日:2024-04-18 19:01:11 公開日:2024-04-17
# LLMは構造化グラフ推論を実行できるか?

Can LLMs perform structured graph reasoning? ( http://arxiv.org/abs/2402.01805v2 )

ライセンス: Link先を確認
Palaash Agrawal, Shavak Vasania, Cheston Tan, (参考訳) 事前訓練された大規模言語モデル(LLM)は、言語ベースのプロンプトだけで、特に非構造化タスク設定(純粋に言語意味論に基づくタスク)において、様々な推論能力を示している。 しかし、LLMは入力表現の固有の非互換性のため、しばしば構造化されたタスクと競合する。 構造化されたタスクを一次元の言語セマンティクスに還元することは、しばしば問題を簡単なものにする。 本稿では,LLMとの互換性と構造複雑性を念頭に置いて,様々なグラフ推論タスクを半構造化タスクのプロキシとして設計する。 特に,グラフトラバーサルの10の異なる問題を設計し,それぞれが複雑性のレベルを表わすとともに,上記のタスクに対して5つの異なるインストラクトファイントゥンドLLM(GPT-4,GPT-3.5,Claude-2,Llama-2,Palm-2)をベンチマークする。 さらに、グラフのサイズやkショットプロンプトの形式など、さまざまな設定でモデルの性能を分析する。 例えば、グラフ内のノード毎のトラバース自由度の平均値に対する逆関係、グラフ推論タスクにおけるkショットの全体的な負の影響、LLMが有効な解の欠如を識別するのを防ぐ正の応答バイアスなどである。 最後に,グラフトラバーサルタスク(PathCompare)に特化して設計された新しいプロンプト技術を導入し,Chain-of-Thought(CoT)などの標準プロンプト技術と比較してLCMの性能が顕著に向上したことを示す。

Pretrained Large Language Models (LLMs) have demonstrated various reasoning capabilities through language-based prompts alone, particularly in unstructured task settings (tasks purely based on language semantics). However, LLMs often struggle with structured tasks, because of the inherent incompatibility of input representation. Reducing structured tasks to uni-dimensional language semantics often renders the problem trivial. Keeping the trade-off between LLM compatibility and structure complexity in mind, we design various graph reasoning tasks as a proxy to semi-structured tasks in this paper, in order to test the ability to navigate through representations beyond plain text in various LLMs. Particularly, we design 10 distinct problems of graph traversal, each representing increasing levels of complexity, and benchmark 5 different instruct-finetuned LLMs (GPT-4, GPT-3.5, Claude-2, Llama-2 and Palm-2) on the aforementioned tasks. Further, we analyse the performance of models across various settings such as varying sizes of graphs as well as different forms of k-shot prompting. We highlight various limitations, biases and properties of LLMs through this benchmarking process, such as an inverse relation to the average degrees of freedom of traversal per node in graphs, the overall negative impact of k-shot prompting on graph reasoning tasks, and a positive response bias which prevents LLMs from identifying the absence of a valid solution. Finally, we introduce a new prompting technique specially designed for graph traversal tasks (PathCompare), which demonstrates a notable increase in the performance of LLMs in comparison to standard prompting techniques such as Chain-of-Thought (CoT).
翻訳日:2024-04-18 19:01:11 公開日:2024-04-17
# マルチタスク学習効率のロバスト解析:ライトウェイドバックボーンの新しいベンチマークと特徴差によるマルチタスク学習課題の効果的測定

Robust Analysis of Multi-Task Learning Efficiency: New Benchmarks on Light-Weighed Backbones and Effective Measurement of Multi-Task Learning Challenges by Feature Disentanglement ( http://arxiv.org/abs/2402.03557v2 )

ライセンス: Link先を確認
Dayou Mao, Yuhao Chen, Yifan Wu, Maximilian Gilles, Alexander Wong, (参考訳) MTLの主な動機の1つは、複数のタスクを同時に推測できるニューラルネットワークを開発することである。 過去10年間、ロバストなモデルアーキテクチャと効率的なトレーニングアルゴリズムを調査する無数の手法が提案されてきたが、より小さな特徴抽出バックボーンに適用された場合、これらの手法の理解の欠如、パラメータレベルの勾配を特徴レベル勾配に置き換える高速近似法の一般化可能性、MTL課題の包括的理解の欠如、その課題を効果的に効果的に特定する方法の欠如、などがあげられる。 本稿では,既存のMTL手法の効率性に焦点をあてる。 バックボーンを小さくしたメソッドの大規模な実験と,MetaGraspNetデータセットを新しいテストグラウンドとして実施する。 また,従来の手法と高速勾配サロゲートの使用の有無を比較し,この手法の一般化可能性について実験的に検討する。 最後に,MTLにおける課題の新規かつ効率的な識別子として特徴分散尺度を提案し,異なる識別子に対する評価指標としてランク付け類似度スコアを提案し,提案手法の忠実さを証明する。

One of the main motivations of MTL is to develop neural networks capable of inferring multiple tasks simultaneously. While countless methods have been proposed in the past decade investigating robust model architectures and efficient training algorithms, there is still lack of understanding of these methods when applied on smaller feature extraction backbones, the generalizability of the commonly used fast approximation technique of replacing parameter-level gradients with feature level gradients, and lack of comprehensive understanding of MTL challenges and how one can efficiently and effectively identify the challenges. In this paper, we focus on the aforementioned efficiency aspects of existing MTL methods. We first carry out large-scale experiments of the methods with smaller backbones and on a the MetaGraspNet dataset as a new test ground. We also compare the existing methods with and without using the fast gradient surrogate and empirically study the generalizability of this technique. Lastly, we propose Feature Disentanglement measure as a novel and efficient identifier of the challenges in MTL, and propose Ranking Similarity score as an evaluation metric for different identifiers to prove the faithfulness of our method.
翻訳日:2024-04-18 19:01:11 公開日:2024-04-17
# 大規模言語モデルを用いた構造化エンティティ抽出

Structured Entity Extraction Using Large Language Models ( http://arxiv.org/abs/2402.04437v3 )

ライセンス: Link先を確認
Haolun Wu, Ye Yuan, Liana Mikaelyan, Alexander Meulemans, Xue Liu, James Hensman, Bhaskar Mitra, (参考訳) 機械学習の最近の進歩は情報抽出の分野に大きな影響を与えており、Large Language Models (LLMs) は構造化されていないテキストから構造化情報を取り出す上で重要な役割を担っている。 以前の作品は、情報抽出を三重項中心として表現し、評価のために精度やリコールのような古典的なメトリクスを使用するのが一般的であった。 タスクをエンティティ中心にすることで、さまざまな視点からより多くの洞察を提供するさまざまなメトリクスの使用を可能にします。 我々は、構造化エンティティ抽出(SEE)を導入し、モデルパフォーマンスを適切に評価するために設計されたAESOP(Approximate Entity Set OverlaP)メトリクスを提案し、この分野に貢献する。 次に, 抽出タスクを複数段階に分解することで, LLMのパワーを活用し, 有効性と効率を向上させる新しいモデルを提案する。 定量的・人的側面評価は,本モデルがベースラインより優れており,構造化エンティティ抽出の今後の進歩に期待できる方向を提供する。

Recent advances in machine learning have significantly impacted the field of information extraction, with Large Language Models (LLMs) playing a pivotal role in extracting structured information from unstructured text. Prior works typically represent information extraction as triplet-centric and use classical metrics such as precision and recall for evaluation. We reformulate the task to be entity-centric, enabling the use of diverse metrics that can provide more insights from various perspectives. We contribute to the field by introducing Structured Entity Extraction (SEE) and proposing the Approximate Entity Set OverlaP (AESOP) metric, designed to appropriately assess model performance. Later, we introduce a new model that harnesses the power of LLMs for enhanced effectiveness and efficiency by decomposing the extraction task into multiple stages. Quantitative and human side-by-side evaluations confirm that our model outperforms baselines, offering promising directions for future advancements in structured entity extraction.
翻訳日:2024-04-18 19:01:11 公開日:2024-04-17
# ANZ銀行におけるAIツールのエンジニアリングへの影響 : 企業環境におけるGitHubコパイロットに関する実証的研究

The Impact of AI Tool on Engineering at ANZ Bank An Empirical Study on GitHub Copilot within Corporate Environment ( http://arxiv.org/abs/2402.05636v2 )

ライセンス: Link先を確認
Sayan Chatterjee, Ching Louis Liu, Gareth Rowland, Tim Hogarth, (参考訳) AI、特にLarge Language Models (LLMs)の普及は、ソフトウェア工学を含む様々な領域に大きな影響を与えている。 本研究では,大規模組織におけるソフトウェアエンジニアリングプラクティスにおけるAIツールの統合について検討する。 私たちは、ソフトウェア開発ライフサイクルのすべての側面をカバーする5000人以上のエンジニアを雇用するANZ Bankに重点を置いています。 本稿では、実世界のエンジニアリングタスクにおけるその有効性を評価するために、制御された環境内で、注目すべきAIツールであるGitHub Copilotを使用して実施された実験について詳述する。 さらに、GitHub Copilotが大規模に採用されて以降の生産性向上に関する最初の調査結果を、約1000人のエンジニアが使用している。 ANZ BankのGitHub Copilotでの6週間の実験には、2週間の準備と4週間のアクティブテストが含まれていた。 調査は、参加者の感情とツールが生産性、コード品質、セキュリティに与える影響を評価した。 当初、参加者はGitHub Copilotを使って提案されたユースケースに利用し、フィードバックは定期的な調査を通じて収集された。 第2フェーズでは、これらをコントロールグループとコパイロットグループに分割し、それぞれが同じPythonの課題に対処し、彼らの経験を再度調査した。 結果は、GitHub Copilotによる生産性とコード品質の顕著な向上を示したが、コードセキュリティへの影響は決定的ではなかった。 参加者の反応は全体的に肯定的であり、大規模なソフトウェアエンジニアリング環境でのGitHub Copilotの有効性が確認された。 1000人のエンジニアによる初期のデータによると、生産性と仕事の満足度も大幅に向上した。

The increasing popularity of AI, particularly Large Language Models (LLMs), has significantly impacted various domains, including Software Engineering. This study explores the integration of AI tools in software engineering practices within a large organization. We focus on ANZ Bank, which employs over 5000 engineers covering all aspects of the software development life cycle. This paper details an experiment conducted using GitHub Copilot, a notable AI tool, within a controlled environment to evaluate its effectiveness in real-world engineering tasks. Additionally, this paper shares initial findings on the productivity improvements observed after GitHub Copilot was adopted on a large scale, with about 1000 engineers using it. ANZ Bank's six-week experiment with GitHub Copilot included two weeks of preparation and four weeks of active testing. The study evaluated participant sentiment and the tool's impact on productivity, code quality, and security. Initially, participants used GitHub Copilot for proposed use-cases, with their feedback gathered through regular surveys. In the second phase, they were divided into Control and Copilot groups, each tackling the same Python challenges, and their experiences were again surveyed. Results showed a notable boost in productivity and code quality with GitHub Copilot, though its impact on code security remained inconclusive. Participant responses were overall positive, confirming GitHub Copilot's effectiveness in large-scale software engineering environments. Early data from 1000 engineers also indicated a significant increase in productivity and job satisfaction.
翻訳日:2024-04-18 19:01:11 公開日:2024-04-17
# DiscDiff:DNA配列生成のための潜時拡散モデル

DiscDiff: Latent Diffusion Model for DNA Sequence Generation ( http://arxiv.org/abs/2402.06079v2 )

ライセンス: Link先を確認
Zehui Li, Yuhao Ni, William A V Beardall, Guoxuan Xia, Akashaditya Das, Guy-Bart Stan, Yiren Zhao, (参考訳) 本稿では, 離散的なDNA配列を生成するための遅延拡散モデル(LDM)と, それらの配列を改良するポストトレーニングアルゴリズムであるAbsorb-Escapeの2つの重要な構成要素からなる, 新規なDNA配列生成フレームワークを提案する。 Absorb-Escapeは、潜在空間と入力空間の間の変換過程に固有の「丸いエラー」を補正することで、生成されたシーケンスのリアリズムを強化する。 提案手法は,DNA配列生成の新たな標準を規定するだけでなく,DNA配列の短鎖と長鎖の両方を生成する上で,既存の拡散モデルよりも優れた性能を示す。 さらに15種から16万のユニークな配列を網羅した,最初の包括的多種のDNA生成データセットであるEPD-GenDNAを紹介した。 本研究は,遺伝子治療やタンパク質生産に影響を及ぼす可能性のあるDNA生成モデルの構築を期待する。

This paper introduces a novel framework for DNA sequence generation, comprising two key components: DiscDiff, a Latent Diffusion Model (LDM) tailored for generating discrete DNA sequences, and Absorb-Escape, a post-training algorithm designed to refine these sequences. Absorb-Escape enhances the realism of the generated sequences by correcting `round errors' inherent in the conversion process between latent and input spaces. Our approach not only sets new standards in DNA sequence generation but also demonstrates superior performance over existing diffusion models, in generating both short and long DNA sequences. Additionally, we introduce EPD-GenDNA, the first comprehensive, multi-species dataset for DNA generation, encompassing 160,000 unique sequences from 15 species. We hope this study will advance the generative modelling of DNA, with potential implications for gene therapy and protein production.
翻訳日:2024-04-18 19:01:11 公開日:2024-04-17
# 予測表現:知性のブロックの構築

Predictive representations: building blocks of intelligence ( http://arxiv.org/abs/2402.06590v2 )

ライセンス: Link先を確認
Wilka Carvalho, Momchil S. Tomov, William de Cothi, Caswell Barry, Samuel J. Gershman, (参考訳) 適応的な振る舞いは、しばしば将来のイベントを予測する必要がある。 強化学習の理論は、どのような予測表現が有用か、どのように計算するかを規定している。 本稿では、これらの理論概念を認知と神経科学の研究と統合する。 我々は、後継表現(SR)とその一般化に特に注意を払っており、工学ツールや脳機能のモデルとして広く適用されてきた。 この収束は、特定の種類の予測表現が多目的な知性の構成要素として機能することを示唆している。

Adaptive behavior often requires predicting future events. The theory of reinforcement learning prescribes what kinds of predictive representations are useful and how to compute them. This paper integrates these theoretical ideas with work on cognition and neuroscience. We pay special attention to the successor representation (SR) and its generalizations, which have been widely applied both as engineering tools and models of brain function. This convergence suggests that particular kinds of predictive representations may function as versatile building blocks of intelligence.
翻訳日:2024-04-18 19:01:11 公開日:2024-04-17
# Web 3.0と量子セキュリティ:グローバルWeb 3.0ネットワークのための長距離無料空間QSDC

Web 3.0 and Quantum Security: Long-Distance Free-Space QSDC for Global Web 3.0 Networks ( http://arxiv.org/abs/2402.09108v3 )

ライセンス: Link先を確認
Yew Kee Wong, Yifan Zhou, Xinlin Zhou, Yan Shing Liang, Zi Yan Li, (参考訳) Web 3.0の出現により、技術の急速な進歩は、量子コンピューティングによる差し迫った脅威に直面している。 Web 2.0とWeb 3.0の完全性を保護しているセキュリティプロトコルは、量子攻撃と高度な古典的脅威の両方に対して、より影響を受けやすいようになってきている。 本稿では、量子および古典的文脈におけるセキュリティ侵害の防止方法として、我々の新しい長距離自由空間量子セキュアダイレクト通信(LF QSDC)を紹介する。 LF QSDCは量子鍵分布(QKD)のような技術と異なり、暗号化されたデータ転送が鍵交換を妨害し、鍵ベースのシステム固有の弱点を減らし、制約を超える。 この属性の特異性は、量子力学ベースと相まって、量子コンピュータの暴行や高度な非量子危険から保護し、Web 3.0時代の信頼できないテネットとシームレスに調和する。 本研究の焦点は、LF QSDCのWeb 3.0ネットワークインフラストラクチャへの技術設計と導入であり、拡張範囲通信の有効性を強調している。 LF QSDCは、メモリDL04プロトコルに基づいており、我々の新しい量子認識低密度パリティチェック(LDPC)、ポインティング、取得、追跡(PAT)技術、およびAQCAによって拡張されている。 この手法を利用することで、世界中のWeb 3.0ネットワークのセキュリティを高めるだけでなく、量子的および洗練された古典的脅威が同時に存在する時代にも、その持続性を保証する。 その結果、LF QSDCは、常に進化するデジタル環境の中で、Web 3.0システムに適した堅牢なセキュリティソリューションとして際立っている。

With the advent of Web 3.0, the swift advancement of technology confronts an imminent threat from quantum computing. Security protocols safeguarding the integrity of Web 2.0 and Web 3.0 are growing more susceptible to both quantum attacks and sophisticated classical threats. The article introduces our novel long-distance free-space quantum secure direct communication (LF QSDC) as a method to safeguard against security breaches in both quantum and classical contexts. Differing from techniques like quantum key distribution (QKD), LF QSDC surpasses constraints by facilitating encrypted data transmission sans key exchanges, thus diminishing the inherent weaknesses of key-based systems. The distinctiveness of this attribute, coupled with its quantum mechanics base, protects against quantum computer assaults and advanced non-quantum dangers, harmonizing seamlessly with the untrustworthy tenets of the Web 3.0 age. The focus of our study is the technical design and incorporation of LF QSDC into web 3.0 network infrastructures, highlighting its efficacy for extended-range communication. LF QSDC is based on the memory DL04 protocol and enhanced with our novel Quantum-Aware Low-Density Parity Check (LDPC), Pointing, Acquisition, and Tracking (PAT) technologies, and Atmospheric Quantum Correction Algorithm (AQCA). Utilizing this method not only bolsters the security of worldwide Web 3.0 networks but also guarantees their endurance in a time when quantum and sophisticated classical threats exist simultaneously. Consequently, LF QSDC stands out as a robust security solution, well-suited for Web 3.0 systems amidst the constantly evolving digital environment.
翻訳日:2024-04-18 18:51:21 公開日:2024-04-17
# 生成的表現的インストラクションチューニング

Generative Representational Instruction Tuning ( http://arxiv.org/abs/2402.09906v2 )

ライセンス: Link先を確認
Niklas Muennighoff, Hongjin Su, Liang Wang, Nan Yang, Furu Wei, Tao Yu, Amanpreet Singh, Douwe Kiela, (参考訳) すべてのテキストベースの言語問題は、生成または埋め込みに還元できる。 現在のモデルはどちらか一方でしかうまく機能しない。 生成的表現的命令チューニング(GRIT)を導入し、大きな言語モデルを用いて、生成的タスクと埋め込み的タスクの両方を扱うように訓練する。 他のオープンモデルと比較して、GritLM 7Bは、Massive Text Embedding Benchmark(MTEB)に新しい最先端技術を設定し、様々な生成タスクにおいて、すべてのモデルのサイズよりも優れています。 さらにスケールアップすることで、GritLM 8x7Bは、私たちが試したすべてのオープンな生成言語モデルよりも優れています。 特に、GRITは、生成データや埋め込みデータのみのトレーニングと一致しているため、パフォーマンス損失なしに両方の統合が可能である。 GRITによる統一は、検索と生成を分離する必要がなくなることで、長いドキュメントの検索・拡張生成(RAG)を60%以上高速化する。 モデル、コード等はhttps://github.com/ContextualAI/gritlm.comで自由に入手できる。

All text-based language problems can be reduced to either generation or embedding. Current models only perform well at one or the other. We introduce generative representational instruction tuning (GRIT) whereby a large language model is trained to handle both generative and embedding tasks by distinguishing between them through instructions. Compared to other open models, our resulting GritLM 7B sets a new state of the art on the Massive Text Embedding Benchmark (MTEB) and outperforms all models up to its size on a range of generative tasks. By scaling up further, GritLM 8x7B outperforms all open generative language models that we tried while still being among the best embedding models. Notably, we find that GRIT matches training on only generative or embedding data, thus we can unify both at no performance loss. Among other benefits, the unification via GRIT speeds up Retrieval-Augmented Generation (RAG) by > 60% for long documents, by no longer requiring separate retrieval and generation models. Models, code, etc. are freely available at https://github.com/ContextualAI/gritlm.
翻訳日:2024-04-18 18:51:21 公開日:2024-04-17
# UMAIR-FPS:ペイントスタイルのマルチモーダルアニメーション・イラストレーション・リコメンデーション・フュージョン

UMAIR-FPS: User-aware Multi-modal Animation Illustration Recommendation Fusion with Painting Style ( http://arxiv.org/abs/2402.10381v2 )

ライセンス: Link先を確認
Yan Kang, Hao Lin, Mingjian Yang, Shin-Jye Lee, (参考訳) AIに基づく高品質な画像生成モデルの急速な進歩は、アニメのイラストを大量に生成している。 大量のデータ内のユーザにイラストを推薦することは、困難で人気の高いタスクになっている。 しかし、既存のアニメレコメンデーションシステムはテキスト機能に重点を置いているが、画像機能を統合する必要がある。 さらに、ほとんどのマルチモーダルレコメンデーション研究は、密結合したデータセットによって制約されており、アニメイラストへの適用性が制限されている。 ユーザ対応マルチモーダルアニメーション・イラストレーション・リコメンデーション・フュージョン・アット・ペイントスタイル(UMAIR-FPS)を提案する。 特徴抽出フェーズでは、画像の描画スタイルの特徴を意味的特徴と組み合わせ、表現の強化のためのデュアル出力画像エンコーダを構築する。 テキストの特徴として,多言語マッピング,エンティティリレーション,用語説明の観点から,さまざまなドメインテキストペアを構成するドメイン知識を組み込むことで,微調整文変換器をベースとしたテキスト埋め込みを実現する。 マルチモーダル・フュージョン・フェーズでは,ユーザ特徴に応じて動的にマルチモーダル特徴量を重み付けするマルチモーダル・コントリビューション・メカニズムを新規に提案し,有界なマルチモーダル・クロスを効果的にモデル化するためにDCN-V2モジュールを用いる。 UMAIR-FPSは、大規模な実世界のデータセットにおける最先端のベースラインを超え、大幅なパフォーマンス向上を示す。

The rapid advancement of high-quality image generation models based on AI has generated a deluge of anime illustrations. Recommending illustrations to users within massive data has become a challenging and popular task. However, existing anime recommendation systems have focused on text features but still need to integrate image features. In addition, most multi-modal recommendation research is constrained by tightly coupled datasets, limiting its applicability to anime illustrations. We propose the User-aware Multi-modal Animation Illustration Recommendation Fusion with Painting Style (UMAIR-FPS) to tackle these gaps. In the feature extract phase, for image features, we are the first to combine image painting style features with semantic features to construct a dual-output image encoder for enhancing representation. For text features, we obtain text embeddings based on fine-tuning Sentence-Transformers by incorporating domain knowledge that composes a variety of domain text pairs from multilingual mappings, entity relationships, and term explanation perspectives, respectively. In the multi-modal fusion phase, we novelly propose a user-aware multi-modal contribution measurement mechanism to weight multi-modal features dynamically according to user features at the interaction level and employ the DCN-V2 module to model bounded-degree multi-modal crosses effectively. UMAIR-FPS surpasses the stat-of-the-art baselines on large real-world datasets, demonstrating substantial performance enhancements.
翻訳日:2024-04-18 18:51:21 公開日:2024-04-17
# 裁判官としての人間・LLM : 判断バイアスに関する研究

Humans or LLMs as the Judge? A Study on Judgement Biases ( http://arxiv.org/abs/2402.10669v3 )

ライセンス: Link先を確認
Guiming Hardy Chen, Shunian Chen, Ziche Liu, Feng Jiang, Benyou Wang, (参考訳) LLMの性能を評価するために,人間と大規模言語モデル (LLM) を審査員 (\textit{a.k.a} human- and LLM-as-a-judge) として採用することが近年注目されている。 それにもかかわらず、このアプローチは人間とLLMの裁判官の潜在的なバイアスを同時に導入し、評価結果の信頼性を疑問視する。 本稿では,LLM と人的審査員を対象とした,Fallacy Oversight Bias, Authority Bias and Beauty Bias の調査のための基礎的アノテーションを参考にすることなく,新たな枠組みを提案する。 改訂されたブルームの分類に言及したデータセットをキュレートし、何千もの人間とLLMの評価を行う。 その結果、人間とLLMの裁判官は様々な程度に摂動に弱いこと、そして最先端の裁判官でさえかなりの偏見を持っていることが明らかとなった。 我々は、その弱点をさらに活用し、LLM審査員に対する攻撃を行う。 我々は,我々の研究が,頑健な評価システムの開発の緊急性だけでなく,摂動に対する人間とLLM-as-judgeの脆弱性のコミュニティに通知できることを願っている。

Adopting human and large language models (LLM) as judges (\textit{a.k.a} human- and LLM-as-a-judge) for evaluating the performance of LLMs has recently gained attention. Nonetheless, this approach concurrently introduces potential biases from human and LLM judges, questioning the reliability of the evaluation results. In this paper, we propose a novel framework that is free from referencing groundtruth annotations for investigating Fallacy Oversight Bias, Authority Bias and Beauty Bias on LLM and human judges. We curate a dataset referring to the revised Bloom's Taxonomy and conduct thousands of human and LLM evaluations. Results show that human and LLM judges are vulnerable to perturbations to various degrees, and that even the cutting-edge judges possess considerable biases. We further exploit their weakness and conduct attacks on LLM judges. We hope that our work can notify the community of the vulnerability of human- and LLM-as-a-judge against perturbations, as well as the urgency of developing robust evaluation systems.
翻訳日:2024-04-18 18:51:21 公開日:2024-04-17
# 多文化コモンセンス知識蒸留

Multi-Cultural Commonsense Knowledge Distillation ( http://arxiv.org/abs/2402.10689v2 )

ライセンス: Link先を確認
Tuan-Phong Nguyen, Simon Razniewski, Gerhard Weikum, (参考訳) 近年の進歩にもかかわらず、大きな言語モデル(LLM)は、社会的・文化的慣習の複雑さに適切に対応するという課題に直面している。 本稿では,文化知識の高精度・高精度な主張を蒸留する方法であるMANGOについて述べる。 我々はこの目的のために,2つの視点,概念と文化から LLM を円滑かつ反復的に促す。 アウトプットはクラスタリングと生成的要約を通じて統合される。 GPT-3.5でMANGO法を実行すると、30Kのコンセプトと11Kの文化に対して167Kの高精度なアサーションが得られる。 外部評価のために,文化知識を付加した対話システムの拡張について検討する。 MANGOからの知識を付加することで、人間のアノテータが判断するように、対話応答の全体的な品質、特異性、文化的感受性が向上することがわかった。 データとコードはダウンロード可能だ。

Despite recent progress, large language models (LLMs) still face the challenge of appropriately reacting to the intricacies of social and cultural conventions. This paper presents MANGO, a methodology for distilling high-accuracy, high-recall assertions of cultural knowledge. We judiciously and iteratively prompt LLMs for this purpose from two entry points, concepts and cultures. Outputs are consolidated via clustering and generative summarization. Running the MANGO method with GPT-3.5 as underlying LLM yields 167K high-accuracy assertions for 30K concepts and 11K cultures, surpassing prior resources by a large margin. For extrinsic evaluation, we explore augmenting dialogue systems with cultural knowledge assertions. We find that adding knowledge from MANGO improves the overall quality, specificity, and cultural sensitivity of dialogue responses, as judged by human annotators. Data and code are available for download.
翻訳日:2024-04-18 18:51:21 公開日:2024-04-17
# KnowTuning: 大規模言語モデルのための知識対応ファインチューニング

KnowTuning: Knowledge-aware Fine-tuning for Large Language Models ( http://arxiv.org/abs/2402.11176v2 )

ライセンス: Link先を確認
Yougang Lyu, Lingyong Yan, Shuaiqiang Wang, Haibo Shi, Dawei Yin, Pengjie Ren, Zhumin Chen, Maarten de Rijke, Zhaochun Ren, (参考訳) 多くの自然言語処理(NLP)タスクで成功したにも拘わらず、大きな言語モデルは知識集約的なタスクの知識を効果的に活用することに苦慮し、不完全性、非実効性、または非論理的な回答を生成するような限界を示す。 これらの制限は、バニラ微調整中のLLMの知識認識が不十分であることに起因している。 これらの問題に対処するために,LLMの細粒度および粗粒度認識を改善する知識対応微調整法(KnowTuning)を提案する。 我々は,LLMを訓練し,解答における難解な微粒な知識を特定するための,きめ細かい知識増強段階を考案した。 また, 信頼できない知識と信頼できない知識を, 完全性, 事実性, 論理性という3つの側面で区別するために, LLMを訓練するための粗い知識比較ステージを提案する。 総合的および医療的質問応答(QA)データセットの広範な実験により、LLMのさまざまなサイズにわたる自動的および人的評価を通じて、KnowTuningの有効性が確認された。 さらに、詳細な事実評価において、より少ない事実の誤り率でより多くの事実を生成することを検証した。

Despite their success at many natural language processing (NLP) tasks, large language models still struggle to effectively leverage knowledge for knowledge-intensive tasks, manifesting limitations such as generating incomplete, non-factual, or illogical answers. These limitations stem from inadequate knowledge awareness of LLMs during vanilla fine-tuning. To address these problems, we propose a knowledge-aware fine-tuning (KnowTuning) method to improve fine-grained and coarse-grained knowledge awareness of LLMs. We devise a fine-grained knowledge augmentation stage to train LLMs to identify difficult fine-grained knowledge in answers. We also propose a coarse-grained knowledge comparison stage to train LLMs to distinguish between reliable and unreliable knowledge, in three aspects: completeness, factuality, and logicality. Extensive experiments on both generic and medical question answering (QA) datasets confirm the effectiveness of KnowTuning, through automatic and human evaluations, across various sizes of LLMs. We further verify that KnowTuning generates more facts with less factual error rate under fine-grained facts evaluation.
翻訳日:2024-04-18 18:51:21 公開日:2024-04-17
# 米国における条件付き自動走行車の公的な受容度評価

Gauging Public Acceptance of Conditionally Automated Vehicles in the United States ( http://arxiv.org/abs/2402.11444v3 )

ライセンス: Link先を確認
Antonios Saravanos, Eleftheria K. Pissadaki, Wayne S. Singh, Donatella Delfino, (参考訳) 条件付き自動車両の公的な受容は、スマートシティの実現における重要なステップである。 ヨーロッパでの先行研究は、重要度の減少、影響受容におけるヘドニック・モチベーション、社会的影響、パフォーマンス期待の要因が示されている。 さらに、この技術に対する概して肯定的な受容が報告された。 しかし、米国では、条件付き自動車両が一般に受け入れられることに関する情報が不足している。 本研究では,この技術に関する情報を参加者が提供し,その知覚に関するアンケートを完了したWebベースの実験を行った。 収集したデータはPLS-SEMを用いて分析され、米国でこの技術が一般に受け入れられる可能性のある要因を調査した。 その結果, 社会的影響, 性能期待, 努力期待, ヘドニック・モチベーション, ファシリテート条件が, 条件付き自動車両の受け入れを決定することがわかった。 さらに、特定の要因が、この技術がどれほど有用であるか、それを使うのに必要な労力、そしてその使用の促進条件に影響を及ぼすことがわかった。 この研究から得られた知見を統合することで、ステークホルダーは自動運転車技術の採用をより促進し、スマートシティのビジョンの実現に役立つ、より安全で効率的でユーザフレンドリーな交通システムに寄与することができる。

Public acceptance of conditionally automated vehicles is a crucial step in the realization of smart cities. Prior research in Europe has shown that the factors of hedonic motivation, social influence, and performance expectancy, in decreasing order of importance, influence acceptance. Moreover, a generally positive acceptance of the technology was reported. However, there is a lack of information regarding the public acceptance of conditionally automated vehicles in the United States. In this study, we carried out a web-based experiment where participants were provided information regarding the technology and then completed a questionnaire on their perceptions. The collected data was analyzed using PLS-SEM to examine the factors that may lead to public acceptance of the technology in the United States. Our findings showed that social influence, performance expectancy, effort expectancy, hedonic motivation, and facilitating conditions determine conditionally automated vehicle acceptance. Additionally, certain factors were found to influence the perception of how useful the technology is, the effort required to use it, and the facilitating conditions for its use. By integrating the insights gained from this study, stakeholders can better facilitate the adoption of autonomous vehicle technology, contributing to safer, more efficient, and user-friendly transportation systems in the future that help realize the vision of the smart city.
翻訳日:2024-04-18 18:51:21 公開日:2024-04-17
# 改築アライメント

Reformatted Alignment ( http://arxiv.org/abs/2402.12219v2 )

ライセンス: Link先を確認
Run-Ze Fan, Xuefeng Li, Haoyang Zou, Junlong Li, Shwai He, Ethan Chern, Jiewen Hu, Pengfei Liu, (参考訳) 微調整データの質は、大きな言語モデル(LLM)と人間の値の整合に不可欠である。 データ品質を改善するための現在の手法は、労働集約的か、LLM幻覚によって引き起こされる事実的誤りのどちらかである。 本稿では,既存の命令データの質を向上し,人的価値との整合性を向上する手法であるReAlignを提案する。 このアプローチは、人間のアノテーション、幻覚、スケーリングの難しさを最小化し、既存のアライメント技術に直交する。 実験的に、ReAlignはLLMの一般的なアライメント能力、数学的推論、事実性、可読性を大幅に向上させる。 LLaMA-2-13BのGSM8Kの数学的推論能力は46.77%から56.63%に向上できる。 さらに、ReAlignデータの5%は、Alpacaデータセットによって測定された一般的なアライメント能力を67%向上させる。 この研究は、LLMの科学と機械的解釈可能性に関するさらなる研究の必要性を強調している。 我々は、関連するコードとデータを公開して、https://github.com/GAIR-NLP/ReAlign.comで将来の研究をサポートするようにしました。

The quality of finetuning data is crucial for aligning large language models (LLMs) with human values. Current methods to improve data quality are either labor-intensive or prone to factual errors caused by LLM hallucinations. This paper explores elevating the quality of existing instruction data to better align with human values, introducing a simple and effective approach named ReAlign, which reformats the responses of instruction data into a format that better aligns with pre-established criteria and the collated evidence. This approach minimizes human annotation, hallucination, and the difficulty in scaling, remaining orthogonal to existing alignment techniques. Experimentally, ReAlign significantly boosts the general alignment ability, math reasoning, factuality, and readability of the LLMs. Encouragingly, without introducing any additional data or advanced training techniques, and merely by reformatting the response, LLaMA-2-13B's mathematical reasoning ability on GSM8K can be improved from 46.77% to 56.63% in accuracy. Additionally, a mere 5% of ReAlign data yields a 67% boost in general alignment ability measured by the Alpaca dataset. This work highlights the need for further research into the science and mechanistic interpretability of LLMs. We have made the associated code and data publicly accessible to support future studies at https://github.com/GAIR-NLP/ReAlign.
翻訳日:2024-04-18 18:51:21 公開日:2024-04-17
# Wi-FiネットワークにおけるオフパスTCPハイジャック:パケットサイズサイドチャネル攻撃

Off-Path TCP Hijacking in Wi-Fi Networks: A Packet-Size Side Channel Attack ( http://arxiv.org/abs/2402.12716v4 )

ライセンス: Link先を確認
Ziqiang Wang, Xuewei Feng, Qi Li, Kun Sun, Yuxiang Yang, Mengyuan Li, Ganqiu Du, Ke Xu, Jianping Wu, (参考訳) 本稿では、Wi-Fiネットワークにおける基本的なサイドチャネル、特に観測可能なフレームサイズを明らかにし、攻撃者がTCPハイジャック攻撃を行うために利用することができる。 各種セキュリティ機構(WEP,WPA2/WPA3)がWi-Fiネットワークを保護するために実装されているにもかかわらず,オフパス攻撃者は,フレームサイズ側チャネルから十分な情報を抽出して,被害者のTCP接続を乗っ取ることができる。 我々のサイドチャネルアタックは2つの重要な発見に基づいている。 (i)TCP受信機が生成する応答パケット(eg,ACK,RST)はサイズによって異なる。 (II)これらの応答パケットを含む暗号化フレームは、一貫した、識別可能なサイズである。 被害者の暗号化されたフレームのサイズを観察することで、攻撃者は被害者のTCP接続を検出しハイジャックすることができる。 我々は,このサイドチャネル攻撃の有効性を,SSH DoSとWebトラフィック操作という2つのケーススタディを通じて検証した。 正確には、攻撃は被害者のSSHセッションを19秒で終了させ、悪意のあるデータを被害者のWebトラフィックに28秒以内に注入することができる。 さらに,実際のWi-Fiネットワークに対する攻撃の影響を評価するため,広範囲な測定を行った。 私たちは9つの有名なベンダーから人気の高い30台のワイヤレスルータをテストしています。 また、実世界の80のWi-Fiネットワークで攻撃を実行し、75 (93.75%)のWi-Fiネットワークで被害者のTCP接続を乗っ取ることに成功した。 我々は、Wi-Fi Allianceの脆弱性を責任を持って開示し、この問題に対処するためのいくつかの緩和戦略を提案しました。

In this paper, we unveil a fundamental side channel in Wi-Fi networks, specifically the observable frame size, which can be exploited by attackers to conduct TCP hijacking attacks. Despite the various security mechanisms (e.g., WEP and WPA2/WPA3) implemented to safeguard Wi-Fi networks, our study reveals that an off path attacker can still extract sufficient information from the frame size side channel to hijack the victim's TCP connection. Our side channel attack is based on two significant findings: (i) response packets (e.g., ACK and RST) generated by TCP receivers vary in size, and (ii) the encrypted frames containing these response packets have consistent and distinguishable sizes. By observing the size of the victim's encrypted frames, the attacker can detect and hijack the victim's TCP connections. We validate the effectiveness of this side channel attack through two case studies, i.e., SSH DoS and web traffic manipulation. Precisely, our attack can terminate the victim's SSH session in 19 seconds and inject malicious data into the victim's web traffic within 28 seconds. Furthermore, we conduct extensive measurements to evaluate the impact of our attack on real-world Wi-Fi networks. We test 30 popular wireless routers from 9 well-known vendors, and none of these routers can protect victims from our attack. Besides, we implement our attack in 80 real-world Wi-Fi networks and successfully hijack the victim's TCP connections in 75 (93.75%) evaluated Wi-Fi networks. We have responsibly disclosed the vulnerability to the Wi-Fi Alliance and proposed several mitigation strategies to address this issue.
翻訳日:2024-04-18 18:51:21 公開日:2024-04-17
# SynFAC-EDIT : 臨床要約におけるファクチュアルアライメントのための合成模倣編集フィードバック

SYNFAC-EDIT: Synthetic Imitation Edit Feedback for Factual Alignment in Clinical Summarization ( http://arxiv.org/abs/2402.13919v2 )

ライセンス: Link先を確認
Prakamya Mishra, Zonghai Yao, Parth Vashisht, Feiyun Ouyang, Beining Wang, Vidhi Dhaval Mody, Hong Yu, (参考訳) GPTやLlamaのような大規模言語モデル(LLM)は、要約タスクにおいて重要な成果を示したが、実際的不正確さに苦慮している。 本研究は,GPT-3.5やGPT-4のような100BパラメータのGPT-3.5やGPT-4といったGPTの変種を利用して,臨床ノート要約における事実整合性向上を目的とした高品質な合成フィードバックを生成する革新的なパイプラインを提案する。 我々の研究は、人間のアノテーションを付加せずにこれらの合成フィードバックの専門家が生成したフィードバックの編集、医療専門家がAIシステムの出力を洗練する実践シナリオのミラーリングと最適化に重点を置いている。 このような100B以上のパラメータ GPT 変種は、医学ライセンス試験のような様々な臨床NLPタスクにおける専門性を示すことが証明されているが、臨床領域におけるGPT-2 (1.5B) や Llama 2 (7B) のような、より弱い (10B のパラメータ) LLM の生成品質を改善するために、合成フィードバックの専門家として機能し、専門家レベルの編集フィードバックを提供する能力について精査されている。 そこで本研究では,100B以上のGPT変種を利用して,専門家レベルの編集フィードバックを提供する合成フィードバック専門家として機能し,幻覚の低減と,2つの異なるアライメントアルゴリズム(DPOとSALT)を用いた医学的事実との整合(10Bパラメータ)を図る。 このことは、臨床事実の整合性を高めるためのLLMベースの合成編集のかなりの可能性を強調している。

Large Language Models (LLMs) such as GPT & Llama have demonstrated significant achievements in summarization tasks but struggle with factual inaccuracies, a critical issue in clinical NLP applications where errors could lead to serious consequences. To counter the high costs and limited availability of expert-annotated data for factual alignment, this study introduces an innovative pipeline that utilizes >100B parameter GPT variants like GPT-3.5 & GPT-4 to act as synthetic experts to generate high-quality synthetics feedback aimed at enhancing factual consistency in clinical note summarization. Our research primarily focuses on edit feedback generated by these synthetic feedback experts without additional human annotations, mirroring and optimizing the practical scenario in which medical professionals refine AI system outputs. Although such 100B+ parameter GPT variants have proven to demonstrate expertise in various clinical NLP tasks, such as the Medical Licensing Examination, there is scant research on their capacity to act as synthetic feedback experts and deliver expert-level edit feedback for improving the generation quality of weaker (<10B parameter) LLMs like GPT-2 (1.5B) & Llama 2 (7B) in clinical domain. So in this work, we leverage 100B+ GPT variants to act as synthetic feedback experts offering expert-level edit feedback, that is used to reduce hallucinations and align weaker (<10B parameter) LLMs with medical facts using two distinct alignment algorithms (DPO & SALT), endeavoring to narrow the divide between AI-generated content and factual accuracy. This highlights the substantial potential of LLM-based synthetic edits in enhancing the alignment of clinical factuality.
翻訳日:2024-04-18 18:51:21 公開日:2024-04-17
# LLMBind: 統一されたModality-Task統合フレームワーク

LLMBind: A Unified Modality-Task Integration Framework ( http://arxiv.org/abs/2402.14891v4 )

ライセンス: Link先を確認
Bin Zhu, Munan Ning, Peng Jin, Bin Lin, Jinfa Huang, Qi Song, Junwu Zhang, Zhenyu Tang, Mingjun Pan, Xing Zhou, Li Yuan, (参考訳) マルチモーダルドメインでは、特定の入力形式に対する様々なモデルの依存がユーザを混乱させ、進行を妨げる。 この課題に対処するために,多様なマルチモーダルタスクを統一する新しいフレームワークである \textbf{LLMBind} を紹介する。 LLMBindはMixture-of-Experts (MoE) Large Language Model (LLM)を利用してマルチモーダル入力を処理し、タスク固有のトークンを生成する。 このユニークなアプローチにより、LLMBindは入力を解釈し、画像、テキスト、ビデオ、オーディオを含む様々なモードで出力を生成することができる。 さらに,400kの命令からなるインタラクションデータセットを構築し,対話型視覚生成および編集タスクのためのLLMBindの機能を解放した。 大規模な実験により、LLMBindは様々なタスクにまたがって非常に優れたパフォーマンスを達成し、現実世界のシナリオで実施されているユーザ評価において、既存のモデルを上回る性能を発揮することが示された。 さらに、LLMBindの適応性は、最新のモデルとのシームレスな統合と、新しいモダリティタスクの拡張を可能にし、ユニバーサルモダリティをモデリングするための統合AIエージェントとして機能する可能性を強調している。

In the multi-modal domain, the dependence of various models on specific input formats leads to user confusion and hinders progress. To address this challenge, we introduce \textbf{LLMBind}, a novel framework designed to unify a diverse array of multi-modal tasks. By harnessing a Mixture-of-Experts (MoE) Large Language Model (LLM), LLMBind processes multi-modal inputs and generates task-specific tokens, enabling the invocation of corresponding models to accomplish tasks. This unique approach empowers LLMBind to interpret inputs and generate outputs across various modalities, including image, text, video, and audio. Furthermore, we have constructed an interaction dataset comprising 400k instructions, which unlocks the ability of LLMBind for interactive visual generation and editing tasks. Extensive experimentation demonstrates that LLMBind achieves very superior performance across diverse tasks and outperforms existing models in user evaluations conducted in real-world scenarios. Moreover, the adaptability of LLMBind allows for seamless integration with the latest models and extension to new modality tasks, highlighting its potential to serve as a unified AI agent for modeling universal modalities.
翻訳日:2024-04-18 18:51:21 公開日:2024-04-17
# ESFL:資源制約のある異種無線デバイスによる効率的な分散学習

ESFL: Efficient Split Federated Learning over Resource-Constrained Heterogeneous Wireless Devices ( http://arxiv.org/abs/2402.15903v2 )

ライセンス: Link先を確認
Guangyu Zhu, Yiqin Deng, Xianhao Chen, Haixia Zhang, Yuguang Fang, Tan F. Wong, (参考訳) フェデレートラーニング(FL)は、複数のパーティ(分散デバイス)が生データを共有せずに機械学習モデルをトレーニングすることを可能にする。 デバイスや中央サーバのリソースを効果的かつ効率的に活用する方法は、非常に興味深いが難しい問題である。 本稿では,ヘテロジニアス・エンド・デバイス(ED)を用いた分割フェデレーション・ラーニング・フレームワークの下で,中央サーバにおける強力な計算能力を最大限に活用するための効率的な分割フェデレーション・ラーニング・アルゴリズム(ESFL)を提案する。 本手法は,サーバとED間の異なるサブモデルに分割することで,ユーザの不均一性を考慮して,ユーザ側のワークロードとサーバ側のコンピューティングリソース割り当てを協調的に最適化する。 我々はNPハード問題である混合整数非線形プログラムとして最適化問題を定式化し、近似解を効率的に得るための反復的手法を開発する。 ESFLアプローチの効率を,標準フェデレーション学習,分割学習,分割学習と比較して著しく向上させるため,広範囲なシミュレーションを行った。

Federated learning (FL) allows multiple parties (distributed devices) to train a machine learning model without sharing raw data. How to effectively and efficiently utilize the resources on devices and the central server is a highly interesting yet challenging problem. In this paper, we propose an efficient split federated learning algorithm (ESFL) to take full advantage of the powerful computing capabilities at a central server under a split federated learning framework with heterogeneous end devices (EDs). By splitting the model into different submodels between the server and EDs, our approach jointly optimizes user-side workload and server-side computing resource allocation by considering users' heterogeneity. We formulate the whole optimization problem as a mixed-integer non-linear program, which is an NP-hard problem, and develop an iterative approach to obtain an approximate solution efficiently. Extensive simulations have been conducted to validate the significantly increased efficiency of our ESFL approach compared with standard federated learning, split learning, and splitfed learning.
翻訳日:2024-04-18 18:51:21 公開日:2024-04-17
# mEdIT:インストラクションチューニングによる多言語テキスト編集

mEdIT: Multilingual Text Editing via Instruction Tuning ( http://arxiv.org/abs/2402.16472v2 )

ライセンス: Link先を確認
Vipul Raheja, Dimitris Alikaniotis, Vivek Kulkarni, Bashar Alhafni, Dhruv Kumar, (参考訳) 我々はCoEdITの多言語拡張であるmEdITを紹介した。 mEdITモデルは、インストラクションチューニングを通じて、微調整された多言語大で事前訓練された言語モデル(LLM)によって訓練される。 それらは、Grammatik korrigieren(ドイツ語)やParafrasee la oraci\on(スペイン語)のような自然言語命令の形で、所望のテキストの属性を指定するユーザから指示を受けるように設計されている。 我々は,3つのテキスト編集タスク(文法エラー補正(GEC),テキスト単純化,パラフレージング)を,6つの言語ファミリーに属する多種多様な言語で表すために,公開されている複数の人手によるテキスト編集データセットからデータをキュレートしてmEdITを構築する。 我々は,mEdITモデルの設計と訓練について詳述し,多くの多言語テキスト編集ベンチマークにおいて,他の多言語LLMに対して強い性能を示す。 また、mEdITは多言語ベースライン上の新しい言語に効果的に一般化する。 データ、コード、トレーニングされたモデルをhttps://github.com/vipulraheja/medit.comで公開しています。

We introduce mEdIT, a multi-lingual extension to CoEdIT -- the recent state-of-the-art text editing models for writing assistance. mEdIT models are trained by fine-tuning multi-lingual large, pre-trained language models (LLMs) via instruction tuning. They are designed to take instructions from the user specifying the attributes of the desired text in the form of natural language instructions, such as Grammatik korrigieren (German) or Parafrasee la oraci\'on (Spanish). We build mEdIT by curating data from multiple publicly available human-annotated text editing datasets for three text editing tasks (Grammatical Error Correction (GEC), Text Simplification, and Paraphrasing) across diverse languages belonging to six different language families. We detail the design and training of mEdIT models and demonstrate their strong performance on many multi-lingual text editing benchmarks against other multilingual LLMs. We also find that mEdIT generalizes effectively to new languages over multilingual baselines. We publicly release our data, code, and trained models at https://github.com/vipulraheja/medit.
翻訳日:2024-04-18 18:51:21 公開日:2024-04-17
# オプティマイザの部分ランク

Partial Rankings of Optimizers ( http://arxiv.org/abs/2402.16565v2 )

ライセンス: Link先を確認
Julian Rodemann, Hannah Blocher, (参考訳) 本稿では,様々なテスト関数に対する複数の基準に従って,オプティマイザをベンチマークするフレームワークを提案する。 最近導入された部分順序/ランク付けのためのユニオンフリーのジェネリックディープ関数に基づいて、順序情報を完全に活用し、非互換性を実現する。 本手法では,全ての部分順序/ランクの分布を記述し,アグリゲーションの悪名高い欠点を回避する。 これにより、オプティマイザの中央あるいは外部のランキングを生成するテスト関数を特定し、ベンチマークスイートの品質を評価することができる。

We introduce a framework for benchmarking optimizers according to multiple criteria over various test functions. Based on a recently introduced union-free generic depth function for partial orders/rankings, it fully exploits the ordinal information and allows for incomparability. Our method describes the distribution of all partial orders/rankings, avoiding the notorious shortcomings of aggregation. This permits to identify test functions that produce central or outlying rankings of optimizers and to assess the quality of benchmarking suites.
翻訳日:2024-04-18 18:51:21 公開日:2024-04-17
# MISC:大規模マルチモーダルモデルによる超低ビットレート画像セマンティック圧縮

MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model ( http://arxiv.org/abs/2402.16749v3 )

ライセンス: Link先を確認
Chunyi Li, Guo Lu, Donghui Feng, Haoning Wu, Zicheng Zhang, Xiaohong Liu, Guangtao Zhai, Weisi Lin, Wenjun Zhang, (参考訳) ストレージと通信プロトコルの進化に伴い、超低ビットレート画像圧縮が要求されるトピックとなっている。 しかし、既存の圧縮アルゴリズムは、地上の真実との整合性を犠牲にするか、超低ビットレートでの知覚品質を犠牲にしなければならない。 近年,LMM(Large Multimodal Model)の急速な発展により,これらの2つの目標のバランスが図られている。 本稿では、画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、上記の情報に基づいて画像を再構成するデコーダとからなる、Multimodal Image Semantic Compression(MISC)と呼ばれる手法を提案する。 実験の結果,提案したMISCは,従来の自然感画像(NSI)とAI-Generated Images(AIGI)コンテンツの両方を圧縮するのに適していることがわかった。 50%のビットレートを節約しながら、最適な一貫性と知覚結果を達成することができる。 コードはhttps://github.com/lcysyzxdxc/MISCでリリースされる。

With the evolution of storage and communication protocols, ultra-low bitrate image compression has become a highly demanding topic. However, existing compression algorithms must sacrifice either consistency with the ground truth or perceptual quality at ultra-low bitrate. In recent years, the rapid development of the Large Multimodal Model (LMM) has made it possible to balance these two goals. To solve this problem, this paper proposes a method called Multimodal Image Semantic Compression (MISC), which consists of an LMM encoder for extracting the semantic information of the image, a map encoder to locate the region corresponding to the semantic, an image encoder generates an extremely compressed bitstream, and a decoder reconstructs the image based on the above information. Experimental results show that our proposed MISC is suitable for compressing both traditional Natural Sense Images (NSIs) and emerging AI-Generated Images (AIGIs) content. It can achieve optimal consistency and perception results while saving 50% bitrate, which has strong potential applications in the next generation of storage and communication. The code will be released on https://github.com/lcysyzxdxc/MISC.
翻訳日:2024-04-18 18:41:31 公開日:2024-04-17
# フィッシング検出におけるタックルと透明化のための革新的情報理論に基づくアプローチ

An Innovative Information Theory-based Approach to Tackle and Enhance The Transparency in Phishing Detection ( http://arxiv.org/abs/2402.17092v2 )

ライセンス: Link先を確認
Van Nguyen, Tingmin Wu, Xingliang Yuan, Marthie Grobler, Surya Nepal, Carsten Rudolph, (参考訳) フィッシング攻撃は、検出、説明、防衛において深刻で困難な問題となっている。 フィッシングに関する10年以上の研究が、技術と非技術の両方を包含しているにもかかわらず、フィッシングは深刻な問題であり続けている。 現在、AIベースのフィッシング検出は、データに対する脆弱性(フィッシングや良心)の予測を提供することによってフィッシング攻撃を防御する最も効果的なソリューションの1つとして注目されている。 しかし、データのフィッシングとして分類される原因となる特定の情報を特定するなど、予測に対する包括的な解釈を提供するという点では、説明容易性に欠ける。 この目的のために,メール(最も一般的なフィッシング方式)のフィッシング攻撃ローカライゼーションのための革新的なディープラーニングベースのアプローチを提案する。 本手法は,メールデータの脆弱性を予測できるだけでなく,その脆弱性を簡潔に説明できるフィッシングメールデータにおいて,最も重要なフィッシング関連情報(文)を自動的に学習し,解析する。 7つの実世界の多様な電子メールデータセットに対する厳密な実験は、フィッシングメールデータの脆弱性に対する簡潔な説明(最も重要なフィッシング関連情報の抽出に成功)を提供することで、重要な情報を選択する上で、提案手法の有効性と進歩を示している。 特に,本手法は,2つの主要指標のラベル精度と認知軌道正の組合せ平均値から,最先端のベースラインと比較して約1.5%から3.5%の範囲で高い性能を達成している。

Phishing attacks have become a serious and challenging issue for detection, explanation, and defense. Despite more than a decade of research on phishing, encompassing both technical and non-technical remedies, phishing continues to be a serious problem. Nowadays, AI-based phishing detection stands out as one of the most effective solutions for defending against phishing attacks by providing vulnerability (i.e., phishing or benign) predictions for the data. However, it lacks explainability in terms of providing comprehensive interpretations for the predictions, such as identifying the specific information that causes the data to be classified as phishing. To this end, we propose an innovative deep learning-based approach for email (the most common phishing way) phishing attack localization. Our method can not only predict the vulnerability of the email data but also automatically learn and figure out the most important and phishing-relevant information (i.e., sentences) in the phishing email data where the selected information indicates useful and concise explanations for the vulnerability. The rigorous experiments on seven real-world diverse email datasets show the effectiveness and advancement of our proposed method in selecting crucial information, offering concise explanations (by successfully figuring out the most important and phishing-relevant information) for the vulnerability of the phishing email data. Particularly, our method achieves a significantly higher performance, ranging from approximately 1.5% to 3.5%, compared to state-of-the-art baselines, as measured by the combined average performance of two main metrics Label-Accuracy and Cognitive-True-Positive.
翻訳日:2024-04-18 18:41:31 公開日:2024-04-17
# プロンプトオプティマイザとしての大規模言語モデルの可能性:グラディエントモデルオプティマイザを用いた分析

Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers ( http://arxiv.org/abs/2402.17564v2 )

ライセンス: Link先を確認
Xinyu Tang, Xiaolei Wang, Wayne Xin Zhao, Siyuan Lu, Yaliang Li, Ji-Rong Wen, (参考訳) 自動プロンプト最適化は,大規模言語モデル(LLM)の性能向上のための重要なアプローチである。 近年の研究では、LCMをプロンプトオプティマイザとして使用し、反復的な改善によって改善されたタスクプロンプトを生成する可能性を実証している。 本稿では,LLMに基づくプロンプトオプティマイザの設計について,勾配モデルオプティマイザを用いた類似図を描画することで検討する。 これら2つのアプローチを接続するために、モデルパラメータ学習における2つの重要な要素を同定する。 2つの側面に焦点をあてて、勾配に基づく最適化から理論フレームワークと学習手法を借用し、LCMに基づくプロンプト最適化のための改良戦略を設計する。 改良戦略の豊富な集合を体系的に解析することにより, GPO と呼ばれる, LLM をベースとしたプロンプト最適化機能の開発をさらに進める。 各ステップで、まず最適化軌道から関連するプロンプトを更新方向として取得する。 そして、世代ベースの精錬戦略を利用して更新を行い、コサインベースの崩壊戦略を介して編集距離を制御する。 大規模な実験は、GPOの有効性と効率を実証する。 特にGPOは、ベースライン法と比較して、Big-Bench Hardで56.8%、MMLUで55.3%の改善を加えた。

Automatic prompt optimization is an important approach to improving the performance of large language models (LLMs). Recent research demonstrates the potential of using LLMs as prompt optimizers, which can generate improved task prompts via iterative refinement. In this paper, we propose a novel perspective to investigate the design of LLM-based prompt optimizers, by drawing an analogy with gradient-based model optimizers. To connect these two approaches, we identify two pivotal factors in model parameter learning: update direction and update method. Focused on the two aspects, we borrow the theoretical framework and learning methods from gradient-based optimization to design improved strategies for LLM-based prompt optimizers. By systematically analyzing a rich set of improvement strategies, we further develop a capable Gradient-inspired LLM-based Prompt Optimizer called GPO. At each step, it first retrieves relevant prompts from the optimization trajectory as the update direction. Then, it utilizes the generation-based refinement strategy to perform the update, while controlling the edit distance through a cosine-based decay strategy. Extensive experiments demonstrate the effectiveness and efficiency of GPO. In particular, GPO brings an additional improvement of up to 56.8% on Big-Bench Hard and 55.3% on MMLU compared to baseline methods.
翻訳日:2024-04-18 18:41:31 公開日:2024-04-17
# 慢性痛に対する機械学習によるパーソナライズケアにおけるジェンダーフェアネスの検討

Investigating Gender Fairness in Machine Learning-driven Personalized Care for Chronic Pain ( http://arxiv.org/abs/2402.19226v2 )

ライセンス: Link先を確認
Pratik Gajane, Sean Newman, Mykola Pechenizkiy, John D. Piette, (参考訳) 慢性的な痛みは世界中の数百万人の生活の質を著しく低下させる。 サイコ教育やセラピーは痛みの結果を改善することができるが、多くの患者はエビデンスベースの治療へのアクセスを欠いている。 強化学習(RL)は、患者のニーズに応じてパーソナライズされた痛み管理介入を調整し、少ない臨床資源を効果的に活用する可能性を示している。 しかし、臨床医、患者、医療の意思決定者は、RLソリューションが、人種や性別といった患者の特徴に関連する格差を悪化させるのではないかと懸念している。 本稿では、実世界の強化学習(Piette et al , 2022a)を用いて、パーソナライズされた鎮痛ケア推奨のジェンダーフェアネスについて検討する。 ここでは、性別の公平性に固執することは、性別によって定義されたサブ人口によって受けられるユーティリティの最小限または全くの格差を意味する。 意思決定支援に使用される関連する患者情報(特徴として参照)の選択が性公正に影響を及ぼすかどうかを検討する。 実世界のデータであるPietteを用いて2022年に実施した本実験は,その特徴が男女の公平性に影響を与えることを示唆している。 さらに,その能力を示すRLソリューションであるNestedRecommendationを提案する。 一 実用性及び公正性を最適化する特徴を選択することを適応的に学ぶこと 二 臨床医の専門知識を活用して、特徴の選択を加速し、かつ、早期から鎮痛勧告を改善すること。

Chronic pain significantly diminishes the quality of life for millions worldwide. While psychoeducation and therapy can improve pain outcomes, many individuals experiencing pain lack access to evidence-based treatments or fail to complete the necessary number of sessions to achieve benefit. Reinforcement learning (RL) shows potential in tailoring personalized pain management interventions according to patients' individual needs while ensuring the efficient use of scarce clinical resources. However, clinicians, patients, and healthcare decision-makers are concerned that RL solutions could exacerbate disparities associated with patient characteristics like race or gender. In this article, we study gender fairness in personalized pain care recommendations using a real-world application of reinforcement learning (Piette et al., 2022a). Here, adhering to gender fairness translates to minimal or no disparity in the utility received by subpopulations as defined by gender. We investigate whether the selection of relevant patient information (referred to as features) used to assist decision-making affects gender fairness. Our experiments, conducted using real-world data Piette, 2022), indicate that included features can impact gender fairness. Moreover, we propose an RL solution, NestedRecommendation, that demonstrates the ability: i) to adaptively learn to select the features that optimize for utility and fairness, and ii) to accelerate feature selection and in turn, improve pain care recommendations from early on, by leveraging clinicians' domain expertise.
翻訳日:2024-04-18 18:41:31 公開日:2024-04-17
# オールシーティングプロジェクトV2:オープンワールドの総合的理解を目指して

The All-Seeing Project V2: Towards General Relation Comprehension of the Open World ( http://arxiv.org/abs/2402.19474v3 )

ライセンス: Link先を確認
Weiyun Wang, Yiming Ren, Haowen Luo, Tiantong Li, Chenxiang Yan, Zhe Chen, Wenhai Wang, Qingyun Li, Lewei Lu, Xizhou Zhu, Yu Qiao, Jifeng Dai, (参考訳) 本稿では、画像のオブジェクト関係を理解するために設計された新しいモデルとデータセットであるAll-Seeing Project V2を紹介する。 具体的には、テキスト生成、オブジェクトローカライゼーション、関係理解の定式化をRelation conversation (ReC)タスクに統合するAll-Seeing Model V2 (ASMv2)を提案する。 この統合タスクを活用することで、我々のモデルは画像内の全てのオブジェクトを認識・認識するだけでなく、それらの間の複雑な関係グラフの把握にも優れ、マルチモーダル大言語モデル(MLLM)でしばしば発生する関係幻覚を減少させる。 関係理解におけるMLLMのトレーニングと評価を容易にするため,我々は,標準命令チューニングデータの形式に適合した最初の高品質ReCデータセット({AS-V2)を作成した。 さらに,MLLMの関連理解能力を包括的に評価するために,Circular-based Relation Probing Evaluation (CRPE) と呼ばれる新しいベンチマークを設計した。 特に、我々のASMv2は、LLaVA-1.5の43.14よりも大きなマージンで、この関係対応ベンチマークで52.04の全体的な精度を達成した。 私たちの研究が、より将来の研究を刺激し、人工知能への進化に貢献できることを願っています。 私たちのプロジェクトはhttps://github.com/OpenGVLab/all-seeing.comで公開されています。

We present the All-Seeing Project V2: a new model and dataset designed for understanding object relations in images. Specifically, we propose the All-Seeing Model V2 (ASMv2) that integrates the formulation of text generation, object localization, and relation comprehension into a relation conversation (ReC) task. Leveraging this unified task, our model excels not only in perceiving and recognizing all objects within the image but also in grasping the intricate relation graph between them, diminishing the relation hallucination often encountered by Multi-modal Large Language Models (MLLMs). To facilitate training and evaluation of MLLMs in relation understanding, we created the first high-quality ReC dataset ({AS-V2) which is aligned with the format of standard instruction tuning data. In addition, we design a new benchmark, termed Circular-based Relation Probing Evaluation (CRPE) for comprehensively evaluating the relation comprehension capabilities of MLLMs. Notably, our ASMv2 achieves an overall accuracy of 52.04 on this relation-aware benchmark, surpassing the 43.14 of LLaVA-1.5 by a large margin. We hope that our work can inspire more future research and contribute to the evolution towards artificial general intelligence. Our project is released at https://github.com/OpenGVLab/all-seeing.
翻訳日:2024-04-18 18:41:31 公開日:2024-04-17
# ODM:シーンテキスト検出とスポッティングのためのテキスト画像追加事前学習手法

ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting ( http://arxiv.org/abs/2403.00303v2 )

ライセンス: Link先を確認
Chen Duan, Pei Fu, Shan Guo, Qianyi Jiang, Xiaoming Wei, (参考訳) 近年,テキストイメージ共同学習技術は,様々なタスクにおいて有望な成果を上げている。 しかし、光学文字認識(OCR)タスクでは、全体像の内容の全体的理解ではなく、テキストとOCR-Textの効果的なアライメントを必要とするため、テキストインスタンスを画像中の対応するテキスト領域と整列させることが課題となる。 本稿では,OCR-Text Destylization Modeling (ODM) と呼ばれる事前学習手法を提案する。 ODMにより、テキストとOCR-Textの整合性が向上し、事前学習されたモデルがシーンテキストの検出やスポッティングタスクの複雑なスタイルに適応できるようにする。 さらに、ODM専用の新しいラベル生成手法を設計し、提案したText-Controllerモジュールと組み合わせて、OCRタスクのアノテーションコストの課題に対処し、大量のラベル付きデータが事前学習に参加できるようにする。 複数の公開データセットに対する大規模な実験により,本手法は性能を著しく向上し,シーンテキストの検出やスポッティングタスクにおける現在の事前学習方法より優れていることが示された。 コードはhttps://github.com/PriNing/ODMで入手できる。

In recent years, text-image joint pre-training techniques have shown promising results in various tasks. However, in Optical Character Recognition (OCR) tasks, aligning text instances with their corresponding text regions in images poses a challenge, as it requires effective alignment between text and OCR-Text (referring to the text in images as OCR-Text to distinguish from the text in natural language) rather than a holistic understanding of the overall image content. In this paper, we propose a new pre-training method called OCR-Text Destylization Modeling (ODM) that transfers diverse styles of text found in images to a uniform style based on the text prompt. With ODM, we achieve better alignment between text and OCR-Text and enable pre-trained models to adapt to the complex and diverse styles of scene text detection and spotting tasks. Additionally, we have designed a new labeling generation method specifically for ODM and combined it with our proposed Text-Controller module to address the challenge of annotation costs in OCR tasks, allowing a larger amount of unlabeled data to participate in pre-training. Extensive experiments on multiple public datasets demonstrate that our method significantly improves performance and outperforms current pre-training methods in scene text detection and spotting tasks. Code is available at https://github.com/PriNing/ODM.
翻訳日:2024-04-18 18:41:31 公開日:2024-04-17
# 数理推論に基づくキーポイント駆動データ合成

Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning ( http://arxiv.org/abs/2403.02333v2 )

ライセンス: Link先を確認
Yiming Huang, Xiao Liu, Yeyun Gong, Zhibin Gou, Yelong Shen, Nan Duan, Weizhu Chen, (参考訳) 大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を示しているが、その性能は高品質で推論にフォーカスしたトレーニングデータセットの不足によってしばしば妨げられている。 この課題に対処するため,キーポイント駆動型データ合成(KPDDS)を提案する。 KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。 その結果、KPMathは、800万以上の質問応答対からなる数学的推論に適した、広範囲な合成データセットである。 KPMathを利用し、さらに推論集約的なコーパスを付加することにより、包括的なKPMath-Plusデータセットを作成する。 微調整されたKPMath-PlusのDeepSeekMathモデルは、GSM8Kでは83.9%、MATHでは48.8%というゼロショットのPASS@1アキュラシーを達成し、他の数学推論データセットでは有望なパフォーマンスを達成し、7Bから70Bの範囲ではライバルよりも優れていた。

Large language models (LLMs) have shown great potential in complex reasoning tasks, yet their performance is often hampered by the scarcity of high-quality and reasoning-focused training datasets. Addressing this challenge, we propose Key-Point-Driven Data Synthesis (KPDDS), a novel data synthesis framework that synthesizes question-answer pairs by leveraging key points and exemplar practices from authentic data sources. KPDDS ensures the generation of novel questions with rigorous quality control and substantial scalability. As a result, we present KPMath, an extensive synthetic dataset tailored for mathematical reasoning, comprising over 800K question-answer pairs. Utilizing KPMath and augmenting it with additional reasoning-intensive corpora, we create the comprehensive KPMath-Plus dataset. The fine-tuned DeepSeekMath model on KPMath-Plus achieves zero-shot PASS@1 accuracies of 83.9% on GSM8K and 48.8% on MATH, and also reaches promising performance on other math reasoning datasets, outperforming competitors in the 7B to 70B range.
翻訳日:2024-04-18 18:41:31 公開日:2024-04-17
# 量子貯水池計算におけるエコー状態特性の階層性

Hierarchy of the echo state property in quantum reservoir computing ( http://arxiv.org/abs/2403.02686v4 )

ライセンス: Link先を確認
Shumpei Kobayashi, Quoc Hoan Tran, Kohei Nakajima, (参考訳) エコー状態特性(ESP)は、貯水池コンピューティング(RC)フレームワークの基本概念であり、初期状態と遠い過去の入力に依存せず、貯水池ネットワークの出力のみのトレーニングを保証する。 しかしながら、ESPの伝統的な定義は、統計的性質が進化する可能性のある非定常系を記述していない。 この問題に対処するために、潜在的に静止しないシステムのために設計された$\textit{non-stationary ESP}$と、サブシステムがESPを持つシステムのために設計された$\textit{subspace/subset ESP}$の2つの新しいカテゴリを紹介した。 定義に従うと、量子貯水池計算機(QRC)における非定常ESPと典型的なハミルトン力学および非線形自己回帰移動平均(NARMA)タスクを用いた入力符号化法との対応を数値的に示す。 また、リニア/非線形メモリ容量を計算し、貯水池の状態内の入力依存成分を定量化する。 本研究は,非定常システムとサブシステムを利用したQRCおよび非定常RCシステムの実用設計について,新たな知見を提示する。

The echo state property (ESP) represents a fundamental concept in the reservoir computing (RC) framework that ensures output-only training of reservoir networks by being agnostic to the initial states and far past inputs. However, the traditional definition of ESP does not describe possible non-stationary systems in which statistical properties evolve. To address this issue, we introduce two new categories of ESP: $\textit{non-stationary ESP}$, designed for potentially non-stationary systems, and $\textit{subspace/subset ESP}$, designed for systems whose subsystems have ESP. Following the definitions, we numerically demonstrate the correspondence between non-stationary ESP in the quantum reservoir computer (QRC) framework with typical Hamiltonian dynamics and input encoding methods using non-linear autoregressive moving-average (NARMA) tasks. We also confirm the correspondence by computing linear/non-linear memory capacities that quantify input-dependent components within reservoir states. Our study presents a new understanding of the practical design of QRC and other possibly non-stationary RC systems in which non-stationary systems and subsystems are exploited.
翻訳日:2024-04-18 18:41:31 公開日:2024-04-17
# バッチとHooKレイヤを併用した連続モデル編集

Consecutive Model Editing with Batch alongside HooK Layers ( http://arxiv.org/abs/2403.05330v2 )

ライセンス: Link先を確認
Shuaiyi Li, Yang Deng, Deng Cai, Hongyuan Lu, Liang Chen, Wai Lam, (参考訳) 典型的なリトレーニングパラダイムは、許容できる時間とリソースを消費するので、研究者はモデル行動を直接編集する効果的な、連続的な、バッチをサポートする方法を求めるために、モデル編集に目を向けている。 これらの現実的な期待にもかかわらず、既存のモデル編集手法はそれらすべてを実現することができない。 さらに、継承サポート型モデル編集アプローチのメモリ要求は禁止されがちであり、時間とともに徐々に増大する外部メモリを必要とすることが多い。 これらの課題に対処するため,COMEBA-HKというモデル編集手法を提案する。 COMEBA-HKはメモリフレンドリーで、いくつかのフック層を更新した重みで保存するために少量しか必要としない。 実験により,本手法は単ラウンドおよび連続のバッチ編集シナリオにおいて,他のバッチ支援モデル編集手法よりも優れていることが示された。 COMEBA-HKの大規模解析を行い,本手法の安定性を検証した。 1) 連続段数及び連続段数 2) 編集インスタンスの数。

As the typical retraining paradigm is unacceptably time- and resource-consuming, researchers are turning to model editing in order to seek an effective, consecutive, and batch-supportive way to edit the model behavior directly. Despite all these practical expectations, existing model editing methods fail to realize all of them. Furthermore, the memory demands for such succession-supportive model editing approaches tend to be prohibitive, frequently necessitating an external memory that grows incrementally over time. To cope with these challenges, we propose COMEBA-HK, a model editing method that is both consecutive and batch-supportive. COMEBA-HK is memory-friendly as it only needs a small amount of it to store several hook layers with updated weights. Experimental results demonstrate the superiority of our method over other batch-supportive model editing methods under both single-round and consecutive batch editing scenarios. Extensive analyses of COMEBA-HK have been conducted to verify the stability of our method over 1) the number of consecutive steps and 2) the number of editing instance.
翻訳日:2024-04-18 18:41:31 公開日:2024-04-17
# クラウド上のセキュアな$k$-NN計算に対するCiphertext-Only攻撃

Ciphertext-Only Attack on a Secure $k$-NN Computation on Cloud ( http://arxiv.org/abs/2403.09080v2 )

ライセンス: Link先を確認
Shyam Murthy, Santosh Kumar Upadhyaya, Srinivas Vivek, (参考訳) クラウドコンピューティングの台頭は、データストレージと計算タスクをクラウドに転送するトレンドを呼んだ。 顧客データやビジネス詳細などの機密情報を保護するためには、クラウドストレージの前に機密データを暗号化することが不可欠である。 暗号化を実装することで、不正アクセス、データ漏洩、そして結果としての金銭的損失、評判のダメージ、法的問題を防止することができる。 さらに、クラウドに格納されたデータ上でのデータマイニングアルゴリズムの実行を容易にするために、暗号化はドメイン計算と互換性を持つ必要がある。 特定のクエリベクトルに対する$k$-nearest(k$-NN)の計算は、ロケーションベースのサービスのようなフィールドで広く使われている。 Sanyashi et al (ICISS 2023) は、非対称スカラー生成保存暗号化 (ASPE) を利用することで、クラウド上のプライバシー保護のための$k$-NN計算を容易にする暗号化スキームを提案した。 本研究は,上記のサノヤシ等の暗号方式における重大な脆弱性を同定し,効率的なアルゴリズムを提案し,その暗号方式が暗号文のみの攻撃(COA)に対して脆弱であることを実証的に実証する。

The rise of cloud computing has spurred a trend of transferring data storage and computational tasks to the cloud. To protect confidential information such as customer data and business details, it is essential to encrypt this sensitive data before cloud storage. Implementing encryption can prevent unauthorized access, data breaches, and the resultant financial loss, reputation damage, and legal issues. Moreover, to facilitate the execution of data mining algorithms on the cloud-stored data, the encryption needs to be compatible with domain computation. The $k$-nearest neighbor ($k$-NN) computation for a specific query vector is widely used in fields like location-based services. Sanyashi et al. (ICISS 2023) proposed an encryption scheme to facilitate privacy-preserving $k$-NN computation on the cloud by utilizing Asymmetric Scalar-Product-Preserving Encryption (ASPE). In this work, we identify a significant vulnerability in the aforementioned encryption scheme of Sanyashi et al. Specifically, we give an efficient algorithm and also empirically demonstrate that their encryption scheme is vulnerable to the ciphertext-only attack (COA).
翻訳日:2024-04-18 18:41:31 公開日:2024-04-17
# ホワイトボックスの深層学習に向けて

Towards White Box Deep Learning ( http://arxiv.org/abs/2403.09863v5 )

ライセンス: Link先を確認
Maciej Satkiewicz, (参考訳) ディープニューラルネットワークは脆弱な"ショートカット"機能を学び、解釈(ブラックボックス)が困難になり、敵の攻撃に対して脆弱になる。 本稿では,この問題に対する一般的なアーキテクチャ的解決策としてセマンティックな特徴を提案する。 主な考え方は、ドメインの適切な意味的トポロジに特徴を局所性に敏感にすることで、強い正規化を導入することである。 コンセプトネットワークの証明は軽量で、本質的に解釈可能で、ほぼ人間レベルの対人テストのメトリクスを達成します。 これらの結果とアプローチの一般的な性質は、意味的特徴に関するさらなる研究を保証している。 コードはhttps://github.com/314-Foundation/white-box-nnで公開されている。

Deep neural networks learn fragile "shortcut" features, rendering them difficult to interpret (black box) and vulnerable to adversarial attacks. This paper proposes semantic features as a general architectural solution to this problem. The main idea is to make features locality-sensitive in the adequate semantic topology of the domain, thus introducing a strong regularization. The proof of concept network is lightweight, inherently interpretable and achieves almost human-level adversarial test metrics - with no adversarial training! These results and the general nature of the approach warrant further research on semantic features. The code is available at https://github.com/314-Foundation/white-box-nn
翻訳日:2024-04-18 18:41:31 公開日:2024-04-17
# HateCOT:大規模言語モデルによる一般化可能な音声検出のための説明強化データセット

HateCOT: An Explanation-Enhanced Dataset for Generalizable Offensive Speech Detection via Large Language Models ( http://arxiv.org/abs/2403.11456v2 )

ライセンス: Link先を確認
Huy Nghiem, Hal Daumé III, (参考訳) ソーシャルメディアのユビキタス化は、有害な影響を制限するために攻撃内容の信頼性と効率的な検出の必要性につながっている。 これにより、攻撃的コンテンツの検出に関連するデータセットやモデルが急増した。 洗練されたモデルは個々のデータセットで高いパフォーマンスを達成したが、これらのモデルは「悪質なコンテンツ」がいかに概念化されているか、そしてこれらのデータセットのラベル付け方法の違いによって一般化されないことが多い。 本稿では, GPT-3.5-Turbo による説明と人為計算による説明により, 既存資料から52,000個のサンプルを抽出したHateCOTについて紹介する。 HateCOT上での攻撃的コンテンツ検出のための事前学習モデルは、ドメインやタスクの違いにもかかわらず、ゼロと数ショットの両方で、オープンソースのLanguage Modelsを3つのベンチマークデータセット上で起動する。 さらに、HateCOTは、低リソース設定で効果的なKショットの微調整を可能にする。

The ubiquitousness of social media has led to the need for reliable and efficient detection of offensive content to limit harmful effects. This has led to a proliferation of datasets and models related to detecting offensive content. While sophisticated models have attained strong performance on individual datasets, these models often do not generalize due to differences between how "offensive content" is conceptualized, and the resulting differences in how these datasets are labeled. In this paper, we introduce HateCOT, a dataset of 52,000 samples drawn from diverse existing sources with explanations generated by GPT-3.5-Turbo and human-curated. We show that pre-training models for the detection of offensive content on HateCOT significantly boots open-sourced Language Models on three benchmark datasets in both zero and few-shot settings, despite differences in domain and task.} We further find that HateCOT enables effective K-shot fine-tuning in the low-resource settings.
翻訳日:2024-04-18 18:41:31 公開日:2024-04-17
# 大規模モデルのためのパラメータ効率の良いファインチューニング:包括的調査

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey ( http://arxiv.org/abs/2403.14608v3 )

ライセンス: Link先を確認
Zeyu Han, Chao Gao, Jinyang Liu, Jeff Zhang, Sai Qian Zhang, (参考訳) 大規模モデルは、複数のアプリケーション分野における画期的な進歩を表しており、様々なタスクにおける顕著な達成を可能にしている。 しかし、その前例のない規模には計算コストがかなり伴う。 これらのモデルはしばしば数十億のパラメータで構成され、実行には膨大な量の計算資源を必要とする。 特に、拡張スケールと計算要求は、特定の下流タスク、特に計算能力に制約されたハードウェアプラットフォームをカスタマイズする際に大きな課題を生じさせる。 パラメータ効率の良いファインチューニング(PEFT)は、様々な下流タスクに対して大きなモデルを効率的に適応することで、実用的なソリューションを提供する。 特にPEFTは、訓練済みの大規模モデルのパラメータを調整して特定のタスクに適応させ、導入された追加のパラメータの数や計算リソースを最小化するプロセスを指す。 これらのモデルをスクラッチから微調整することは、計算コストが高く、リソース集約的であり、サポートするシステムプラットフォーム設計において大きな課題を生じさせるため、大きな言語モデルと高いパラメータ数を扱う場合、このアプローチは特に重要である。 本稿では,様々なPEFTアルゴリズムの総合的な研究を行い,その性能と計算オーバーヘッドについて検討する。 さらに,異なるPEFTアルゴリズムを用いて開発されたアプリケーションの概要を述べるとともに,PEFTの計算コストを軽減するための一般的な手法について議論する。 アルゴリズムの観点に加えて,様々な実世界のシステム設計を概観し,異なるPEFTアルゴリズムによる実装コストについて検討する。 この調査は、PEFTアルゴリズムとシステム実装の両方を理解することを目的とした研究者にとって必須のリソースであり、最近の進歩と実用化に関する詳細な知見を提供する。

Large models represent a groundbreaking advancement in multiple application fields, enabling remarkable achievements across various tasks. However, their unprecedented scale comes with significant computational costs. These models, often consisting of billions of parameters, require vast amounts of computational resources for execution. Especially, the expansive scale and computational demands pose considerable challenges when customizing them for particular downstream tasks, particularly over the hardware platforms constrained by computational capabilities. Parameter Efficient Fine-Tuning (PEFT) provides a practical solution by efficiently adapt the large models over the various downstream tasks. In particular, PEFT refers to the process of adjusting the parameters of a pre-trained large models to adapt it to a specific task while minimizing the number of additional parameters introduced or computational resources required. This approach is particularly important when dealing with large language models with high parameter counts, as fine-tuning these models from scratch can be computationally expensive and resource-intensive, posing considerable challenges in the supporting system platform design. In this survey, we present comprehensive studies of various PEFT algorithms, examining their performance and computational overhead. Moreover, we provide an overview of applications developed using different PEFT algorithms and discuss common techniques employed to mitigate computation costs for PEFT. In addition to the algorithmic perspective, we overview various real-world system designs to investigate the implementation costs associated with different PEFT algorithms. This survey serves as an indispensable resource for researchers aiming to understand both the PEFT algorithm and its system implementation, offering detailed insights into recent advancements and practical applications.
翻訳日:2024-04-18 18:41:31 公開日:2024-04-17
# SDXS:画像条件付きリアルタイムワンステップ遅延拡散モデル

SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions ( http://arxiv.org/abs/2403.16627v2 )

ライセンス: Link先を確認
Yuda Song, Zehao Sun, Xuanwu Yin, (参考訳) 拡散モデルの最近の進歩は、これらを画像生成の最前線に位置づけている。 その優れた性能にもかかわらず、拡散モデルには欠点はなく、複雑なアーキテクチャと相当な計算要求が特徴であり、反復的なサンプリングプロセスのためにかなりの遅延が生じる。 これらの制限を緩和するため,モデルの小型化とサンプリングステップの削減を含む2つのアプローチを導入し,モデル遅延を大幅に低減することを目的とした。 提案手法は知識蒸留を利用してU-Netと画像デコーダアーキテクチャを合理化し,特徴マッチングとスコア蒸留を利用した一段階DMトレーニング手法を導入する。 SDXS-512 と SDXS-1024 の2つのモデルを示し、それぞれ1つのGPU上で約100 FPS(SD v1.5 より30倍速い)と30 FPS(SDXLより60倍速い)の推論速度を達成する。 さらに、我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。

Recent advancements in diffusion models have positioned them at the forefront of image generation. Despite their superior performance, diffusion models are not without drawbacks; they are characterized by complex architectures and substantial computational demands, resulting in significant latency due to their iterative sampling process. To mitigate these limitations, we introduce a dual approach involving model miniaturization and a reduction in sampling steps, aimed at significantly decreasing model latency. Our methodology leverages knowledge distillation to streamline the U-Net and image decoder architectures, and introduces an innovative one-step DM training technique that utilizes feature matching and score distillation. We present two models, SDXS-512 and SDXS-1024, achieving inference speeds of approximately 100 FPS (30x faster than SD v1.5) and 30 FPS (60x faster than SDXL) on a single GPU, respectively. Moreover, our training approach offers promising applications in image-conditioned control, facilitating efficient image-to-image translation.
翻訳日:2024-04-18 18:31:46 公開日:2024-04-17
# ECoDepth:単眼深度推定のための拡散モデルの効率的な条件付け

ECoDepth: Effective Conditioning of Diffusion Models for Monocular Depth Estimation ( http://arxiv.org/abs/2403.18807v4 )

ライセンス: Link先を確認
Suraj Patni, Aradhye Agarwal, Chetan Arora, (参考訳) パララックス・キューが存在しない場合、学習に基づく単一画像深度推定(SIDE)モデルは、画像のシェーディングと文脈的キューに大きく依存する。 この単純さは魅力的だが、大きなデータセットやさまざまなデータセットでそのようなモデルをトレーニングする必要がある。 CLIPのような事前訓練された基礎モデルからの埋め込みを使用することで、いくつかのアプリケーションにおけるゼロショット転送が改善されることが示されている。 このことから着想を得て、本稿では、事前学習したViTモデルから生成されたグローバル画像の事前利用について検討し、より詳細な文脈情報を提供する。 大規模なデータセット上で事前学習されたViTモデルからの埋め込みベクトルは、疑似画像キャプションを生成する通常の経路よりもSIDEの関連情報をキャプチャし、次にCLIPベースのテキスト埋め込みを行う。 そこで本研究では,ViT埋め込みを前提とした拡散バックボーンを用いた新しいSIDEモデルを提案する。 提案手法は,現在のSOTA(VPD)の0.069に対して,Abs Relの誤差が0.059(14%改善)であることから,NYUv2データセット上でのSIDEの最先端(SOTA)を確立した。 そして、KITTIデータセットでは、現在のSOTA(GEDepth)の0.142に比べてSq Rel誤差が0.139(2%改善)である。 また,NYUv2でトレーニングしたモデルを用いたゼロショット転送では,ZoeDepthによる16%,18%,45%,9%に比べてNeWCRFよりも20%,23%,81%,25%の相対的な改善(Sun-RGBD,iBims1,DIODE,HyperSim)が見られた。 プロジェクトのページはhttps://ecodepth-iitd.github.ioで公開されている。

In the absence of parallax cues, a learning-based single image depth estimation (SIDE) model relies heavily on shading and contextual cues in the image. While this simplicity is attractive, it is necessary to train such models on large and varied datasets, which are difficult to capture. It has been shown that using embeddings from pre-trained foundational models, such as CLIP, improves zero shot transfer in several applications. Taking inspiration from this, in our paper we explore the use of global image priors generated from a pre-trained ViT model to provide more detailed contextual information. We argue that the embedding vector from a ViT model, pre-trained on a large dataset, captures greater relevant information for SIDE than the usual route of generating pseudo image captions, followed by CLIP based text embeddings. Based on this idea, we propose a new SIDE model using a diffusion backbone which is conditioned on ViT embeddings. Our proposed design establishes a new state-of-the-art (SOTA) for SIDE on NYUv2 dataset, achieving Abs Rel error of 0.059 (14% improvement) compared to 0.069 by the current SOTA (VPD). And on KITTI dataset, achieving Sq Rel error of 0.139 (2% improvement) compared to 0.142 by the current SOTA (GEDepth). For zero-shot transfer with a model trained on NYUv2, we report mean relative improvement of (20%, 23%, 81%, 25%) over NeWCRFs on (Sun-RGBD, iBims1, DIODE, HyperSim) datasets, compared to (16%, 18%, 45%, 9%) by ZoeDepth. The project page is available at https://ecodepth-iitd.github.io
翻訳日:2024-04-18 18:31:46 公開日:2024-04-17
# ストリームおよび大規模並列モデルにおける決定木分割の探索

Finding Decision Tree Splits in Streaming and Massively Parallel Models ( http://arxiv.org/abs/2403.19867v2 )

ライセンス: Link先を確認
Huy Pham, Hoang Ta, Hoa T. Vu, (参考訳) 本研究では,決定木学習における最適分割を計算するためのデータストリームアルゴリズムを提案する。 特に、観測用$x_i$とそのラベル$y_i$のデータストリームが与えられた場合、目標は、データを2つのセットに分割する最適な分割点$j$を見つけ、平均二乗誤差(回帰用)または誤分類率(分類用)を最小化することである。 これらの問題に対してサブ線形空間と少数のパスを使用する高速ストリーミングアルゴリズムを提供する。 これらのアルゴリズムは、超並列計算モデルにも拡張することができる。 我々の研究は直接的に比較するものではないが、ドミンゴスとハルテン(KDD 2000)の独創的な研究を補完する。

In this work, we provide data stream algorithms that compute optimal splits in decision tree learning. In particular, given a data stream of observations $x_i$ and their labels $y_i$, the goal is to find the optimal split point $j$ that divides the data into two sets such that the mean squared error (for regression) or misclassification rate (for classification) is minimized. We provide various fast streaming algorithms that use sublinear space and a small number of passes for these problems. These algorithms can also be extended to the massively parallel computation model. Our work, while not directly comparable, complements the seminal work of Domingos and Hulten (KDD 2000).
翻訳日:2024-04-18 18:31:46 公開日:2024-04-17
# データサイエンスにおける予測的語彙課題に対する大規模言語モデルの可能性

Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science ( http://arxiv.org/abs/2403.20208v5 )

ライセンス: Link先を確認
Yazheng Yang, Yuqi Wang, Sankalok Sen, Lei Li, Qi Liu, (参考訳) データサイエンスの分野において、欠落した値の分類、回帰、計算の予測タスクは、表型データに関連する問題によく遭遇する。 この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。 自然言語を解釈する能力にもかかわらず、LLMは構造化された表データを扱うには不十分である。 この制限は、基礎的なトレーニング中に表データの複雑さに欠けることに起因する。 本研究の目的は、この拡張データセット上で、注釈付きテーブルの包括的コーパスをコンパイルし、Llama-2の大規模トレーニングを実行することにより、このギャップを軽減することである。 さらに、訓練されたモデルをゼロショット予測、少数ショット予測、文脈内学習シナリオに適用する実践的応用について検討する。 大規模な実験を通じて、我々の方法論は既存のベンチマークよりも大幅に改善されている。 これらの進歩は、データサイエンスにおけるテーブル関連問題を解決するためのLLMトレーニングの調整の有効性を強調し、表知性を高めるためにLLMを利用するための新しいベンチマークを確立する。

In the domain of data science, the predictive tasks of classification, regression, and imputation of missing values are commonly encountered challenges associated with tabular data. This research endeavors to apply Large Language Models (LLMs) towards addressing these predictive tasks. Despite their proficiency in comprehending natural language, LLMs fall short in dealing with structured tabular data. This limitation stems from their lacking exposure to the intricacies of tabular data during their foundational training. Our research aims to mitigate this gap by compiling a comprehensive corpus of tables annotated with instructions and executing large-scale training of Llama-2 on this enriched dataset. Furthermore, we investigate the practical application of applying the trained model to zero-shot prediction, few-shot prediction, and in-context learning scenarios. Through extensive experiments, our methodology has shown significant improvements over existing benchmarks. These advancements highlight the efficacy of tailoring LLM training to solve table-related problems in data science, thereby establishing a new benchmark in the utilization of LLMs for enhancing tabular intelligence.
翻訳日:2024-04-18 18:31:46 公開日:2024-04-17
# 反復学習は大規模視覚言語モデルにおける構成性を改善する

Iterated Learning Improves Compositionality in Large Vision-Language Models ( http://arxiv.org/abs/2404.02145v2 )

ライセンス: Link先を確認
Chenhao Zheng, Jieyu Zhang, Aniruddha Kembhavi, Ranjay Krishna, (参考訳) 人間の視覚と自然言語の両方に共通する基本的な特徴は、その構成的性質である。 しかし、大きなビジョンと言語の事前訓練によるパフォーマンス向上にもかかわらず、最近の調査では、すべての最先端のビジョン言語モデルは構成性に苦しむ。 彼らは「黒の男に面した白の少女」と「白の男に面した黒の少女」のイメージを区別できない。 さらに、以前の研究は、構成性はスケールで発生しないことを示唆している。 本稿では,構成性にインセンティブを与える新しい反復学習アルゴリズムを提案する。 文化的な伝達を識別する認知科学研究は、人間に作曲言語を開発する動機を与える前に、新しい世代をインダクティブとして教える必要がある。 具体的には、視覚エージェントと言語エージェントのルイスシグナリングゲームとして視覚言語コントラスト学習を再構成し、トレーニング中のエージェントの重みの1つを反復的にリセットすることで文化的伝達を運用する。 例えば、CC3MとCC12Mでトレーニングされた私たちのモデルは、SugarCrepeベンチマークにおいて、標準のCLIPを4.7%改善します。

A fundamental characteristic common to both human vision and natural language is their compositional nature. Yet, despite the performance gains contributed by large vision and language pretraining, recent investigations find that most-if not all-our state-of-the-art vision-language models struggle at compositionality. They are unable to distinguish between images of " a girl in white facing a man in black" and "a girl in black facing a man in white". Moreover, prior work suggests that compositionality doesn't arise with scale: larger model sizes or training data don't help. This paper develops a new iterated training algorithm that incentivizes compositionality. We draw on decades of cognitive science research that identifies cultural transmission-the need to teach a new generation-as a necessary inductive prior that incentivizes humans to develop compositional languages. Specifically, we reframe vision-language contrastive learning as the Lewis Signaling Game between a vision agent and a language agent, and operationalize cultural transmission by iteratively resetting one of the agent's weights during training. After every iteration, this training paradigm induces representations that become "easier to learn", a property of compositional languages: e.g. our model trained on CC3M and CC12M improves standard CLIP by 4.7%, 4.0% respectfully in the SugarCrepe benchmark.
翻訳日:2024-04-18 18:31:46 公開日:2024-04-17
# アルファ不変性:ニューラルラジアンス場における距離と体積密度の逆スケーリングについて

Alpha Invariance: On Inverse Scaling Between Distance and Volume Density in Neural Radiance Fields ( http://arxiv.org/abs/2404.02155v2 )

ライセンス: Link先を確認
Joshua Ahn, Haochen Wang, Raymond A. Yeh, Greg Shakhnarovich, (参考訳) 3次元シーン次元におけるスケールのあいまいさは、ニューラルレイディアンス場における体積密度の大きさのあいまいさをもたらす。 この性質をα不変性と呼ぶ。 NeRFがアルファ不変性をよりよく維持するために、我々は推奨する 1)ログ空間における距離と体積密度のパラメータ化 2)高線透過性を保証するための離散化に依存しない初期化戦略。 我々はいくつかの人気のある放射場モデルを再検討し、これらのシステムがシーンスケーリングに起因する問題に対処するために様々なヒューリスティックを用いていることを見出した。 私たちは彼らの振る舞いをテストし、レシピをより堅牢なものにします。

Scale-ambiguity in 3D scene dimensions leads to magnitude-ambiguity of volumetric densities in neural radiance fields, i.e., the densities double when scene size is halved, and vice versa. We call this property alpha invariance. For NeRFs to better maintain alpha invariance, we recommend 1) parameterizing both distance and volume densities in log space, and 2) a discretization-agnostic initialization strategy to guarantee high ray transmittance. We revisit a few popular radiance field models and find that these systems use various heuristics to deal with issues arising from scene scaling. We test their behaviors and show our recipe to be more robust.
翻訳日:2024-04-18 18:31:46 公開日:2024-04-17
# アノテーションモデリングとスケーリングのためのコーパス考察

Corpus Considerations for Annotator Modeling and Scaling ( http://arxiv.org/abs/2404.02340v2 )

ライセンス: Link先を確認
Olufunke O. Sarumi, Béla Neuendorf, Joan Plepi, Lucie Flek, Jörg Schlötterer, Charles Welch, (参考訳) 自然言語処理研究やアノテーションタスクの最近の傾向は、従来の1つの根拠の真理への依存から、特に主観的なタスクにおける個々の視点への焦点へのパラダイムシフトを裏付けている。 アノテーションタスクが多様性を包含することを意図したシナリオでは、大多数のクラスラベルにのみ依存するモデルは、必然的に貴重なマイノリティの観点を無視します。 この監視は、重要な情報の欠落を招き、より広い文脈で、より大きな生態系内のバランスを乱すリスクを負う可能性がある。 アノテーションモデリングのランドスケープは多様な表現技法で展開されるので、その効果を、ビュー内のデータセットのきめ細かい特徴で調べることが不可欠になる。 本研究では,様々なアノテータモデリング手法を体系的に検討し,その性能を7つのコーパスで比較する。 以上の結果から,一般的に使用されているユーザトークンモデルは,より複雑なモデルよりも一貫して優れていることがわかった。 合成埋め込み手法を導入し,モデルが与えられたデータセットとの整合の関数として最もよく機能する相違点を示す。 本研究は,コーパスの統計値とアノテータのモデリング性能の関係を考察し,コーパス構築とパースペクティビストNLPに関する今後の研究を報告する。

Recent trends in natural language processing research and annotation tasks affirm a paradigm shift from the traditional reliance on a single ground truth to a focus on individual perspectives, particularly in subjective tasks. In scenarios where annotation tasks are meant to encompass diversity, models that solely rely on the majority class labels may inadvertently disregard valuable minority perspectives. This oversight could result in the omission of crucial information and, in a broader context, risk disrupting the balance within larger ecosystems. As the landscape of annotator modeling unfolds with diverse representation techniques, it becomes imperative to investigate their effectiveness with the fine-grained features of the datasets in view. This study systematically explores various annotator modeling techniques and compares their performance across seven corpora. From our findings, we show that the commonly used user token model consistently outperforms more complex models. We introduce a composite embedding approach and show distinct differences in which model performs best as a function of the agreement with a given dataset. Our findings shed light on the relationship between corpus statistics and annotator modeling performance, which informs future work on corpus construction and perspectivist NLP.
翻訳日:2024-04-18 18:31:46 公開日:2024-04-17
# 複数物体追跡のための表現アライメントコントラスト規則化

Representation Alignment Contrastive Regularization for Multi-Object Tracking ( http://arxiv.org/abs/2404.02562v2 )

ライセンス: Link先を確認
Zhonglin Liu, Shujie Chen, Jianfeng Dong, Xun Wang, Di Zhou, (参考訳) 多目的追跡アルゴリズムの高性能化は,データアソシエーション段階における時空間関係のモデル化に大きく依存している。 メインストリームアプローチは、時空間関係モデリングのためのルールベースおよびディープラーニングベースの手法を含む。 前者は物理運動法則に依存し、より広い適用性を提供するが、複雑な物体の動きに対して最適な結果をもたらすが、後者は高い性能を達成するが、解釈性に欠け、複雑なモジュール設計を伴う。 本研究の目的は、深層学習に基づく時空間関係モデルを簡単にし、データアソシエーションのための機能に解釈可能性を導入することである。 具体的には、軽量な単層トランスエンコーダを用いて時空間関係をモデル化する。 特徴をより解釈的にするために、時空間整合性規則から導かれる表現アライメントに基づく2つの対照的な正則化損失を提案する。 アフィニティ行列に重み付け和を適用することで、アライメントされた機能は、元のトラッキングワークフローのデータアソシエーションステージにシームレスに統合できる。 実験の結果,既存の追跡ネットワークの性能の大部分を過度に複雑にすることなく向上させ,トレーニングオーバーヘッドが最小限に増加し,ほぼ無視可能な計算・記憶コストが増大することがわかった。

Achieving high-performance in multi-object tracking algorithms heavily relies on modeling spatio-temporal relationships during the data association stage. Mainstream approaches encompass rule-based and deep learning-based methods for spatio-temporal relationship modeling. While the former relies on physical motion laws, offering wider applicability but yielding suboptimal results for complex object movements, the latter, though achieving high-performance, lacks interpretability and involves complex module designs. This work aims to simplify deep learning-based spatio-temporal relationship models and introduce interpretability into features for data association. Specifically, a lightweight single-layer transformer encoder is utilized to model spatio-temporal relationships. To make features more interpretative, two contrastive regularization losses based on representation alignment are proposed, derived from spatio-temporal consistency rules. By applying weighted summation to affinity matrices, the aligned features can seamlessly integrate into the data association stage of the original tracking workflow. Experimental results showcase that our model enhances the majority of existing tracking networks' performance without excessive complexity, with minimal increase in training overhead and nearly negligible computational and storage costs.
翻訳日:2024-04-18 18:31:46 公開日:2024-04-17
# AQuA -- LLMを用いたオンラインディスカッションにおける専門家と非専門家の考察

AQuA -- Combining Experts' and Non-Experts' Views To Assess Deliberation Quality in Online Discussions Using LLMs ( http://arxiv.org/abs/2404.02761v3 )

ライセンス: Link先を確認
Maike Behrendt, Stefan Sylvius Wagner, Marc Ziegele, Lena Wilms, Anke Stoll, Dominique Heinbach, Stefan Harmeling, (参考訳) 政治オンライン議論におけるコントリビューションの質の測定は、熟考研究とコンピュータ科学において不可欠である。 オンラインの議論の質を評価するためのさまざまな指標が研究によって特定され、深層学習の進歩により、これらの手段の自動化が実現可能になった。 特定の品質指標の分析に焦点が当てられている研究もあるが、様々な熟考的な側面を取り入れた総合的な品質スコアが好まれる。 本稿では,各議論記事の複数の指標から,統一された熟考品質スコアを算出する付加的なスコアであるAQuAを紹介する。 他の特異点とは異なり、AQuAはコメントに存在する熟考的な側面に関する情報を保持し、モデルの透明性を高める。 我々は,20の熟考指標に対する適応モデルを開発し,専門家のアノテーションと認識された熟考度との相関係数を非専門家によって計算し,各指標を1つの熟考スコアに重み付けする。 AQuAスコアは、事前トレーニング済みのアダプタから簡単に計算でき、トレーニング中に見られていない他のデータセットのアノテーションとよく一致します。 専門家と非専門家のアノテーションの分析は、社会科学文学における理論的発見を裏付けるものである。

Measuring the quality of contributions in political online discussions is crucial in deliberation research and computer science. Research has identified various indicators to assess online discussion quality, and with deep learning advancements, automating these measures has become feasible. While some studies focus on analyzing specific quality indicators, a comprehensive quality score incorporating various deliberative aspects is often preferred. In this work, we introduce AQuA, an additive score that calculates a unified deliberative quality score from multiple indices for each discussion post. Unlike other singular scores, AQuA preserves information on the deliberative aspects present in comments, enhancing model transparency. We develop adapter models for 20 deliberative indices, and calculate correlation coefficients between experts' annotations and the perceived deliberativeness by non-experts to weigh the individual indices into a single deliberative score. We demonstrate that the AQuA score can be computed easily from pre-trained adapters and aligns well with annotations on other datasets that have not be seen during training. The analysis of experts' vs. non-experts' annotations confirms theoretical findings in the social science literature.
翻訳日:2024-04-18 18:31:46 公開日:2024-04-17
# コミットは一方通行のステートジェネレータと等価です

Commitments are equivalent to one-way state generators ( http://arxiv.org/abs/2404.03220v2 )

ライセンス: Link先を確認
Rishabh Batra, Rahul Jain, (参考訳) ワンウェイ状態発生器 (OWSG) は古典的なワンウェイ関数の自然な量子アナログである。 我々は、$O\left(\frac{n}{\log(n)}\right)$-copy OWSGs(n$は入力長を表す)が$poly(n)$-copy OWSGと等価であり、量子コミットメントに等しいことを示す。 既知の結果は、$o\left(\frac{n}{\log(n)}\right)$-copy OWSG がコミットメントを示唆できないことを示しているので、$O\left(\frac{n}{\log(n)}\right)$-copy OWSG がコミットメントを得ることのできる最も弱い OWSG であることを示している。 H\r{a}stad, Impagliazzo, Levin, Luby [HILL] は古典的片方向関数 (OWF) から古典的擬似ランダム生成子 (PRG) を得たが、重要な修正を加えた。 我々の構成は、古典的な場合に適用すると、[HILL]が提供する構成の代替となる。 片方向関数の出力に条件づけられた議論はしないので、我々の構成と解析は間違いなく単純であり、独立した関心を持つかもしれない。

One-way state generators (OWSG) are natural quantum analogs to classical one-way functions. We show that $O\left(\frac{n}{\log(n)}\right)$-copy OWSGs ($n$ represents the input length) are equivalent to $poly(n)$-copy OWSG and to quantum commitments. Since known results show that $o\left(\frac{n}{\log(n)}\right)$-copy OWSG cannot imply commitments, this shows that $O\left(\frac{n}{\log(n)}\right)$-copy OWSGs are the weakest OWSGs from which we can get commitments (and hence much of quantum cryptography). Our construction follows along the lines of H\r{a}stad, Impagliazzo, Levin and Luby [HILL], who obtained classical pseudorandom generators (PRG) from classical one-way functions (OWF), however with crucial modifications. Our construction, when applied to the classical case, provides an alternative to the construction provided by [HILL]. Since we do not argue conditioned on the output of the one-way function, our construction and analysis are arguably simpler and may be of independent interest.
翻訳日:2024-04-18 18:31:46 公開日:2024-04-17
# 神経進化型電子力学ネットワーク

Neuroevolving Electronic Dynamical Networks ( http://arxiv.org/abs/2404.04587v2 )

ライセンス: Link先を確認
Derek Whitley, (参考訳) ニューロ進化は、自然選択によって人工ニューラルネットワークの性能を改善するために進化的アルゴリズムを適用する強力な方法であるが、これらのネットワークの適合性評価は、特に微分方程式のシミュレーションを必要とする連続時間リカレントニューラルネットワーク(CTRNN)において、時間と計算コストがかかる可能性がある。 この課題を克服するために、フィールドプログラマブルゲートアレイ(FPGA)は、高性能で消費電力の少ないため、ますます人気が高まっている。 さらに、動的かつ部分的な再構成を行う能力により、CTRNNの適合性の極めて高速な評価が可能となり、従来の進化可能なハードウェアの手法に関連するボトルネックに効果的に対処できる。 FPGAのプログラム可能なロジックに直接適合度評価を組み込むことで、超並列評価が実現可能となり、評価に要する時間を劇的に短縮する。 このFPGAの固有の並列性は、神経進化過程全体を数桁の規模で加速させ、最適解へのより高速な収束を促進する。 本研究は,神経進化型ニューラルネットワークのための強力なプラットフォームとして,能力のあるFPGA上での動的および部分的再構成を活用する可能性を示す。

Neuroevolution is a powerful method of applying an evolutionary algorithm to refine the performance of artificial neural networks through natural selection; however, the fitness evaluation of these networks can be time-consuming and computationally expensive, particularly for continuous time recurrent neural networks (CTRNNs) that necessitate the simulation of differential equations. To overcome this challenge, field programmable gate arrays (FPGAs) have emerged as an increasingly popular solution, due to their high performance and low power consumption. Further, their ability to undergo dynamic and partial reconfiguration enables the extremely rapid evaluation of the fitness of CTRNNs, effectively addressing the bottleneck associated with conventional methods of evolvable hardware. By incorporating fitness evaluation directly upon the programmable logic of the FPGA, hyper-parallel evaluation becomes feasible, dramatically reducing the time required for assessment. This inherent parallelism of FPGAs accelerates the entire neuroevolutionary process by several orders of magnitude, facilitating faster convergence to an optimal solution. The work presented in this study demonstrates the potential of utilizing dynamic and partial reconfiguration on capable FPGAs as a powerful platform for neuroevolving dynamic neural networks.
翻訳日:2024-04-18 18:22:01 公開日:2024-04-17
# 構造化知識ベースを用いた大規模言語モデルによるメタデータのキュレーション

Use of a Structured Knowledge Base Enhances Metadata Curation by Large Language Models ( http://arxiv.org/abs/2404.05893v2 )

ライセンス: Link先を確認
Sowmya S. Sundaram, Benjamin Solomon, Avani Khatri, Anisha Laumas, Purvesh Khatri, Mark A. Musen, (参考訳) メタデータは、データセットの発見可能性、アクセシビリティ、相互運用性、再利用性を保証する上で重要な役割を果たす。 本稿では,メタデータ標準への準拠性を改善するため,大規模言語モデル(LLM),特に GPT-4 の可能性について検討する。 NCBI BioSampleレポジトリの肺がん関連サンプルを記載した200件のランダムなデータ記録について実験を行い,GPT-4のメタデータ標準に準拠した編集を提案する能力について検討した。 ピアレビュープロセスによりフィールド名-フィールド値ペアのアテンデンス精度を算出し,標準データ辞書のアテンデンスを79%から80%(p<0.01。 CEDARテンプレートのテキスト記述形式でGPT-4を誘導し,79% (p<0.01。 以上の結果から,LSMはレガシメタデータの修正ができず,標準に忠実な準拠を保証できないが,構造化知識ベースと統合された場合,メタデータの自動キュレーションでの使用が期待できることを示す。

Metadata play a crucial role in ensuring the findability, accessibility, interoperability, and reusability of datasets. This paper investigates the potential of large language models (LLMs), specifically GPT-4, to improve adherence to metadata standards. We conducted experiments on 200 random data records describing human samples relating to lung cancer from the NCBI BioSample repository, evaluating GPT-4's ability to suggest edits for adherence to metadata standards. We computed the adherence accuracy of field name-field value pairs through a peer review process, and we observed a marginal average improvement in adherence to the standard data dictionary from 79% to 80% (p<0.01). We then prompted GPT-4 with domain information in the form of the textual descriptions of CEDAR templates and recorded a significant improvement to 97% from 79% (p<0.01). These results indicate that, while LLMs may not be able to correct legacy metadata to ensure satisfactory adherence to standards when unaided, they do show promise for use in automated metadata curation when integrated with a structured knowledge base.
翻訳日:2024-04-18 18:22:01 公開日:2024-04-17
# 幻覚のリーダーボード - 大規模言語モデルにおける幻覚を測定するオープンな取り組み

The Hallucinations Leaderboard -- An Open Effort to Measure Hallucinations in Large Language Models ( http://arxiv.org/abs/2404.05904v2 )

ライセンス: Link先を確認
Giwon Hong, Aryo Pradipta Gema, Rohit Saxena, Xiaotang Du, Ping Nie, Yu Zhao, Laura Perez-Beltrachini, Max Ryabinin, Xuanli He, Clémentine Fourrier, Pasquale Minervini, (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)の景観を人間のようなテキストを理解し、生成する能力で変化させてきた。 しかし、これらのモデルは、実際の現実や入力コンテキストと一致しない出力である ``hallucinations'' の傾向がある。 本稿では,各モデルの幻覚発生傾向を定量的に測定し,比較するオープンイニシアチブである幻覚リーダーボードを紹介する。 リーダーボードは、質問回答、要約、読書理解など、さまざまなタスクにおいて、事実性や忠実性といった幻覚のさまざまな側面に焦点を当てた包括的なベンチマークを使用する。 我々の分析は、異なるモデルの性能に関する洞察を提供し、研究者や実践者がアプリケーションに最も信頼性の高いモデルを選択するのを導く。

Large Language Models (LLMs) have transformed the Natural Language Processing (NLP) landscape with their remarkable ability to understand and generate human-like text. However, these models are prone to ``hallucinations'' -- outputs that do not align with factual reality or the input context. This paper introduces the Hallucinations Leaderboard, an open initiative to quantitatively measure and compare the tendency of each model to produce hallucinations. The leaderboard uses a comprehensive set of benchmarks focusing on different aspects of hallucinations, such as factuality and faithfulness, across various tasks, including question-answering, summarisation, and reading comprehension. Our analysis provides insights into the performance of different models, guiding researchers and practitioners in choosing the most reliable models for their applications.
翻訳日:2024-04-18 18:22:01 公開日:2024-04-17
# シミュレーションの世界にまたがるインストラクタブルエージェントのスケーリング

Scaling Instructable Agents Across Many Simulated Worlds ( http://arxiv.org/abs/2404.10179v2 )

ライセンス: Link先を確認
SIMA Team, Maria Abi Raad, Arun Ahuja, Catarina Barros, Frederic Besse, Andrew Bolt, Adrian Bolton, Bethanie Brownfield, Gavin Buttimore, Max Cant, Sarah Chakera, Stephanie C. Y. Chan, Jeff Clune, Adrian Collister, Vikki Copeman, Alex Cullum, Ishita Dasgupta, Dario de Cesare, Julia Di Trapani, Yani Donchev, Emma Dunleavy, Martin Engelcke, Ryan Faulkner, Frankie Garcia, Charles Gbadamosi, Zhitao Gong, Lucy Gonzales, Kshitij Gupta, Karol Gregor, Arne Olav Hallingstad, Tim Harley, Sam Haves, Felix Hill, Ed Hirst, Drew A. Hudson, Jony Hudson, Steph Hughes-Fitt, Danilo J. Rezende, Mimi Jasarevic, Laura Kampis, Rosemary Ke, Thomas Keck, Junkyung Kim, Oscar Knagg, Kavya Kopparapu, Andrew Lampinen, Shane Legg, Alexander Lerchner, Marjorie Limont, Yulan Liu, Maria Loks-Thompson, Joseph Marino, Kathryn Martin Cussons, Loic Matthey, Siobhan Mcloughlin, Piermaria Mendolicchio, Hamza Merzic, Anna Mitenkova, Alexandre Moufarek, Valeria Oliveira, Yanko Oliveira, Hannah Openshaw, Renke Pan, Aneesh Pappu, Alex Platonov, Ollie Purkiss, David Reichert, John Reid, Pierre Harvey Richemond, Tyson Roberts, Giles Ruscoe, Jaume Sanchez Elias, Tasha Sandars, Daniel P. Sawyer, Tim Scholtes, Guy Simmons, Daniel Slater, Hubert Soyer, Heiko Strathmann, Peter Stys, Allison C. Tam, Denis Teplyashin, Tayfun Terzi, Davide Vercelli, Bojan Vujatovic, Marcus Wainwright, Jane X. Wang, Zhengdong Wang, Daan Wierstra, Duncan Williams, Nathaniel Wong, Sarah York, Nick Young, (参考訳) 任意の3D環境で任意の言語命令に従うことができる組み込みAIシステムを構築することは、汎用AIを作成する上で重要な課題である。 この目標を達成するためには、複雑なタスクを達成するために、知覚と具体的行動において言語の基礎となることを学ぶ必要がある。 スケーラブルでインストラクタブルなマルチワールドエージェント(SIMA)プロジェクトは、さまざまな仮想3D環境におけるフリーフォームの指示に従うためのトレーニングエージェントによってこの問題に取り組む。 我々のゴールは、人間がどんなシミュレーションされた3D環境でもできることを何でも達成できるインストラクタブルエージェントを開発することです。 我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。 入力は画像観察と言語指示であり、出力はキーボードとマウスのアクションである。 この一般的なアプローチは難しいものですが、エージェントは視覚的に複雑でセマンティックにリッチな環境をまたいで言語を基盤にしつつ、エージェントを新しい環境で簡単に実行することができます。 本稿では,本研究のモチベーションと目標,初期の進展,様々な研究環境と様々な商用ビデオゲームの予備的成果について述べる。

Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as open-ended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.
翻訳日:2024-04-18 18:22:01 公開日:2024-04-17
# 人間の価値とは何で、AIとどのように一致させるのか?

What are human values, and how do we align AI to them? ( http://arxiv.org/abs/2404.10636v2 )

ライセンス: Link先を確認
Oliver Klingefjord, Ryan Lowe, Joe Edelman, (参考訳) AIシステムを人間の価値と整合させる必要があるという意見(Gabriel, 2020; Ji et al , 2024)が浮上している。 まず、人から価値を引き出すこと、第2に、これらの価値をMLモデルをトレーニングするためのアライメントターゲットに調整すること、第3に、モデルを実際にトレーニングすることである。 本稿では,最初の2つの部分に焦点をあてて質問する: 価値に関する多様な人間の入力を,言語モデルを整合させるターゲットに合成する"よい"方法は何か? この問いに答えるために、まず、人間の値に応じてモデル行動を形成するためのアライメント対象に対して満足すべき6つの基準のセットを定義する。 そこで我々は,MGE (Moral Graph Elicitation) と呼ばれる,大きな言語モデルを用いて,参加者に特定の文脈における価値をインタビューする手法を提案し,そのアプローチはTaylor (1977), Chang (2004) などによる価値の哲学に着想を得た。 我々はMGEを500人のアメリカ人の代表例で、故意に分けた3つのプロンプト(中絶に関するアドバイスなど)で試行する。 我々の結果は、MGEが6つの基準すべてでモデルアライメントを改善することを約束していることを示している。 例えば、ほとんどの参加者 (89.1%) はプロセスによってうまく表現されていると感じ、そして (89%) は最終的な道徳グラフが公平であると考えた。 私たちのプロセスは、前もって専門家と見なされる人物を定義することなく、しばしば「専門家」の価値観(例えば、中絶の助言を要請した女性の価値観)を道徳グラフの一番上に上げます。

There is an emerging consensus that we need to align AI systems with human values (Gabriel, 2020; Ji et al., 2024), but it remains unclear how to apply this to language models in practice. We split the problem of "aligning to human values" into three parts: first, eliciting values from people; second, reconciling those values into an alignment target for training ML models; and third, actually training the model. In this paper, we focus on the first two parts, and ask the question: what are "good" ways to synthesize diverse human inputs about values into a target for aligning language models? To answer this question, we first define a set of 6 criteria that we believe must be satisfied for an alignment target to shape model behavior in accordance with human values. We then propose a process for eliciting and reconciling values called Moral Graph Elicitation (MGE), which uses a large language model to interview participants about their values in particular contexts; our approach is inspired by the philosophy of values advanced by Taylor (1977), Chang (2004), and others. We trial MGE with a representative sample of 500 Americans, on 3 intentionally divisive prompts (e.g. advice about abortion). Our results demonstrate that MGE is promising for improving model alignment across all 6 criteria. For example, almost all participants (89.1%) felt well represented by the process, and (89%) thought the final moral graph was fair, even if their value wasn't voted as the wisest. Our process often results in "expert" values (e.g. values from women who have solicited abortion advice) rising to the top of the moral graph, without defining who is considered an expert in advance.
翻訳日:2024-04-18 18:22:00 公開日:2024-04-17
# 再区画化における競争地区の図面化

Drawing Competitive Districts in Redistricting ( http://arxiv.org/abs/2404.10964v1 )

ライセンス: Link先を確認
Gabriel Chuang, Oussama Hanguir, Clifford Stein, (参考訳) 再分権の過程において、重要な指標の1つは、競争地区の数、すなわち、両党が過半数を獲得する合理的な確率を持つ地区の数である。 競争的な地区は比例、応答性、その他の望ましい品質を達成するために重要である。 本稿では,少なくとも一定数の競争地区で計画図を作成する問題について論じる。 選挙権」の基準である「投票帯域」の競争力の基準(すなわち、前回の選挙がどれくらい近かったか)に加えて、我々は、特定の選挙で投票するか、投票しないかを選択できる人口の区分である「投票者」を明確に考慮する尺度を提案する。 2つの主要な対照的な結果を提示します。 まず、計算複雑性の観点からは、区分け作業自体が簡単である非常に自然な例(例えば、人口バランスの取れた細胞の小さな長方形格子)においても、競争地区で計画を描く作業はNPハードであることが示される。 第二に、単純な登山手順では、全ての地区が競争力のある現実の州に地区を見つけることができる。 後者の結果は、ノースカロライナ州とアリゾナ州の地区レベルのグラフで示し、競争力とその他の望ましい品質のトレードオフについて議論する。

In the process of redistricting, one important metric is the number of competitive districts, that is, districts where both parties have a reasonable chance of winning a majority of votes. Competitive districts are important for achieving proportionality, responsiveness, and other desirable qualities; some states even directly list competitiveness in their legally-codified districting requirements. In this work, we discuss the problem of drawing plans with at least a fixed number of competitive districts. In addition to the standard, ``vote-band'' measure of competitivenesss (i.e., how close was the last election?), we propose a measure that explicitly considers ``swing voters'' - the segment of the population that may choose to vote either way, or not vote at all, in a given election. We present two main, contrasting results. First, from a computational complexity perspective, we show that the task of drawing plans with competitive districts is NP-hard, even on very natural instances where the districting task itself is easy (e.g., small rectangular grids of population-balanced cells). Second, however, we show that a simple hill-climbing procedure can in practice find districtings on real states in which all the districts are competitive. We present the results of the latter on the precinct-level graphs of the U.S. states of North Carolina and Arizona, and discuss trade-offs between competitiveness and other desirable qualities.
翻訳日:2024-04-18 15:43:59 公開日:2024-04-17
# オンラインテスト時間適応のためのドメイン特化ブロック選択とペアビュー擬似ラベル

Domain-Specific Block Selection and Paired-View Pseudo-Labeling for Online Test-Time Adaptation ( http://arxiv.org/abs/2404.10966v1 )

ライセンス: Link先を確認
Yeonguk Yu, Sungho Shin, Seunghyeok Back, Minhwan Ko, Sangjun Noh, Kyoobin Lee, (参考訳) テスト時適応(TTA)は、事前トレーニングされたモデルを、デプロイ後にソースデータにアクセスすることなく、新しいテストドメインに適応することを目的としている。 既存のアプローチは、テストデータからグラウンドトルースを得ることができないため、通常擬似ラベルによる自己学習に依存している。 疑似ラベルの品質は、安定かつ正確な長期適応には重要であるが、それ以前には言及されていない。 本研究では,(1)ドメイン固有のブロック選択と(2)ペアビュー画像を用いた擬似ラベル生成という2つのコンポーネントからなる,シンプルで効果的なTTAフレームワークであるDPLOTを提案する。 具体的には、ドメイン固有の特徴抽出を含むブロックを選択し、エントロピー最小化によってこれらのブロックを訓練する。 現在のテスト領域に対してブロックを調整した後、与えられたテスト画像とそれに対応するフリップした画像を平均化して擬似ラベルを生成する。 単にフリップ拡張を用いることで、強い拡張によって生じるドメインギャップによって引き起こされる擬似ラベルの品質低下を防止する。 実験の結果、DPLOTはCIFAR10-C、CIFAR100-C、ImageNet-Cベンチマークにおいて従来のTTA手法よりも優れており、エラーを最大5.4%、9.1%、そして2.9%削減できることがわかった。 また,フレームワークの有効性を実証するための広範な分析を行う。 コードはhttps://github.com/gist-ailab/ domain-specific-block-selection-and-paired-view-pseudo-labeling-for-online-TTAで公開されている。

Test-time adaptation (TTA) aims to adapt a pre-trained model to a new test domain without access to source data after deployment. Existing approaches typically rely on self-training with pseudo-labels since ground-truth cannot be obtained from test data. Although the quality of pseudo labels is important for stable and accurate long-term adaptation, it has not been previously addressed. In this work, we propose DPLOT, a simple yet effective TTA framework that consists of two components: (1) domain-specific block selection and (2) pseudo-label generation using paired-view images. Specifically, we select blocks that involve domain-specific feature extraction and train these blocks by entropy minimization. After blocks are adjusted for current test domain, we generate pseudo-labels by averaging given test images and corresponding flipped counterparts. By simply using flip augmentation, we prevent a decrease in the quality of the pseudo-labels, which can be caused by the domain gap resulting from strong augmentation. Our experimental results demonstrate that DPLOT outperforms previous TTA methods in CIFAR10-C, CIFAR100-C, and ImageNet-C benchmarks, reducing error by up to 5.4%, 9.1%, and 2.9%, respectively. Also, we provide an extensive analysis to demonstrate effectiveness of our framework. Code is available at https://github.com/gist-ailab/domain-specific-block-selection-and-paired-view-pseudo-labeling-for-on line-TTA.
翻訳日:2024-04-18 15:43:59 公開日:2024-04-17
# 相関ランドスケープ上の量子非局在化:指数関数的に高速な多部絡み合わせ生成の鍵

Quantum delocalization on correlation landscape: The key to exponentially fast multipartite entanglement generation ( http://arxiv.org/abs/2404.10973v1 )

ライセンス: Link先を確認
Yaoming Chu, Xiangbei Li, Jianming Cai, (参考訳) 量子力学の目印であるエンタングルメントは、量子技術にとって重要な資源である。 強い絡み合った多粒子状態を生成することは、現在の量子実験において重要な目標である。 相関ランドスケープ上の実効作用素波動関数の量子非局在化によるハミルトン系における絡み合い生成ダイナミクスの理解のための新しい枠組みを公表する。 我々の枠組みは、量子フィッシャー情報によって観測される指数関数的に高速なマルチパーティイト絡み合いと、クリロフ空間における非局在化ダイナミクスを規定するホッピング振幅の線形的な漸近性との間に深い関係を確立する。 この関係を、パラダイム的リプキン・メシュコフ・グリックモデルを用いて説明し、カオス的フェインゴルト・ペレストップにおける潜在的なシグネチャを強調する。 本研究は,複雑な量子システムにおける高速絡み合い生成の理解と活用のための変換ツールを提供し,大規模絡み合いによる量子化技術の経路を提供する。

Entanglement, a hallmark of quantum mechanics, is a vital resource for quantum technologies. Generating highly entangled multipartite states is a key goal in current quantum experiments. We unveil a novel framework for understanding entanglement generation dynamics in Hamiltonian systems by quantum delocalization of an effective operator wavefunction on a correlation landscape. Our framework establishes a profound connection between the exponentially fast generation of multipartite entanglement, witnessed by the quantum Fisher information, and the linearly increasing asymptotics of hopping amplitudes governing the delocalization dynamics in Krylov space. We illustrate this connection using the paradigmatic Lipkin-Meshkov-Glick model and highlight potential signatures in chaotic Feingold-Peres tops. Our results provide a transformative tool for understanding and harnessing rapid entanglement production in complex quantum systems, providing a pathway for quantum enhanced technologies by large-scale entanglement.
翻訳日:2024-04-18 15:43:59 公開日:2024-04-17
# 人間と言語モデルにおけるモーラル推論評価のための手続き的ジレンマ生成

Procedural Dilemma Generation for Evaluating Moral Reasoning in Humans and Language Models ( http://arxiv.org/abs/2404.10975v1 )

ライセンス: Link先を確認
Jan-Philipp Fränken, Kanishk Gandhi, Tori Qiu, Ayesha Khawaja, Noah D. Goodman, Tobias Gerstenberg, (参考訳) 言語モデルのようなAIシステムは、人々の生活に影響を与える意思決定プロセスにますます統合されています。 検証するためには、体系的な評価を開発する必要がある。 モラルジレンマの重要な側面をプロンプトテンプレートに変換するために,言語モデルを用いて因果グラフを翻訳するフレームワークを提供する。 このフレームワークでは、50のシナリオと400のユニークなテスト項目からなる、大規模で多様なモラルジレンマ -- OffTheRailsベンチマーク -- を手続き的に生成しました。 対象者の道徳的許容度と意図的判断を項目のサブセットとして収集し,これらの判断を8つの条件で2つの言語モデル(GPT-4とClaude-2)と比較した。 有害が(副作用と比較して)必要手段である道徳的ジレンマは、受理率の低下と、参加者と言語モデルの両方に対する高い意図評価をもたらすことがわかった。 同じパターンは、避けられない結果と避けられない有害な結果に対して観察された。 しかし、その害がエージェントの行動によって生じたのか、行動が省略されたのかは明らかではなかった。 本稿では,実験効果の強度を高めるため,素早い生成パイプラインの限界とシナリオ改善の機会について論じる。

As AI systems like language models are increasingly integrated into decision-making processes affecting people's lives, it's critical to ensure that these systems have sound moral reasoning. To test whether they do, we need to develop systematic evaluations. We provide a framework that uses a language model to translate causal graphs that capture key aspects of moral dilemmas into prompt templates. With this framework, we procedurally generated a large and diverse set of moral dilemmas -- the OffTheRails benchmark -- consisting of 50 scenarios and 400 unique test items. We collected moral permissibility and intention judgments from human participants for a subset of our items and compared these judgments to those from two language models (GPT-4 and Claude-2) across eight conditions. We find that moral dilemmas in which the harm is a necessary means (as compared to a side effect) resulted in lower permissibility and higher intention ratings for both participants and language models. The same pattern was observed for evitable versus inevitable harmful outcomes. However, there was no clear effect of whether the harm resulted from an agent's action versus from having omitted to act. We discuss limitations of our prompt generation pipeline and opportunities for improving scenarios to increase the strength of experimental effects.
翻訳日:2024-04-18 15:43:59 公開日:2024-04-17
# マルチエージェント強化学習のためのグループ認識コーディネーショングラフ

Group-Aware Coordination Graph for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2404.10976v1 )

ライセンス: Link先を確認
Wei Duan, Jie Lu, Junyu Xuan, (参考訳) 協調的マルチエージェント強化学習(MARL)はエージェント間のシームレスな協調を必要とする。 このグラフを学習する既存の方法は、主にエージェント対ペア関係に焦点をあて、高階関係を無視している。 いくつかの手法は、グループ内の行動類似性を包含するように協調モデリングを拡張しようとするが、通常は潜伏グラフの同時学習において不足し、部分的に観察されたエージェント間の情報交換を制限している。 これらの制約を克服するために,現在観測されている行動パターンからエージェントペア間の協調とグループレベルの依存性の両方を捉えるために,GACG(Group-Aware Coordination Graph)を推論する新しい手法を提案する。 このグラフは、意思決定中にエージェント間の情報交換のためのグラフ畳み込みにさらに使用される。 同一グループ内のエージェント間の行動整合性をさらに確保するため,グループ間の凝集を促進するグループ距離損失を導入し,グループ間の特殊化を促進する。 本稿では,StarCraft IIマイクロマネジメントタスクによるGACGの性能評価を行った。 アブレーション実験により, 本手法の各成分の有効性について実験的に検証した。

Cooperative Multi-Agent Reinforcement Learning (MARL) necessitates seamless collaboration among agents, often represented by an underlying relation graph. Existing methods for learning this graph primarily focus on agent-pair relations, neglecting higher-order relationships. While several approaches attempt to extend cooperation modelling to encompass behaviour similarities within groups, they commonly fall short in concurrently learning the latent graph, thereby constraining the information exchange among partially observed agents. To overcome these limitations, we present a novel approach to infer the Group-Aware Coordination Graph (GACG), which is designed to capture both the cooperation between agent pairs based on current observations and group-level dependencies from behaviour patterns observed across trajectories. This graph is further used in graph convolution for information exchange between agents during decision-making. To further ensure behavioural consistency among agents within the same group, we introduce a group distance loss, which promotes group cohesion and encourages specialization between groups. Our evaluations, conducted on StarCraft II micromanagement tasks, demonstrate GACG's superior performance. An ablation study further provides experimental evidence of the effectiveness of each component of our method.
翻訳日:2024-04-18 15:43:59 公開日:2024-04-17
# 都市安全と公衆衛生の強化を可能にする3次元LiDARセンサの活用:歩行者モニタリングと異常活動検出

Leveraging 3D LiDAR Sensors to Enable Enhanced Urban Safety and Public Health: Pedestrian Monitoring and Abnormal Activity Detection ( http://arxiv.org/abs/2404.10978v1 )

ライセンス: Link先を確認
Nawfal Guefrachi, Jian Shi, Hakim Ghazzai, Ahmad Alsharoa, (参考訳) Light Detection and Ranging(LiDAR)とInternet of Things(IoT)技術の統合は、都市安全と歩行者の健康における公衆衛生情報学の変革的な機会を提供する。 本稿では,都市交通シナリオにおける3次元物体検出・活動分類の強化にこれらの技術を活用した新しいフレームワークを提案する。 高度LiDARを用いることで、詳細な3Dポイントクラウドデータを取得し、正確な歩行者活動監視を可能にする。 都市データの不足を克服するため、Blenderの交通環境をシミュレートして特殊なデータセットを作成し、ターゲットモデルトレーニングを容易にする。 提案手法では, 歩行者行動の把握と安全な都市環境の促進により, 歩行者活動の分類を行うために, PV-RCNN (Point Voxel-Region-based Convolutional Neural Network) を改良した。 我々のデュアルモデルアプローチは、都市交通管理を向上するだけでなく、歩行者行動に関する洞察を提供し、より安全な都市環境を促進することによって、公衆衛生に大きく貢献する。

The integration of Light Detection and Ranging (LiDAR) and Internet of Things (IoT) technologies offers transformative opportunities for public health informatics in urban safety and pedestrian well-being. This paper proposes a novel framework utilizing these technologies for enhanced 3D object detection and activity classification in urban traffic scenarios. By employing elevated LiDAR, we obtain detailed 3D point cloud data, enabling precise pedestrian activity monitoring. To overcome urban data scarcity, we create a specialized dataset through simulated traffic environments in Blender, facilitating targeted model training. Our approach employs a modified Point Voxel-Region-based Convolutional Neural Network (PV-RCNN) for robust 3D detection and PointNet for classifying pedestrian activities, significantly benefiting urban traffic management and public health by offering insights into pedestrian behavior and promoting safer urban environments. Our dual-model approach not only enhances urban traffic management but also contributes significantly to public health by providing insights into pedestrian behavior and promoting safer urban environment.
翻訳日:2024-04-18 15:43:59 公開日:2024-04-17
# 複合分類の不確かさを定量化する超証拠深層学習

Hyper Evidential Deep Learning to Quantify Composite Classification Uncertainty ( http://arxiv.org/abs/2404.10980v1 )

ライセンス: Link先を確認
Changbin Li, Kangshuo Li, Yuzhe Ou, Lance M. Kaplan, Audun Jøsang, Jin-Hee Cho, Dong Hyun Jeong, Feng Chen, (参考訳) ディープニューラルネットワーク(DNN)は、排他的で多クラスな分類タスクでうまく機能することが示されている。 しかし、異なるクラスに類似した視覚的特徴がある場合、ヒトのアノテータがそれらを区別することが困難になる。 このシナリオは複合クラスラベルの使用を必要とする。 本稿では,学習データにおける複合クラスラベルによる予測不確実性を,主観的論理(SL)と呼ばれる信念理論の文脈で明示的にモデル化する,ハイパーエビデンシャルニューラルネットワーク(HENN)という新しいフレームワークを提案する。 クラス確率にグループ化されたディリクレ分布を配置することにより、ニューラルネットワークの予測を超主観的意見のパラメータとして扱い、データから決定論的DNNによってこれらの超オピニオンにつながる単一および複合的なエビデンスを収集するネットワークを学習する。 本稿では,DNNの複合分類の不確かさを定量化するために,SLにおける過剰オピニオンのために考案された曖昧さという新しい不確実性型を提案する。 以上の結果から,HENNは4つの画像データセットに基づいて最先端の手法よりも優れていることが示された。 コードとデータセットは、https://github.com/Hugo101/HyperEvidentialNN.comで入手できる。

Deep neural networks (DNNs) have been shown to perform well on exclusive, multi-class classification tasks. However, when different classes have similar visual features, it becomes challenging for human annotators to differentiate them. This scenario necessitates the use of composite class labels. In this paper, we propose a novel framework called Hyper-Evidential Neural Network (HENN) that explicitly models predictive uncertainty due to composite class labels in training data in the context of the belief theory called Subjective Logic (SL). By placing a grouped Dirichlet distribution on the class probabilities, we treat predictions of a neural network as parameters of hyper-subjective opinions and learn the network that collects both single and composite evidence leading to these hyper-opinions by a deterministic DNN from data. We introduce a new uncertainty type called vagueness originally designed for hyper-opinions in SL to quantify composite classification uncertainty for DNNs. Our results demonstrate that HENN outperforms its state-of-the-art counterparts based on four image datasets. The code and datasets are available at: https://github.com/Hugo101/HyperEvidentialNN.
翻訳日:2024-04-18 15:43:59 公開日:2024-04-17
# 大規模言語モデルのための検索用テキスト生成法の検討

A Survey on Retrieval-Augmented Text Generation for Large Language Models ( http://arxiv.org/abs/2404.10981v1 )

ライセンス: Link先を確認
Yizheng Huang, Jimmy Huang, (参考訳) Retrieval-Augmented Generation (RAG)は、検索手法をディープラーニングとマージして、大規模言語モデル(LLM)の静的制限に対処し、最新の外部情報の動的統合を可能にする。 この手法は、主にテキスト領域に焦点をあて、LCMによる可塑性かつ不正確な応答の生成に対してコスト効率のよいソリューションを提供し、現実世界のデータを用いて出力の精度と信頼性を高める。 本稿では,RAGのパラダイムを,検索前,検索後,検索後,生成の4つのカテゴリに分類し,検索の観点から詳細な視点を提供する。 RAGの進化を概説し、重要な研究の分析を通して分野の進歩について論じている。 さらに,RAGの評価手法についても紹介し,今後の研究課題に対処し,今後の研究方向性を提案する。 組織的な枠組みと分類を提供することにより、RAGに関する既存の研究を統合し、その技術基盤を明確にし、LLMの適応性と応用を広げる可能性を明らかにすることを目的としている。

Retrieval-Augmented Generation (RAG) merges retrieval methods with deep learning advancements to address the static limitations of large language models (LLMs) by enabling the dynamic integration of up-to-date external information. This methodology, focusing primarily on the text domain, provides a cost-effective solution to the generation of plausible but incorrect responses by LLMs, thereby enhancing the accuracy and reliability of their outputs through the use of real-world data. As RAG grows in complexity and incorporates multiple concepts that can influence its performance, this paper organizes the RAG paradigm into four categories: pre-retrieval, retrieval, post-retrieval, and generation, offering a detailed perspective from the retrieval viewpoint. It outlines RAG's evolution and discusses the field's progression through the analysis of significant studies. Additionally, the paper introduces evaluation methods for RAG, addressing the challenges faced and proposing future research directions. By offering an organized framework and categorization, the study aims to consolidate existing research on RAG, clarify its technological underpinnings, and highlight its potential to broaden the adaptability and applications of LLMs.
翻訳日:2024-04-18 15:43:59 公開日:2024-04-17
# 超電導固定周波数ビット間のリモート共振ゲート

Remote Cross-resonance Gate between Superconducting Fixed-frequency Qubits ( http://arxiv.org/abs/2404.10983v1 )

ライセンス: Link先を確認
Mari Ohfuchi, Shintaro Sato, (参考訳) 高忠実な量子状態移動と超伝導固定周波数量子ビット間のリモート絡み合いはまだ実現されていない。 本研究では,別のリモート共振ゲートを提案する。 クビットを接続する超伝導同軸ケーブルの複数のモードを考慮すると、製造誤差によるクビット周波数シフトがあっても、クロス共振ゲートが一定の精度で動作している条件を見つける必要がある。 0.25mおよび0.5mのケーブルでは、$$99.9\%のエンタングル生成によるリモートクロス共振ゲートが、$\pm$10-MHzの周波数シフトであっても得られる。 モード間隔が狭い1mケーブルでは、キュービットとケーブルの結合を小さくすることで99.5\%のコンカレンスを実現する。 最適化されたエコーアップコサインパルス持続時間は150-400 nsであり、チップ上の隣接量子ビット間の相互共振ゲートの動作時間に類似している。 ケーブルモードによる消散は、得られた結果に大きく影響しない。 このような高精度な量子配線は、量子コンピュータシステムをスケールアップするだけでなく、チップ上の非局所的な接続にも道を開く。

High-fidelity quantum state transfer and remote entanglement between superconducting fixed-frequency qubits have not yet been realized. In this study, we propose an alternative remote cross-resonance gate. Considering multiple modes of a superconducting coaxial cable connecting qubits, we must find conditions under which the cross-resonance gate operates with a certain accuracy even in the presence of qubit frequency shifts due to manufacturing errors. For 0.25- and 0.5-m cables, remote cross-resonance gates with a concurrence of $>99.9\%$ in entanglement generation are obtained even with $\pm$10-MHz frequency shifts. For a 1-m cable with a narrow mode spacing, a concurrence of 99.5\% is achieved by reducing the coupling between the qubits and cable. The optimized echoed raised-cosine pulse duration is 150--400 ns, which is similar to the operation time of cross-resonance gates between neighboring qubits on a chip. The dissipation through the cable modes does not considerably affect the obtained results. Such high-precision quantum interconnects pave the way not only for scaling up quantum computer systems but also for nonlocal connections on a chip.
翻訳日:2024-04-18 15:43:59 公開日:2024-04-17
# 劣化したロスレスメモリリプレイによるグラフ連続学習

Graph Continual Learning with Debiased Lossless Memory Replay ( http://arxiv.org/abs/2404.10984v1 )

ライセンス: Link先を確認
Chaoxi Niu, Guansong Pang, Ling Chen, (参考訳) リアルタイムグラフデータはしばしば継続的に拡張され、静的グラフデータにグラフニューラルネットワーク(GNN)の学習が非現実的になる。 グラフ連続学習(GCL)は、従来のタスクのグラフ上での性能を維持しながら、現在のタスクの拡張グラフにGNNを継続的に適応することにより、この問題に対処する。 新しいタスクを学習する際の過去のタスクのデータ再生を目的としたメモリリプレイベースの手法が,従来のタスクから学んだ知識を忘れないようにするための原則的アプローチとして検討されている。 本稿では,この手法をDebiased Lossless Memory Replay (DeLoMe)と呼ばれる新しいフレームワークで拡張する。 以前のグラフのノード/エッジをサンプリングしてメモリを構築する既存の方法とは異なり、DeLoMeはメモリとして小さなロスレス合成ノード表現を学習する。 学習したメモリは、グラフデータのプライバシを保持するだけでなく、サンプリングベースのメソッドが実行できない全体的なグラフ情報をキャプチャする。 さらに、メモリデータ内のクラスと現在のデータとの間のデータ不均衡により、前のメソッドは現在のタスクに対するバイアスに悩まされる。 脱バイアスGCL損失関数は、このバイアスを効果的に緩和するためにDeLoMeで考案された。 4つのグラフデータセットの大規模な実験は、クラスおよびタスクインクリメンタルな学習環境下でのDeLoMeの有効性を示している。

Real-life graph data often expands continually, rendering the learning of graph neural networks (GNNs) on static graph data impractical. Graph continual learning (GCL) tackles this problem by continually adapting GNNs to the expanded graph of the current task while maintaining the performance over the graph of previous tasks. Memory replay-based methods, which aim to replay data of previous tasks when learning new tasks, have been explored as one principled approach to mitigate the forgetting of the knowledge learned from the previous tasks. In this paper we extend this methodology with a novel framework, called Debiased Lossless Memory replay (DeLoMe). Unlike existing methods that sample nodes/edges of previous graphs to construct the memory, DeLoMe learns small lossless synthetic node representations as the memory. The learned memory can not only preserve the graph data privacy but also capture the holistic graph information, for which the sampling-based methods are not viable. Further, prior methods suffer from bias toward the current task due to the data imbalance between the classes in the memory data and the current data. A debiased GCL loss function is devised in DeLoMe to effectively alleviate this bias. Extensive experiments on four graph datasets show the effectiveness of DeLoMe under both class- and task-incremental learning settings.
翻訳日:2024-04-18 15:43:59 公開日:2024-04-17
# CAD画像解析のためのプログレッシブポイント位置によるPixel-Wiseシンボルスポッティング

Pixel-Wise Symbol Spotting via Progressive Points Location for Parsing CAD Images ( http://arxiv.org/abs/2404.10985v1 )

ライセンス: Link先を確認
Junbiao Pang, Zailin Dong, Jiaxin Deng, Mengyuan Zhu, Yunwei Zhang, (参考訳) CAD (Parsing Computer-Aided Design) 図面はCADリビジョン、セマンティックベースの管理、アーキテクチャとエンジニアリングの両分野における3Dプロトタイプ作成の基本的なステップである。 CAD図面からの記号のラベル付けは、実際的な観点からは難しいが悪名高い作業である。 そこで本研究では,CAD図面から変換されたCAD画像からシンボルをラベル付けし,識別する手法を提案する。 CAD画像からシンボルをスポッティングする利点は、ラベル付けの低要件と低コストのアノテーションにある。 しかし,CAD画像からピクセル単位のスポッティングシンボルを抽出することは困難な作業である。 トレーニング効率と位置精度のバランスをとるために,プログレッシブガウスカーネル(PGK)を用いた画素ワイズポイントロケーションを提案する。 さらに,ヒートマップに基づく点位置推定法に局所オフセットを導入する。 キーポイント検出に基づいて,CAD画像中の矩形記号を再描画するシンボルグループ化手法を提案する。 通信産業CAD図面から機器室のCAD画像を含むデータセットを作成した。 この実世界のデータセットに対する大規模な実験により,提案手法は優れた一般化能力を有することが示された。

Parsing Computer-Aided Design (CAD) drawings is a fundamental step for CAD revision, semantic-based management, and the generation of 3D prototypes in both the architecture and engineering industries. Labeling symbols from a CAD drawing is a challenging yet notorious task from a practical point of view. In this work, we propose to label and spot symbols from CAD images that are converted from CAD drawings. The advantage of spotting symbols from CAD images lies in the low requirement of labelers and the low-cost annotation. However, pixel-wise spotting symbols from CAD images is challenging work. We propose a pixel-wise point location via Progressive Gaussian Kernels (PGK) to balance between training efficiency and location accuracy. Besides, we introduce a local offset to the heatmap-based point location method. Based on the keypoints detection, we propose a symbol grouping method to redraw the rectangle symbols in CAD images. We have released a dataset containing CAD images of equipment rooms from telecommunication industrial CAD drawings. Extensive experiments on this real-world dataset show that the proposed method has good generalization ability.
翻訳日:2024-04-18 15:43:59 公開日:2024-04-17
# 論文からプラットフォームへ:テーブルトップ演習のための新しい学習環境の進化

From Paper to Platform: Evolution of a Novel Learning Environment for Tabletop Exercises ( http://arxiv.org/abs/2404.10988v1 )

ライセンス: Link先を確認
Valdemar Švábenský, Jan Vykopal, Martin Horák, Martin Hofbauer, Pavel Čeleda, (参考訳) コンピューティングの学部生にとって、チームにおける複雑な実践的な問題を解決することを学ぶことは、将来のキャリアにとって不可欠なスキルである。 このスキルは、サイバーセキュリティやITガバナンスなど、さまざまな分野において必要です。 テーブルトップエクササイズ(Tabletop exercises)は、インシデント対応のトレーニングチームや、緊急計画の評価に使用される革新的な教育手法である。 しかし、テーブルトップエクササイズは、まだ大学教育において広く確立されていない。 本稿では,新しい技術を用いて教室における卓上演習を紹介するサイバーセキュリティ講座のデータと授業経験について述べる。 この技術は、通常、ペンと紙を使用して世界中の卓上運動が実施されているため、従来よりも大幅に改善されている。 手動による評価が難しい従来の卓上演習とは異なり、IXPはインタラクションデータの自動解析に基づく生徒の行動と学習に関する洞察を提供する。 IXPの能力と進化を、プラットフォームの準備の異なる段階において3年間にわたってホストされたエクササイズセッションを比較して示す。 学生データの分析は、コンピュータ教育におけるIXPの採用から学んだ教訓の議論によって補われている。 データ分析は、チームのパフォーマンスと振る舞いの詳細な比較を可能にした。 卓上エクササイズで授業を革新することを考えるインストラクターは、IXPを使用し、本論文の洞察から恩恵を受けることができる。

For undergraduate students of computing, learning to solve complex practical problems in a team is an essential skill for their future careers. This skill is needed in various fields, such as in cybersecurity and IT governance. Tabletop exercises are an innovative teaching method used in practice for training teams in incident response and evaluation of contingency plans. However, tabletop exercises are not yet widely established in university education. This paper presents data and teaching experience from a cybersecurity course that introduces tabletop exercises in classrooms using a novel technology: INJECT Exercise Platform (IXP), a web-based learning environment for delivering and evaluating the exercises. This technology substantially improves the prior practice, since tabletop exercises worldwide have usually been conducted using pen and paper. Unlike in traditional tabletop exercises, which are difficult to evaluate manually, IXP provides insights into students' behavior and learning based on automated analysis of interaction data. We demonstrate IXP's capabilities and evolution by comparing exercise sessions hosted throughout three years at different stages of the platform's readiness. The analysis of student data is supplemented by the discussion of the lessons learned from employing IXP in computing education contexts. The data analytics enabled a detailed comparison of the teams' performance and behavior. Instructors who consider innovating their classes with tabletop exercises may use IXP and benefit from the insights in this paper.
翻訳日:2024-04-18 15:43:59 公開日:2024-04-17
# FairSSD:合成音声検出器におけるバイアスの理解

FairSSD: Understanding Bias in Synthetic Speech Detectors ( http://arxiv.org/abs/2404.10989v1 )

ライセンス: Link先を確認
Amit Kumar Singh Yadav, Kratika Bhagtani, Davide Salvi, Paolo Bestagini, Edward J. Delp, (参考訳) 人間の話者が録音した音声と知覚的に区別できない合成音声を生成する方法が容易に利用可能である。 いくつかの事件は、これらの手法から生成された合成音声の誤用を報告し、詐欺を犯した。 このような誤用に対抗するため、合成音声を検出するために多くの方法が提案されている。 これらの検出器のいくつかはより解釈可能であり、野生での合成音声の検出を一般化することができ、ノイズに対して堅牢である。 しかし、これらの検出器のバイアスを理解するための限られた研究がなされている。 本研究では,既存の音声検出装置の偏りを調べ,特定の性別,年齢,アクセント群を不当に対象とするかどうかを判定する。 また、これらの検出器が、音声不自由話者w.r.t流音話者からのボナファイド音声の誤分類率が高いかどうかについても検討する。 0.9百万以上の音声信号を用いた6つの既存の音声検出装置の大規模な実験は、ほとんどの検出器が性別、年齢、アクセントに偏りがあり、公正性を確保するためには将来の作業が必要であることを示している。 今後の研究を支援するため、評価データセット、研究で使用されるモデル、ソースコードをhttps://gitlab.com/viper-purdue/fairssdで公開します。

Methods that can generate synthetic speech which is perceptually indistinguishable from speech recorded by a human speaker, are easily available. Several incidents report misuse of synthetic speech generated from these methods to commit fraud. To counter such misuse, many methods have been proposed to detect synthetic speech. Some of these detectors are more interpretable, can generalize to detect synthetic speech in the wild and are robust to noise. However, limited work has been done on understanding bias in these detectors. In this work, we examine bias in existing synthetic speech detectors to determine if they will unfairly target a particular gender, age and accent group. We also inspect whether these detectors will have a higher misclassification rate for bona fide speech from speech-impaired speakers w.r.t fluent speakers. Extensive experiments on 6 existing synthetic speech detectors using more than 0.9 million speech signals demonstrate that most detectors are gender, age and accent biased, and future work is needed to ensure fairness. To support future research, we release our evaluation dataset, models used in our study and source code at https://gitlab.com/viper-purdue/fairssd.
翻訳日:2024-04-18 15:34:07 公開日:2024-04-17
# カスタマイズコンテキストと概念を用いたパーソナライズされたパーソン問題の自動化

Automating Personalized Parsons Problems with Customized Contexts and Concepts ( http://arxiv.org/abs/2404.10990v1 )

ライセンス: Link先を確認
Andre del Carpio Gutierrez, Paul Denny, Andrew Luxton-Reilly, (参考訳) パーソンズの問題は、コードを書くことを学ぶ入門プログラミングの学生に有用な足場を提供する。 しかし、典型的な入門コースにおける多様な興味に訴える多くの高品質のパーソンズ問題を発生させることは、教育者にとって重要な課題である。 大きな言語モデル(LLM)は、学生が入門プログラミングカリキュラムの広さをカバーするトピックに対して、オンデマンドのパーソンズ問題を生成できるようにし、個人の関心に合わせたテーマのコンテキストをターゲットにすることで、ソリューションを提供することができる。 本稿では,LLMを用いた学習ツールであるPuzzleMakerPyについて紹介する。 本研究では,PuzzleMakerPyを大規模プログラミングコースに展開することで評価し,問題記述に使用するコンテキストフレーミングをパーソナライズする能力は学生にとって非常に有意義であり,プログラミングトピックをカスタマイズできることは学習に役立つと報告した。

Parsons problems provide useful scaffolding for introductory programming students learning to write code. However, generating large numbers of high-quality Parsons problems that appeal to the diverse range of interests in a typical introductory course is a significant challenge for educators. Large language models (LLMs) may offer a solution, by allowing students to produce on-demand Parsons problems for topics covering the breadth of the introductory programming curriculum, and targeting thematic contexts that align with their personal interests. In this paper, we introduce PuzzleMakerPy, an educational tool that uses an LLM to generate unlimited contextualized drag-and-drop programming exercises in the form of Parsons Problems, which introductory programmers can use as a supplemental learning resource. We evaluated PuzzleMakerPy by deploying it in a large introductory programming course, and found that the ability to personalize the contextual framing used in problem descriptions was highly engaging for students, and being able to customize the programming topics was reported as being useful for their learning.
翻訳日:2024-04-18 15:34:07 公開日:2024-04-17
# 拡散波からのエネルギーの強化学習制御のための関数近似

Function Approximation for Reinforcement Learning Controller for Energy from Spread Waves ( http://arxiv.org/abs/2404.10991v1 )

ライセンス: Link先を確認
Soumyendu Sarkar, Vineet Gundecha, Sahand Ghorbanpour, Alexander Shmakov, Ashwin Ramesh Babu, Avisek Naug, Alexandre Pichard, Mathieu Cocho, (参考訳) 産業用マルチジェネレータ・ウェーブ・エナジー・コンバータ(WEC)は、スプレッド・ウェーブと呼ばれる異なる方向から来る複数の同時波を処理しなければならない。 これらの複雑なデバイスは、エネルギー捕獲効率、維持を制限する構造的ストレスの低減、高波に対する積極的な保護という複数の目的を持つコントローラを必要とする。 プロキシポリシー最適化(PPO)アルゴリズムで訓練されたマルチエージェント強化学習(MARL)コントローラは、これらの複雑さを処理できる。 本稿では,システム力学のシーケンシャルな性質をモデル化する上で,ポリシーと批判ネットワークの異なる機能近似について検討し,それらが性能向上の鍵であることを確かめる。 完全連結ニューラルネットワーク (FCN) , LSTM, トランスフォーマーモデル, 各種深度, ゲート残差接続の性能について検討した。 以上の結果から,マルチヘッドアテンション,多層パーセプトロン,および変圧器ブロック(STrXL)の周囲にゲート状残留結合を有する中程度の深さの変圧器モデルが最適であり,既存のスプリングダンパ(SD)コントローラ上でのこれらの複雑な拡散波の平均22.1%のエネルギー効率を向上できることが示唆された。 さらに、デフォルトのSDコントローラとは異なり、変圧器コントローラは、角波の回転ヨー運動からほとんど機械的応力を排除した。 デモ:https://tinyurl.com/yueda3jh

The industrial multi-generator Wave Energy Converters (WEC) must handle multiple simultaneous waves coming from different directions called spread waves. These complex devices in challenging circumstances need controllers with multiple objectives of energy capture efficiency, reduction of structural stress to limit maintenance, and proactive protection against high waves. The Multi-Agent Reinforcement Learning (MARL) controller trained with the Proximal Policy Optimization (PPO) algorithm can handle these complexities. In this paper, we explore different function approximations for the policy and critic networks in modeling the sequential nature of the system dynamics and find that they are key to better performance. We investigated the performance of a fully connected neural network (FCN), LSTM, and Transformer model variants with varying depths and gated residual connections. Our results show that the transformer model of moderate depth with gated residual connections around the multi-head attention, multi-layer perceptron, and the transformer block (STrXL) proposed in this paper is optimal and boosts energy efficiency by an average of 22.1% for these complex spread waves over the existing spring damper (SD) controller. Furthermore, unlike the default SD controller, the transformer controller almost eliminated the mechanical stress from the rotational yaw motion for angled waves. Demo: https://tinyurl.com/yueda3jh
翻訳日:2024-04-18 15:34:07 公開日:2024-04-17
# 自動運転車の認識向上のためのグラア対策

How to deal with glare for improved perception of Autonomous Vehicles ( http://arxiv.org/abs/2404.10992v1 )

ライセンス: Link先を確認
Muhammad Z. Alam, Zeeshan Kaleem, Sousso Kelouwani, (参考訳) 視覚センサーは多用途であり、色、テクスチャ、形状、深さなど幅広い視覚的手がかりを捉えることができる。 この汎用性と比較的安価なマシンビジョンカメラは、自動運転車(AV)にビジョンベースの環境認識システムを採用する上で重要な役割を担った。 しかし、視覚に基づく知覚システムは、夜間の太陽や対向車両のヘッドライトのような明るい光源の存在や、単に雪や氷で覆われた表面を反射する光の影響を受けやすい。 本稿では,AVの知覚層で使用されるコンピュータビジョン(CV)タスクの性能向上を目的とした,飽和画素対応のグラア低減技術を含む,様々なグラア低減手法について検討する。 認識層が使用するCVアルゴリズムの性能測定値に基づいて,これらのグラア低減手法を評価する。 具体的には,自律走行に不可欠な物体検出,物体認識,物体追跡,深度推定,車線検出について検討した。 実験により, グレア低減法の有効性を検証し, 多様な知覚課題にまたがる性能向上と, グレアのレベルに対する優れたレジリエンスを示した。

Vision sensors are versatile and can capture a wide range of visual cues, such as color, texture, shape, and depth. This versatility, along with the relatively inexpensive availability of machine vision cameras, played an important role in adopting vision-based environment perception systems in autonomous vehicles (AVs). However, vision-based perception systems can be easily affected by glare in the presence of a bright source of light, such as the sun or the headlights of the oncoming vehicle at night or simply by light reflecting off snow or ice-covered surfaces; scenarios encountered frequently during driving. In this paper, we investigate various glare reduction techniques, including the proposed saturated pixel-aware glare reduction technique for improved performance of the computer vision (CV) tasks employed by the perception layer of AVs. We evaluate these glare reduction methods based on various performance metrics of the CV algorithms used by the perception layer. Specifically, we considered object detection, object recognition, object tracking, depth estimation, and lane detection which are crucial for autonomous driving. The experimental findings validate the efficacy of the proposed glare reduction approach, showcasing enhanced performance across diverse perception tasks and remarkable resilience against varying levels of glare.
翻訳日:2024-04-18 15:34:07 公開日:2024-04-17
# ホン・オ・マンデル干渉計による量子プラズモニックセンシング

Quantum plasmonic sensing by Hong-Ou-Mandel interferometry ( http://arxiv.org/abs/2404.10994v1 )

ライセンス: Link先を確認
Seungjin Yoon, Yu Sung Choi, Mark Tame, Jae Woong Yoon, Sergey V. Polyakov, Changhyoup Lee, (参考訳) 本稿では, 2重クレッツマン構成からなるプラズモンビームスプリッタに埋め込まれ, 分析液の屈折率を計測するHong-Ou-Mandel (HOM) 干渉計を用いて, フラストレーションされた全内部反射ビームスプリッタとして機能する量子プラズモンセンサを提案する。 単一光子検出器と組み合わせたHOM干渉計のセンシング性能をフィッシャー情報を用いて評価し, 分析液の屈折率を推定した。 これはその後、プラズモンビームスプリッターへの光のコヒーレントな状態の注入を考える古典的なベンチマークと比較される。 単一光子の波長と分析体の屈折率を変化させることで、50%の量子増強が達成される範囲を特定し、古典的なベンチマークと比較して観察された挙動について議論する。 本研究は、広範囲のナノフォトニックビームスプリッター構造に直接的な意味を持たせるために、量子強化センシング技術の進歩に関する有用な知見を提供することを期待する。

We propose a quantum plasmonic sensor using Hong-Ou-Mandel (HOM) interferometry that measures the refractive index of an analyte, embedded in a plasmonic beam splitter composed of a dual-Kretschmann configuration, which serves as a frustrated total internal reflection beamsplitter. The sensing performance of the HOM interferometry, combined with single-photon detectors, is evaluated through Fisher information for estimation of the refractive index of the analyte. This is subsequently compared with the classical benchmark that considers the injection of a coherent state of light into the plasmonic beamsplitter. By varying the wavelength of the single photons and the refractive index of the analyte, we identify a wide range where a 50 % quantum enhancement is achieved and discuss the observed behaviors in comparison with the classical benchmark. We expect this study to provide a useful insight into the advancement of quantum-enhanced sensing technologies, with direct implications for a wide range of nanophotonic beamsplitter structures.
翻訳日:2024-04-18 15:34:07 公開日:2024-04-17
# 変形予測のためのプライバシ保護のためのクリッピングSGDアルゴリズム:バイアス増幅と改善

Clipped SGD Algorithms for Privacy Preserving Performative Prediction: Bias Amplification and Remedies ( http://arxiv.org/abs/2404.10995v1 )

ライセンス: Link先を確認
Qiang Li, Michal Yemini, Hoi-To Wai, (参考訳) クラッピング確率勾配勾配(SGD)アルゴリズムは、モデルトレーニングにおけるユーザのアイデンティティの漏洩を低減するために、プライバシ保護最適化のための最も一般的なアルゴリズムの一つである。 本稿では,これらのアルゴリズムの収束特性を,配置した予測モデルによりデータ分布がシフトする性能予測設定で検討する。 例えば、後者は、銀行の融資政策の訓練中に戦略的利用者によって引き起こされる。 私たちの貢献は2倍です。 まず,PCSGD(PCSGD)アルゴリズムの直接的実装は,実演安定解と比較して偏りのある解に収束することを示した。 偏差の大きさについて下界と上界を定量化し、偏差がデータ分布の感度で増大する偏差増幅現象を示す。 次に,バイアス増幅効果に対する2つの対策を提案する。 第一に、プライバシーの保証を考慮に入れたPCSGDの最適なステップサイズ設計を利用する。 2つ目は、最近提案されたDiceSGDアルゴリズム [Zhang et al , 2024] である。 後者は, バイアスを除去し, 安定解に収束することを示す。 数値解析実験は我々の分析を検証した。

Clipped stochastic gradient descent (SGD) algorithms are among the most popular algorithms for privacy preserving optimization that reduces the leakage of users' identity in model training. This paper studies the convergence properties of these algorithms in a performative prediction setting, where the data distribution may shift due to the deployed prediction model. For example, the latter is caused by strategical users during the training of loan policy for banks. Our contributions are two-fold. First, we show that the straightforward implementation of a projected clipped SGD (PCSGD) algorithm may converge to a biased solution compared to the performative stable solution. We quantify the lower and upper bound for the magnitude of the bias and demonstrate a bias amplification phenomenon where the bias grows with the sensitivity of the data distribution. Second, we suggest two remedies to the bias amplification effect. The first one utilizes an optimal step size design for PCSGD that takes the privacy guarantee into account. The second one uses the recently proposed DiceSGD algorithm [Zhang et al., 2024]. We show that the latter can successfully remove the bias and converge to the performative stable solution. Numerical experiments verify our analysis.
翻訳日:2024-04-18 15:34:07 公開日:2024-04-17
# データ保持を限定したオンラインアルゴリズム

Online Algorithms with Limited Data Retention ( http://arxiv.org/abs/2404.10997v1 )

ライセンス: Link先を確認
Nicole Immorlica, Brendan Lucier, Markus Mobius, James Siderius, (参考訳) データ保持に関する厳密な制約を受けるオンラインアルゴリズムのモデルを導入する。 オンライン学習アルゴリズムは、一定のプロセスによって生成される1ラウンドごとに1つのデータポイントのストリームに遭遇する。 重要なことに、各データポイントは、到着後にメモリ$m$ラウンドから削除するよう要求することができる。 除去の影響をモデル化するために、我々はアルゴリズムがデータポイントのサブセット以外のラウンド間での情報や計算を格納することを許さない(保持制約に従わなければならない)。 ストリームの終了時に、アルゴリズムは全データセットに関する統計的クエリに答える。 どのようなレベルのパフォーマンスが$m$の関数として保証できるのか? 多次元平均推定と線形回帰問題に対するこの枠組みについて説明する。 我々は,全てのデータをできるだけ長く保持するベースラインアルゴリズムよりも指数関数的に改善できることを示す。 具体的には、$m = \textsc{Poly}(d, \log(1/\epsilon))$ Retention suffices to achieve mean squared error $\epsilon$ observed $O(1/\epsilon)$ $d$-dimensional data points。 これは、全てのデータを永久に保持する最適な、しかし実現不可能なアルゴリズムのエラー境界と一致する。 また、エラーを$\epsilon$で保証するために必要な保持値にほぼ一致する低い境界を示す。 我々の結果の1つの意味は、企業がアルゴリズムの性能を(ほぼ)最適化しようとする非敵の世界においても、データ保持法は忘れられる権利を保証するには不十分であるということだ。 本手法は, 確率的勾配降下の進行を, 独立性のある対向雑音のモデルの下でシミュレートするために, 多次元ランダム部分集合和問題における最近の展開を利用する。

We introduce a model of online algorithms subject to strict constraints on data retention. An online learning algorithm encounters a stream of data points, one per round, generated by some stationary process. Crucially, each data point can request that it be removed from memory $m$ rounds after it arrives. To model the impact of removal, we do not allow the algorithm to store any information or calculations between rounds other than a subset of the data points (subject to the retention constraints). At the conclusion of the stream, the algorithm answers a statistical query about the full dataset. We ask: what level of performance can be guaranteed as a function of $m$? We illustrate this framework for multidimensional mean estimation and linear regression problems. We show it is possible to obtain an exponential improvement over a baseline algorithm that retains all data as long as possible. Specifically, we show that $m = \textsc{Poly}(d, \log(1/\epsilon))$ retention suffices to achieve mean squared error $\epsilon$ after observing $O(1/\epsilon)$ $d$-dimensional data points. This matches the error bound of the optimal, yet infeasible, algorithm that retains all data forever. We also show a nearly matching lower bound on the retention required to guarantee error $\epsilon$. One implication of our results is that data retention laws are insufficient to guarantee the right to be forgotten even in a non-adversarial world in which firms merely strive to (approximately) optimize the performance of their algorithms. Our approach makes use of recent developments in the multidimensional random subset sum problem to simulate the progression of stochastic gradient descent under a model of adversarial noise, which may be of independent interest.
翻訳日:2024-04-18 15:34:07 公開日:2024-04-17
# InfoMatch:半スーパービジョン画像分類のためのエントロピーニューラル推定

InfoMatch: Entropy Neural Estimation for Semi-Supervised Image Classification ( http://arxiv.org/abs/2404.11003v1 )

ライセンス: Link先を確認
Qi Han, Zhibo Tian, Chengwei Xia, Kun Zhan, (参考訳) 擬似的監督と整合性正規化を利用した半教師画像分類は顕著な成功を収めた。 しかし、現在進行中の課題は、ラベルなしデータの可能性を完全に活用することにある。 これを解決するために、未ラベル標本の可能性を利用するために、情報エントロピーニューラル推定を用いる。 コントラスト学習にインスパイアされたエントロピーは、異なる拡張ビュー間での相互情報の低境界を最大化することによって推定される。 さらに,画像分類器の後部の情報エントロピーが,ソフトマックス予測の確率関数を最大化することにより近似されることを理論的に分析する。 これらの知見に導かれ、予測確率分布が基底構造分布と密接に一致することを保証するため、両視点からモデルを最適化する。 情報エントロピーとの理論的関連性を考えると、我々はこのメソッドを「textit{InfoMatch}」と命名する。 広範な実験を通して,その優れた性能を示す。

Semi-supervised image classification, leveraging pseudo supervision and consistency regularization, has demonstrated remarkable success. However, the ongoing challenge lies in fully exploiting the potential of unlabeled data. To address this, we employ information entropy neural estimation to harness the potential of unlabeled samples. Inspired by contrastive learning, the entropy is estimated by maximizing a lower bound on mutual information across different augmented views. Moreover, we theoretically analyze that the information entropy of the posterior of an image classifier is approximated by maximizing the likelihood function of the softmax predictions. Guided by these insights, we optimize our model from both perspectives to ensure that the predicted probability distribution closely aligns with the ground-truth distribution. Given the theoretical connection to information entropy, we name our method \textit{InfoMatch}. Through extensive experiments, we show its superior performance.
翻訳日:2024-04-18 15:34:07 公開日:2024-04-17
# AKGNet:知識誘導型非教師付き肺感染地域セグメンテーションへの貢献

AKGNet: Attribute Knowledge-Guided Unsupervised Lung-Infected Area Segmentation ( http://arxiv.org/abs/2404.11008v1 )

ライセンス: Link先を確認
Qing En, Yuhong Guo, (参考訳) 肺疾患の重症度を評価するためには, 肺感染症領域のセグメンテーションが重要である。 しかし、既存の画像テキストのマルチモーダル手法は、通常、時間と専門性に関する課題を提起する、労働集約的なアノテーションをモデルトレーニングに頼っている。 そこで本研究では, マスクアノテーションを使わずに画像テキストデータのみに基づいて, セグメンテーションを実現する非教師付き肺感染領域セグメンテーション(AKGNet)のための, 新規な属性知識誘導フレームワークを提案する。 AKGNetは、テキスト属性知識の学習、属性イメージ間の融合、高信頼に基づく擬似ラベル探索を同時に行う。 統計情報を学習し、埋め込み空間における画像属性とテキスト属性の空間的相関を捕捉し、マスクを反復的に精製してセグメンテーションを強化する。 具体的には,属性知識を抽出して特徴表現に組み込んだテキスト属性知識学習モジュールを提案する。 さらに, 空間依存性情報を捕捉するために, 属性と画像の相関関係を計算し, 関連領域をフィルタリングしながら, 関連領域に選択的に焦点をあてることにより, 属性画像のクロスアテンションモジュールを考案する。 最後に、高信頼予測を用いて擬似ラベルを生成し、マスクとセグメンテーションを反復的に強化することにより、自己学習マスク改善プロセスを採用する。 ベンチマーク医用画像データセットの実験結果から, 教師なしシナリオにおける最先端セグメンテーション手法と比較して, 提案手法の優れた性能を示した。

Lung-infected area segmentation is crucial for assessing the severity of lung diseases. However, existing image-text multi-modal methods typically rely on labour-intensive annotations for model training, posing challenges regarding time and expertise. To address this issue, we propose a novel attribute knowledge-guided framework for unsupervised lung-infected area segmentation (AKGNet), which achieves segmentation solely based on image-text data without any mask annotation. AKGNet facilitates text attribute knowledge learning, attribute-image cross-attention fusion, and high-confidence-based pseudo-label exploration simultaneously. It can learn statistical information and capture spatial correlations between image and text attributes in the embedding space, iteratively refining the mask to enhance segmentation. Specifically, we introduce a text attribute knowledge learning module by extracting attribute knowledge and incorporating it into feature representations, enabling the model to learn statistical information and adapt to different attributes. Moreover, we devise an attribute-image cross-attention module by calculating the correlation between attributes and images in the embedding space to capture spatial dependency information, thus selectively focusing on relevant regions while filtering irrelevant areas. Finally, a self-training mask improvement process is employed by generating pseudo-labels using high-confidence predictions to iteratively enhance the mask and segmentation. Experimental results on a benchmark medical image dataset demonstrate the superior performance of our method compared to state-of-the-art segmentation techniques in unsupervised scenarios.
翻訳日:2024-04-18 15:34:07 公開日:2024-04-17
# 微調整・伝達学習における制御理論的アプローチ

Control Theoretic Approach to Fine-Tuning and Transfer Learning ( http://arxiv.org/abs/2404.11013v1 )

ライセンス: Link先を確認
Erkan Bayram, Shenyu Liu, Mohamed-Ali Belabbas, Tamer Başar, (参考訳) 対の $(\mathcal{X},\mathcal{Y})$ の形のトレーニングセットが与えられたとき、制御系 $\dot{x} = f(x,u)$ は、制御系 $u^*$ を通じてペアセットを学習した。 既存の制御関数($u^*$)を見つけるには、トレーニングセットが更新された場合、新しい制御関数を学ぶ必要がある。 この制限を克服するために、$\textit{tuning without forgeting}$という概念を導入します。 トレーニングセットが拡大すると、制御関数 $u^*$ をチューニングするために $\textit{an iterative algorithm}$ を開発する。 より具体的には、我々のメソッドの更新毎に、制御$u^*$は、学習したサンプルの制御ダイナミクスによって生成されたエンドポイントマッピングのカーネルに投影される。 追加サンプルを反復的に学習しながら、事前に学習したサンプルの終点を一定に保つ。 我々の研究は制御手法のスケーラビリティに寄与し、トレーニングセットの拡張を適応的に処理するための新しいアプローチを提供する。

Given a training set in the form of a paired $(\mathcal{X},\mathcal{Y})$, we say that the control system $\dot{x} = f(x,u)$ has learned the paired set via the control $u^*$ if the system steers each point of $\mathcal{X}$ to its corresponding target in $\mathcal{Y}$. Most existing methods for finding a control function $u^*$ require learning of a new control function if the training set is updated. To overcome this limitation, we introduce the concept of $\textit{tuning without forgetting}$. We develop $\textit{an iterative algorithm}$ to tune the control function $u^*$ when the training set expands, whereby points already in the paired set are still matched, and new training samples are learned. More specifically, at each update of our method, the control $u^*$ is projected onto the kernel of the end-point mapping generated by the controlled dynamics at the learned samples. It ensures keeping the end points for the previously learned samples constant while iteratively learning additional samples. Our work contributes to the scalability of control methods, offering a novel approach to adaptively handle training set expansions.
翻訳日:2024-04-18 15:34:07 公開日:2024-04-17
# 時空間ハイパーグラフを用いたマルチエージェント強化学習に基づく交通信号制御に向けて

Towards Multi-agent Reinforcement Learning based Traffic Signal Control through Spatio-temporal Hypergraphs ( http://arxiv.org/abs/2404.11014v1 )

ライセンス: Link先を確認
Kang Wang, Zhishu Shen, Zhen Lei, Tiehua Zhang, (参考訳) 交通信号制御システム(TSCS)は、インテリジェントな交通管理に不可欠なものであり、効率的な車両の流れを育んでいる。 従来の手法では、道路網を標準的なグラフに単純化することが多く、近隣の交差点における交通データの動的な性質を考慮できないため、リアルタイム制御に必要な高次相互接続は無視される。 そこで我々は,インテリジェントなトラフィック制御を実現するための新しいTSCSフレームワークを提案する。 このフレームワークは、複数のエッジコンピューティングサーバと連携して、道路ネットワーク全体にわたるトラフィック情報を収集する。 交通信号制御の効率を高めるために,マルチエージェントソフトアクター・クリティック(MA-SAC)強化学習アルゴリズムを開発した。 このアルゴリズムでは、個々のエージェントが各交差点に配置され、道路網全体にわたるトラフィックフローを一括して最適化する権限が与えられる。 さらに,MA-SACの批判ネットワークにハイパーグラフ学習を導入し,道路ネットワーク内の複数交差点からの時空間的相互作用を実現する。 この手法はハイパーグラフと時空間グラフ構造を融合してトラフィックデータを符号化し、複数の交差点間の複雑な空間的および時間的相関を捉える。 各種データセットで検証した実証実験により,平均走行時間を最小化し,高スループット性能を維持する上で,我々の枠組みが優れていることを示す。 この作業により、よりインテリジェントでリアクティブな都市交通管理ソリューションの開発が容易になる。

Traffic signal control systems (TSCSs) are integral to intelligent traffic management, fostering efficient vehicle flow. Traditional approaches often simplify road networks into standard graphs, which results in a failure to consider the dynamic nature of traffic data at neighboring intersections, thereby neglecting higher-order interconnections necessary for real-time control. To address this, we propose a novel TSCS framework to realize intelligent traffic control. This framework collaborates with multiple neighboring edge computing servers to collect traffic information across the road network. To elevate the efficiency of traffic signal control, we have crafted a multi-agent soft actor-critic (MA-SAC) reinforcement learning algorithm. Within this algorithm, individual agents are deployed at each intersection with a mandate to optimize traffic flow across the entire road network collectively. Furthermore, we introduce hypergraph learning into the critic network of MA-SAC to enable the spatio-temporal interactions from multiple intersections in the road network. This method fuses hypergraph and spatio-temporal graph structures to encode traffic data and capture the complex spatial and temporal correlations between multiple intersections. Our empirical evaluation, tested on varied datasets, demonstrates the superiority of our framework in minimizing average vehicle travel times and sustaining high-throughput performance. This work facilitates the development of more intelligent and reactive urban traffic management solutions.
翻訳日:2024-04-18 15:34:07 公開日:2024-04-17
# FedFa: フェデレーションラーニングのための完全な非同期トレーニングパラダイム

FedFa: A Fully Asynchronous Training Paradigm for Federated Learning ( http://arxiv.org/abs/2404.11015v1 )

ライセンス: Link先を確認
Haotian Xu, Zhaorui Zhang, Sheng Di, Benben Liu, Alharthi Khalid, Jiannong Cao, (参考訳) フェデレーション学習は、トレーナーのデータのプライバシを保証しながら、多数のデバイス上で機械学習モデルのトレーニングをスケールするための、効率的な分散トレーニングパラダイムとして特定されている。 FedAvgは、クライアント間での不均一なデータの影響を排除し、収束を保証することを約束しているフェデレーション学習の基本的なパラメータ更新戦略になっている。 しかし、トレーニング中の各通信ラウンド毎の同期パラメータ更新障壁は、待ち時間が大きくなり、トレーニング手順が遅くなる。 したがって、最近の最先端のソリューションでは、半非同期アプローチを用いて収束を保証することで待ち時間コストを軽減することが提案されている。 それでも、出現する半非同期アプローチは、待ち時間を完全に排除することはできない。 我々はFedFaと呼ばれる完全な非同期トレーニングパラダイムを提案し、パラメータ更新にいくつかのバッファリング結果を使用することで、モデル収束を保証し、フェデレーション学習の待ち時間を完全に排除できる。 さらに,提案したFedFaの収束率の理論的証明を提供する。 IIDと非IIDの両方のシナリオにおいて高い精度を維持しつつ、最先端の同期型および半非同期型の戦略と比較して、フェデレート学習のトレーニング性能を最大6倍と4倍のスピードアップで効果的に向上することを示す。

Federated learning has been identified as an efficient decentralized training paradigm for scaling the machine learning model training on a large number of devices while guaranteeing the data privacy of the trainers. FedAvg has become a foundational parameter update strategy for federated learning, which has been promising to eliminate the effect of the heterogeneous data across clients and guarantee convergence. However, the synchronization parameter update barriers for each communication round during the training significant time on waiting, slowing down the training procedure. Therefore, recent state-of-the-art solutions propose using semi-asynchronous approaches to mitigate the waiting time cost with guaranteed convergence. Nevertheless, emerging semi-asynchronous approaches are unable to eliminate the waiting time completely. We propose a full asynchronous training paradigm, called FedFa, which can guarantee model convergence and eliminate the waiting time completely for federated learning by using a few buffered results on the server for parameter updating. Further, we provide theoretical proof of the convergence rate for our proposed FedFa. Extensive experimental results indicate our approach effectively improves the training performance of federated learning by up to 6x and 4x speedup compared to the state-of-the-art synchronous and semi-asynchronous strategies while retaining high accuracy in both IID and Non-IID scenarios.
翻訳日:2024-04-18 15:34:07 公開日:2024-04-17
# MaeFuse: ガイドトレーニングによる赤外線および可視画像融合のための事前訓練されたマスク付きオートエンコーダを用いたOmni機能転送

MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training ( http://arxiv.org/abs/2404.11016v1 )

ライセンス: Link先を確認
Jiayang Li, Junjun Jiang, Pengwei Liang, Jiayi Ma, (参考訳) 本研究では,赤外線・可視画像融合(IVIF)のための新しいオートエンコーダモデルであるMaeFuseを紹介する。 既存の画像融合のアプローチは、高レベルな視覚情報を得るために、下流タスクと組み合わせたトレーニングに依存しており、ターゲットオブジェクトを強調し、視覚的品質やタスク固有のアプリケーションに印象的な結果をもたらすのに有効である。 しかし、MaeFuseは標準から逸脱している。 ダウンストリームタスクによって駆動される代わりに、我々はMasked Autoencoders (MAE) の事前訓練エンコーダを用いて、低レベル再構成および高レベル視覚タスクのためのオムニ特徴抽出機能を導入し、低コストで知覚親しみやすい特徴を得る。 異なるモーダル特徴の領域ギャップとMAEエンコーダによるブロック効果を解消するために,さらに指導的トレーニング戦略を開発する。 この戦略は、核融合層がエンコーダの特徴空間にシームレスに適応し、徐々に核融合効果を高めるために慎重に構成される。 これは、赤外線と可視光の両方から特徴ベクトルを包括的に統合し、それぞれに固有の豊富な詳細を保存するのに役立つ。 MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。

In this research, we introduce MaeFuse, a novel autoencoder model designed for infrared and visible image fusion (IVIF). The existing approaches for image fusion often rely on training combined with downstream tasks to obtain high-level visual information, which is effective in emphasizing target objects and delivering impressive results in visual quality and task-specific applications. MaeFuse, however, deviates from the norm. Instead of being driven by downstream tasks, our model utilizes a pretrained encoder from Masked Autoencoders (MAE), which facilities the omni features extraction for low-level reconstruction and high-level vision tasks, to obtain perception friendly features with a low cost. In order to eliminate the domain gap of different modal features and the block effect caused by the MAE encoder, we further develop a guided training strategy. This strategy is meticulously crafted to ensure that the fusion layer seamlessly adjusts to the feature space of the encoder, gradually enhancing the fusion effect. It facilitates the comprehensive integration of feature vectors from both infrared and visible modalities, preserving the rich details inherent in each. MaeFuse not only introduces a novel perspective in the realm of fusion techniques but also stands out with impressive performance across various public datasets.
翻訳日:2024-04-18 15:34:07 公開日:2024-04-17
# Many-Shot In-Context Learning

Many-Shot In-Context Learning ( http://arxiv.org/abs/2404.11018v1 )

ライセンス: Link先を確認
Rishabh Agarwal, Avi Singh, Lei M. Zhang, Bernd Bohnet, Stephanie Chan, Ankesh Anand, Zaheer Abbas, Azade Nova, John D. Co-Reyes, Eric Chu, Feryal Behbahani, Aleksandra Faust, Hugo Larochelle, (参考訳) 大規模言語モデル(LLM)は、数ショットのインコンテキスト学習(ICL)で優れている -- 重み付けの更新なしに、推論で提供されるいくつかの例から学習する。新たに拡張されたコンテキストウィンドウにより、数百から数千の例でICLを調査できる — 多ショットの仕組みである。 数ショットから多ショットに進むことで、さまざまな生成的および差別的なタスクにおいて、大幅なパフォーマンス向上が観測される。 有望ではあるが、多発型ICLは、人間が生成したサンプルの利用可能な量によってボトルネックになる可能性がある。 この制限を軽減するために、ReinforcedとUnsupervised ICLという2つの新しい設定を検討します。 Reinforced ICLは、人間の例の代わりにモデル生成の連鎖論理を用いる。 教師なしのICLは、プロンプトから合理性を完全に取り除き、ドメイン固有の質問でのみモデルにプロンプトする。 Reinforced と Unsupervised ICL の両者は、特に複雑な推論タスクにおいて、多ショット方式において非常に効果的であることがわかった。 最後に、少数ショット学習とは異なり、多ショット学習は事前学習バイアスのオーバーライドに有効であり、数値入力で高次元関数を学習できることを実証する。 また, 下流ICL性能の指標として, 次点予測損失の限界を明らかにした。

Large language models (LLMs) excel at few-shot in-context learning (ICL) -- learning from a few examples provided in context at inference, without any weight updates. Newly expanded context windows allow us to investigate ICL with hundreds or thousands of examples -- the many-shot regime. Going from few-shot to many-shot, we observe significant performance gains across a wide variety of generative and discriminative tasks. While promising, many-shot ICL can be bottlenecked by the available amount of human-generated examples. To mitigate this limitation, we explore two new settings: Reinforced and Unsupervised ICL. Reinforced ICL uses model-generated chain-of-thought rationales in place of human examples. Unsupervised ICL removes rationales from the prompt altogether, and prompts the model only with domain-specific questions. We find that both Reinforced and Unsupervised ICL can be quite effective in the many-shot regime, particularly on complex reasoning tasks. Finally, we demonstrate that, unlike few-shot learning, many-shot learning is effective at overriding pretraining biases and can learn high-dimensional functions with numerical inputs. Our analysis also reveals the limitations of next-token prediction loss as an indicator of downstream ICL performance.
翻訳日:2024-04-18 15:34:07 公開日:2024-04-17
# テキスト分散グラフ上でグラフニューラルネットワークをトレーニングする必要はまったくない

You do not have to train Graph Neural Networks at all on text-attributed graphs ( http://arxiv.org/abs/2404.11019v1 )

ライセンス: Link先を確認
Kaiwen Dong, Zhichun Guo, Nitesh V. Chawla, (参考訳) グラフ構造化データ、特にテキスト分散グラフ(TAG)は、様々なエンティティ間の関係を効果的に表現する。 このようなグラフは、半教師付きノード分類タスクに必須である。 グラフニューラルネットワーク(GNN)は、このグラフ構造化データを扱う強力なツールとして登場した。 勾配降下はノード分類のためのGNNの訓練によく用いられるが、この研究は、反復最適化プロセスを排除し、代替手法に発展する。 我々は、同じクラスからのテキストエンコーディングがしばしば線形部分空間に集約されるという観察に乗じて、線形GNNモデルであるTrainlessGNNを紹介した。 このモデルは各クラスのノード属性部分空間を表現するために重み行列を構築し、TAG上の半教師付きノード分類への効率的なアプローチを提供する。 大規模な実験により、我々のトレインレスモデルが従来の訓練されたモデルと一致したり、超えたりできることが明らかとなり、特定の構成での勾配降下を控える可能性が示された。

Graph structured data, specifically text-attributed graphs (TAG), effectively represent relationships among varied entities. Such graphs are essential for semi-supervised node classification tasks. Graph Neural Networks (GNNs) have emerged as a powerful tool for handling this graph-structured data. Although gradient descent is commonly utilized for training GNNs for node classification, this study ventures into alternative methods, eliminating the iterative optimization processes. We introduce TrainlessGNN, a linear GNN model capitalizing on the observation that text encodings from the same class often cluster together in a linear subspace. This model constructs a weight matrix to represent each class's node attribute subspace, offering an efficient approach to semi-supervised node classification on TAG. Extensive experiments reveal that our trainless models can either match or even surpass their conventionally trained counterparts, demonstrating the possibility of refraining from gradient descent in certain configurations.
翻訳日:2024-04-18 15:34:07 公開日:2024-04-17
# AIエージェントにおけるソーシャルインテリジェンスの向上 - 技術的課題とオープンな質問

Advancing Social Intelligence in AI Agents: Technical Challenges and Open Questions ( http://arxiv.org/abs/2404.11023v1 )

ライセンス: Link先を確認
Leena Mathur, Paul Pu Liang, Louis-Philippe Morency, (参考訳) ソーシャル・インテリジェントAIエージェント(Social-AI)の構築は、他のエージェント(人間または人工)の感情、行動、認識を感知し、知覚し、推論し、学習し、反応するエージェントを作成することを含む、多分野、マルチモーダルな研究目標である。 ソーシャルAIの進歩は、自然言語処理、機械学習、ロボティクス、人間と機械の相互作用、コンピュータビジョン、音声など、いくつかのコンピューティングコミュニティで過去10年間に加速してきた。 特に自然言語処理は、社会世界の構築において言語が重要な役割を担っているため、社会AI研究において顕著である。 本稿では,社会AIを推進すべく,コンピュータコミュニティ全体の研究者に対して,基礎となる技術的課題のセットを特定し,オープンな疑問を提起する。 我々は,ソーシャルインテリジェンスの概念と社会AI研究の先行進歩の文脈において,我々の議論を支えている。

Building socially-intelligent AI agents (Social-AI) is a multidisciplinary, multimodal research goal that involves creating agents that can sense, perceive, reason about, learn from, and respond to affect, behavior, and cognition of other agents (human or artificial). Progress towards Social-AI has accelerated in the past decade across several computing communities, including natural language processing, machine learning, robotics, human-machine interaction, computer vision, and speech. Natural language processing, in particular, has been prominent in Social-AI research, as language plays a key role in constructing the social world. In this position paper, we identify a set of underlying technical challenges and open questions for researchers across computing communities to advance Social-AI. We anchor our discussion in the context of social intelligence concepts and prior progress in Social-AI research.
翻訳日:2024-04-18 15:24:20 公開日:2024-04-17
# 決定点過程の埋め込み構造による双対性

Duality induced by an embedding structure of determinantal point process ( http://arxiv.org/abs/2404.11024v1 )

ライセンス: Link先を確認
Hideitsu Hino, Keisuke Yano, (参考訳) 本稿では,行列点過程(DPP)の情報幾何学的構造について検討する。 DPPが対数線型モデルの指数族に埋め込まれていることが示される。 指数族からの偏差の程度を$\mathrm{e}$-embedding曲率テンソルを用いて解析し、DPPの部分平坦なパラメータを同定する。 この埋め込み構造に基づいて、限界カーネルと$L$アンサンブルカーネルに関連する双対性が発見された。

This paper investigates the information geometrical structure of a determinantal point process (DPP). It demonstrates that a DPP is embedded in the exponential family of log-linear models. The extent of deviation from an exponential family is analyzed using the $\mathrm{e}$-embedding curvature tensor, which identifies partially flat parameters of a DPP. On the basis of this embedding structure, the duality related to a marginal kernel and an $L$-ensemble kernel is discovered.
翻訳日:2024-04-18 15:24:20 公開日:2024-04-17
# 空間認識画像検索:効率的な類似性ハッシュのための超次元計算手法

Spatial-Aware Image Retrieval: A Hyperdimensional Computing Approach for Efficient Similarity Hashing ( http://arxiv.org/abs/2404.11025v1 )

ライセンス: Link先を確認
Sanggeon Yun, Ryozo Masukawa, SungHeon Jeong, Mohsen Imani, (参考訳) 急成長する画像データに直面して、類似した画像を効率的に検索することは、非常に困難な課題である。 過去の研究は、画像から類似性のコンパクトな指標を抽出するハッシュ関数の精製に重点を置いてきた。 最初の試みでは浅いモデルを使用して、CNN(Convolutional Neural Networks)から高度なモデルまで、メカニズムベースのアーキテクチャに進化した。 空間情報埋め込みのための勾配モデルにおける制約を認識し,超次元計算(HDC)を利用した革新的画像ハッシュ法NeuroHashを提案する。 HDCは空間情報を高次元ベクトルに符号化し、画像表現を再構成する。 提案手法は,事前学習した大規模視覚モデルとHDC操作を組み合わせることで,空間的に符号化された特徴表現を実現する。 局所性に敏感なハッシュ(LSH)によるハッシュは、高速かつ効率的な画像検索を可能にする。 特に,我々のフレームワークは条件付き画像検索のための動的ハッシュ操作を可能にする。 本研究では,空間認識型条件検索が可能な変換型画像ハッシュフレームワークを提案する。 DNNベースのニューラルモデルとHDCベースのシンボリックモデルをシームレスに組み合わせることで、従来のトレーニングから切り離され、フレキシブルで条件付きの画像検索を提供する。 性能評価は、画像ハッシュ手法のパラダイムシフトを示し、精度の向上を示す。

In the face of burgeoning image data, efficiently retrieving similar images poses a formidable challenge. Past research has focused on refining hash functions to distill images into compact indicators of resemblance. Initial attempts used shallow models, evolving to attention mechanism-based architectures from Convolutional Neural Networks (CNNs) to advanced models. Recognizing limitations in gradient-based models for spatial information embedding, we propose an innovative image hashing method, NeuroHash leveraging Hyperdimensional Computing (HDC). HDC symbolically encodes spatial information into high-dimensional vectors, reshaping image representation. Our approach combines pre-trained large vision models with HDC operations, enabling spatially encoded feature representations. Hashing with locality-sensitive hashing (LSH) ensures swift and efficient image retrieval. Notably, our framework allows dynamic hash manipulation for conditional image retrieval. Our work introduces a transformative image hashing framework enabling spatial-aware conditional retrieval. By seamlessly combining DNN-based neural and HDC-based symbolic models, our methodology breaks from traditional training, offering flexible and conditional image retrieval. Performance evaluations signify a paradigm shift in image-hashing methodologies, demonstrating enhanced retrieval accuracy.
翻訳日:2024-04-18 15:24:20 公開日:2024-04-17
# Affordance Promptingを用いたロボットマニピュレーションにおける大規模言語モデルの構築

Empowering Large Language Models on Robotic Manipulation with Affordance Prompting ( http://arxiv.org/abs/2404.11027v1 )

ライセンス: Link先を確認
Guangran Cheng, Chuheng Zhang, Wenzhe Cai, Li Zhao, Changyin Sun, Jiang Bian, (参考訳) 大規模言語モデル(LLM)は様々な言語処理タスクの完了に成功しているが、制御シーケンスを適切に生成することで物理世界との相互作用が困難になる。 主な理由は、LLMが物理的世界に根ざしていないためである。 既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができ、新しいタスクへの適応が困難になる。 これとは対照的に,本研究では,この課題に対処し,事前学習されたLLMに対して,トレーニング不要のパラダイムで一連のロボット操作タスクを遂行する可能性を探究する。 そこで我々は,LDMがサブタスクプランナ(高レベルプランを生成する)とモーションコントローラ(低レベル制御シーケンスを生成する)の両方として機能するLDM+A(ffordance)というフレームワークを提案する。 これらの計画と制御シーケンスを物理世界に基盤として,LLMを刺激する余剰促進技術を開発する。 1)生成された計画の結果を予測し、 2)関連対象物の割当値を生成する。 実験により,様々な言語条件のロボット操作タスクにおけるLLM+Aの有効性を実証的に評価し,本手法は,生成した計画と制御の実現可能性を高めて性能を大幅に向上し,異なる環境に容易に一般化できることを示す。

While large language models (LLMs) are successful in completing various language processing tasks, they easily fail to interact with the physical world by generating control sequences properly. We find that the main reason is that LLMs are not grounded in the physical world. Existing LLM-based approaches circumvent this problem by relying on additional pre-defined skills or pre-trained sub-policies, making it hard to adapt to new tasks. In contrast, we aim to address this problem and explore the possibility to prompt pre-trained LLMs to accomplish a series of robotic manipulation tasks in a training-free paradigm. Accordingly, we propose a framework called LLM+A(ffordance) where the LLM serves as both the sub-task planner (that generates high-level plans) and the motion controller (that generates low-level control sequences). To ground these plans and control sequences on the physical world, we develop the affordance prompting technique that stimulates the LLM to 1) predict the consequences of generated plans and 2) generate affordance values for relevant objects. Empirically, we evaluate the effectiveness of LLM+A in various language-conditioned robotic manipulation tasks, which show that our approach substantially improves performance by enhancing the feasibility of generated plans and control and can easily generalize to different environments.
翻訳日:2024-04-18 15:24:20 公開日:2024-04-17
# 学生の自己管理, 学術的成果:アメリカの3大学におけるジェンダーインサイトの調査から, 自己効力の媒介的役割と, ジェンダーインサイトの影響を探求する

Student self-management, academic achievement: Exploring the mediating role of self-efficacy and the moderating influence of gender insights from a survey conducted in 3 universities in America ( http://arxiv.org/abs/2404.11029v1 )

ライセンス: Link先を確認
Zhiqiang Zhao, Ping Ren, Qian Yang, (参考訳) 優れた学生は、情報を取得して適用するために、より効果的で効率的な学習技術を習得する者だけではない。 正しい学習がなくても、彼らは自分の行動を自己モチベーションし、評価し、調整することができる。 本研究は,学生の自己管理と学業業績の関係を考察し,自己効力の媒介的役割とジェンダーの影響の緩和に着目した。 この調査には、米国の3大学から合計289人の学生が参加した。 本研究の結果は,学生の自己管理レベルが学業成績と正の相関を示し,この関係において自己効力が仲介的な役割を担い,性別が一定のモデレーション効果を発揮することを示唆している。 本研究は,学生の自己管理と学業業績の関係を理解する上で重要な知見を提供し,教育実践における教育指導者の役割を支えている。

Excellent students are not only those who master more effective and efficient learning techniques to acquire and apply information. Even in the absence of correct learning, they are able to self-motivate, evaluate, and adjust their behavior. This study aims to explore the relationship between student self-management and academic achievement, with a focus on investigating the mediating role of self-efficacy and the moderating influence of gender in this relationship. A total of 289 students from three universities in the United States participated in this research. The results of the study indicate that students' level of self-management is positively correlated with their academic achievement, with self-efficacy playing a mediating role in this relationship and gender exerting a certain moderating effect. This study provides important insights into understanding the relationship between student self-management and academic achievement and supports the crucial role of educational leaders in educational practice.
翻訳日:2024-04-18 15:24:20 公開日:2024-04-17
# TaCOS: シミュレーションによるタスク特異的カメラ最適化

TaCOS: Task-Specific Camera Optimization with Simulation ( http://arxiv.org/abs/2404.11031v1 )

ライセンス: Link先を確認
Chengyang Yan, Donald Dansereau, (参考訳) ロボットの応用性能は感覚入力の品質に大きく依存する。 しかし、センサーペイロードとそのパラメータを特定のロボットタスクのために設計することは、確立されたセンサー知識と物理ハードウェアによる広範な実験を必要とする高価なプロセスである。 ロボット知覚においてカメラが重要な役割を担い、微分自由度と勾配に基づく最適化を組み合わせ、特定のロボットタスクでカメラを協調設計するための、新しいエンドツーエンド最適化アプローチを導入する。 提案手法は,最近のコンピュータグラフィックス技術と物理カメラ特性を利用して,ソフトウェアでカメラを試作し,ロボットの運用環境やタスクをシミュレートし,望まれるタスクに基づいたカメラ設計をコスト効率よく最適化する。 物理カメラとの比較により, カメラシミュレーションの精度を検証し, 一般的な市販カメラよりも高い性能のカメラの設計を実証する。 本手法は、連続カメラパラメータと離散カメラパラメータの最適化、製造制約の最適化をサポートし、複数のカメラや非伝統的なカメラを含む幅広いカメラ設計シナリオに一般化することができる。 この作業は、特定のロボティクスタスクのためのカメラの完全な自動設計を前進させる。

The performance of robots in their applications heavily depends on the quality of sensory input. However, designing sensor payloads and their parameters for specific robotic tasks is an expensive process that requires well-established sensor knowledge and extensive experiments with physical hardware. With cameras playing a pivotal role in robotic perception, we introduce a novel end-to-end optimization approach for co-designing a camera with specific robotic tasks by combining derivative-free and gradient-based optimizers. The proposed method leverages recent computer graphics techniques and physical camera characteristics to prototype the camera in software, simulate operational environments and tasks for robots, and optimize the camera design based on the desired tasks in a cost-effective way. We validate the accuracy of our camera simulation by comparing it with physical cameras, and demonstrate the design of cameras with stronger performance than common off-the-shelf alternatives. Our approach supports the optimization of both continuous and discrete camera parameters, manufacturing constraints, and can be generalized to a broad range of camera design scenarios including multiple cameras and unconventional cameras. This work advances the fully automated design of cameras for specific robotics tasks.
翻訳日:2024-04-18 15:24:20 公開日:2024-04-17
# CORE:Information Bottleneckによるリンク予測のためのデータ拡張

CORE: Data Augmentation for Link Prediction via Information Bottleneck ( http://arxiv.org/abs/2404.11032v1 )

ライセンス: Link先を確認
Kaiwen Dong, Zhichun Guo, Nitesh V. Chawla, (参考訳) リンク予測(LP)はグラフ表現学習の基本的な課題であり、様々な分野に応用されている。 しかし、LPモデルの一般化可能性はしばしば、グラフにノイズや突発的な情報が存在することと、グラフデータの固有の不完全性によって損なわれる。 これらの課題に対処するため、我々はInformation Bottleneckの原理からインスピレーションを得て、LPモデルのコンパクトで予測的な拡張を学習するための新しいデータ拡張手法であるCORE(Complete and Reduce)を提案する。 特に、COREはグラフ構造からノイズを取り除きながら、グラフの欠落したエッジを復元することを目的としており、それによってモデルの堅牢性と性能が向上する。 複数のベンチマークデータセットに対する大規模な実験は、最先端の手法よりもCOREの適用性と優位性を示し、グラフ表現学習における堅牢LPの先進的なアプローチとしての可能性を示している。

Link prediction (LP) is a fundamental task in graph representation learning, with numerous applications in diverse domains. However, the generalizability of LP models is often compromised due to the presence of noisy or spurious information in graphs and the inherent incompleteness of graph data. To address these challenges, we draw inspiration from the Information Bottleneck principle and propose a novel data augmentation method, COmplete and REduce (CORE) to learn compact and predictive augmentations for LP models. In particular, CORE aims to recover missing edges in graphs while simultaneously removing noise from the graph structures, thereby enhancing the model's robustness and performance. Extensive experiments on multiple benchmark datasets demonstrate the applicability and superiority of CORE over state-of-the-art methods, showcasing its potential as a leading approach for robust LP in graph representation learning.
翻訳日:2024-04-18 15:24:20 公開日:2024-04-17
# 欠陥見落としを考慮したオンライン学習による欠陥予測モデルの構築

Building Defect Prediction Models by Online Learning Considering Defect Overlooking ( http://arxiv.org/abs/2404.11033v1 )

ライセンス: Link先を確認
Nikolay Fedorov, Yuta Yamasaki, Masateru Tsunoda, Akito Monden, Amjed Tahir, Kwabena Ebo Bennin, Koji Toda, Keitaro Nakasai, (参考訳) オンライン学習に基づく欠陥予測モデルの構築は、予測精度を向上させることができる。 新しいデータポイントが追加されると、新しい予測モデルを継続的に再構築する。 しかしながら、"非欠陥"と予測されるモジュールは、そのようなモジュールのテストケースが少なくなる可能性がある。 したがって、テスト中に欠陥のあるモジュールを見落としてしまうことがある。 誤テスト結果は、オンライン学習による学習データとして使用され、予測精度に悪影響を及ぼす可能性がある。 そこで本研究では,オンライン学習の初期段階において,予測を肯定的に修正する手法を提案する。 さらに,見落としの可能性を考慮し,提案手法を改良した。 本実験では,予測精度とアプローチの有効性に,この負の影響を実証する。 その結果,本手法はAUCに悪影響を及ぼさなかったが,リコールは有意に改善した。

Building defect prediction models based on online learning can enhance prediction accuracy. It continuously rebuilds a new prediction model, when a new data point is added. However, a module predicted as "non-defective" can result in fewer test cases for such modules. Thus, a defective module can be overlooked during testing. The erroneous test results are used as learning data by online learning, which could negatively affect prediction accuracy. To suppress the negative influence, we propose to apply a method that fixes the prediction as positive during the initial stage of online learning. Additionally, we improved the method to consider the probability of the overlooking. In our experiment, we demonstrate this negative influence on prediction accuracy, and the effectiveness of our approach. The results show that our approach did not negatively affect AUC but significantly improved recall.
翻訳日:2024-04-18 15:24:20 公開日:2024-04-17
# 中国における留学コンサルタント業の変容と展開の道を探る

Exploring the Path of Transformation and Development for Study Abroad Consultancy Firms in China ( http://arxiv.org/abs/2404.11034v1 )

ライセンス: Link先を確認
Ping Ren, Zhiqiang Zhao, Qian Yang, (参考訳) 近年、国際教育の状況が変化し、中国人学生の需要が増大する中、中国における海外コンサルタント企業の研究は、課題に対処し競争力を維持するために変革的開発戦略を採用する必要がある。 本研究では,158のコンサルティング会社を対象としたアンケート調査を通じて,主要な業績指標といくつかの要因との関係について検討した。 調査対象となった要因は,サービス多様化,技術採用,人材管理,規制遵守であった。 データの分析には記述統計分析が用いられた。 その結果, サービス範囲の多様化は, ファーム・パフォーマンスと正の相関を示した。 技術導入は運用効率と正の相関があった。 タレントマネジメントはサービス品質と正の相関を示した。 規制遵守は確固たる評価と正の相関があった。 サービスの多様化、新しい技術の採用、人材育成、コンプライアンスの確保に進歩的なアプローチをとったコンサルタント企業は、革新的でない企業に比べて、パフォーマンス、効率、品質、評判が優れていた。 本研究は、中国研究の海外進出を支援するための実証的証拠を提供する。 また、この問題についてより深い洞察を得るためには、因果関係や文脈の変化を考察する将来の研究の必要性も強調されている。

In recent years, with the changing landscape of international education and the growing demand from Chinese students, study abroad consultancy firms in China need to adopt transformational development strategies to address challenges and maintain competitiveness. This study investigated the relationships between key performance indicators and several factors through a questionnaire survey of 158 consultancy firms. The factors examined included service diversification, technology adoption, talent management, and regulatory compliance. Descriptive statistical analysis was employed to analyze the data. The results showed that service scope diversification was positively correlated with firm performance. Technology adoption was positively correlated with operational efficiency. Talent management was positively correlated with service quality. Regulatory compliance was positively correlated with firm reputation. Consultancy firms that took progressive approaches in diversifying services, adopting new technologies, cultivating talent, and ensuring compliance demonstrated superior performance, efficiency, quality, and reputation compared to their less innovative counterparts. This research provides empirical evidence to support the transformation of Chinese study abroad consultancy firms. It also highlights the need for future studies to consider causality and contextual variations to gain deeper insights into this issue.
翻訳日:2024-04-18 15:24:20 公開日:2024-04-17
# 弱教師付き因果解離を用いたクロスプラットフォームHate音声検出

Cross-Platform Hate Speech Detection with Weakly Supervised Causal Disentanglement ( http://arxiv.org/abs/2404.11036v1 )

ライセンス: Link先を確認
Paras Sheth, Tharindu Kumarage, Raha Moraffah, Aman Chadha, Huan Liu, (参考訳) ソーシャルメディアがヘイトスピーチを広める能力は、グローバルな接続を促進する役割とは対照的に、コンテンツモデレーションは難しい課題に直面している。 スラングとヘイトスピーチの急速な発展に伴い、オンライン対話の流動的な景観に対する従来のディープラーニングの適応性は依然として限られている。 これに対し、因果性にインスパイアされた絡み合いは、プラットフォーム固有の特徴を普遍的ヘイト指標から分離することで、約束を示す。 しかし、これらのニュアンスを識別するために利用できる真実のターゲットラベルに依存しているため、プラットフォームが不必要に進化し、ヘイトスピーチが変化するという現実的なハードルに直面している。 本研究は、信頼に基づく再重み付けとコントラストレギュラー化を用いて、明確なターゲットラベリングの必要性を回避し、入力特徴を憎悪の不変表現に効果的に切り離す、弱教師付き因果不絡みの新しい枠組みであるHATE WATCHを提示する。 HATE WATCHは、高性能なプラットフォーム間ヘイトスピーチ検出における新しい手法として、ターゲットラベル付きプラットフォーム2と非位置対応プラットフォーム2の実証検証を行った。 HATE WATCHは、より安全なオンラインコミュニティの開発に向けて、スケーラブルなコンテンツモデレーション手法を推進している。

Content moderation faces a challenging task as social media's ability to spread hate speech contrasts with its role in promoting global connectivity. With rapidly evolving slang and hate speech, the adaptability of conventional deep learning to the fluid landscape of online dialogue remains limited. In response, causality inspired disentanglement has shown promise by segregating platform specific peculiarities from universal hate indicators. However, its dependency on available ground truth target labels for discerning these nuances faces practical hurdles with the incessant evolution of platforms and the mutable nature of hate speech. Using confidence based reweighting and contrastive regularization, this study presents HATE WATCH, a novel framework of weakly supervised causal disentanglement that circumvents the need for explicit target labeling and effectively disentangles input features into invariant representations of hate. Empirical validation across platforms two with target labels and two without positions HATE WATCH as a novel method in cross platform hate speech detection with superior performance. HATE WATCH advances scalable content moderation techniques towards developing safer online communities.
翻訳日:2024-04-18 15:24:20 公開日:2024-04-17
# 欠陥(Re)予測がソフトウェアテストに及ぼす影響

The Effect of Defect (Re) Prediction on Software Testing ( http://arxiv.org/abs/2404.11040v1 )

ライセンス: Link先を確認
Yukasa Murakami, Yuta Yamasaki, Masateru Tsunoda, Akito Monden, Amjed Tahir, Kwabena Ebo Bennin, Koji Toda, Keitaro Nakasai, (参考訳) 背景: クロスプロジェクト欠陥予測(CPDP)は、同じプロジェクトから過去のデータが入手できない可能性があるため、外部プロジェクトからのデータを使用することを目的としている。 CPDPでは、トレーニングモデルを構築するための特定の歴史的プロジェクトを決定することは困難である。 この決定を支援するために、Bandit Algorithm (BA) ベースのアプローチが先行研究で提案され、最も適切な学習プロジェクトを選択する。 しかし、このBA手法は、BAの初期イテレーション(すなわち、ソフトウェアテストの初期段階)において、不適切なデータの選択につながる可能性がある。 不適切なモデルを選択することで、予測精度が低下し、潜在的な欠陥を見落としてしまう可能性がある。 本研究の目的は,特に早期の検査において,見渡す欠陥を減らすため,BA法を改善することである。 一度すべてのモジュールがテストされると、初期段階でテストされたモジュールは再予測され、いくつかのモジュールは再予測に基づいて再テストされる。 再予測と再テストの効果を評価するため,8,16,32のOSSプロジェクトを学習データとして,5種類のBA手法を適用した。 その結果,新たに提案された手法は,BA手法とプロジェクトの組み合わせの86.7%の欠陥を見越す確率を着実に低下させた。

Background: Cross-project defect prediction (CPDP) aims to use data from external projects as historical data may not be available from the same project. In CPDP, deciding on a particular historical project to build a training model can be difficult. To help with this decision, a Bandit Algorithm (BA) based approach has been proposed in prior research to select the most suitable learning project. However, this BA method could lead to the selection of unsuitable data during the early iteration of BA (i.e., early stage of software testing). Selecting an unsuitable model can reduce the prediction accuracy, leading to potential defect overlooking. This study aims to improve the BA method to reduce defects overlooking, especially during the early stage of testing. Once all modules have been tested, modules tested in the early stage are re-predicted, and some modules are retested based on the re-prediction. To assess the impact of re-prediction and retesting, we applied five kinds of BA methods, using 8, 16, and 32 OSS projects as learning data. The results show that the newly proposed approach steadily reduced the probability of defect overlooking on 86.7% of the BA methods and projects combinations.
翻訳日:2024-04-18 15:24:20 公開日:2024-04-17
# LLMにおける推論と計画の実証的複雑さについて

On the Empirical Complexity of Reasoning and Planning in LLMs ( http://arxiv.org/abs/2404.11041v1 )

ライセンス: Link先を確認
Liwei Kang, Zirui Zhao, David Hsu, Wee Sun Lee, (参考訳) 大型言語モデル(LLM)は、チェーン・オブ・シント(CoT)やツリー・オブ・シント(ToT)といった複雑な推論問題に対して驚くほどうまく機能するが、根底にある理由は未だに不明である。 本研究では,実験ケーススタディを実施し,その結果を機械学習におけるサンプルと計算複雑性にリンクさせることにより,これらの手法の性能を解明することを目的とする。 そこで本研究では, 問題を推論ステップの列に分解し, 次のステップを予測する学習が, サンプルと計算の複雑さが低く, 次のステップを予測するために必要な情報をすべて含む推論チェーンの概要を明確化することで, 性能の向上が期待できることを示した。 逆に、次のステップを予測する問題が計算的に困難である場合、ToTを採用すると、短い推論連鎖を定式化しようとするよりも推論結果が良くなる可能性がある。

Large Language Models (LLMs) work surprisingly well for some complex reasoning problems via chain-of-thought (CoT) or tree-of-thought (ToT), but the underlying reasons remain unclear. We seek to understand the performance of these methods by conducting experimental case studies and linking the outcomes to sample and computational complexity in machine learning. We found that if problems can be decomposed into a sequence of reasoning steps and learning to predict the next step has a low sample and computational complexity, explicitly outlining the reasoning chain with all necessary information for predicting the next step may improve performance. Conversely, for problems where predicting the next step is computationally hard, adopting ToT may yield better reasoning outcomes than attempting to formulate a short reasoning chain.
翻訳日:2024-04-18 15:24:20 公開日:2024-04-17
# 大規模言語モデルのためのオフセットアンラーニング

Offset Unlearning for Large Language Models ( http://arxiv.org/abs/2404.11045v1 )

ライセンス: Link先を確認
James Y. Huang, Wenxuan Zhou, Fei Wang, Fred Morstatter, Sheng Zhang, Hoifung Poon, Muhao Chen, (参考訳) 大規模言語モデル(LLM)が学習コーパスから知識を得る能力は強いが、著作権、有害、私的コンテンツなどのコーパスにおけるセンシティブな情報の記憶は倫理的、法的懸念を引き起こしている。 これらの課題に応えて、未学習は、問題のあるトレーニングデータによって影響を受けるLSMの潜在的治療として現れている。 しかし、従来の未学習の手法は、モデル内部の重みへの必要なアクセスのためにブラックボックスのLSMには適用できないか、あるいは推論時間補正のための機密データを保持することによってデータ保護の原則に違反している。 ブラックボックスLLMのためのオフセットアンラーニングフレームワークである$\delta$-unlearningを提案する。 Black-box LLM自体をチューニングする代わりに、$\delta$-unlearningは、より小さなモデルのロジットを対比することで、アンラーニングに必要なロジットオフセットを学習する。 実験によると、$\delta$-unlearningは、一般的なアウトオブスコープタスクにおいて、同じような、あるいはより強力なパフォーマンスを維持しながら、ターゲットデータを効果的に解放することができる。 $\delta$-unlearningはまた、異なる未学習アルゴリズムを効果的に組み込むことで、既存の未学習アルゴリズムをブラックボックスLLMに適応させる汎用的なソリューションになります。

Despite the strong capabilities of Large Language Models (LLMs) to acquire knowledge from their training corpora, the memorization of sensitive information in the corpora such as copyrighted, harmful, and private content has led to ethical and legal concerns. In response to these challenges, unlearning has emerged as a potential remedy for LLMs affected by problematic training data. However, previous unlearning techniques are either not applicable to black-box LLMs due to required access to model internal weights, or violate data protection principles by retaining sensitive data for inference-time correction. We propose $\delta$-unlearning, an offset unlearning framework for black-box LLMs. Instead of tuning the black-box LLM itself, $\delta$-unlearning learns the logit offset needed for unlearning by contrasting the logits from a pair of smaller models. Experiments demonstrate that $\delta$-unlearning can effectively unlearn target data while maintaining similar or even stronger performance on general out-of-forget-scope tasks. $\delta$-unlearning also effectively incorporates different unlearning algorithms, making our approach a versatile solution to adapting various existing unlearning algorithms to black-box LLMs.
翻訳日:2024-04-18 15:24:20 公開日:2024-04-17
# 事前学習型視覚言語モデルによる軽量教師なしフェデレーション学習

Lightweight Unsupervised Federated Learning with Pretrained Vision Language Model ( http://arxiv.org/abs/2404.11046v1 )

ライセンス: Link先を確認
Hao Yan, Yuhong Guo, (参考訳) フェデレート・ラーニング(Federated Learning)は、物理的に隔離されたクライアントから集合モデルをトレーニングし、ユーザのデータのプライバシを保護する、という‘孤立したデータアイランド’問題に対処することを目的としている。 しかし、教師付きフェデレーション学習は、各クライアントがトレーニングのためにデータをラベル付けする必要がある。 さらに、深層モデルの訓練と伝達は、クライアントの計算と通信能力に課題をもたらす。 教師付きフェデレーション学習におけるこれらの2つの固有の課題に対処するため、CLIPのような事前学習されたビジョン言語モデルを利用して、クライアント毎のラベルなしデータを活用して、軽量なモデルトレーニングとコミュニケーションを行う、新しい軽量な非教師付きフェデレーション学習手法を提案する。 事前学習したCLIPモデルのゼロショット予測能力とよく訓練された画像エンコーダを利用することで、効率的でレジリエントな自己学習アプローチを慎重に構築した。 固定画像エンコーダの上の線形分類器の単独トレーニングにより、ラベル付きインスタンスの初期ゼロショット予測擬似ラベルを洗練する。 さらに,各クライアント内のデータ不均一性に対処するために,特徴空間内の合成インスタンスを生成するためのクラスバランステキスト特徴抽出手法を提案する。 複数のベンチマークデータセットで実験を行う。 実験の結果,提案手法はCLIPのゼロショット予測と比較してモデル性能を大幅に向上させるとともに,限られた計算および通信オーバヘッドを有する教師付きフェデレーション学習ベンチマーク手法よりも優れていた。

Federated learning aims to tackle the ``isolated data island" problem, where it trains a collective model from physically isolated clients while safeguarding the privacy of users' data. However, supervised federated learning necessitates that each client labels their data for training, which can be both time-consuming and resource-intensive, and may even be impractical for edge devices. Moreover, the training and transmission of deep models present challenges to the computation and communication capabilities of the clients. To address these two inherent challenges in supervised federated learning, we propose a novel lightweight unsupervised federated learning approach that leverages unlabeled data on each client to perform lightweight model training and communication by harnessing pretrained vision-language models, such as CLIP. By capitalizing on the zero-shot prediction capability and the well-trained image encoder of the pre-trained CLIP model, we have carefully crafted an efficient and resilient self-training approach. This method refines the initial zero-shot predicted pseudo-labels of unlabeled instances through the sole training of a linear classifier on top of the fixed image encoder. Additionally, to address data heterogeneity within each client, we propose a class-balanced text feature sampling strategy for generating synthetic instances in the feature space to support local training. Experiments are conducted on multiple benchmark datasets. The experimental results demonstrate that our proposed method greatly enhances model performance in comparison to CLIP's zero-shot predictions and even outperforms supervised federated learning benchmark methods given limited computational and communication overhead.
翻訳日:2024-04-18 15:24:20 公開日:2024-04-17
# 制約付き言語モデルポリシー最適化のためのステップワイズアライメント

Stepwise Alignment for Constrained Language Model Policy Optimization ( http://arxiv.org/abs/2404.11049v1 )

ライセンス: Link先を確認
Akifumi Wachi, Thien Q Tran, Rei Sato, Takumi Tanabe, Yohei Akimoto, (参考訳) 安全性と信頼性は、現実世界のアプリケーションで大規模言語モデル(LLM)に基づいたAIシステムを適用する上で、必須の要件である。 本稿では、安全制約の下で報酬を最大化するために、言語モデルポリシー最適化問題として人的価値アライメントを定式化し、SACPO(Stepwise Alignment for Constrained Policy Optimization)と呼ばれるアルゴリズムを提案する。 SACPOの背景にある重要な考え方は、報酬と安全の両方を取り入れた最適な政策は、報酬に整合した政策から直接得ることである。 この鍵となるアイデアに基づいて、SACPOは、直接選好最適化(DPO)のような単純だが強力なアライメントアルゴリズムを活用しながら、LSMを各メートル法を段階的に整列させる。 SACPOは、単純さ、安定性、計算効率、アルゴリズムに関する柔軟性、データセットの選択など、多くの利点を提供します。 軽微な仮定の下で、我々の理論解析は、ほぼ最適性および安全制約違反に関する上限を提供する。 以上の結果から, SACPO はAlpaca-7B を有用性と無害性の両方の観点から, 最先端法より微細化できることが示された。

Safety and trustworthiness are indispensable requirements for applying AI systems based on large language models (LLMs) in real-world applications. This paper formulates a human value alignment as a language model policy optimization problem to maximize reward under a safety constraint and then proposes an algorithm called Stepwise Alignment for Constrained Policy Optimization (SACPO). A key idea behind SACPO, supported by theory, is that the optimal policy incorporating both reward and safety can be directly obtained from a reward-aligned policy. Based on this key idea, SACPO aligns the LLMs with each metric step-wise while leveraging simple yet powerful alignment algorithms such as direct preference optimization (DPO). SACPO provides many benefits such as simplicity, stability, computational efficiency, and flexibility regarding algorithms and dataset selection. Under mild assumption, our theoretical analysis provides the upper bounds regarding near-optimality and safety constraint violation. Our experimental results show that SACPO can fine-tune Alpaca-7B better than the state-of-the-art method in terms of both helpfulness and harmlessness
翻訳日:2024-04-18 15:24:20 公開日:2024-04-17
# 宣言形式仕様の修正のための事前学習型大規模言語モデルの実証評価

An Empirical Evaluation of Pre-trained Large Language Models for Repairing Declarative Formal Specifications ( http://arxiv.org/abs/2404.11050v1 )

ライセンス: Link先を確認
Mohannad Alhanahnah, Md Rashedul Hasan, Hamid Bagheri, (参考訳) プログラムの自動修正(APR)は、プログラムのバグを自動的に修正することに焦点を当てた実践的な研究領域として注目されている。 既存のAPR技術は主にCやJavaのような命令型プログラミング言語をターゲットにしているが、宣言型ソフトウェア仕様言語に適用できる効果的なソリューションの必要性が高まっている。 本稿では,ソフトウェア仕様に使用される宣言型形式言語であるアロイの宣言型仕様を修復するためのLarge Language Models (LLM) の能力について,体系的に検討する。 本稿では, 補修エージェントとプロンプトエージェントを組み合わせた, 二重エージェントLLMフレームワークを統合した新しい補修パイプラインを提案する。 広範囲な実証評価を通じて,LLMベースの修復法と最先端のAPR技術とを総合ベンチマークで比較した。 本研究は, LLM, 特に GPT-4 変種が, 実行時およびトークン使用率の限界が増大しているにもかかわらず, 修復効率において既存の技術よりも優れていたことを明らかにした。 本研究は、宣言的仕様の自動修復の分野の進展に寄与し、この領域におけるLLMの有望な可能性を強調する。

Automatic Program Repair (APR) has garnered significant attention as a practical research domain focused on automatically fixing bugs in programs. While existing APR techniques primarily target imperative programming languages like C and Java, there is a growing need for effective solutions applicable to declarative software specification languages. This paper presents a systematic investigation into the capacity of Large Language Models (LLMs) for repairing declarative specifications in Alloy, a declarative formal language used for software specification. We propose a novel repair pipeline that integrates a dual-agent LLM framework, comprising a Repair Agent and a Prompt Agent. Through extensive empirical evaluation, we compare the effectiveness of LLM-based repair with state-of-the-art Alloy APR techniques on a comprehensive set of benchmarks. Our study reveals that LLMs, particularly GPT-4 variants, outperform existing techniques in terms of repair efficacy, albeit with a marginal increase in runtime and token usage. This research contributes to advancing the field of automatic repair for declarative specifications and highlights the promising potential of LLMs in this domain.
翻訳日:2024-04-18 15:14:36 公開日:2024-04-17
# WPSデータセット:樹皮除去処理における木材板のセグメンテーションのベンチマーク

WPS-Dataset: A benchmark for wood plate segmentation in bark removal processing ( http://arxiv.org/abs/2404.11051v1 )

ライセンス: Link先を確認
Rijun Wang, Guanghao Zhang, Fulong Liang, Bo Wang, Xiangwei Mou, Yesheng Chen, (参考訳) 深層学習は樹皮除去効率の向上と木材製品の品質向上に有望なアプローチである。 しかし、樹皮除去処理における木板セグメンテーションのための公開データセットの欠如は、この分野の研究者にとって課題となっている。 この問題に対処するために,4863枚の画像からなるWPSデータセットという樹皮除去処理における木材板のセグメンテーションのベンチマークを提案する。 我々は、画像取得装置を設計し、それを樹皮除去装置に組み込んで、実際の産業環境で画像をキャプチャした。 WPSデータセットを6つの典型的なセグメンテーションモデルを用いて評価した。 モデルはトレーニング中にWPSデータセットの特徴を効果的に学習し理解し、木材板分割作業において高い性能と精度をもたらす。 我々のデータセットは、樹皮除去処理における将来の研究の確かな基盤を築き、この分野の進歩に貢献できると信じている。

Using deep learning methods is a promising approach to improving bark removal efficiency and enhancing the quality of wood products. However, the lack of publicly available datasets for wood plate segmentation in bark removal processing poses challenges for researchers in this field. To address this issue, a benchmark for wood plate segmentation in bark removal processing named WPS-dataset is proposed in this study, which consists of 4863 images. We designed an image acquisition device and assembled it on a bark removal equipment to capture images in real industrial settings. We evaluated the WPS-dataset using six typical segmentation models. The models effectively learn and understand the WPS-dataset characteristics during training, resulting in high performance and accuracy in wood plate segmentation tasks. We believe that our dataset can lay a solid foundation for future research in bark removal processing and contribute to advancements in this field.
翻訳日:2024-04-18 15:14:36 公開日:2024-04-17
# 乳腺病理像分類のための造影コントラスト変換器の開発

Supervised Contrastive Vision Transformer for Breast Histopathological Image Classification ( http://arxiv.org/abs/2404.11052v1 )

ライセンス: Link先を確認
Mohammad Shiri, Jiangwen Sun, (参考訳) 浸潤性乳管癌(Invasive ductal carcinoma,IDC)は乳癌の最も多い形態である。 乳癌の診断と分類には乳房組織組織学的検査が重要である。 既存の方法では有望な結果が得られているが,病理組織像を用いてIDCの分類精度と一般化を向上する余地は残っている。 本稿では, トランスファーラーニング, 事前訓練されたビジョントランスフォーマー, 教師付きコントラスト学習の固有の長所と長所を活用することにより, 浸潤性胆管癌の分類を精度と一般化の観点から改善するための新しいアプローチであるSupervised Contrastive Vision Transformer(SupCon-ViT)を提案する。 IDC分類では,SupCon-VitがF1スコア0.8188,精度0.7692,特異性0.8971を達成し,既存手法よりも高い精度を示した。 さらに,ラベル付きデータが最小限のシナリオでレジリエンスを実証し,ラベル付きデータが制限された実環境において高い効率性を実現する。 以上の結果から,事前学習した視力変換器と併用した教師付きコントラスト学習が,IDCの正確な分類に有効な戦略であることが明らかとなり,病理組織像解析による乳癌のより効率的かつ信頼性の高い診断方法が確立された。

Invasive ductal carcinoma (IDC) is the most prevalent form of breast cancer. Breast tissue histopathological examination is critical in diagnosing and classifying breast cancer. Although existing methods have shown promising results, there is still room for improvement in the classification accuracy and generalization of IDC using histopathology images. We present a novel approach, Supervised Contrastive Vision Transformer (SupCon-ViT), for improving the classification of invasive ductal carcinoma in terms of accuracy and generalization by leveraging the inherent strengths and advantages of both transfer learning, i.e., pre-trained vision transformer, and supervised contrastive learning. Our results on a benchmark breast cancer dataset demonstrate that SupCon-Vit achieves state-of-the-art performance in IDC classification, with an F1-score of 0.8188, precision of 0.7692, and specificity of 0.8971, outperforming existing methods. In addition, the proposed model demonstrates resilience in scenarios with minimal labeled data, making it highly efficient in real-world clinical settings where labelled data is limited. Our findings suggest that supervised contrastive learning in conjunction with pre-trained vision transformers appears to be a viable strategy for an accurate classification of IDC, thus paving the way for a more efficient and reliable diagnosis of breast cancer through histopathological image analysis.
翻訳日:2024-04-18 15:14:36 公開日:2024-04-17
# ビデオ塗布検出用マルチサイドテンポラルピラミッドトランス

Multilateral Temporal-view Pyramid Transformer for Video Inpainting Detection ( http://arxiv.org/abs/2404.11054v1 )

ライセンス: Link先を確認
Ying Zhang, Bo Peng, Jiaran Zhou, Huiyu Zhou, Junyu Dong, Yuezun Li, (参考訳) ビデオインペイント検出のタスクは、ビデオシーケンス内でピクセルレベルのインペイントされた領域を公開することである。 既存の手法は通常、空間的および時間的不整合の活用に焦点を当てる。 しかしながら、これらの手法は通常、空間的および時間的手がかりを組み合わせるために固定的な操作を使用し、異なるシナリオにおける適用性を制限する。 本稿では,空間的時間的手がかりを柔軟に協調する多面的時間的ピラミッド変換器({\em MumPy})について紹介する。 提案手法は,空間的時間的手がかりの様々なコラボレーションを抽出するために,新たに設計された多面的時間的視点エンコーダを用い,これらのコラボレーションの多様性を高めるために,変形可能なウィンドウベースの時間的視点対話モジュールを導入する。 その後,様々な特徴を集約し,検出マップを生成するマルチピラミドデコーダを開発した。 空間的および時間的手がかりの寄与強度を調整することにより, 塗装領域の同定を効果的に行うことができる。 既存のデータセットに対して本手法の有効性を検証し,YouTube-VOSデータセットに基づく新しい挑戦的かつ大規模なビデオインパインティングデータセットを導入し,さらに最近のインパインティング手法を採用した。 その結果,本手法のドメイン内およびドメイン間評価シナリオにおける優位性を示した。

The task of video inpainting detection is to expose the pixel-level inpainted regions within a video sequence. Existing methods usually focus on leveraging spatial and temporal inconsistencies. However, these methods typically employ fixed operations to combine spatial and temporal clues, limiting their applicability in different scenarios. In this paper, we introduce a novel Multilateral Temporal-view Pyramid Transformer ({\em MumPy}) that collaborates spatial-temporal clues flexibly. Our method utilizes a newly designed multilateral temporal-view encoder to extract various collaborations of spatial-temporal clues and introduces a deformable window-based temporal-view interaction module to enhance the diversity of these collaborations. Subsequently, we develop a multi-pyramid decoder to aggregate the various types of features and generate detection maps. By adjusting the contribution strength of spatial and temporal clues, our method can effectively identify inpainted regions. We validate our method on existing datasets and also introduce a new challenging and large-scale Video Inpainting dataset based on the YouTube-VOS dataset, which employs several more recent inpainting methods. The results demonstrate the superiority of our method in both in-domain and cross-domain evaluation scenarios.
翻訳日:2024-04-18 15:14:36 公開日:2024-04-17
# 感性分析の因果性について

On the Causal Nature of Sentiment Analysis ( http://arxiv.org/abs/2404.11055v1 )

ライセンス: Link先を確認
Zhiheng Lyu, Zhijing Jin, Fernando Gonzalez, Rada Mihalcea, Bernhard Schoelkopf, Mrinmaya Sachan, (参考訳) 感性分析(SA)は、製品レビューのようなテキストで表される感情を特定することを目的としている。 本論文は、レビューとそれに関連する感情について、(1)レビューが感情を「主観的」にするか(Causal hypothesis C1)、またはレビューが「主観的」にするか(Causal hypothesis C2)を区別する因果的発見タスク(Cousal discovery task)、(2)レビューを入力として使用する感情をモデル化する従来の予測タスク(Causal hypothesis C2)の2つのタスクの組み合わせとして、SAを定式化する。 心理学におけるピークエンドルールを用いて、その全体感情スコアがレビュー中のすべての文レベル感情の平均を近似するとC1、全体感情スコアがピークとエンド感情の平均を近似するとC2と分類する。 予測課題では, サンプルの裏側にある因果的機構を用いて, 基礎となる因果グラフの帰納バイアスを与える因果的プロンプトを提案し, ゼロショット5級SAに対して最大32.13F1点の大幅な改善を実現した。 私たちのコードはhttps://github.com/cogito233/causal-saにあります。

Sentiment analysis (SA) aims to identify the sentiment expressed in a text, such as a product review. Given a review and the sentiment associated with it, this paper formulates SA as a combination of two tasks: (1) a causal discovery task that distinguishes whether a review "primes" the sentiment (Causal Hypothesis C1), or the sentiment "primes" the review (Causal Hypothesis C2); and (2) the traditional prediction task to model the sentiment using the review as input. Using the peak-end rule in psychology, we classify a sample as C1 if its overall sentiment score approximates an average of all the sentence-level sentiments in the review, and C2 if the overall sentiment score approximates an average of the peak and end sentiments. For the prediction task, we use the discovered causal mechanisms behind the samples to improve the performance of LLMs by proposing causal prompts that give the models an inductive bias of the underlying causal graph, leading to substantial improvements by up to 32.13 F1 points on zero-shot five-class SA. Our code is at https://github.com/cogito233/causal-sa
翻訳日:2024-04-18 15:14:36 公開日:2024-04-17
# LMEraser: 適応型プロンプトチューニングによる大規模モデル学習

LMEraser: Large Model Unlearning through Adaptive Prompt Tuning ( http://arxiv.org/abs/2404.11056v1 )

ライセンス: Link先を確認
Jie Xu, Zihan Wu, Cong Wang, Xiaohua Jia, (参考訳) 機械学習におけるプライバシ保護の需要の高まりに対処するため,新しい機械学習手法を提案し,その手法として,‘textbf{L}arge \textbf{M}odels,すなわち‘textbf{LM}Eraser’を提案する。 既存の未学習の研究は、絡み合ったトレーニングデータと複雑なモデルアーキテクチャに悩まされており、大規模モデルの計算コストが非常に高い。 LMEraserは、データインフルエンスを分離するために、迅速なチューニングアーキテクチャを備えた、分割とコンカマーの戦略を採用している。 トレーニングデータセットは、パブリックデータセットとプライベートデータセットに分割される。 公開データはモデルのバックボーンをトレーニングするために使用される。 プライベートデータは、その多様性に基づいて適応的にクラスタ化され、各クラスタは、プロンプトを個別に最適化するために使用される。 この適応的なプロンプトチューニング機構は、未学習コストを低減し、モデル性能を維持する。 実験により,LMEraserは従来の作業に比べて精度を損なうことなく,学習コストを100ドル程度削減できることが示された。 私たちのコードは以下の通りです。

To address the growing demand for privacy protection in machine learning, we propose a novel and efficient machine unlearning approach for \textbf{L}arge \textbf{M}odels, called \textbf{LM}Eraser. Existing unlearning research suffers from entangled training data and complex model architectures, incurring extremely high computational costs for large models. LMEraser takes a divide-and-conquer strategy with a prompt tuning architecture to isolate data influence. The training dataset is partitioned into public and private datasets. Public data are used to train the backbone of the model. Private data are adaptively clustered based on their diversity, and each cluster is used to optimize a prompt separately. This adaptive prompt tuning mechanism reduces unlearning costs and maintains model performance. Experiments demonstrate that LMEraser achieves a $100$-fold reduction in unlearning costs without compromising accuracy compared to prior work. Our code is available at: \url{https://github.com/lmeraser/lmeraser}.
翻訳日:2024-04-18 15:14:36 公開日:2024-04-17
# 候補集合の存在下でのエンティティリンクの統一的検証

Unified Examination of Entity Linking in Absence of Candidate Sets ( http://arxiv.org/abs/2404.11061v1 )

ライセンス: Link先を確認
Nicolas Ong, Hassan Shavarani, Anoop Sarkar, (参考訳) 近年のエンティティ・リンク・システムの発展に顕著な進展があったが、統合されたフレームワークを用いた包括的な比較分析は特に欠落している。 本稿では,新しいブラックボックスベンチマークを導入し,すべての最先端エンティティリンク手法を包括的に評価することで,この監視に対処する。 本稿では,エンティティリンクの性能に及ぼす候補集合の影響について,アブレーション研究を用いて検討する。 以上の結果から,このようなエンティティ・リンク・システムがどの程度候補集合に依存しているか,また,それぞれのシステムの適用性にどの程度の制限があるかが明らかとなった。 候補集合に対する代替的アプローチを提案し、ドメイン内候補集合全体の活用が、あるモデルに対して実行可能な代用となることを実証する。 制約の少ない候補集合間のトレードオフ、推論時間の増加、いくつかのモデルのメモリフットプリントを示す。

Despite remarkable strides made in the development of entity linking systems in recent years, a comprehensive comparative analysis of these systems using a unified framework is notably absent. This paper addresses this oversight by introducing a new black-box benchmark and conducting a comprehensive evaluation of all state-of-the-art entity linking methods. We use an ablation study to investigate the impact of candidate sets on the performance of entity linking. Our findings uncover exactly how much such entity linking systems depend on candidate sets, and how much this limits the general applicability of each system. We present an alternative approach to candidate sets, demonstrating that leveraging the entire in-domain candidate set can serve as a viable substitute for certain models. We show the trade-off between less restrictive candidate sets, increased inference time and memory footprint for some models.
翻訳日:2024-04-18 15:14:36 公開日:2024-04-17
# Prompt-based Localization による一元化フレームワークにおける3次元Dense Caption と Visual Grounding の再考

Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization ( http://arxiv.org/abs/2404.11064v1 )

ライセンス: Link先を確認
Yongdong Luo, Haojia Lin, Xiawu Zheng, Yigeng Jiang, Fei Chao, Jie Hu, Guannan Jiang, Songan Zhang, Rongrong Ji, (参考訳) 3Dビジュアルグラウンド(3DVG)と3D Dense Captioning(3DDC)は、様々な3Dアプリケーションにおいて重要な2つのタスクであり、ローカライゼーションと視覚言語の関係において、共有情報と補完情報の両方を必要とする。 したがって、既存のアプローチでは2段階の"detect-then-describe/discriminate"パイプラインを採用しており、検出器の性能に大きく依存しているため、最適以下の性能が得られる。 DETRにインスパイアされた統合フレームワークである3DGCTRを提案し、これら2つの異なる、しかし密接に関連するタスクをエンドツーエンドで共同で解決する。 鍵となる考え方は、3DVGモデルの迅速な位置決め能力を再考することである。 このように、入力として適切に設計されたプロンプトを持つ3DVGモデルは、プロンプトからローカライズ情報を抽出することにより、3DDCタスクを支援することができる。 実装面では、Lightweight Caption Headを既存の3DVGネットワークに統合し、Caption Text Promptを接続として、既存の3DVGモデル固有のローカライゼーション能力を有効に活用し、3DDC能力を向上する。 この統合により、両タスクの同時マルチタスクトレーニングが促進され、パフォーマンスが相互に向上する。 大規模な実験結果から,このアプローチの有効性が示された。 具体的には、ScanReferデータセットにおいて、3DGCTRは、MLEトレーニングにおけるCIDEr@0.5IoUの4.3%の最先端3DDC法を上回り、Acc@0.25IoUの3.16%のSOTA 3DVG法を改善する。

3D Visual Grounding (3DVG) and 3D Dense Captioning (3DDC) are two crucial tasks in various 3D applications, which require both shared and complementary information in localization and visual-language relationships. Therefore, existing approaches adopt the two-stage "detect-then-describe/discriminate" pipeline, which relies heavily on the performance of the detector, resulting in suboptimal performance. Inspired by DETR, we propose a unified framework, 3DGCTR, to jointly solve these two distinct but closely related tasks in an end-to-end fashion. The key idea is to reconsider the prompt-based localization ability of the 3DVG model. In this way, the 3DVG model with a well-designed prompt as input can assist the 3DDC task by extracting localization information from the prompt. In terms of implementation, we integrate a Lightweight Caption Head into the existing 3DVG network with a Caption Text Prompt as a connection, effectively harnessing the existing 3DVG model's inherent localization capacity, thereby boosting 3DDC capability. This integration facilitates simultaneous multi-task training on both tasks, mutually enhancing their performance. Extensive experimental results demonstrate the effectiveness of this approach. Specifically, on the ScanRefer dataset, 3DGCTR surpasses the state-of-the-art 3DDC method by 4.3% in CIDEr@0.5IoU in MLE training and improves upon the SOTA 3DVG method by 3.16% in Acc@0.25IoU.
翻訳日:2024-04-18 15:14:36 公開日:2024-04-17
# 共振モード光共振ナノ粒子におけるPT対称性, 誘起メカニカルラシングおよび可変力センシング

PT Symmetry, induced mechanical lasing and tunable force sensing in a coupled-mode optically levitated nanoparticle ( http://arxiv.org/abs/2404.11065v1 )

ライセンス: Link先を確認
Sandeep Sharma, A. Kani, M. Bhattacharya, (参考訳) 共振モードを有する光共振ナノ粒子のPT対称性, 機械的洗浄および力覚について理論的に検討した。 浮遊系のカップリングは、ナノ粒子をトラップするビームに横切る平面における非対称光学電位の変調によって生成される。 このようなカップリングは、実験的に現実的なパラメータに対してPT対称な機械的挙動をもたらす可能性があることを示す。 さらに, ナノ粒子モードのフォノンダイナミクスと2次コヒーレンスを調べた結果, 誘起メカニカルラシングも可能であることが分かった。 最後に, 調整可能な超高感度力センサをシステムに組み込むことを実証した。 本研究は,リビテーション機械振動子の結合自由度をコヒーレントに操作する分野での進歩と,そのセンシングへの応用を示す。

We theoretically investigate PT symmetry, induced mechanical lasing and force sensing in an optically levitated nanoparticle with coupled oscillation modes. The coupling in the levitated system is created by the modulation of an asymmetric optical potential in the plane transverse to the beam trapping the nanoparticle. We show that such a coupling can lead to PT-symmetric mechanical behavior for experimentally realistic parameters. Further, by examining the phonon dynamics and the second-order coherence of the nanoparticle modes, we determine that induced mechanical lasing is also possible. Finally, we demonstrate that tunable ultra-sensitive force sensing can be engineered in the system. Our studies represent an advance in the fields of coherent manipulation of coupled degrees of freedom of levitated mechanical oscillators and their application for sensing.
翻訳日:2024-04-18 15:14:36 公開日:2024-04-17
# AlphaFoldの初期トレーニング時間を10時間に短縮するScaleFold

ScaleFold: Reducing AlphaFold Initial Training Time to 10 Hours ( http://arxiv.org/abs/2404.11068v1 )

ライセンス: Link先を確認
Feiwen Zhu, Arkadiusz Nowaczynski, Rundong Li, Jie Xin, Yifei Song, Michal Marcinkiewicz, Sukru Burc Eryilmaz, Jun Yang, Michael Andersch, (参考訳) AlphaFold2はタンパク質の折り畳みのブレークスルーとして称賛されている。 ラボグレードの精度で素早くタンパク質構造を予測することができる。 しかし、その実装には必要なトレーニングコードが含まれていない。 OpenFoldは、AlphaFoldの最初のトレーニング可能なパブリック実装である。 AlphaFoldのトレーニング手順は極めて時間がかかり、より多くの計算リソースへのスケーリングによるメリットが減少します。 本研究では,OpenfoldをベースとしたAlphaFoldトレーニング手順の総合的な解析を行い,非効率な通信とオーバヘッドを優先した計算が,AlphaFoldトレーニングが効果的なスケーリングを妨げている重要な要因であることを確認した。 これらの要因に特化して最適化を取り入れた,体系的なトレーニング手法であるScaleFoldを紹介した。 ScaleFoldは、AlphaFoldトレーニングを2080 NVIDIA H100 GPUにスケールアップし、高いリソース利用を実現した。 MLPerf HPC v3.0ベンチマークにおいて、ScaleFoldはOpenFoldのベンチマークを7.51分で終了し、ベースラインよりも6ドル以上のスピードアップを示した。 AlphaFoldモデルをスクラッチからトレーニングするために、ScaleFoldは10時間で事前トレーニングを完了した。

AlphaFold2 has been hailed as a breakthrough in protein folding. It can rapidly predict protein structures with lab-grade accuracy. However, its implementation does not include the necessary training code. OpenFold is the first trainable public reimplementation of AlphaFold. AlphaFold training procedure is prohibitively time-consuming, and gets diminishing benefits from scaling to more compute resources. In this work, we conducted a comprehensive analysis on the AlphaFold training procedure based on Openfold, identified that inefficient communications and overhead-dominated computations were the key factors that prevented the AlphaFold training from effective scaling. We introduced ScaleFold, a systematic training method that incorporated optimizations specifically for these factors. ScaleFold successfully scaled the AlphaFold training to 2080 NVIDIA H100 GPUs with high resource utilization. In the MLPerf HPC v3.0 benchmark, ScaleFold finished the OpenFold benchmark in 7.51 minutes, shown over $6\times$ speedup than the baseline. For training the AlphaFold model from scratch, ScaleFold completed the pretraining in 10 hours, a significant improvement over the seven days required by the original AlphaFold pretraining baseline.
翻訳日:2024-04-18 15:14:36 公開日:2024-04-17
# Sky-GVIO:都市キャニオンにおけるFCNに基づくスカイセグメンテーションによるGNSS/INS/Visionナビゲーションの強化

Sky-GVIO: an enhanced GNSS/INS/Vision navigation with FCN-based sky-segmentation in urban canyon ( http://arxiv.org/abs/2404.11070v1 )

ライセンス: Link先を確認
Jingrong Wang, Bo Xu, Ronghe Jin, Shoujian Zhang, Kefu Gao, Jingnan Liu, (参考訳) 正確な、継続的な、信頼性の高い位置決めは、自律運転を実現する上で重要な要素である。 しかし、複雑な都市キャニオン環境では、高層建築物、樹木、高層構造物によるスタンドアロンセンサと非視線(NLOS)の脆弱性は、位置決め結果に深刻な影響を及ぼす。 これらの課題に対処するために、GNSS NLOS検出のために、FCN(Fully Convolutional Network)に基づくスカイビュー画像分割アルゴリズムを提案する。 これに基づいて、新しいNLOS検出・緩和アルゴリズム(S-NDM)が、都市キャニオン環境で連続的かつ正確な位置決めを実現するために、密結合したグローバルナビゲーション衛星システム(GNSS)、慣性計測ユニット(IMU)、およびSky-GVIOと呼ばれる視覚特徴システムに拡張されている。 さらに,SPP(Single Point Positioning)とRTK(Real-Time Kinematic)の方法論を調和させて,運用の汎用性とレジリエンスを高める。 都市キャニオン環境では,S-NDMアルゴリズムの位置決め性能をSPP関連モデルとRTK関連モデルで評価した。 その結果,Sky-GVIO システムは,S-NDM のない GNSS/INS/Vision フレームワークの性能を上回り,SPP モードと RTK によるサブ精度でパラメータレベルの精度を実現することができた。 さらに、トレーニングと評価のサブセットを含むSky-viewイメージデータセットは、https://github.com/whuwangjr/sky-view-imagesで学術的な調査のために公開されている。

Accurate, continuous, and reliable positioning is a critical component of achieving autonomous driving. However, in complex urban canyon environments, the vulnerability of a stand-alone sensor and non-line-of-sight (NLOS) caused by high buildings, trees, and elevated structures seriously affect positioning results. To address these challenges, a sky-view images segmentation algorithm based on Fully Convolutional Network (FCN) is proposed for GNSS NLOS detection. Building upon this, a novel NLOS detection and mitigation algorithm (named S-NDM) is extended to the tightly coupled Global Navigation Satellite Systems (GNSS), Inertial Measurement Units (IMU), and visual feature system which is called Sky-GVIO, with the aim of achieving continuous and accurate positioning in urban canyon environments. Furthermore, the system harmonizes Single Point Positioning (SPP) with Real-Time Kinematic (RTK) methodologies to bolster its operational versatility and resilience. In urban canyon environments, the positioning performance of S-NDM algorithm proposed in this paper is evaluated under different tightly coupled SPP-related and RTK-related models. The results exhibit that Sky-GVIO system achieves meter-level accuracy under SPP mode and sub-decimeter precision with RTK, surpassing the performance of GNSS/INS/Vision frameworks devoid of S-NDM. Additionally, the sky-view image dataset, inclusive of training and evaluation subsets, has been made publicly accessible for scholarly exploration at https://github.com/whuwangjr/sky-view-images .
翻訳日:2024-04-18 15:14:36 公開日:2024-04-17
# ユーザインターフェースに対応した大規模言語モデル - フィードバックのプロビジョニングの場合

Large Language Models Meet User Interfaces: The Case of Provisioning Feedback ( http://arxiv.org/abs/2404.11072v1 )

ライセンス: Link先を確認
Stanislav Pozdniakov, Jonathan Brazil, Solmaz Abdi, Aneesha Bakharia, Shazia Sadiq, Dragan Gasevic, Paul Denny, Hassan Khosravi, (参考訳) ジェネレーティブAI(GenAI)とLarge Language Models(LLM)を教育に取り入れることで、教育効率の向上と学生学習の充実が図られる。 現在のLLMの使用には、材料の生成やフィードバックの提供といったタスクのための会話型ユーザインターフェース(CUI)が含まれる。 しかし、これはAIとCUIにおける教育者の専門知識の必要性、高い意思決定に関する倫理的懸念、プライバシーリスクなどの課題を提示している。 CUIは複雑なタスクにも苦労する。 これらの問題に対処するため,APIコールによるLCMを利用したCUIからユーザフレンドリなアプリケーションへの移行を提案する。 我々は,GenAIを教育ツールに倫理的に組み込むための枠組みを提案し,その応用を我々のツールであるFeedback Copilotに示す。 提案手法の有効性は,GenAI研究者,教育者,技術者に示唆される。 この研究は、教育におけるGenAIの将来についてのコースをグラフ化している。

Incorporating Generative AI (GenAI) and Large Language Models (LLMs) in education can enhance teaching efficiency and enrich student learning. Current LLM usage involves conversational user interfaces (CUIs) for tasks like generating materials or providing feedback. However, this presents challenges including the need for educator expertise in AI and CUIs, ethical concerns with high-stakes decisions, and privacy risks. CUIs also struggle with complex tasks. To address these, we propose transitioning from CUIs to user-friendly applications leveraging LLMs via API calls. We present a framework for ethically incorporating GenAI into educational tools and demonstrate its application in our tool, Feedback Copilot, which provides personalized feedback on student assignments. Our evaluation shows the effectiveness of this approach, with implications for GenAI researchers, educators, and technologists. This work charts a course for the future of GenAI in education.
翻訳日:2024-04-18 15:14:36 公開日:2024-04-17
# 光ファイバにおける多自由度絡み合いの研究

Study of multiple degrees of freedom entanglement in optical fiber ( http://arxiv.org/abs/2404.11073v1 )

ライセンス: Link先を確認
Huimin Zhang, Chaoying Zhao, (参考訳) 軌道角運動量(OAM)は、複数の次元で情報を運ぶ能力によって広く注目を集めている。 しかし、OAMを担持する高次元の絡み合いは環境の影響を受け、脱コヒーレンスを行うことができる。 伝送後の絡み合った状態の安定性と高忠実性の確保は、量子通信の重要な部分である。 絡み合った状態を制御する方法は不可欠である。 本稿では,自然パラメトリックダウンコンバージョン (SPDC) を用いてI型BBO結晶による偏光共役光子対を生成し,APD通信路を通過した後に量子状態の多自由度を操作することにより,Q-plate (QP) による偏光-OAMハイブリッド共役状態を実現する。 偏光絡み合った光子対は、OAMの特性を持つ。 我々は、偏光度自由度を用いてOAM自由度を変調し、偏光-OAMハイブリッド絡み合った状態は、伝送過程における忠実度低下を遅くすることができる。 我々の量子状態は、従来の状況と対照的に、より優れた忠実度を示す。 本手法は, 繊維中のOAM状態の透過率向上のための理論的ガイダンスを提供する。

The orbital angular momentum (OAM) has attracted widespread attention due to its ability to carry information in multiple dimensions. However, a high-dimensional entanglement carrying OAM can be affected by environment and undergoes decoherence. Ensuring the stability and high fidelity of entangled states after transmission is a crucial part of quantum communication. How to control the entangled states are essential. In this paper, we produce the polarization entangled photon pairs by type I BBO crystals by means of spontaneous parametric down-conversion (SPDC), we achieve the polarization-OAM hybrid entangled states by q-plate (QP) by means of manipulating the multi-degrees of freedom of the quantum state after passing through the APD communication channel. The polarization entangled photon pairs have the characteristics of OAM. We use polarization degree of freedom to modulate OAM degree of freedom, our polarization-OAM hybrid entangled states can slow down the reduction of the fidelity in the during of transmission process. Our quantum states exhibit a superior level of fidelity contrast with the conventional situation. This method will provide a theoretical guidance for improving the transmission fidelity of OAM states in fiber.
翻訳日:2024-04-18 15:14:36 公開日:2024-04-17
# EEG_GLT-Net:リアルタイムモータ画像信号分類のためのEEGグラフの最適化

EEG_GLT-Net: Optimising EEG Graphs for Real-time Motor Imagery Signals Classification ( http://arxiv.org/abs/2404.11075v1 )

ライセンス: Link先を確認
Htoo Wai Aung, Jiao Jiao Li, Yang An, Steven W. Su, (参考訳) 脳-コンピュータインタフェースは脳を外部制御装置に接続し、脳波(EEG)から実行可能コマンドへの正確な脳信号の翻訳を必要とする。 グラフニューラルネットワーク(GCN)は、主に脳波チャネル間の空間的関係を取り入れ、従来の畳み込み法よりも精度が向上するため、脳波運動画像信号の分類にますます応用されている。 リアルタイム脳波MI信号分類におけるGCNs-Netの最近の進歩は、Pearson Coefficient correlation (PCC) を用いて隣接行列を構築し、PhyloNetデータセットに有意な結果をもたらした。 本稿では,EEGチャネルの隣接行列を構成する革新的な手法であるEEG_GLT(EEG Graph Lottery Ticket)アルゴリズムを提案する。 既存のチャネル間の関係に関する知識は必要とせず、個々の主題とGCNモデルアーキテクチャの両方に適合するように調整することができる。 その結果,PCC法では平均精度が9.65%向上し,EEG_GLTマトリックスでは平均精度が13.39%向上した。 また, 隣接行列の構成はGCNモデルの構成よりも精度に大きく影響した。 脳波_GLTマトリクスを利用する基本的なGCN構成は,PCCマトリクスを平均精度で構成した最も複雑なGCNセットアップの性能を上回った。 また,EEG_GLT法はPCC法と比較して最大97%削減し,精度を維持・向上した。 結論として、EEG_GLTアルゴリズムは最適な隣接行列の開発において画期的なものであり、計算精度と効率を効果的に向上させ、集中的な計算資源を必要とするEEG MI信号のリアルタイム分類に適している。

Brain-Computer Interfaces connect the brain to external control devices, necessitating the accurate translation of brain signals such as from electroencephalography (EEG) into executable commands. Graph Neural Networks (GCN) have been increasingly applied for classifying EEG Motor Imagery signals, primarily because they incorporates the spatial relationships among EEG channels, resulting in improved accuracy over traditional convolutional methods. Recent advances by GCNs-Net in real-time EEG MI signal classification utilised Pearson Coefficient Correlation (PCC) for constructing adjacency matrices, yielding significant results on the PhysioNet dataset. Our paper introduces the EEG Graph Lottery Ticket (EEG_GLT) algorithm, an innovative technique for constructing adjacency matrices for EEG channels. It does not require pre-existing knowledge of inter-channel relationships, and it can be tailored to suit both individual subjects and GCN model architectures. Our findings demonstrated that the PCC method outperformed the Geodesic approach by 9.65% in mean accuracy, while our EEG_GLT matrix consistently exceeded the performance of the PCC method by a mean accuracy of 13.39%. Also, we found that the construction of the adjacency matrix significantly influenced accuracy, to a greater extent than GCN model configurations. A basic GCN configuration utilising our EEG_GLT matrix exceeded the performance of even the most complex GCN setup with a PCC matrix in average accuracy. Our EEG_GLT method also reduced MACs by up to 97% compared to the PCC method, while maintaining or enhancing accuracy. In conclusion, the EEG_GLT algorithm marks a breakthrough in the development of optimal adjacency matrices, effectively boosting both computational accuracy and efficiency, making it well-suited for real-time classification of EEG MI signals that demand intensive computational resources.
翻訳日:2024-04-18 15:14:36 公開日:2024-04-17
# ノイズのないアナログオープン量子シミュレーションにおける精度保証と量子優位性

Accuracy guarantees and quantum advantage in analogue open quantum simulation with and without noise ( http://arxiv.org/abs/2404.11081v1 )

ライセンス: Link先を確認
Vikram Kashyap, Georgios Styliaris, Sara Mouradian, Juan Ignacio Cirac, Rahul Trivedi, (参考訳) リンドブレディアン・マスター方程式によって説明される多体開量子系は、複雑な平衡現象や不平衡現象を示すリッチな物理モデルのクラスである。 本稿では,幾何学的に局所的なオープン量子系の雑音的アナログ量子シミュレーションを理論的に解析し,この問題が古典的コンピュータ上でのシミュレートが困難であり,短期的な量子デバイス上でほぼ解決可能であることを示す。 まず、雑音のない量子シミュレータから、局所可観測体の力学と、幾何学的に局所的なリンドブラディアンの急速混合局所可観測物の固定点期待値が、システムサイズが$\text{poly}(\varepsilon^{-1})$であるときに$\varepsilon$の精度で得られることを示す。 さらに,BQP = BPPがない限り,量子シミュレータは,目標精度と進化時間(シミュレーション力学)あるいはリンドブラディアンの崩壊速度(定点シミュレーション)に関して,これらの問題に対する古典的アルゴリズムよりも指数関数的に有利であることを示す。 次に、量子シミュレータにおける雑音の存在を、幾何学的に局所的なLinbdladian項の形で考える。 本稿では,本論文で検討したシミュレーションタスクが,ノイズに制限されるが,システムサイズに依存しない精度で解けるような誤りに対して安定であることを示す。 最後に,BQP = BPP がなければ,逆雑音率において古典的アルゴリズムが指数関数的に長い時間を要し,BQP = BPP がなければ同じ精度を達成できないような,安定な幾何学的局所的なリンドブラディアンシミュレーション問題が存在することを確かめる。

Many-body open quantum systems, described by Lindbladian master equations, are a rich class of physical models that display complex equilibrium and out-of-equilibrium phenomena which remain to be understood. In this paper, we theoretically analyze noisy analogue quantum simulation of geometrically local open quantum systems and provide evidence that this problem is both hard to simulate on classical computers and could be approximately solved on near-term quantum devices. First, given a noiseless quantum simulator, we show that the dynamics of local observables and the fixed-point expectation values of rapidly-mixing local observables in geometrically local Lindbladians can be obtained to a precision of $\varepsilon$ in time that is $\text{poly}(\varepsilon^{-1})$ and uniform in system size. Furthermore, we establish that the quantum simulator would provide an exponential advantage, in run-time scaling with respect to the target precision and either the evolution time (when simulating dynamics) or the Lindbladian's decay rate (when simulating fixed-points) over any classical algorithm for these problems unless BQP = BPP. We then consider the presence of noise in the quantum simulator in the form of additional geometrically-local Linbdladian terms. We show that the simulation tasks considered in this paper are stable to errors, i.e. they can be solved to a noise-limited, but system-size independent, precision. Finally, we establish that there are stable geometrically local Lindbladian simulation problems such that as the noise rate on the simulator is reduced, classical algorithms must take time exponentially longer in the inverse noise rate to attain the same precision unless BQP = BPP.
翻訳日:2024-04-18 15:14:36 公開日:2024-04-17
# ViLLM-Eval:ベトナムの大規模言語モデルのための総合評価スイート

ViLLM-Eval: A Comprehensive Evaluation Suite for Vietnamese Large Language Models ( http://arxiv.org/abs/2404.11086v1 )

ライセンス: Link先を確認
Trong-Hieu Nguyen, Anh-Cuong Le, Viet-Cuong Nguyen, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、それらの能力を正確に評価するために、新しいベンチマークの開発を必要とする。 ベトナムにおけるこのニーズに対処するため、ベトナムの文脈における基礎モデルの高度な知識と推論能力を測定するために設計された総合的な評価スイートであるViLLM-Evalを導入することを目的とする。 ViLLM-Evalは、人文科学から工学まで、さまざまな難易度と様々な分野にまたがる、複数選択の質問と次の単語タスクの予測で構成されている。 ViLLM-Eval上での最も先進的なLCMの徹底的な評価により、最高の性能のモデルでさえベトナム語のタスクに対する理解と応答の改善に十分な余地があることが判明した。 ViLLM-Evalは、ファンデーションモデルの重要な長所と短所を特定し、最終的にベトナムのユーザのために開発を促進し、パフォーマンスを向上させるのに役立っていると考えられている。

The rapid advancement of large language models (LLMs) necessitates the development of new benchmarks to accurately assess their capabilities. To address this need for Vietnamese, this work aims to introduce ViLLM-Eval, the comprehensive evaluation suite designed to measure the advanced knowledge and reasoning abilities of foundation models within a Vietnamese context. ViLLM-Eval consists of multiple-choice questions and predict next word tasks spanning various difficulty levels and diverse disciplines, ranging from humanities to science and engineering. A thorough evaluation of the most advanced LLMs on ViLLM-Eval revealed that even the best performing models have significant room for improvement in understanding and responding to Vietnamese language tasks. ViLLM-Eval is believed to be instrumental in identifying key strengths and weaknesses of foundation models, ultimately promoting their development and enhancing their performance for Vietnamese users.
翻訳日:2024-04-18 15:04:52 公開日:2024-04-17
# マルチボディオープン量子系の非マルコフ散逸ダイナミクスに対するニューラルネットワークアプローチ

Neural Network Approach for Non-Markovian Dissipative Dynamics of Many-Body Open Quantum Systems ( http://arxiv.org/abs/2404.11093v1 )

ライセンス: Link先を確認
Long Cao, Liwei Ge, Daochi Zhang, Xiang Li, Yao Wang, Rui-Xue Xu, YiJing Yan, Xiao Zheng, (参考訳) 非マルコフ環境に結合したオープン量子系の力学をシミュレーションすることは、指数関数的に計算コストをスケーリングすることによる顕著な課題である。 本稿では,2次量子化(DQME-SQ)におけるディシパトン埋め込み量子マスター方程式にニューラル量子状態アプローチを統合することにより,この障害を克服する人工知能戦略を提案する。 提案手法では,制限ボルツマンマシン(RBM)を用いて縮退密度テンソルをコンパクトに表現し,システム環境相関と非マルコフメモリの組合せ効果を明示的に符号化する。 システム環境相関と非マルコフ記憶の顕著な効果を示すモデルシステムに適用し、従来の階層的な運動方程式に匹敵する精度を達成し、動的変数を著しく少なくする。 RBMベースの新しいDQME-SQアプローチは、以前の難解な状態における非マルコフ的オープン量子力学の研究の道を開くものであり、現代の科学の様々なフロンティアに影響を及ぼす。

Simulating the dynamics of open quantum systems coupled to non-Markovian environments remains an outstanding challenge due to exponentially scaling computational costs. We present an artificial intelligence strategy to overcome this obstacle by integrating the neural quantum states approach into the dissipaton-embedded quantum master equation in second quantization (DQME-SQ). Our approach utilizes restricted Boltzmann machines (RBMs) to compactly represent the reduced density tensor, explicitly encoding the combined effects of system-environment correlations and nonMarkovian memory. Applied to model systems exhibiting prominent effects of system-environment correlation and non-Markovian memory, our approach achieves comparable accuracy to conventional hierarchical equations of motion, while requiring significantly fewer dynamical variables. The novel RBM-based DQME-SQ approach paves the way for investigating non-Markovian open quantum dynamics in previously intractable regimes, with implications spanning various frontiers of modern science.
翻訳日:2024-04-18 15:04:52 公開日:2024-04-17
# インダクティブ・デダクティブ・ストラテジー・リユース

Inductive-Deductive Strategy Reuse for Multi-Turn Instructional Dialogues ( http://arxiv.org/abs/2404.11095v1 )

ライセンス: Link先を確認
Jiao Ou, Jiayu Wu, Che Liu, Fuzheng Zhang, Di Zhang, Kun Gai, (参考訳) 人間の期待に合わせた大きな言語モデル(LLM)の調整には高品質な命令対話が必要である。 既存の手法は、実際の命令対話を学習目標とし、ユーザシミュレータを微調整して、命令をポーズさせる。 しかし、ユーザシミュレータは、複雑な対話フローを暗黙的にモデル化し、高品質な指示を出すのに苦労する。 本稿では,人間の学習に固有の認知能力からインスピレーションを得て,教育戦略の再利用による複雑な対話フローの明示的なモデリングを提案する。 具体的には,まず,様々な実命令対話からハイレベル戦略を導出する。 これらの戦略は、命令戦略が高品質な指示を促進する新しい対話シナリオに適用される。 実験結果から,本手法は対話履歴に対して多種多様な,深い,洞察に富んだ指示を生成できることが示唆された。 構築されたマルチターン・インストラクショナル・ダイアログは、下流のチャットモデルで競合するベースラインより優れている。

Aligning large language models (LLMs) with human expectations requires high-quality instructional dialogues, which can be achieved by raising diverse, in-depth, and insightful instructions that deepen interactions. Existing methods target instructions from real instruction dialogues as a learning goal and fine-tune a user simulator for posing instructions. However, the user simulator struggles to implicitly model complex dialogue flows and pose high-quality instructions. In this paper, we take inspiration from the cognitive abilities inherent in human learning and propose the explicit modeling of complex dialogue flows through instructional strategy reuse. Specifically, we first induce high-level strategies from various real instruction dialogues. These strategies are applied to new dialogue scenarios deductively, where the instructional strategies facilitate high-quality instructions. Experimental results show that our method can generate diverse, in-depth, and insightful instructions for a given dialogue history. The constructed multi-turn instructional dialogues can outperform competitive baselines on the downstream chat model.
翻訳日:2024-04-18 15:04:52 公開日:2024-04-17
# LAPTOP-Diff:圧縮拡散モデルのための層切断と正規化蒸留

LAPTOP-Diff: Layer Pruning and Normalized Distillation for Compressing Diffusion Models ( http://arxiv.org/abs/2404.11098v1 )

ライセンス: Link先を確認
Dingkun Zhang, Sijia Li, Chen Chen, Qingsong Xie, Haonan Lu, (参考訳) AIGCの時代、拡散モデルの低予算やデバイス上の応用への需要が出現した。 安定拡散モデル (SDM) の圧縮に関していくつかの手法が提案されており、そのほとんどは手作りの層除去法を利用してより小さなU-Netを抽出し、知識蒸留によりネットワーク性能を回復した。 しかし、このような手作りの層除去は非効率であり、スケーラビリティと一般化が欠如しており、再訓練段階における特徴蒸留は、再訓練過程を通して、数個の数値的に重要な特徴損失項が他よりも優位である不均衡問題に直面している。 そこで我々は, 圧縮拡散モデル (LAPTOP-Diff) のための層プレーニング法と正規化蒸留法を提案した。 です。 1)SDMのU-Netを自動圧縮するレイヤプルーニング法を導入し,他のレイヤプルーニング法や手作りのレイヤ除去法を超越して,優れた添加性によってワンショット性能が保証される効果的なワンショットプルーニング基準を提案した。 2) 再トレーニングのための正常化特徴蒸留法を提案し, 不均衡問題を緩和した。 提案したLAPTOP-Diffを用いて,SDXLとSDM-v1.5のU-Netを圧縮し,PickScoreを50%,PickScoreの最小4.0%,PickScoreの最小8.2%の低下を実現した。 私たちはコードを公開します。

In the era of AIGC, the demand for low-budget or even on-device applications of diffusion models emerged. In terms of compressing the Stable Diffusion models (SDMs), several approaches have been proposed, and most of them leveraged the handcrafted layer removal methods to obtain smaller U-Nets, along with knowledge distillation to recover the network performance. However, such a handcrafting manner of layer removal is inefficient and lacks scalability and generalization, and the feature distillation employed in the retraining phase faces an imbalance issue that a few numerically significant feature loss terms dominate over others throughout the retraining process. To this end, we proposed the layer pruning and normalized distillation for compressing diffusion models (LAPTOP-Diff). We, 1) introduced the layer pruning method to compress SDM's U-Net automatically and proposed an effective one-shot pruning criterion whose one-shot performance is guaranteed by its good additivity property, surpassing other layer pruning and handcrafted layer removal methods, 2) proposed the normalized feature distillation for retraining, alleviated the imbalance issue. Using the proposed LAPTOP-Diff, we compressed the U-Nets of SDXL and SDM-v1.5 for the most advanced performance, achieving a minimal 4.0% decline in PickScore at a pruning ratio of 50% while the comparative methods' minimal PickScore decline is 8.2%. We will release our code.
翻訳日:2024-04-18 15:04:52 公開日:2024-04-17
# テーブル認識のための実データ合成

Synthesizing Realistic Data for Table Recognition ( http://arxiv.org/abs/2404.11100v1 )

ライセンス: Link先を確認
Qiyu Hou, Jun Wang, Meixuan Qiao, Lujun Tian, (参考訳) そこで本研究では,従来の自動表データアノテーション手法と乱数表データ合成手法の限界と課題を克服するために,テーブル認識に特化して設計されたアノテーションデータを合成する手法を提案する。 この方法は、既存の複雑なテーブルの構造と内容を利用することで、ターゲット領域にある真のスタイルを忠実に再現するテーブルの効率的な作成を容易にする。 中国の金融発表からテーブルの実際の構造と内容を活用することで、この領域で最初の広範なテーブルアノテーションデータセットを開発した。 このデータセットを使用して、最近のディープラーニングベースのエンドツーエンドテーブル認識モデルをトレーニングしました。 さらに,中国の金融発表領域における実世界の複合表の初歩的ベンチマークを構築し,その手法を用いて,合成データに基づいてトレーニングしたモデルの性能評価を行い,本手法の実用性と有効性を効果的に検証した。 さらに,複数のスパンニングセルを持つテーブルの比率を増大させることにより,FinTabNetデータセットを英語の財務発表から抽出し,複雑さを増すために合成手法を適用した。 実験により, このデータセットでトレーニングしたモデルは, 特に複数のスパンニングセルを持つテーブルの認識において, 総合的な性能向上を実現することが示された。

To overcome the limitations and challenges of current automatic table data annotation methods and random table data synthesis approaches, we propose a novel method for synthesizing annotation data specifically designed for table recognition. This method utilizes the structure and content of existing complex tables, facilitating the efficient creation of tables that closely replicate the authentic styles found in the target domain. By leveraging the actual structure and content of tables from Chinese financial announcements, we have developed the first extensive table annotation dataset in this domain. We used this dataset to train several recent deep learning-based end-to-end table recognition models. Additionally, we have established the inaugural benchmark for real-world complex tables in the Chinese financial announcement domain, using it to assess the performance of models trained on our synthetic data, thereby effectively validating our method's practicality and effectiveness. Furthermore, we applied our synthesis method to augment the FinTabNet dataset, extracted from English financial announcements, by increasing the proportion of tables with multiple spanning cells to introduce greater complexity. Our experiments show that models trained on this augmented dataset achieve comprehensive improvements in performance, especially in the recognition of tables with multiple spanning cells.
翻訳日:2024-04-18 15:04:52 公開日:2024-04-17
# クラスワイドオブジェクト除去画像を用いたオブジェクトリモーバ性能評価手法

Object Remover Performance Evaluation Methods using Class-wise Object Removal Images ( http://arxiv.org/abs/2404.11104v1 )

ライセンス: Link先を確認
Changsuk Oh, Dongseok Shim, Taekbeom Lee, H. Jin Kim, (参考訳) オブジェクト除去とは、全体像を保存しながら画像から指定されたオブジェクトを消去するプロセスであり、実世界のアプリケーションで広く使われている領域である。 被写体除去結果の質を測定して、被写体除去器の性能を定量的に評価する。 定量的な性能評価を報告している現在の研究は、オリジナルの画像を参照として活用している。 本稿では, 対象物除去装置の性能を適切に評価できない現状の評価手法を検証するため, 対象物除去地真実を用いたデータセットを作成し, 対象物除去地真実画像を用いた手法による評価と, 対象物除去地真実画像を用いた手法との比較を行う。 2つの評価セットの相違は、現在の手法がオブジェクト除去器の性能を測定するのに適していないことを検証する。 さらに,物体除去器の性能を評価するための新しい評価手法を提案する。 提案手法は,クラス単位のオブジェクト除去結果を用いて性能を評価し,対象のクラスオブジェクトを含まない画像を比較セットとして利用する。 提案手法は,COCOデータセットにおける人間の評価値と整合性を持たせることができ,また,自己取得データセットにおける対象除去基底真理を用いて測定値に整合性を持たせることができることを確認した。

Object removal refers to the process of erasing designated objects from an image while preserving the overall appearance, and it is one area where image inpainting is widely used in real-world applications. The performance of an object remover is quantitatively evaluated by measuring the quality of object removal results, similar to how the performance of an image inpainter is gauged. Current works reporting quantitative performance evaluations utilize original images as references. In this letter, to validate the current evaluation methods cannot properly evaluate the performance of an object remover, we create a dataset with object removal ground truth and compare the evaluations made by the current methods using original images to those utilizing object removal ground truth images. The disparities between two evaluation sets validate that the current methods are not suitable for measuring the performance of an object remover. Additionally, we propose new evaluation methods tailored to gauge the performance of an object remover. The proposed methods evaluate the performance through class-wise object removal results and utilize images without the target class objects as a comparison set. We confirm that the proposed methods can make judgments consistent with human evaluators in the COCO dataset, and that they can produce measurements aligning with those using object removal ground truth in the self-acquired dataset.
翻訳日:2024-04-18 15:04:52 公開日:2024-04-17
# 要求のスメルを特徴づける

Characterizing Requirements Smells ( http://arxiv.org/abs/2404.11106v1 )

ライセンス: Link先を確認
Emanuele Gentili, Davide Falessi, (参考訳) コンテキスト: ソフトウェア仕様は通常自然言語で書かれており、不正確さ、曖昧さ、その他の品質問題に悩まされがちです。 要求の臭いは、遅延やリワーク、顧客の満足度低下など、多くの面でプロジェクトの開発を妨げる可能性がある。 産業的な観点から言えば、私たちは、高い関心を持つ要求の匂いを識別し、予防するために、時間と努力を集中させたいと思っています。 Aim: 本論文は, 周波数, 重度, 効果の観点から, 12の要求臭を特徴付けることを目的としている。 方法: MBDA Italy Spaと呼ばれる安全クリティカルドメインの大手国際企業のさまざまな部門から経験豊富な実践者10人にインタビューを行った。 結果: 調査の結果, 臭気の種類はあいまいさと検証可能性であり, 最も頻度が高いのはあいまいさと複雑さであることがわかった。 また,臭いの種類によって匂いの影響が変わるという,要求の匂いについて学ぶ6つのレッスンのセットも提供する。 結論:我々の結果は,要求臭の重要性に対する意識を高めるのに役立ちます。 本研究は,本研究の成果を裏付ける調査から,特定の要求匂いの効果を計測する制御実験まで,今後の実証研究の道筋をたどるものである。

Context: Software specifications are usually written in natural language and may suffer from imprecision, ambiguity, and other quality issues, called thereafter, requirement smells. Requirement smells can hinder the development of a project in many aspects, such as delays, reworks, and low customer satisfaction. From an industrial perspective, we want to focus our time and effort on identifying and preventing the requirement smells that are of high interest. Aim: This paper aims to characterise 12 requirements smells in terms of frequency, severity, and effects. Method: We interviewed ten experienced practitioners from different divisions of a large international company in the safety-critical domain called MBDA Italy Spa. Results: Our interview shows that the smell types perceived as most severe are Ambiguity and Verifiability, while as most frequent are Ambiguity and Complexity. We also provide a set of six lessons learnt about requirements smells, such as that effects of smells are expected to differ across smell types. Conclusions: Our results help to increase awareness about the importance of requirement smells. Our results pave the way for future empirical investigations, ranging from a survey confirming our findings to controlled experiments measuring the effect size of specific requirement smells.
翻訳日:2024-04-18 15:04:52 公開日:2024-04-17
# KernJC: Linuxカーネル脆弱性の自動脆弱性生成

KernJC: Automated Vulnerable Environment Generation for Linux Kernel Vulnerabilities ( http://arxiv.org/abs/2404.11107v1 )

ライセンス: Link先を確認
Bonan Ruan, Jiahao Liu, Chuqi Zhang, Zhenkai Liang, (参考訳) Linuxカーネルの脆弱性の再現はシステムセキュリティにおいて重要なタスクである。 カーネルの脆弱性を再現するには、脆弱性のある環境とPoC(Proof of Concept)プログラムが必要である。 既存の研究はPoCの生成に重点を置いているが、環境の構築は見過ごされている。 しかし、脆弱性を引き起こすための効果的な脆弱な環境を確立することは難しい。 まず、選択したカーネルバージョンの複製が脆弱であることを保証することは難しい。 第二に、デフォルト設定で構築されたカーネルでは多くの脆弱性を再現できない。 複雑な非デフォルトのカーネル設定はカーネルの脆弱性を封じ込めてトリガーするように設定する必要があるが、これらの設定をどう認識するかについての情報は少ない。 これらの課題を解決するために、実際の脆弱性のあるカーネルバージョンを特定するパッチベースのアプローチと、特定の脆弱性をアクティベートするために必要な設定を特定するグラフベースのアプローチを提案する。 我々はこれらのアプローチを、カーネルの脆弱性に対して脆弱な環境を自動生成するツールであるKernJCに実装する。 KernJCの有効性を評価するために、過去5年間にカーネル脆弱性研究から、66の代表的な現実世界の脆弱性を含むデータセットをPoCで構築した。 評価によると、KernJCはこれらの脆弱性すべてに対して脆弱な環境を構築しており、そのうち48.5%は非デフォルト設定を必要としており、4つはNational Vulnerability Database(NVD)の誤ったバージョンクレームを持っている。 さらに、カーネルの脆弱性に対して大規模なスプリアスバージョン検出を行い、NVDのスプリアスバージョンクレームを持つ128の脆弱性を特定する。 今後の研究を促進するため、コミュニティのデータセットとともにKernJCをリリースします。

Linux kernel vulnerability reproduction is a critical task in system security. To reproduce a kernel vulnerability, the vulnerable environment and the Proof of Concept (PoC) program are needed. Most existing research focuses on the generation of PoC, while the construction of environment is overlooked. However, establishing an effective vulnerable environment to trigger a vulnerability is challenging. Firstly, it is hard to guarantee that the selected kernel version for reproduction is vulnerable, as the vulnerability version claims in online databases can occasionally be spurious. Secondly, many vulnerabilities can not be reproduced in kernels built with default configurations. Intricate non-default kernel configurations must be set to include and trigger a kernel vulnerability, but less information is available on how to recognize these configurations. To solve these challenges, we propose a patch-based approach to identify real vulnerable kernel versions and a graph-based approach to identify necessary configs for activating a specific vulnerability. We implement these approaches in a tool, KernJC, automating the generation of vulnerable environments for kernel vulnerabilities. To evaluate the efficacy of KernJC, we build a dataset containing 66 representative real-world vulnerabilities with PoCs from kernel vulnerability research in the past five years. The evaluation shows that KernJC builds vulnerable environments for all these vulnerabilities, 48.5% of which require non-default configs, and 4 have incorrect version claims in the National Vulnerability Database (NVD). Furthermore, we conduct large-scale spurious version detection on kernel vulnerabilities and identify 128 vulnerabilities which have spurious version claims in NVD. To foster future research, we release KernJC with the dataset in the community.
翻訳日:2024-04-18 15:04:52 公開日:2024-04-17
# LADDER: ビデオフレーム補間のための効率的なフレームワーク

LADDER: An Efficient Framework for Video Frame Interpolation ( http://arxiv.org/abs/2404.11108v1 )

ライセンス: Link先を確認
Tong Shen, Dong Li, Ziheng Gao, Lu Tian, Emad Barsoum, (参考訳) ビデオフレーム補間(VFI)は、スローモーション生成、フレームレート変換、ビデオフレーム復元など、様々な応用において重要な技術である。 本稿では,効率と品質のバランスをとることを目的とした,効率的なビデオフレーム補間フレームワークを提案する。 本フレームワークは,フロー推定器と改良モジュールから構成される汎用パラダイムを踏襲し,慎重に設計したコンポーネントを取り入れた。 まず,フロー推定器において,パラメータを同時に削減し,リッチなコンテキストを符号化し,複雑な動きを扱うための受容場を向上する,大きなカーネルとの深度ワイドな畳み込みを導入する。 第二に、UNet構造(エンコーダ・デコーダ構造)を持つリファインメントモジュールの共通設計から冗長なデコーダのみのリファインメントモジュールは、粗い機能から細かい機能への結果を直接的に強化し、より効率的なプロセスを提供する。 また,高精細フレームを扱うことの課題に対処するため,訓練中にHD画像に一貫した拡張をもたらす革新的なHD対応強化戦略を導入する。 様々なデータセット、Vimeo90K、UCF101、Xiph、SNU-FILMで大規模な実験が行われた。 その結果,本手法はFLOPやパラメータをはるかに少なくし,効率と品質のバランスをとるためのより良い地点に到達した。

Video Frame Interpolation (VFI) is a crucial technique in various applications such as slow-motion generation, frame rate conversion, video frame restoration etc. This paper introduces an efficient video frame interpolation framework that aims to strike a favorable balance between efficiency and quality. Our framework follows a general paradigm consisting of a flow estimator and a refinement module, while incorporating carefully designed components. First of all, we adopt depth-wise convolution with large kernels in the flow estimator that simultaneously reduces the parameters and enhances the receptive field for encoding rich context and handling complex motion. Secondly, diverging from a common design for the refinement module with a UNet-structure (encoder-decoder structure), which we find redundant, our decoder-only refinement module directly enhances the result from coarse to fine features, offering a more efficient process. In addition, to address the challenge of handling high-definition frames, we also introduce an innovative HD-aware augmentation strategy during training, leading to consistent enhancement on HD images. Extensive experiments are conducted on diverse datasets, Vimeo90K, UCF101, Xiph and SNU-FILM. The results demonstrate that our approach achieves state-of-the-art performance with clear improvement while requiring much less FLOPs and parameters, reaching to a better spot for balancing efficiency and quality.
翻訳日:2024-04-18 15:04:52 公開日:2024-04-17
# 対話型質問応答のための合成質問生成による一貫性学習

Consistency Training by Synthetic Question Generation for Conversational Question Answering ( http://arxiv.org/abs/2404.11109v1 )

ライセンス: Link先を確認
Hamed Hematian Hemati, Hamid Beigy, (参考訳) 履歴情報を効果的にモデル化することは、ユーザの質問を明確にする上で、歴史的コンテキストが重要な役割を果たすため、会話型質問回答(QA)コンテキスト内のユーザクエリに対処する上で重要な要素である。 しかし、無関係な歴史は、特にかなりの歴史的文脈の疑問に対して、推論過程においてノイズを引き起こす。 筆者らは,CoTaH(Consistency-Trained augmented History)と呼ばれる新しいモデル非依存アプローチにおいて,過去の情報を合成質問で強化し,その後,実データと拡張履歴データの両方を利用したモデルトレーニングを行い,無関係な歴史に対する推論を暗黙的に堅牢にする。 我々の知る限りでは、これは会話型QA設定をモデル化するためのデータ拡張の一形態として質問生成を用いた最初の研究事例である。 過去の研究でよく見られるモデリングエラーを引用することによって、新しいベースラインモデルを導入し、モデルの性能をそれと比較し、特に大量の歴史的文脈を含む質問に対処する際に、結果の改善を示す。 ソースコードはGitHubのページにある。

Efficiently modeling historical information is a critical component in addressing user queries within a conversational question-answering (QA) context, as historical context plays a vital role in clarifying the user's questions. However, irrelevant history induces noise in the reasoning process, especially for those questions with a considerable historical context. In our novel model-agnostic approach, referred to as CoTaH (Consistency-Trained augmented History), we augment the historical information with synthetic questions and subsequently employ consistency training to train a model that utilizes both real and augmented historical data to implicitly make the reasoning robust to irrelevant history. To the best of our knowledge, this is the first instance of research using question generation as a form of data augmentation to model conversational QA settings. By citing a common modeling error prevalent in previous research, we introduce a new baseline model and compare our model's performance against it, demonstrating an improvement in results, particularly when dealing with questions that include a substantial amount of historical context. The source code can be found on our GitHub page.
翻訳日:2024-04-18 15:04:52 公開日:2024-04-17
# CorrNet+:時空間相関による手話認識と翻訳

CorrNet+: Sign Language Recognition and Translation via Spatial-Temporal Correlation ( http://arxiv.org/abs/2404.11111v1 )

ライセンス: Link先を確認
Lianyu Hu, Wei Feng, Liqing Gao, Zekang Liu, Liang Wan, (参考訳) 手話では、人体の軌跡の伝達は、主に連続したフレーム間の手と表情の協調した動きに依存している。 近年の手話理解手法の進歩にもかかわらず、それらは多くの場合、人体軌道を効果的にモデル化するのに不可欠なフレーム間の相関を見越して、個々のフレームにのみ焦点を当てている。 この制限に対処するために,複数のフレームにまたがる身体の軌跡を明確に識別する空間時間相関ネットワークCorrNet+を提案する。 具体的には、CorrNet+は相関モジュールと識別モジュールを使用して人体軌道を構築する。 その後、時間的アテンションモジュールが続き、異なるフレームのコントリビューションを適応的に評価する。 結果として得られる特徴は、人体の動きに関する全体論的な視点を提供し、手話の理解を深める。 統一モデルとして、CorrNet+は、連続手話認識(CSLR)と手話翻訳(SLT)を含む2つの広範な手話理解タスクにおいて、最先端のパフォーマンスを達成する。 特に、CorrNet+は、リソース集約的なポーズ推定ネットワークや、手と顔の特徴抽出のための事前抽出されたヒートマップを備えた従来の手法を超越している。 CorrNetと比較すると、CorrNet+は計算オーバーヘッドを半分にしながら、すべてのベンチマークで大幅なパフォーマンス向上を実現している。 従来の空間的時間的推論手法との総合的な比較は、CorrNet+の優位性を検証する。 コードはhttps://github.com/hulianyuyy/CorrNet_Plus.comで入手できる。

In sign language, the conveyance of human body trajectories predominantly relies upon the coordinated movements of hands and facial expressions across successive frames. Despite the recent advancements of sign language understanding methods, they often solely focus on individual frames, inevitably overlooking the inter-frame correlations that are essential for effectively modeling human body trajectories. To address this limitation, this paper introduces a spatial-temporal correlation network, denoted as CorrNet+, which explicitly identifies body trajectories across multiple frames. In specific, CorrNet+ employs a correlation module and an identification module to build human body trajectories. Afterwards, a temporal attention module is followed to adaptively evaluate the contributions of different frames. The resultant features offer a holistic perspective on human body movements, facilitating a deeper understanding of sign language. As a unified model, CorrNet+ achieves new state-of-the-art performance on two extensive sign language understanding tasks, including continuous sign language recognition (CSLR) and sign language translation (SLT). Especially, CorrNet+ surpasses previous methods equipped with resource-intensive pose-estimation networks or pre-extracted heatmaps for hand and facial feature extraction. Compared with CorrNet, CorrNet+ achieves a significant performance boost across all benchmarks while halving the computational overhead. A comprehensive comparison with previous spatial-temporal reasoning methods verifies the superiority of CorrNet+. Code is available at https://github.com/hulianyuyy/CorrNet_Plus.
翻訳日:2024-04-18 15:04:52 公開日:2024-04-17
# 土地被覆地図作成における年次データの利用 : 特徴的絡み合いとコントラスト学習

Reuse out-of-year data to enhance land cover mappingvia feature disentanglement and contrastive learning ( http://arxiv.org/abs/2404.11114v1 )

ライセンス: Link先を確認
Cassio F. Dantas, Raffaele Gaetano, Claudia Paris, Dino Ienco, (参考訳) 最新の土地利用/土地被覆(LULC)地図は、農業領域の管理、環境モニタリング、そして、良い情報と持続可能な意思決定を促進する上で重要な役割を担っている。 通常、ランドカバー(LC)マップを作成する際には、時間と費用のかかるフィールドキャンペーンを通じて正確な地上真実データを収集する。 このデータを衛星画像時系列(SITS)と組み合わせて、高度な機械学習アルゴリズムを用いて最終地図を得る。 残念なことに、このプロセスが繰り返される度に(例えば、農業生産や生物多様性の喪失を見積もるためには、毎年、地域にわたって)、新たな真実データを収集する必要がある。 同じ研究現場から、あるいは同様の研究現場から、現在のLULCマッピングプロセスを強化するために、過去のデータキャンペーンに投資した財政的、人的資源的努力が再び価値を享受できるような重要な課題となる。 この課題に対処するために,本稿では,2つの異なるドメイン(例えば,過去のデータと新しいデータ)からのリモートセンシングと参照データを組み合わせて,現在のLCマッピングプロセスを改善するための,ドメイン適応と一般化の最近の進歩に基づくディープラーニングフレームワークを提案する。 筆者らのアプローチであるREFeD (Data Reuse with Effective Feature Disentanglement for Land Cover Mapping) は,逆学習に基づく分散戦略を利用して,下流LCマッピングタスクに関連する固有情報を抽出し,ドメイン間の分散シフトを緩和する。 さらに、REFeDは、異なる粒度の複数のレベルの監督を通じて、機能障害をさらに実施する効果的な監視スキームを備えている。 コウムビア(ブルキナファソの西アフリカ地域、フランス中部)とバル・ド・ロワール(フランス中央ヨーロッパ)の2つの研究分野について実験を行ったところ、この枠組みの質は低く、また、同じ(または類似した)調査現場から得られた年次情報も、異なる期間に、LCマッピングプロセスを強化するために貴重な情報源となることが判明した。

Timely up-to-date land use/land cover (LULC) maps play a pivotal role in supporting agricultural territory management, environmental monitoring and facilitating well-informed and sustainable decision-making. Typically, when creating a land cover (LC) map, precise ground truth data is collected through time-consuming and expensive field campaigns. This data is then utilized in conjunction with satellite image time series (SITS) through advanced machine learning algorithms to get the final map. Unfortunately, each time this process is repeated (e.g., annually over a region to estimate agricultural production or potential biodiversity loss), new ground truth data must be collected, leading to the complete disregard of previously gathered reference data despite the substantial financial and time investment they have required. How to make value of historical data, from the same or similar study sites, to enhance the current LULC mapping process constitutes a significant challenge that could enable the financial and human-resource efforts invested in previous data campaigns to be valued again. Aiming to tackle this important challenge, we here propose a deep learning framework based on recent advances in domain adaptation and generalization to combine remote sensing and reference data coming from two different domains (e.g. historical data and fresh ones) to ameliorate the current LC mapping process. Our approach, namely REFeD (data Reuse with Effective Feature Disentanglement for land cover mapping), leverages a disentanglement strategy, based on contrastive learning, where invariant and specific per-domain features are derived to recover the intrinsic information related to the downstream LC mapping task and alleviate possible distribution shifts between domains. Additionally, REFeD is equipped with an effective supervision scheme where feature disentanglement is further enforced via multiple levels of supervision at different granularities. The experimental assessment over two study areas covering extremely diverse and contrasted landscapes, namely Koumbia (located in the West-Africa region, in Burkina Faso) and Centre Val de Loire (located in centre Europe, France), underlines the quality of our framework and the obtained findings demonstrate that out-of-year information coming from the same (or similar) study site, at different periods of time, can constitute a valuable additional source of information to enhance the LC mapping process.
翻訳日:2024-04-18 15:04:52 公開日:2024-04-17
# ディープフィルタによる音楽の強化:ICASSP 2024 Cadenza Challengeの技術報告

Music Enhancement with Deep Filters: A Technical Report for The ICASSP 2024 Cadenza Challenge ( http://arxiv.org/abs/2404.11116v1 )

ライセンス: Link先を確認
Keren Shao, Ke Chen, Shlomo Dubnov, (参考訳) この課題では、DeepfilterNetからディープフィルタを分離し、Spec-UNetベースのネットワークに組み込んで、ハイブリッドなDemucs(hdemucs)ベースのリミックスパイプラインをさらに改善します。 ディープフィルタコンポーネントの使用の背後にある動機は、時間的微細構造をよりよく扱うことにある。 本稿では,各モデルの性能を比較する際に,SDR(Signal-to-Distortion Ratio)とHAAQI(Hearing Aid Audio Quality Index)の指標を漸進的に改善することを示す。

In this challenge, we disentangle the deep filters from the original DeepfilterNet and incorporate them into our Spec-UNet-based network to further improve a hybrid Demucs (hdemucs) based remixing pipeline. The motivation behind the use of the deep filter component lies at its potential in better handling temporal fine structures. We demonstrate an incremental improvement in both the Signal-to-Distortion Ratio (SDR) and the Hearing Aid Audio Quality Index (HAAQI) metrics when comparing the performance of hdemucs against different versions of our model.
翻訳日:2024-04-18 15:04:52 公開日:2024-04-17
# 状態空間モデルに対する変分量子化

Variational quantization for state space models ( http://arxiv.org/abs/2404.11117v1 )

ライセンス: Link先を確認
Etienne David, Jean Bellot, Sylvain Le Corff, (参考訳) 何千もの異種時系列を収集する大規模なデータセットを用いた予測タスクは、多くの分野において重要な統計問題である。 主な課題は、様々な時系列をモデル化し、利用可能な外部信号を利用し、統計的保証のある鋭い予測を提供することである。 本研究では、離散状態空間隠れマルコフモデルと最近のニューラルネットワークアーキテクチャを組み合わせた予測モデルを提案し、ベクトル量子化変分オートエンコーダにインスパイアされたトレーニング手順を提案する。 本研究では,潜伏状態のパラメータと放射分布のパラメータを学習するための2段階の訓練手順と観察結果から,潜伏状態のばらつきによる離散的後部分布を導入する。 発光法則の集合を学習し、隠されたプロセスのダイナミクスによって一時的に活性化することにより、提案手法は大規模なデータセットを探索し、利用可能な外部信号を活用することができる。 提案手法の性能を複数のデータセットを用いて評価し,他の最先端ソリューションよりも優れていることを示す。

Forecasting tasks using large datasets gathering thousands of heterogeneous time series is a crucial statistical problem in numerous sectors. The main challenge is to model a rich variety of time series, leverage any available external signals and provide sharp predictions with statistical guarantees. In this work, we propose a new forecasting model that combines discrete state space hidden Markov models with recent neural network architectures and training procedures inspired by vector quantized variational autoencoders. We introduce a variational discrete posterior distribution of the latent states given the observations and a two-stage training procedure to alternatively train the parameters of the latent states and of the emission distributions. By learning a collection of emission laws and temporarily activating them depending on the hidden process dynamics, the proposed method allows to explore large datasets and leverage available external signals. We assess the performance of the proposed method using several datasets and show that it outperforms other state-of-the-art solutions.
翻訳日:2024-04-18 15:04:52 公開日:2024-04-17
# MHLR:1つのGPUを用いた大規模顔認識訓練のための移動ハードル学習率スケジューリング

MHLR: Moving Haar Learning Rate Scheduler for Large-scale Face Recognition Training with One GPU ( http://arxiv.org/abs/2404.11118v1 )

ライセンス: Link先を確認
Xueyuan Gong, Yain-whar Si, Zheng Zhang, Xiaochen Yuan, Ke Wang, Xinyuan Zhang, Cong Lin, Xiaoxiang Liu, (参考訳) 顔認識(FR)は、大規模データセットの利用により大幅に進歩している。 大規模データセット上で複数のGPUでディープラーニングFRモデルをトレーニングすることは、今や一般的なプラクティスです。 実際、コンピューティングのパワーは、ディープラーニングの分野で基礎的で必要不可欠なリソースへと進化してきた。 ハードウェアリソースを十分に保持することなく、深いFRモデルをトレーニングすることはほぼ不可能である。 この課題を認識したいくつかのFRアプローチは、FRモデルにおける完全連結層の時間的複雑さを低減する方法を模索し始めた。 他の手法と異なり,本研究では,学習過程において,学習率を迅速かつ正確にスケジューリングするための,移動ハーアー学習率(MHLR)スケジューラを提案する。 MHLRは1つのGPUで大規模なFRトレーニングをサポートしており、1%以上の精度を犠牲にすることなく、オリジナルのトレーニング時間の1/4までモデルを加速することができる。 より具体的に言うと、MHLRはデータセットのWebFace12MでモデルResNet100をトレーニングするのに30ドルしか必要とせず、0.6MのIDを持つ1200万以上の顔画像を含んでいる。 大規模な実験は、MHLRの有効性と有効性を検証する。

Face recognition (FR) has seen significant advancements due to the utilization of large-scale datasets. Training deep FR models on large-scale datasets with multiple GPUs is now a common practice. In fact, computing power has evolved into a foundational and indispensable resource in the area of deep learning. It is nearly impossible to train a deep FR model without holding adequate hardware resources. Recognizing this challenge, some FR approaches have started exploring ways to reduce the time complexity of the fully-connected layer in FR models. Unlike other approaches, this paper introduces a simple yet highly effective approach, Moving Haar Learning Rate (MHLR) scheduler, for scheduling the learning rate promptly and accurately in the training process. MHLR supports large-scale FR training with only one GPU, which is able to accelerate the model to 1/4 of its original training time without sacrificing more than 1% accuracy. More specifically, MHLR only needs $30$ hours to train the model ResNet100 on the dataset WebFace12M containing more than 12M face images with 0.6M identities. Extensive experiments validate the efficiency and effectiveness of MHLR.
翻訳日:2024-04-18 15:04:52 公開日:2024-04-17
# TiNO編集:ロバスト拡散に基づく画像編集における時間と雑音の最適化

TiNO-Edit: Timestep and Noise Optimization for Robust Diffusion-Based Image Editing ( http://arxiv.org/abs/2404.11120v1 )

ライセンス: Link先を確認
Sherry X. Chen, Yaron Vaxman, Elad Ben Baruch, David Asulin, Aviad Moreshet, Kuo-Chin Lien, Misha Sra, Pradeep Sen, (参考訳) 安定拡散(SD)のような事前訓練されたテキスト・ツー・イメージ・モデル(T2I)を制御可能な画像編集に活用しようとする試みは多いが、優れた予測可能な結果を生み出すことは依然として課題である。 以前のアプローチでは、特定のデータセット上で訓練済みのT2Iモデルを微調整して、特定の種類の画像(例えば、特定のオブジェクトや人)を生成するか、画像生成装置をコークスして所望の結果を生成するために、各入力画像の重み、テキストプロンプト、および/または学習機能を最適化することに重点を置いていた。 しかし、これらのアプローチには欠点があり、予測可能かつ制御可能な方法で良い結果を出すことができない。 この問題に対処するため,本研究では,編集中のノイズパターンと拡散時間の最適化に焦点を当てたSDベースのTiNO-Editを提案する。 この単純な変更によって、元のイメージとよりよく一致し、望ましい結果を反映する結果を生成することができます。 さらに,SDの潜在領域で動作する新たな損失関数のセットを提案し,画素領域で動作する従来のアプローチと比較して最適化を大幅に高速化する。 本手法は,テキスト変換やDreamBoothなどのSDのバリエーションに容易に適用でき,新しい概念をエンコードして編集結果に組み込むことができる。 我々は,我々のアプローチによって実現された画像編集機能について紹介する。 私たちのコードはhttps://github.com/SherryXTChen/TiNO-Editで公開されています。

Despite many attempts to leverage pre-trained text-to-image models (T2I) like Stable Diffusion (SD) for controllable image editing, producing good predictable results remains a challenge. Previous approaches have focused on either fine-tuning pre-trained T2I models on specific datasets to generate certain kinds of images (e.g., with a specific object or person), or on optimizing the weights, text prompts, and/or learning features for each input image in an attempt to coax the image generator to produce the desired result. However, these approaches all have shortcomings and fail to produce good results in a predictable and controllable manner. To address this problem, we present TiNO-Edit, an SD-based method that focuses on optimizing the noise patterns and diffusion timesteps during editing, something previously unexplored in the literature. With this simple change, we are able to generate results that both better align with the original images and reflect the desired result. Furthermore, we propose a set of new loss functions that operate in the latent domain of SD, greatly speeding up the optimization when compared to prior approaches, which operate in the pixel domain. Our method can be easily applied to variations of SD including Textual Inversion and DreamBooth that encode new concepts and incorporate them into the edited results. We present a host of image-editing capabilities enabled by our approach. Our code is publicly available at https://github.com/SherryXTChen/TiNO-Edit.
翻訳日:2024-04-18 14:55:00 公開日:2024-04-17
# TransLinkGuard: エッジデプロイメントにおけるモデルステアリングに対するトランスフォーマーモデルの保護

TransLinkGuard: Safeguarding Transformer Models Against Model Stealing in Edge Deployment ( http://arxiv.org/abs/2404.11121v1 )

ライセンス: Link先を確認
Qinfeng Li, Zhiqiang Shen, Zhenghan Qin, Yangfan Xie, Xuhong Zhang, Tianyu Du, Jianwei Yin, (参考訳) プロプライエタリな大規模言語モデル (LLM) は様々なシナリオで広く適用されている。 さらに、エッジデバイスにLLMをデプロイすることは、効率性とプライバシの理由からトレンドになっている。 エッジデプロイされたモデルは、ユーザがアクセス可能なホワイトボックスとして公開され、敵が効果的なモデル盗難(MS)攻撃を実行できる。 残念ながら、既存の防御機構は効果的な保護を提供していない。 具体的には、(1)モデルが物理的にコピーされた後に保護を維持すること、(2)要求レベルでモデルアクセスを認可すること、(3)ランタイムのリバースエンジニアリングを保護すること、(4)無視できないランタイムオーバーヘッドで高いセキュリティを達成すること、の4つの重要な保護特性を同時に満たさないものを特定する。 上記の問題に対処するため,エッジデバイス上でのモデル盗難に対するプラグアンドプレイモデル保護アプローチであるTransLinkGuardを提案する。 TransLinkGuardの中核となるのは、セキュアな環境にある軽量の認証モジュールである。 認証モジュールは、その入力に基づいて、各要求を新たに認可することができる。 大規模な実験によると、TransLinkGuardはブラックボックスのセキュリティ保証と同じセキュリティ保護を無視可能なオーバーヘッドで達成している。

Proprietary large language models (LLMs) have been widely applied in various scenarios. Additionally, deploying LLMs on edge devices is trending for efficiency and privacy reasons. However, edge deployment of proprietary LLMs introduces new security challenges: edge-deployed models are exposed as white-box accessible to users, enabling adversaries to conduct effective model stealing (MS) attacks. Unfortunately, existing defense mechanisms fail to provide effective protection. Specifically, we identify four critical protection properties that existing methods fail to simultaneously satisfy: (1) maintaining protection after a model is physically copied; (2) authorizing model access at request level; (3) safeguarding runtime reverse engineering; (4) achieving high security with negligible runtime overhead. To address the above issues, we propose TransLinkGuard, a plug-and-play model protection approach against model stealing on edge devices. The core part of TransLinkGuard is a lightweight authorization module residing in a secure environment, e.g., TEE. The authorization module can freshly authorize each request based on its input. Extensive experiments show that TransLinkGuard achieves the same security protection as the black-box security guarantees with negligible overhead.
翻訳日:2024-04-18 14:55:00 公開日:2024-04-17
# 小さな言語モデルも良い:ゼロショット分類の実証的研究

Small Language Models are Good Too: An Empirical Study of Zero-Shot Classification ( http://arxiv.org/abs/2404.11122v1 )

ライセンス: Link先を確認
Pierre Lepagnol, Thomas Gerald, Sahar Ghannay, Christophe Servan, Sophie Rosset, (参考訳) 本研究は、ゼロショットテキスト分類における小言語モデルと小言語モデルの効率性に関する議論の一部であり、大規模モデルの優位性に挑戦するゼロショットテキスト分類における小言語モデルの性能を評価し、15のデータセットにおいて、異なるアーキテクチャとスコアリング関数を用いて、77Mから40Bの言語モデルを評価する。 この結果から,小規模モデルはテキストを効果的に分類し,より大きなテキストに匹敵するか,あるいはそれを上回っていることが明らかとなった。我々は,我々の方法論をカプセル化した包括的なオープンソースリポジトリを開発し,共有した。 この研究は、大きめが常に良いとは限らないという考えを強調し、リソース効率の良い小さなモデルが特定のデータ分類の課題に対して実行可能なソリューションを提供するかもしれないことを示唆している。

This study is part of the debate on the efficiency of large versus small language models for text classification by prompting.We assess the performance of small language models in zero-shot text classification, challenging the prevailing dominance of large models.Across 15 datasets, our investigation benchmarks language models from 77M to 40B parameters using different architectures and scoring functions. Our findings reveal that small models can effectively classify texts, getting on par with or surpassing their larger counterparts.We developed and shared a comprehensive open-source repository that encapsulates our methodologies. This research underscores the notion that bigger isn't always better, suggesting that resource-efficient small models may offer viable solutions for specific data classification challenges.
翻訳日:2024-04-18 14:55:00 公開日:2024-04-17
# 内部で何が起きているのか:会議要約における自動メトリクスの調査

What's under the hood: Investigating Automatic Metrics on Meeting Summarization ( http://arxiv.org/abs/2404.11124v1 )

ライセンス: Link先を確認
Frederic Kirstein, Jan Philip Wahle, Terry Ruas, Bela Gipp, (参考訳) 会議要約は、オンライン交流の増加を考慮した重要な課題となっている。 新たなテクニックが定期的に導入される一方で、彼らの評価では、ミーティング固有のエラーをキャプチャするように設計されないメトリクスを使用し、効果的な評価を損なう。 本稿では,多用される自動メトリクスキャプチャと,それらがマスクするエラーを,広範囲にわたる人的評価と相関して検討する。 我々は、英語の会議要約に関する総合的な文献レビューから始め、話者力学や文脈的ターンテイクといった重要な課題、不足情報や言語的不正確さといったエラータイプ、以前はこの分野で緩やかに定義されていた概念を定義する。 本稿では,Transformerをベースとしたシーケンス・ツー・シーケンスモデルと,一般的な要約QMSumデータセットからの自己回帰モデルからの注釈付き書き起こしと要約を用いて,特徴的課題と誤りの関係について検討する。 実験的な検証により、異なるモデルアーキテクチャが書き起こしに対処する際の課題に可変に応答し、その結果、課題とエラーの間に異なる明らかなリンクが生じることがわかった。 現在のデフォルトのメトリクスは、観測可能なエラーをキャプチャするのに苦労しており、相関が弱く、相関の3分の1がエラーマスキングの傾向を示している。 特定のエラーに正確に反応するのはサブセットのみであり、ほとんどの相関関係は、エラーが要約品質に与える影響を反映していないか、あるいは失敗していることを示している。

Meeting summarization has become a critical task considering the increase in online interactions. While new techniques are introduced regularly, their evaluation uses metrics not designed to capture meeting-specific errors, undermining effective evaluation. This paper investigates what the frequently used automatic metrics capture and which errors they mask by correlating automatic metric scores with human evaluations across a broad error taxonomy. We commence with a comprehensive literature review on English meeting summarization to define key challenges like speaker dynamics and contextual turn-taking and error types such as missing information and linguistic inaccuracy, concepts previously loosely defined in the field. We examine the relationship between characteristic challenges and errors by using annotated transcripts and summaries from Transformer-based sequence-to-sequence and autoregressive models from the general summary QMSum dataset. Through experimental validation, we find that different model architectures respond variably to challenges in meeting transcripts, resulting in different pronounced links between challenges and errors. Current default-used metrics struggle to capture observable errors, showing weak to mid-correlations, while a third of the correlations show trends of error masking. Only a subset reacts accurately to specific errors, while most correlations show either unresponsiveness or failure to reflect the error's impact on summary quality.
翻訳日:2024-04-18 14:55:00 公開日:2024-04-17
# D-Aug: 動的LiDARシーンのためのデータ拡張

D-Aug: Enhancing Data Augmentation for Dynamic LiDAR Scenes ( http://arxiv.org/abs/2404.11127v1 )

ライセンス: Link先を確認
Jiaxing Zhao, Peng Zheng, Rui Ma, (参考訳) ピクセルレベルのラベル付けで大きなLiDARデータセットを作成することは、大きな課題となる。 手動ラベリングへの依存を減らすために、多くのデータ拡張手法が開発されているが、これらの手法は主に静的なシーンに焦点を当てており、自律運転にとって重要なダイナミックなシーンに対するデータ拡張の重要性を見落としている。 この問題に対処するために,動的シーンの拡張に適したLiDARデータ拡張手法であるD-Augを提案する。 D-Augはオブジェクトを抽出し、それらを動的シーンに挿入する。 動的シーンにシームレスに挿入するために,動的衝突検出と回転アライメントを含む参照誘導手法を提案する。 さらに,適切な挿入位置を効率的に決定するための画素レベルの道路識別戦略を提案する。 我々は, nuScenesデータセットを用いて, 様々な3次元検出・追跡手法を用いて本手法の有効性を検証した。 比較実験はD-Augの優位性を示す。

Creating large LiDAR datasets with pixel-level labeling poses significant challenges. While numerous data augmentation methods have been developed to reduce the reliance on manual labeling, these methods predominantly focus on static scenes and they overlook the importance of data augmentation for dynamic scenes, which is critical for autonomous driving. To address this issue, we propose D-Aug, a LiDAR data augmentation method tailored for augmenting dynamic scenes. D-Aug extracts objects and inserts them into dynamic scenes, considering the continuity of these objects across consecutive frames. For seamless insertion into dynamic scenes, we propose a reference-guided method that involves dynamic collision detection and rotation alignment. Additionally, we present a pixel-level road identification strategy to efficiently determine suitable insertion positions. We validated our method using the nuScenes dataset with various 3D detection and tracking methods. Comparative experiments demonstrate the superiority of D-Aug.
翻訳日:2024-04-18 14:55:00 公開日:2024-04-17
# Fact : 忠実で簡潔で伝達可能な論理型MLLMの教育

Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales ( http://arxiv.org/abs/2404.11129v1 )

ライセンス: Link先を確認
Minghe Gao, Shuang Chen, Liang Pang, Yuan Yao, Jisheng Dang, Wenqiao Zhang, Juncheng Li, Siliang Tang, Yueting Zhuang, Tat-Seng Chua, (参考訳) MLLM(Multimodal Large Language Models)の顕著な性能は、広範囲の視覚的タスクを扱う上で、その熟練した理解能力を明白に実証している。 それでも、ブラックボックスの推論プロセスの不透明な性質はエニグマとして存続し、解釈不能で幻覚に苦しむ。 複雑な構成的推論タスクを実行する能力も制約され、これらのモデルに対する学習の進行の停滞に終止符を打つ。 本研究では,MLLMの学習に忠実で簡潔で伝達しやすい多モーダルな論理を創出するための新しいパラダイムであるFactを紹介する。 このパラダイムは、検証可能なビジュアルプログラミングを使用して、忠実さと精度を保証する実行可能なコードを生成する。 その後、プルーニング、マージング、ブリッジングを含む一連の操作によって、合理的性はその簡潔性を高める。 さらに,プログラミングパラダイムからエンド・ツー・エンドのパラダイムに移行可能な有理性をフィルタリングし,転送可能性を保証する。 実験から得られた実証的な証拠は,パラメータサイズの異なるモデルにまたがる手法の優位性を証明し,それらの構成的推論と一般化能力を大幅に向上させる。 また,画像とテキストの相関性が高いため,幻覚の低減も図っている。

The remarkable performance of Multimodal Large Language Models (MLLMs) has unequivocally demonstrated their proficient understanding capabilities in handling a wide array of visual tasks. Nevertheless, the opaque nature of their black-box reasoning processes persists as an enigma, rendering them uninterpretable and struggling with hallucination. Their ability to execute intricate compositional reasoning tasks is also constrained, culminating in a stagnation of learning progression for these models. In this work, we introduce Fact, a novel paradigm designed to generate multimodal rationales that are faithful, concise, and transferable for teaching MLLMs. This paradigm utilizes verifiable visual programming to generate executable code guaranteeing faithfulness and precision. Subsequently, through a series of operations including pruning, merging, and bridging, the rationale enhances its conciseness. Furthermore, we filter rationales that can be transferred to end-to-end paradigms from programming paradigms to guarantee transferability. Empirical evidence from experiments demonstrates the superiority of our method across models of varying parameter sizes, significantly enhancing their compositional reasoning and generalization ability. Our approach also reduces hallucinations owing to its high correlation between images and text.
翻訳日:2024-04-18 14:55:00 公開日:2024-04-17
# カーネル・オペレーター・ラーニングによる流行の学習 -モデリングから最適制御へ-

Learning epidemic trajectories through Kernel Operator Learning: from modelling to optimal control ( http://arxiv.org/abs/2404.11130v1 )

ライセンス: Link先を確認
Giovanni Ziarelli, Nicola Parolini, Marco Verani, (参考訳) 感染性病原体が受容可能な個体群に広まり始めるため、数学的モデルは、具体的な実施や単なる相談が可能な、信頼性の高い予測とシナリオ分析を政策立案者に提供することができる。 これらの複雑な疫学シナリオにおいて、機械学習アーキテクチャは、古典的な構成モデルに典型的な特定のモデル選択とパラメータキャリブレーションを回避したデータ駆動モデルを直接再構築するため、重要な役割を果たす。 本稿では,感染発生時の人口動態を再構築するためのカーネル・オペレーター・ラーニング(KOL)の有効性について論じる。 特に, KOL-m と KOL-$\partial$ という2つの代理モデルを導入する。 さらに,ニューラルタンジェントカーネルを含む異なるカーネルを持つ2つのアプローチの一般化性能を評価し,従来のニューラルネットワークモデル学習法と比較した。 合成・半現実的データを用いて,提案手法が高速かつ堅牢な予測とシナリオ分析を実現するのにどのように適しているか,そして,これらの手法が,特定のパフォーマンス対策に関して最適な介入戦略を決定するのにいかに競争的であるかを示す。

Since infectious pathogens start spreading into a susceptible population, mathematical models can provide policy makers with reliable forecasts and scenario analyses, which can be concretely implemented or solely consulted. In these complex epidemiological scenarios, machine learning architectures can play an important role, since they directly reconstruct data-driven models circumventing the specific modelling choices and the parameter calibration, typical of classical compartmental models. In this work, we discuss the efficacy of Kernel Operator Learning (KOL) to reconstruct population dynamics during epidemic outbreaks, where the transmission rate is ruled by an input strategy. In particular, we introduce two surrogate models, named KOL-m and KOL-$\partial$, which reconstruct in two different ways the evolution of the epidemics. Moreover, we evaluate the generalization performances of the two approaches with different kernels, including the Neural Tangent Kernels, and compare them with a classical neural network model learning method. Employing synthetic but semi-realistic data, we show how the two introduced approaches are suitable for realizing fast and robust forecasts and scenario analyses, and how these approaches are competitive for determining optimal intervention strategies with respect to specific performance measures.
翻訳日:2024-04-18 14:55:00 公開日:2024-04-17
# Associated and Hierarchical Code Description Distillationに基づく新しいICD符号化フレームワーク

A Novel ICD Coding Framework Based on Associated and Hierarchical Code Description Distillation ( http://arxiv.org/abs/2404.11132v1 )

ライセンス: Link先を確認
Bin Zhang, Junli Wang, (参考訳) ICD (International Classification of Diseases) コーディングは、ICD符号を診療録に基づいて患者に割り当てることを含む。 ICD符号化は、ノイズの多い医療文書入力による多ラベルテキスト分類の問題である。 近年のICD符号化の進歩により、医療用ノートやコードに付加的なデータや知識ベースを組み込むことで、性能が向上した。 しかし、そのほとんどはコード階層を無視しており、不適切なコード割り当てにつながります。 これらの問題に対処するために、コード表現学習の改善と不適切なコード代入の回避を目的とした、関連的および階層的コード記述蒸留(AHDD)に基づく新しいフレームワークを提案する。 そこで本研究では,ICDコード固有のコード記述と階層構造を利用する。 コード記述は、注意層と出力層を認識するためにも適用されます。 ベンチマークデータセットの実験結果は、いくつかの最先端ベースラインよりも提案したフレームワークの方が優れていることを示している。

ICD(International Classification of Diseases) coding involves assigning ICD codes to patients visit based on their medical notes. ICD coding is a challenging multilabel text classification problem due to noisy medical document inputs. Recent advancements in automated ICD coding have enhanced performance by integrating additional data and knowledge bases with the encoding of medical notes and codes. However, most of them ignore the code hierarchy, leading to improper code assignments. To address these problems, we propose a novel framework based on associated and hierarchical code description distillation (AHDD) for better code representation learning and avoidance of improper code assignment.we utilize the code description and the hierarchical structure inherent to the ICD codes. Therefore, in this paper, we leverage the code description and the hierarchical structure inherent to the ICD codes. The code description is also applied to aware the attention layer and output layer. Experimental results on the benchmark dataset show the superiority of the proposed framework over several state-of-the-art baselines.
翻訳日:2024-04-18 14:55:00 公開日:2024-04-17
# GeoReF: カテゴリーレベルのオブジェクト・ポース・リファインメントのための形状変化の幾何学的アライメント

GeoReF: Geometric Alignment Across Shape Variation for Category-level Object Pose Refinement ( http://arxiv.org/abs/2404.11139v1 )

ライセンス: Link先を確認
Linfang Zheng, Tze Ho Elden Tse, Chen Wang, Yinghan Sun, Hua Chen, Ales Leonardis, Wei Zhang, (参考訳) オブジェクトのポーズリファインメントは、堅牢なオブジェクトのポーズ推定に不可欠である。 これまでの作業は、インスタンスレベルのオブジェクトポーズ改善に向けて大きな進歩を遂げた。 しかし、カテゴリレベルのポーズ改善は、カテゴリ内の大きな形状変化と、対象オブジェクトと前の形状との相違により、より困難な問題である。 これらの課題に対処するために、カテゴリレベルのオブジェクトポーズ改善のための新しいアーキテクチャを導入する。 本手法は,幾何情報の抽出とアライメントを強化することを目的とした,HS層と学習可能なアフィン変換を統合する。 さらに,多様なデータソースを効率的にマージするクラウド間変換機構を導入する。 最後に,翻訳およびサイズ誤差予測のための形状事前情報を組み込むことで,モデルの限界を推し進める。 提案手法の有効性を実証するために,広範囲な実験を行った。 広範に定量的な実験を行うことで,すべての指標に対して大きなマージンで,ベースライン法よりも大幅に改善されたことを示す。

Object pose refinement is essential for robust object pose estimation. Previous work has made significant progress towards instance-level object pose refinement. Yet, category-level pose refinement is a more challenging problem due to large shape variations within a category and the discrepancies between the target object and the shape prior. To address these challenges, we introduce a novel architecture for category-level object pose refinement. Our approach integrates an HS-layer and learnable affine transformations, which aims to enhance the extraction and alignment of geometric information. Additionally, we introduce a cross-cloud transformation mechanism that efficiently merges diverse data sources. Finally, we push the limits of our model by incorporating the shape prior information for translation and size error prediction. We conducted extensive experiments to demonstrate the effectiveness of the proposed framework. Through extensive quantitative experiments, we demonstrate significant improvement over the baseline method by a large margin across all metrics.
翻訳日:2024-04-18 14:55:00 公開日:2024-04-17
# 会話における感情認識のための文脈対応シームズネットワーク

Context-Aware Siamese Networks for Efficient Emotion Recognition in Conversation ( http://arxiv.org/abs/2404.11141v1 )

ライセンス: Link先を確認
Barbara Gendron, Gaël Guibon, (参考訳) 深層学習モデルの出現は、会話における感情認識(ERC)の達成に多大な貢献をしている。 しかし、人間の感情の多さと主観性のため、この課題は依然として重要な課題である。 ERCに関する以前の研究は、主にグラフベースの会話表現を使用して予測モデルを提供する。 本研究では,2段階のプロセスで,メトリクス学習訓練戦略に組み込まれた会話コンテキストをモデル化する手法を提案する。 これにより、フレキシブルな分類シナリオでERCを実行し、軽量で効率的なモデルにたどり着くことができます。 シームズネットワークアーキテクチャによるメトリクス学習を用いて,DailyDialogデータセット上での会話における感情分類のためのマクロF1スコアの57.71を達成し,関連する作業を上回った。 この最先端の成果は、感情認識におけるメトリックラーニングの使用に関して有望であるが、マイクロF1スコアと比較すると完璧である。

The advent of deep learning models has made a considerable contribution to the achievement of Emotion Recognition in Conversation (ERC). However, this task still remains an important challenge due to the plurality and subjectivity of human emotions. Previous work on ERC provides predictive models using mostly graph-based conversation representations. In this work, we propose a way to model the conversational context that we incorporate into a metric learning training strategy, with a two-step process. This allows us to perform ERC in a flexible classification scenario and to end up with a lightweight yet efficient model. Using metric learning through a Siamese Network architecture, we achieve 57.71 in macro F1 score for emotion classification in conversation on DailyDialog dataset, which outperforms the related work. This state-of-the-art result is promising regarding the use of metric learning for emotion recognition, yet perfectible compared to the microF1 score obtained.
翻訳日:2024-04-18 14:55:00 公開日:2024-04-17
# 自己適応型PSRO:自動人口ベースゲームソルバを目指して

Self-adaptive PSRO: Towards an Automatic Population-based Game Solver ( http://arxiv.org/abs/2404.11144v1 )

ライセンス: Link先を確認
Pengdeng Li, Shuxin Li, Chang Yang, Xinrun Wang, Xiao Huang, Hau Chan, Bo An, (参考訳) 一般のアルゴリズムフレームワークとしてのポリシー空間対応オラクル(PSRO)は、2つのプレイヤーゼロサムゲームの平衡ポリシーの学習において最先端のパフォーマンスを達成した。 しかし、既存の作品の大部分が手作りのハイパーパラメータ値の選択には広範なドメイン知識が必要であり、PSROを異なるゲームに適用する上で大きな障壁となる。 本研究では,PSROフレームワークにおける最適パラメータ値を自己適応的に決定する可能性について検討する。 1)複数のハイパーパラメータを用いて、勾配降下上昇(GDA)と異なるPSRO変異を統一するパラメトリックPSROを提案する。 2) パラメトリックPSROのハイパーパラメータ値選択をハイパーパラメータ最適化(HPO)問題として, パラメトリックPSROの実行中に最適なハイパーパラメータ値を自己適応的に決定できるHPOポリシーを学習することを目的とした自己適応PSRO(SPSRO)を提案する。 (3) オンラインHPO手法の貧弱な性能を克服するため,Transformerアーキテクチャに基づくHPOポリシーを最適化するための新しいオフラインHPO手法を提案する。 様々な2プレイヤーゼロサムゲームの実験は、異なるベースラインに対するSPSROの優位性を示している。

Policy-Space Response Oracles (PSRO) as a general algorithmic framework has achieved state-of-the-art performance in learning equilibrium policies of two-player zero-sum games. However, the hand-crafted hyperparameter value selection in most of the existing works requires extensive domain knowledge, forming the main barrier to applying PSRO to different games. In this work, we make the first attempt to investigate the possibility of self-adaptively determining the optimal hyperparameter values in the PSRO framework. Our contributions are three-fold: (1) Using several hyperparameters, we propose a parametric PSRO that unifies the gradient descent ascent (GDA) and different PSRO variants. (2) We propose the self-adaptive PSRO (SPSRO) by casting the hyperparameter value selection of the parametric PSRO as a hyperparameter optimization (HPO) problem where our objective is to learn an HPO policy that can self-adaptively determine the optimal hyperparameter values during the running of the parametric PSRO. (3) To overcome the poor performance of online HPO methods, we propose a novel offline HPO approach to optimize the HPO policy based on the Transformer architecture. Experiments on various two-player zero-sum games demonstrate the superiority of SPSRO over different baselines.
翻訳日:2024-04-18 14:55:00 公開日:2024-04-17
# 高リスク心血管患者における慢性腎臓病予測のための説明可能な機械学習システム

Explainable Machine Learning System for Predicting Chronic Kidney Disease in High-Risk Cardiovascular Patients ( http://arxiv.org/abs/2404.11148v1 )

ライセンス: Link先を確認
Nantika Nguycharoen, (参考訳) 世界人口の高齢化に伴い、慢性腎臓病(CKD)の発生が増加している。 CKDは、先進的な段階まで無症状であり、医療システムと患者の生活の質の両方を著しく負担する。 本研究は, 循環器疾患患者のCKDを予測するための機械学習システムを開発した。 ランダムフォレストモデルは88.2%の感度を達成した。 本研究は, グローバルおよびローカルな解釈, バイアス検査, バイオメディカル関連性, 安全性評価を取り入れた, 従来の特徴重要度手法を超えて, 包括的説明可能性フレームワークを導入する。 世界的解釈で確認された主な予測的特徴は、糖尿病およびACEI/ARB薬の使用、および初期eGFR値であった。 局所的な解釈は、他のシステム部分と一致した反事実的説明を通じてモデル洞察を提供した。 偏見検査を行った結果,初期eGFR値とCKD予測には何らかの偏見が認められたが,有意な性差は認められなかった。 このモデルの論理は,既存の医学文献と一致することが確認された。 安全性評価では、潜在的に危険なケースを検査し、モデルが安全に動作していることを確認した。 このシステムは、モデルの説明可能性、信頼性、説明責任を高め、医療設定への潜在的な統合と今後の規制標準への準拠を促進し、医療機械学習における幅広いアプリケーションへの期待を示す。

As the global population ages, the incidence of Chronic Kidney Disease (CKD) is rising. CKD often remains asymptomatic until advanced stages, which significantly burdens both the healthcare system and patient quality of life. This research developed an explainable machine learning system for predicting CKD in patients with cardiovascular risks, utilizing medical history and laboratory data. The Random Forest model achieved the highest sensitivity of 88.2%. The study introduces a comprehensive explainability framework that extends beyond traditional feature importance methods, incorporating global and local interpretations, bias inspection, biomedical relevance, and safety assessments. Key predictive features identified in global interpretation were the use of diabetic and ACEI/ARB medications, and initial eGFR values. Local interpretation provided model insights through counterfactual explanations, which aligned with other system parts. After conducting a bias inspection, it was found that the initial eGFR values and CKD predictions exhibited some bias, but no significant gender bias was identified. The model's logic, extracted by scoped rules, was confirmed to align with existing medical literature. The safety assessment tested potentially dangerous cases and confirmed that the model behaved safely. This system enhances the explainability, reliability, and accountability of the model, promoting its potential integration into healthcare settings and compliance with upcoming regulatory standards, and showing promise for broader applications in healthcare machine learning.
翻訳日:2024-04-18 14:55:00 公開日:2024-04-17
# ReACTO: 単一のビデオからアーティキュレートされたオブジェクトを再構築する

REACTO: Reconstructing Articulated Objects from a Single Video ( http://arxiv.org/abs/2404.11151v1 )

ライセンス: Link先を確認
Chaoyue Song, Jiacheng Wei, Chuan-Sheng Foo, Guosheng Lin, Fayao Liu, (参考訳) 本稿では,1つのビデオから一般的な3Dオブジェクトを再構成することの課題に対処する。 動的神経放射場を用いた既存の研究は、ビデオから人間や動物のような関節のある物体のモデリングを進めてきたが、変形モデルに制限があるため、断片的に剛性のある一般的な関節のある物体との課題に直面している。 そこで我々は, 関節の柔軟な変形を維持しつつ, 各部の剛性を向上する新しい変形モデルである, 準リジッド・ブレンドスキニングを提案する。 私たちの主要な洞察は3つの異なるアプローチを組み合わせています。 1 部品モデリングの改善のための強化骨リギングシステム 2 部分剛性及び補修忠実性を高めるための準スパーススキニングウェイトの使用、及び 3) 精密な動きとシームレスな変形に対する測地点割り当ての適用 提案手法は, 実データと合成データの両方で示されるように, 従来よりも高忠実度な3D再構成を実現する上で, これまでの成果よりも優れていた。 プロジェクトページ: https://chaoyuesong.github.io/REACTO.com

In this paper, we address the challenge of reconstructing general articulated 3D objects from a single video. Existing works employing dynamic neural radiance fields have advanced the modeling of articulated objects like humans and animals from videos, but face challenges with piece-wise rigid general articulated objects due to limitations in their deformation models. To tackle this, we propose Quasi-Rigid Blend Skinning, a novel deformation model that enhances the rigidity of each part while maintaining flexible deformation of the joints. Our primary insight combines three distinct approaches: 1) an enhanced bone rigging system for improved component modeling, 2) the use of quasi-sparse skinning weights to boost part rigidity and reconstruction fidelity, and 3) the application of geodesic point assignment for precise motion and seamless deformation. Our method outperforms previous works in producing higher-fidelity 3D reconstructions of general articulated objects, as demonstrated on both real and synthetic datasets. Project page: https://chaoyuesong.github.io/REACTO.
翻訳日:2024-04-18 14:55:00 公開日:2024-04-17
# 多段階CTにおける多段階肝病変の分画と検出

Multi-target and multi-stage liver lesion segmentation and detection in multi-phase computed tomography scans ( http://arxiv.org/abs/2404.11152v1 )

ライセンス: Link先を確認
Abdullah F. Al-Battal, Soan T. M. Duong, Van Ha Tang, Quang Duc Tran, Steven Q. H. Truong, Chien Phan, Truong Q. Nguyen, Cheolhong An, (参考訳) 多相CTスキャンでは、コントラスト剤を用いて体内の異なる解剖学的構造をハイライトし、肝病変などの解剖学的構造と異常を識別・検出する確率を向上させる。 しかし、これらの病変の検出は、周囲の組織に対して、サイズ、形状、テクスチャ、コントラストが著しく異なるため、依然として困難な課題である。 したがって、放射線科医はこれらの病変を同定し、検出できる広範な経験を持つ必要がある。 セグメンテーションベースのニューラルネットワークは、このタスクで放射線学者を支援することができる。 現在の最先端の病変セグメンテーションネットワークは、マルチフェーズCTスキャンボリュームをマルチチャネル入力としてネットワークに供給するUNetアーキテクチャに基づくエンコーダ・デコーダ設計パラダイムを使用している。 このアプローチでは,全位相情報と単相セグメンテーションネットワークの性能は最適ではなく,各単相モデルからの学習を個別に組み込むことでさらに改善できることを示す。 私たちのアプローチは3つの段階から成る。 第1段階は3つの異なるスケール(4, 8, 16 mm)で病変がある可能性がある肝臓内の領域を特定する。 第2段階には、すべてのフェーズでトレーニングされたメインセグメンテーションモデルと、各フェーズで個別にトレーニングされたセグメンテーションモデルが含まれている。 第3段階では、各セグメンテーションモデルからの予測とともに多相CTボリュームを使用し、最終セグメンテーションマップを生成する。 以上の結果から,本研究は肝病変セグメント化性能を1.6%向上させるとともに,現在最先端モデルと比較して,被験者間の性能変動を8%低減させる。

Multi-phase computed tomography (CT) scans use contrast agents to highlight different anatomical structures within the body to improve the probability of identifying and detecting anatomical structures of interest and abnormalities such as liver lesions. Yet, detecting these lesions remains a challenging task as these lesions vary significantly in their size, shape, texture, and contrast with respect to surrounding tissue. Therefore, radiologists need to have an extensive experience to be able to identify and detect these lesions. Segmentation-based neural networks can assist radiologists with this task. Current state-of-the-art lesion segmentation networks use the encoder-decoder design paradigm based on the UNet architecture where the multi-phase CT scan volume is fed to the network as a multi-channel input. Although this approach utilizes information from all the phases and outperform single-phase segmentation networks, we demonstrate that their performance is not optimal and can be further improved by incorporating the learning from models trained on each single-phase individually. Our approach comprises three stages. The first stage identifies the regions within the liver where there might be lesions at three different scales (4, 8, and 16 mm). The second stage includes the main segmentation model trained using all the phases as well as a segmentation model trained on each of the phases individually. The third stage uses the multi-phase CT volumes together with the predictions from each of the segmentation models to generate the final segmentation map. Overall, our approach improves relative liver lesion segmentation performance by 1.6% while reducing performance variability across subjects by 8% when compared to the current state-of-the-art models.
翻訳日:2024-04-18 14:55:00 公開日:2024-04-17
# HybriMap: 効率的なベクトル化HDマップ構築のためのハイブリッドクラスタ利用

HybriMap: Hybrid Clues Utilization for Effective Vectorized HD Map Construction ( http://arxiv.org/abs/2404.11155v1 )

ライセンス: Link先を確認
Chi Zhang, Qi Song, Feifei Li, Yongquan Chen, Rui Huang, (参考訳) 近年,サラウンドビューカメラによるベクトル化高精細マップの構築が注目されている。 しかし、一般的なマルチステージシーケンシャルワークフローは、特に視点的特徴において、しばしばアーリーステージ情報を失う。 通常、このような損失は、最終的な鳥眼視の予測において欠落や形状のミスマッチとして観察される。 この問題に対処するために,我々は,ハイブリッド機能からのヒントを効果的に活用し,価値ある情報の配信を確実にする,新しいアプローチ,すなわち「textbf{HybriMap}」を提案する。 具体的には、ハイブリッド機能のガイダンスの下で、明示的な統合と暗黙的な修正を可能にするために、デュアルエンハンスメントモジュールを設計する。 さらに、視点キーポイントを監督として利用し、機能強化プロセスをさらに指揮する。 既存のベンチマークで行った大規模な実験により,提案手法の最先端性能が実証された。

Constructing vectorized high-definition maps from surround-view cameras has garnered significant attention in recent years. However, the commonly employed multi-stage sequential workflow in prevailing approaches often leads to the loss of early-stage information, particularly in perspective-view features. Usually, such loss is observed as an instance missing or shape mismatching in the final birds-eye-view predictions. To address this concern, we propose a novel approach, namely \textbf{HybriMap}, which effectively exploits clues from hybrid features to ensure the delivery of valuable information. Specifically, we design the Dual Enhancement Module, to enable both explicit integration and implicit modification under the guidance of hybrid features. Additionally, the perspective keypoints are utilized as supervision, further directing the feature enhancement process. Extensive experiments conducted on existing benchmarks have demonstrated the state-of-the-art performance of our proposed approach.
翻訳日:2024-04-18 14:55:00 公開日:2024-04-17
# 局所形状変換によるSO(3)-不変意味対応の学習

Learning SO(3)-Invariant Semantic Correspondence via Local Shape Transform ( http://arxiv.org/abs/2404.11156v1 )

ライセンス: Link先を確認
Chunghyun Park, Seungwook Sim, Jaesik Park, Minsu Cho, (参考訳) 形状間の正確な3D対応を確立することは、コンピュータビジョンとロボット工学にとって重要な課題である。 しかし,既存の自己教師型手法では完全な入力形状のアライメントを前提としており,実際の適用性が制限されている。 本研究では,RISTと呼ばれる局所形状変換を用いた自己教師型回転不変3次元対応学習システムを提案する。 具体的には、入力形状のSO(3)-同変大域形状記述子を局所形状記述子にマッピングする、各点についてSO(3)-不変局所形状変換を動的に定式化することを学ぶ。 これらの局所形状記述子はデコーダへの入力として提供され、ポイントクラウドの自己とクロスコンストラクションを容易にする。 提案する自己教師型学習パイプラインは,異なる形状の意味的対応点を類似の局所的な形状記述子にマッピングし,RISTが高密度な点対応を確立できるようにする。 RISTは、任意の回転点雲対に与えられる3D部分ラベル転送とセマンティックキーポイント転送の最先端性能を示し、既存の手法をかなりのマージンで上回る。

Establishing accurate 3D correspondences between shapes stands as a pivotal challenge with profound implications for computer vision and robotics. However, existing self-supervised methods for this problem assume perfect input shape alignment, restricting their real-world applicability. In this work, we introduce a novel self-supervised Rotation-Invariant 3D correspondence learner with Local Shape Transform, dubbed RIST, that learns to establish dense correspondences between shapes even under challenging intra-class variations and arbitrary orientations. Specifically, RIST learns to dynamically formulate an SO(3)-invariant local shape transform for each point, which maps the SO(3)-equivariant global shape descriptor of the input shape to a local shape descriptor. These local shape descriptors are provided as inputs to our decoder to facilitate point cloud self- and cross-reconstruction. Our proposed self-supervised training pipeline encourages semantically corresponding points from different shapes to be mapped to similar local shape descriptors, enabling RIST to establish dense point-wise correspondences. RIST demonstrates state-of-the-art performances on 3D part label transfer and semantic keypoint transfer given arbitrarily rotated point cloud pairs, outperforming existing methods by significant margins.
翻訳日:2024-04-18 14:45:15 公開日:2024-04-17
# キャビティ媒介スピン-モーメント-ミキシング相互作用を有するスピノル縮合体の自己秩序超固体

Self-Ordered Supersolid in Spinor Condensates with Cavity-Mediated Spin-Momentum-Mixing Interactions ( http://arxiv.org/abs/2404.11157v1 )

ライセンス: Link先を確認
Jingjun You, Su Yi, Yuangang Deng, (参考訳) 空洞を介する長距離相互作用を持つ超低温原子は、新しい量子現象に投資するための有望な基盤を提供する。 近年の実験的進歩として,光共振器内に閉じ込められた1/2$縮合体をスピンで自己順序で生成する実験手法を提案する。 キャビティとポンプ場の相互作用は、2成分のTavis-Cummingsモデルによって包括的に記述された超固体正方形および平面波相をもたらす。 自己順序の超固体相は広いパラメータ範囲で無損傷のギャップレスゴールドストーンモードを示すことを示す。 この提案は、同一のレーザー構成を利用した現在の実験装置で実現可能であり、マルチモード共振器における原子-キャビティ結合を正確に整合した2つの${\cal Z}_2$対称性を利用して、$U(1)$対称性を構築するチェッカーボード超固体の実現と対照的である。 超放射光子交換法を用いて、スピン-1凝縮体における観察されたスピン混合に類似した高相関スピンと運動量モードの間の空洞媒介のスピン-モーメント-混合相互作用を初めて実現した。 提案手法は,スピンモーメント・スクイージングと空間分布型マルチパート・エンタングルメントを実現するためのユニークなプラットフォームを提供する。

Ultracold atoms with cavity-mediated long-range interactions offer a promising platform for investing novel quantum phenomena. Exploiting recent experimental advancements, we propose an experimental scheme to create self-ordered supersolid in spin-$1/2$ condensates confined within an optical cavity. The interplay of cavity and pump fields gives rise to supersolid square and plane wave phases, comprehensively described by the two-component Tavis-Cummings model. We show that the self-ordered supersolid phase exhibits an undamped gapless Goldstone mode over a wide parameter range. This proposal, achievable with current experimental setups utilizing identical laser configurations, is in contrast to the realization of checkerboard supersolidity, which hinges on constructing a $U(1)$ symmetry by utilizing two ${\cal Z}_2$ symmetries with precisely matched atom-cavity coupling in multimode resonators. By employing the superradiant photon-exchange process, we realize for the first time cavity-mediated spin-momentum-mixing interactions between highly correlated spin and momentum modes, analogous to that observed spin-mixing in spin-1 condensates. Our scheme provides a unique platform for realizing spin-momentum squeezing and spatially distributed multipartite entanglement.
翻訳日:2024-04-18 14:45:15 公開日:2024-04-17
# NTIRE 2024 チャレンジサーベイ

Deep Portrait Quality Assessment. A NTIRE 2024 Challenge Survey ( http://arxiv.org/abs/2404.11159v1 )

ライセンス: Link先を確認
Nicolas Chahine, Marcos V. Conde, Daniela Carfora, Gabriel Pacianotto, Benoit Pochon, Sira Ferradans, Radu Timofte, (参考訳) 本稿は, NTIRE 2024 Portrait Quality Assessment Challenge をレビューし, 提案したソリューションと成果を概説する。 この課題は、実際の肖像画の知覚的品質を推定できる効率的なディープニューラルネットワークを得ることである。 これらの方法は、様々なシーンや様々な照明条件(室内、屋外、低照度)、動き、ぼかし、その他の困難な条件に一般化する必要がある。 チャレンジでは140人の参加者が登録し、チャレンジ期間中に35人が結果を提出した。 上位5項目のパフォーマンスをレビューし、ポートレート品質評価における現在の最先端の指標として提示する。

This paper reviews the NTIRE 2024 Portrait Quality Assessment Challenge, highlighting the proposed solutions and results. This challenge aims to obtain an efficient deep neural network capable of estimating the perceptual quality of real portrait photos. The methods must generalize to diverse scenes and diverse lighting conditions (indoor, outdoor, low-light), movement, blur, and other challenging conditions. In the challenge, 140 participants registered, and 35 submitted results during the challenge period. The performance of the top 5 submissions is reviewed and provided here as a gauge for the current state-of-the-art in Portrait Quality Assessment.
翻訳日:2024-04-18 14:45:15 公開日:2024-04-17
# 低コスト言語モデル:Pythonコード生成に関する調査とパフォーマンス評価

Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation ( http://arxiv.org/abs/2404.11160v1 )

ライセンス: Link先を確認
Jessica López Espejel, Mahaman Sanoussi Yahaya Alassan, Merieme Bouhandi, Walid Dahhane, El Hassane Ettifouri, (参考訳) 言語モデル(LLM)は多くの自然言語処理(NLP)タスクにおいて、様々な問題に対処し、高品質な結果をもたらす能力により、ゴーツーソリューションとなっている。 具体的には、コードの自動生成に使用され、反復的なタスクを処理することで、開発者の負担を軽減する。 しかし、この品質改善は高い計算とメモリ要求をもたらし、限られたリソースを持つユーザにとってLLMはアクセスできない。 本稿では,中央処理ユニット(CPU)互換モデルに焦点をあて,Python コード生成における強みと弱みの徹底的な半マニュアル評価を行う。 問題解決におけるモデルの指針となるChain-of-Thoughtプロンプトを導入することで,その性能を向上させる。 さらに,評価目的の難易度が異なる60のプログラミング問題のデータセットを提案する。 私たちの評価では、これらのモデルをHumanEvalとEvalPlusの2つの最先端データセットでテストすることも含まれています。 透明性を確保するために、データセットと実験結果の公開を約束します。

Large Language Models (LLMs) have become the go-to solution for many Natural Language Processing (NLP) tasks due to their ability to tackle various problems and produce high-quality results. Specifically, they are increasingly used to automatically generate code, easing the burden on developers by handling repetitive tasks. However, this improvement in quality has led to high computational and memory demands, making LLMs inaccessible to users with limited resources. In this paper, we focus on Central Processing Unit (CPU)-compatible models and conduct a thorough semi-manual evaluation of their strengths and weaknesses in generating Python code. We enhance their performance by introducing a Chain-of-Thought prompt that guides the model in problem-solving. Additionally, we propose a dataset of 60 programming problems with varying difficulty levels for evaluation purposes. Our assessment also includes testing these models on two state-of-the-art datasets: HumanEval and EvalPlus. We commit to sharing our dataset and experimental results publicly to ensure transparency.
翻訳日:2024-04-18 14:45:15 公開日:2024-04-17
# 事前処理の課題:WSI分類のためのセグメント探索法

Pre-processing matters: A segment search method for WSI classification ( http://arxiv.org/abs/2404.11161v1 )

ライセンス: Link先を確認
Jun Wang, Yufei Cui, Yu Mao, Nan Guan, Chun Jason Xue, (参考訳) スライド画像全体の前処理は、トレーニング段階と推論段階の両方で分類性能に影響を与える可能性がある。 本研究では,前処理パラメータが単一および複数ドメインデータセット間の推論とトレーニングに与える影響を解析する。 しかし,最適パラメータ集合の探索には時間を要する。 そこで本研究では,単一領域データにおける推論性能を向上させるために,高速パラメータチューニングのためのSimisity-based Simulated Annealingアプローチを提案する。 提案手法は精度が0.512から0.847に向上することを示す。 さらに、最適な前処理パラメータの探索にベイズ最適化を用いることで、マルチドメインデータのトレーニング性能に関する洞察を深め、その結果、0.967のAUCが得られる。 我々は、WSIのためのより良い前処理が、組織学領域のさらなる精度向上に寄与できることを強調した。

Pre-processing for whole slide images can affect classification performance both in the training and inference stages. Our study analyzes the impact of pre-processing parameters on inference and training across single- and multiple-domain datasets. However, searching for an optimal parameter set is time-consuming. To overcome this, we propose a novel Similarity-based Simulated Annealing approach for fast parameter tuning to enhance inference performance on single-domain data. Our method demonstrates significant performance improvements in accuracy, which raise accuracy from 0.512 to 0.847 in a single domain. We further extend our insight into training performance in multi-domain data by employing a novel Bayesian optimization to search optimal pre-processing parameters, resulting in a high AUC of 0.967. We highlight that better pre-processing for WSI can contribute to further accuracy improvement in the histology area.
翻訳日:2024-04-18 14:45:15 公開日:2024-04-17
# LongVQ:構造化メモリ上のベクトル量子化を用いたロングシーケンスモデリング

LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory ( http://arxiv.org/abs/2404.11163v1 )

ライセンス: Link先を確認
Zicheng Liu, Li Wang, Siyuan Li, Zedong Wang, Haitao Lin, Stan Z. Li, (参考訳) トランスフォーマーモデルは、様々なシーケンス処理タスクで成功したが、自己アテンション機構の計算コストは、長いシーケンスに対する実用性を制限している。 計算効率を向上させるアテンション変種は存在するが、手作りのミキシング戦略に基づいて、グローバル情報を効果的に抽象化する能力は限られている。 一方、状態空間モデル(SSM)は長いシーケンス用に調整されているが、複雑なローカル情報をキャプチャすることはできない。 したがって、これらを統一されたトークンミキサーとして組み合わせることは、最近のロングシーケンスモデルにおけるトレンドである。 しかし、線形化注意はSSMを装着しても性能が著しく低下する。 この問題に対処するため,LongVQと呼ばれる新しい手法を提案する。 LongVQはベクトル量子化(VQ)技術を用いて、グローバル抽象化を長さ固定符号ブックとして圧縮し、注意行列の線形時間計算を可能にする。 この技術は動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。 筆者らはLong Range Arenaベンチマーク、自己回帰言語モデリング、画像と音声の分類実験を行い、LongVQの有効性を示した。 我々のモデルは、トランスフォーマー、畳み込み、最近のステートスペースモデルなど、他のシーケンスモデルよりも大幅に改善されている。

Transformer models have been successful in various sequence processing tasks, but the self-attention mechanism's computational cost limits its practicality for long sequences. Although there are existing attention variants that improve computational efficiency, they have a limited ability to abstract global information effectively based on their hand-crafted mixing strategies. On the other hand, state-space models (SSMs) are tailored for long sequences but cannot capture complicated local information. Therefore, the combination of them as a unified token mixer is a trend in recent long-sequence models. However, the linearized attention degrades performance significantly even when equipped with SSMs. To address the issue, we propose a new method called LongVQ. LongVQ uses the vector quantization (VQ) technique to compress the global abstraction as a length-fixed codebook, enabling the linear-time computation of the attention matrix. This technique effectively maintains dynamic global and local patterns, which helps to complement the lack of long-range dependency issues. Our experiments on the Long Range Arena benchmark, autoregressive language modeling, and image and speech classification demonstrate the effectiveness of LongVQ. Our model achieves significant improvements over other sequence models, including variants of Transformers, Convolutions, and recent State Space Models.
翻訳日:2024-04-18 14:45:15 公開日:2024-04-17
# 心電図デジタルツインジェネレーションによるパーソナライズド心臓疾患の検出

Personalized Heart Disease Detection via ECG Digital Twin Generation ( http://arxiv.org/abs/2404.11171v1 )

ライセンス: Link先を確認
Yaojun Hu, Jintai Chen, Lianting Hu, Dantong Li, Jiahuan Yan, Haochao Ying, Huiying Liang, Jian Wu, (参考訳) 心臓病は世界的死亡の原因の1つであり、早期診断と介入が不可欠であることを示している。 従来の心電図に基づく自動診断法の多くは、個別の医療管理を強化するためにパーソナライズされた心電図のカスタマイズを無視して、人口レベルで訓練されている。 この制限に対処する潜在的な解決策は、実際の患者の病気の症状をシミュレートするためにデジタル双生児を使うことである。 本稿では,健常人の異常心電図のデジタル双極子を生成し,パーソナライズされた症状に対するモデル感度を高める,パーソナライズされた心疾患検出のための革新的な学習手法を提案する。 本研究では,心電図による心電図信号の症状と正常部分の同定と分離を目的として,ベクトル量子化特徴分離器を提案する。 これにより、ECGデジタルツインは、パーソナライズされた心臓病検出モデルをトレーニングするために使用される特定の心臓疾患をシミュレートすることができる。 実験により,本手法は高忠実度心電図信号生成に優れるだけでなく,パーソナライズされた心疾患の検出も改善することが示された。 さらに,本手法は,モデル開発における患者のデータを保護し,堅牢なプライバシ保護を実現する。

Heart diseases rank among the leading causes of global mortality, demonstrating a crucial need for early diagnosis and intervention. Most traditional electrocardiogram (ECG) based automated diagnosis methods are trained at population level, neglecting the customization of personalized ECGs to enhance individual healthcare management. A potential solution to address this limitation is to employ digital twins to simulate symptoms of diseases in real patients. In this paper, we present an innovative prospective learning approach for personalized heart disease detection, which generates digital twins of healthy individuals' anomalous ECGs and enhances the model sensitivity to the personalized symptoms. In our approach, a vector quantized feature separator is proposed to locate and isolate the disease symptom and normal segments in ECG signals with ECG report guidance. Thus, the ECG digital twins can simulate specific heart diseases used to train a personalized heart disease detection model. Experiments demonstrate that our approach not only excels in generating high-fidelity ECG signals but also improves personalized heart disease detection. Moreover, our approach ensures robust privacy protection, safeguarding patient data in model development.
翻訳日:2024-04-18 14:45:15 公開日:2024-04-17
# 複雑ネットワーク理論によるディープニューラルネットワークの展望

Deep Neural Networks via Complex Network Theory: a Perspective ( http://arxiv.org/abs/2404.11172v1 )

ライセンス: Link先を確認
Emanuele La Malfa, Gabriele La Malfa, Giuseppe Nicosia, Vito Latora, (参考訳) ディープニューラルネットワーク(DNN)は、リンクと頂点が反復的にデータを処理し、タスクを亜最適に解くグラフとして表現することができる。 複素ネットワーク理論(CNT)は、統計物理学とグラフ理論を融合させ、その重みとニューロン構造を分析してニューラルネットワークを解釈する方法を提供する。 しかし古典的な研究は、入力データの影響を考慮しないトポロジカル解析のみを許すCNTメトリクスを適用している。 さらに、CNTメトリクスは、主にFully Connected Neural Networkを含む、限られた範囲のアーキテクチャに適用されている。 本研究では,DNNのトレーニング分布から抽出した測定値を用いて既存のCNTメトリクスを拡張し,純粋なトポロジカル解析からディープラーニングの解釈可能性へ移行する。 新たなメトリクスについては、既存のメトリクスに加えて、Fully Connected、AutoEncoder、Convolutional、Recurrentニューラルネットワークの数学的形式を提供し、アクティベーション関数と隠れたレイヤの数を変える。 これらのメトリクスは、アーキテクチャ、隠蔽層数、アクティベーション関数に基づいてDNNを区別する。 我々の貢献は、従来の入出力関係とCNTトポロジカル解析を超えた洞察を提供するDNNを解釈するための物理学に根ざした手法を提供する。

Deep Neural Networks (DNNs) can be represented as graphs whose links and vertices iteratively process data and solve tasks sub-optimally. Complex Network Theory (CNT), merging statistical physics with graph theory, provides a method for interpreting neural networks by analysing their weights and neuron structures. However, classic works adapt CNT metrics that only permit a topological analysis as they do not account for the effect of the input data. In addition, CNT metrics have been applied to a limited range of architectures, mainly including Fully Connected neural networks. In this work, we extend the existing CNT metrics with measures that sample from the DNNs' training distribution, shifting from a purely topological analysis to one that connects with the interpretability of deep learning. For the novel metrics, in addition to the existing ones, we provide a mathematical formalisation for Fully Connected, AutoEncoder, Convolutional and Recurrent neural networks, of which we vary the activation functions and the number of hidden layers. We show that these metrics differentiate DNNs based on the architecture, the number of hidden layers, and the activation function. Our contribution provides a method rooted in physics for interpreting DNNs that offers insights beyond the traditional input-output relationship and the CNT topological analysis.
翻訳日:2024-04-18 14:45:15 公開日:2024-04-17
# アクティブ量子蒸留

Active quantum distillation ( http://arxiv.org/abs/2404.11175v1 )

ライセンス: Link先を確認
Muchun Yang, D. L. Zhou, (参考訳) 量子蒸留は、コヒーレント系力学によってサブシステムのフォン・ノイマンエントロピーを減少させる現代の技術である。 本稿では,フォン・ノイマンのエントロピーを極力低くしたサブシステムを得るために,バンバンのテーマを用いてシステムのコヒーレントダイナミクスを積極的に制御する能動的量子蒸留プロトコルを提案する。 双分割ボソニック系に対しては、粒子の保存を伴う任意のユニタリ変換の下で、サブシステムのエントロピーの低い境界の解析的表現を導出する。 下界はボース・ハッバードモデル上の数値シミュレーションによって検証され、そこではコヒーレント進化はハミルトニアンの1つの相互作用項をチューニングすることによって制御される。 我々のプロトコルは、全二部類状態よりも低い1つのサブシステムのエントロピーを減少させ、ボソンの数を増やしたり、サブシステム内のボソンを蒸留するだけに利用できる。

Quantum distillation is a modern technology to decrease the von Neumann entropy of a subsystem by coherent system dynamics. Here we propose an active quantum distillation protocol, in which a bang-bang theme is applied to actively control the coherent dynamics of our system in order to obtain a subsystem with the von Neumann entropy as low as possible. For a bipartite Bosonic system, we derive the analytical expression of lower bound of the entropy of subsystem under any unitary transformation with conservation of particles. The lower bound is validated by numerical simulations on the Bose-Hubbard model, where the coherent evolution is controlled by tuning one interaction term of the Hamiltonian. Our protocol can be used to decrease the entropy of one subsystem lower than the total bipartite state and increase the number of Bosons or only distill out very few Bosons in the subsystem.
翻訳日:2024-04-18 14:45:15 公開日:2024-04-17
# 量子浅回路状態の圧縮

Compression of quantum shallow-circuit states ( http://arxiv.org/abs/2404.11177v1 )

ライセンス: Link先を確認
Yuxiang Yang, (参考訳) 浅量子回路は、従来のものよりも計算上の優位性を持つだけでなく、最先端の応用も備えている。 浅い回路によって生成される量子情報は、ほとんど探索されていない理論的および実践的な重要性の基本的な問題である。 本研究では,固定深度回路が生成した未知の$n$-qubit状態の$N$コピーを$O(n \log_2 N)$(qu)bitsのハイブリッドメモリに圧縮し,メモリコストの最適スケーリングを実現することを示す。 我々の研究は、資源の計算複雑性が量子情報処理の速度に大きく影響し、NISQ時代の量子シャノン理論と量子コンピューティングのユニークかつ統一的なビューを提供することを示した。

Shallow quantum circuits feature not only computational advantage over their classical counterparts but also cutting-edge applications. Storing quantum information generated by shallow circuits is a fundamental question of both theoretical and practical importance that remained largely unexplored. In this work, we show that $N$ copies of an unknown $n$-qubit state generated by a fixed-depth circuit can be compressed into a hybrid memory of $O(n \log_2 N)$ (qu)bits, which achieves the optimal scaling of memory cost. Our work shows that the computational complexity of resources can significantly impact the rate of quantum information processing, offering a unique and unified view of quantum Shannon theory and quantum computing in the NISQ era.
翻訳日:2024-04-18 14:45:15 公開日:2024-04-17
# KI-GAN:信号化区間における多車軌道予測の高速化のための知識インフォームド・ジェネレータ・ネットワーク

KI-GAN: Knowledge-Informed Generative Adversarial Networks for Enhanced Multi-Vehicle Trajectory Forecasting at Signalized Intersections ( http://arxiv.org/abs/2404.11181v1 )

ライセンス: Link先を確認
Chuheng Wei, Guoyuan Wu, Matthew J. Barth, Amr Abdelraouf, Rohit Gupta, Kyungtae Han, (参考訳) 信号交差点における車両軌道の信頼性予測は,都市交通管理や自動運転システムにおいて重要である。 しかし、交差点における複雑な道路配置、交通信号制御の関与、異なる種類の道路利用者間の相互作用など、独特な課題を呈している。 本稿では,交通信号情報と多車間相互作用を統合して車両軌道を正確に予測する,知識情報生成支援ネットワーク(KI-GAN)という新しいモデルを提案する。 さらに,交差点における車両の向きと近接性を考慮した特別注意プーリング手法を提案する。 SinDデータセットに基づいて、KI-GANモデルは平均変位誤差0.05、最終変位誤差0.12を6秒の観測と6秒の予測サイクルで達成できる。 予測ウィンドウが9秒に拡張されると、ADEとFDEの値はそれぞれ0.11と0.26に減少する。 これらの結果は,信号場における複雑なシナリオ下での車両軌道予測におけるKI-GANモデルの有効性を示す。

Reliable prediction of vehicle trajectories at signalized intersections is crucial to urban traffic management and autonomous driving systems. However, it presents unique challenges, due to the complex roadway layout at intersections, involvement of traffic signal controls, and interactions among different types of road users. To address these issues, we present in this paper a novel model called Knowledge-Informed Generative Adversarial Network (KI-GAN), which integrates both traffic signal information and multi-vehicle interactions to predict vehicle trajectories accurately. Additionally, we propose a specialized attention pooling method that accounts for vehicle orientation and proximity at intersections. Based on the SinD dataset, our KI-GAN model is able to achieve an Average Displacement Error (ADE) of 0.05 and a Final Displacement Error (FDE) of 0.12 for a 6-second observation and 6-second prediction cycle. When the prediction window is extended to 9 seconds, the ADE and FDE values are further reduced to 0.11 and 0.26, respectively. These results demonstrate the effectiveness of the proposed KI-GAN model in vehicle trajectory prediction under complex scenarios at signalized intersections, which represents a significant advancement in the target field.
翻訳日:2024-04-18 14:45:15 公開日:2024-04-17
# FIZZ:Zoom-in概要とZoom-outドキュメントによるFactual Unconsistency Detection

FIZZ: Factual Inconsistency Detection by Zoom-in Summary and Zoom-out Document ( http://arxiv.org/abs/2404.11184v1 )

ライセンス: Link先を確認
Joonho Yang, Seunghyun Yoon, Byeongjeong Kim, Hwanhee Lee, (参考訳) 事前訓練された言語モデルの出現により、抽象的な要約システムにおいて顕著な進歩が見られた。 同時に、抽象的な要約システムにおける事実整合性を評価するための新しい手法が数多く開発されている。 しかし、これらの評価アプローチには、特に洗練と解釈可能性にかなりの制限が加えられている。 本研究では, 微粒な原子事実の分解に基づく抽象的な要約システムのための, Zoom-in概要とZoom-out文書による実測不整合検出の精度が高く, 解釈可能な実測不整合検出手法を提案する。 さらに,アダプティブな粒度拡大により,要約から分解した原子事実をソース文書に整列させる。 これらの原子的事実はよりきめ細かな情報の単位を表し、要約の事実的矛盾の詳細な理解と解釈を容易にする。 実験結果から,提案手法が既存システムより有意に優れていることが示された。 コードをhttps://github.com/plm3332/FIZZでリリースします。

Through the advent of pre-trained language models, there have been notable advancements in abstractive summarization systems. Simultaneously, a considerable number of novel methods for evaluating factual consistency in abstractive summarization systems has been developed. But these evaluation approaches incorporate substantial limitations, especially on refinement and interpretability. In this work, we propose highly effective and interpretable factual inconsistency detection method metric Factual Inconsistency Detection by Zoom-in Summary and Zoom-out Document for abstractive summarization systems that is based on fine-grained atomic facts decomposition. Moreover, we align atomic facts decomposed from the summary with the source document through adaptive granularity expansion. These atomic facts represent a more fine-grained unit of information, facilitating detailed understanding and interpretability of the summary's factual inconsistency. Experimental results demonstrate that our proposed factual consistency checking system significantly outperforms existing systems. We release the code at https://github.com/plm3332/FIZZ.
翻訳日:2024-04-18 14:45:15 公開日:2024-04-17
# 壁面に書かれた文章--碑文のブームの分析とロールアップ性能とコスト効率への影響

The Writing is on the Wall: Analyzing the Boom of Inscriptions and its Impact on Rollup Performance and Cost Efficiency ( http://arxiv.org/abs/2404.11189v1 )

ライセンス: Link先を確認
Krzysztof Gogol, Johnnatan Messias, Maria Ines Silva, Benjamin Livshits, (参考訳) 2023年後半には、EVMチェーンにおける重要なユーザアクティビティが目撃され、トランザクションアクティビティが急増し、最初のライブテストに多くのロールアップが加えられた。 いくつかのロールアップはうまく行ったが、この期間にダウンタイムを経験し、トランザクションの完了時間とガス料金に影響を及ぼした。 ロールアップに関する実証的な研究の欠如に対処するため、2023年末のトランザクションブームにおいて、NFTおよびERC-20トークンをビットコインやその他のブロックチェーン上で作成可能にする新しいテクニックである碑文が原因であるとして、最初の調査を実施した。 入力ベースのミームトークンをzkSyncでマイニングすることで、BitcoinやEthereumのネットワークと比較して、わずかなコストで取引できる。 また,zkSync時代の他のユーザに対して,新たな入力トークンの鋳造による取引活動が99%以上増加し,ガス料金が低下したことも確認した。 L1ブロックチェーンとは異なり、ZKロールアップは取引量の増加とともにガス料金が低下する可能性がある。 最後に、一時的なデータストレージの形式であるblobの導入はEthereumのロールアップのガスコストを削減しただけでなく、碑文ベースのトークンのセキュリティに関する多くの疑問も提起した。

Late 2023 witnessed significant user activity on EVM chains, resulting in a surge in transaction activity and putting many rollups into the first live test. While some rollups performed well, some others experienced downtime during this period, affecting transaction finality time and gas fees. To address the lack of empirical research on rollups, we perform the first study during a heightened activity during the late 2023 transaction boom, as attributed to inscriptions - a novel technique that enables NFT and ERC-20 token creation on Bitcoin and other blockchains. We observe that minting inscription-based meme tokens on zkSync Era allows for trading at a fraction of the costs, compared to the Bitcoin or Ethereum networks. We also found that the increased transaction activity, over 99% attributed to the minting of new inscription tokens, positively affected other users of zkSync Era, resulting in lowered gas fees. Unlike L1 blockchains, ZK rollups may experience lower gas fees with increased transaction volume. Lastly, the introduction of blobs - a form of temporary data storage - decreased the gas costs of Ethereum rollups, but also raised a number of questions about the security of inscription-based tokens.
翻訳日:2024-04-18 14:45:15 公開日:2024-04-17
# キャビティベース単一光子源のフォトニック不識別性評価と最適化

Photonic indistinguishability characterization and optimization for cavity-based single-photon source ( http://arxiv.org/abs/2404.11193v1 )

ライセンス: Link先を確認
Miao Cai, Mingyuan Chen, Jiangshan Tang, Keyu Xia, (参考訳) 独立源からの単一光子の識別不可能性は、スケーラブルな量子技術にとって極めて重要である。 本稿では,香港・奥羽マンデル(HOM)の2光子干渉を数値シミュレーションすることにより,CQED(キャビティ量子電磁力学)システムの単一光子独立性を総合的に比較する。 自然原子を用いたCQEDシステムは,本質的に同一な特徴の恩恵を受けながら,識別性に優れることがわかった。 さらに、$\Lambda-$type 3レベル原子は、単一光子生成の崩壊速度がかなり小さい2つの基底状態を利用するため、様々な系パラメータの変動に対して必須の堅牢性を示す。 さらに、同一でない2つのCQEDシステムの単一光子識別可能性を大幅に向上させる機械学習ベースのフレームワークを提案する。 この研究は、信頼性が高くスケーラブルな光子ベースの量子技術の設計と工学の道を開くかもしれない。

Indistinguishability of single photons from independent sources is critically important for scalable quantum technologies. We provide a comprehensive comparison of single-photon indistinguishability of different kinds of cavity quantum electrodynamics (CQED) systems by numerically simulating Hong-Ou-Mandel (HOM) two-photon interference. We find that the CQED system using nature atoms exhibit superiority in indistinguishability, benefiting from the inherently identical features. Moreover, a $\Lambda-$type three-level atoms show essential robust against variation of various system parameters because it exploits the two ground states with considerable smaller decay rates for single-photon generation. Furthermore, a machine learning-based framework is proposed to significantly and robustly improve single-photon indistinguishability for non-identical two CQED systems. This work may pave the way for designing and engineering reliable and scalable photon-based quantum technologies.
翻訳日:2024-04-18 14:45:15 公開日:2024-04-17
# ニューロンの特殊化:多言語機械翻訳における内在的タスクモジュラリティの活用

Neuron Specialization: Leveraging intrinsic task modularity for multilingual machine translation ( http://arxiv.org/abs/2404.11201v1 )

ライセンス: Link先を確認
Shaomu Tan, Di Wu, Christof Monz, (参考訳) 統一多言語モデルの訓練は知識伝達を促進するが、必然的に負の干渉をもたらす。 言語固有のモデリング手法は干渉を減らすことを約束する。 しかし、彼らはしばしば能力の分配にヒューリスティックに頼り、孤立したモジュールを通して言語間の移動を促進するのに苦労する。 本稿では,多言語ネットワークにおける本質的なタスクのモジュラリティについて検討し,これらの観測を利用して多言語翻訳における干渉を回避する。 フィードフォワード層内のニューロンは言語固有の方法で活性化される傾向があることを示す。 一方、これらの特殊なニューロンは言語近接を反映する構造上の重複を示し、層をまたいで進行する。 これらの知見に基づいて、我々は、フィードフォワード層をモジュール化し、スパースネットワークを介して連続的に更新する、特殊なニューロンを識別するアプローチであるニューロンスペシャライゼーションを提案する。 大規模な実験により,本手法は強いベースラインに対して一貫した性能向上を実現し,干渉の低減と知識伝達の増大が示唆された。

Training a unified multilingual model promotes knowledge transfer but inevitably introduces negative interference. Language-specific modeling methods show promise in reducing interference. However, they often rely on heuristics to distribute capacity and struggle to foster cross-lingual transfer via isolated modules. In this paper, we explore intrinsic task modularity within multilingual networks and leverage these observations to circumvent interference under multilingual translation. We show that neurons in the feed-forward layers tend to be activated in a language-specific manner. Meanwhile, these specialized neurons exhibit structural overlaps that reflect language proximity, which progress across layers. Based on these findings, we propose Neuron Specialization, an approach that identifies specialized neurons to modularize feed-forward layers and then continuously updates them through sparse networks. Extensive experiments show that our approach achieves consistent performance gains over strong baselines with additional analyses demonstrating reduced interference and increased knowledge transfer.
翻訳日:2024-04-18 14:45:15 公開日:2024-04-17
# GhostNetV3: コンパクトモデルのためのトレーニング戦略を探る

GhostNetV3: Exploring the Training Strategies for Compact Models ( http://arxiv.org/abs/2404.11202v1 )

ライセンス: Link先を確認
Zhenhua Liu, Zhiwei Hao, Kai Han, Yehui Tang, Yunhe Wang, (参考訳) コンパクトニューラルネットワークは、推論速度が速いが控えめなパフォーマンスを持つエッジデバイス上での応用に特化して設計されている。 しかし, コンパクトモデルの学習戦略は, モデルキャパシティの違いを無視し, コンパクトモデルの性能を損なうおそれがあるため, 従来のモデルから借用されている。 本稿では,異なるトレーニング要素の影響を体系的に調査することにより,コンパクトモデルに対する強力なトレーニング戦略を提案する。 従来のモデル(MixupやCutMixなど)のトレーニングによく使われるデータ拡張は、性能が悪化する一方、高性能なコンパクトモデルのトレーニングには、再パラメータ化と知識蒸留の適切な設計が不可欠であることがわかった。 ImageNet-1Kデータセットを用いた実験により,GhostNetV2,MobileNetV2,ShuffleNetV2など,コンパクトモデルの特別なトレーニング戦略が,さまざまなアーキテクチャに適用可能であることが示された。 具体的には、GhostNetV3 1.3$\times$は269MのFLOPと14.46msのレイテンシでトップ1の精度79.1%を達成する。 さらに、我々の観測はオブジェクト検出のシナリオにも拡張できる。 PyTorchのコードとチェックポイントはhttps://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv3_pytorchにある。

Compact neural networks are specially designed for applications on edge devices with faster inference speed yet modest performance. However, training strategies of compact models are borrowed from that of conventional models at present, which ignores their difference in model capacity and thus may impede the performance of compact models. In this paper, by systematically investigating the impact of different training ingredients, we introduce a strong training strategy for compact models. We find that the appropriate designs of re-parameterization and knowledge distillation are crucial for training high-performance compact models, while some commonly used data augmentations for training conventional models, such as Mixup and CutMix, lead to worse performance. Our experiments on ImageNet-1K dataset demonstrate that our specialized training strategy for compact models is applicable to various architectures, including GhostNetV2, MobileNetV2 and ShuffleNetV2. Specifically, equipped with our strategy, GhostNetV3 1.3$\times$ achieves a top-1 accuracy of 79.1% with only 269M FLOPs and a latency of 14.46ms on mobile devices, surpassing its ordinarily trained counterpart by a large margin. Moreover, our observation can also be extended to object detection scenarios. PyTorch code and checkpoints can be found at https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv3_pytorch.
翻訳日:2024-04-18 14:35:31 公開日:2024-04-17
# 最小データを用いたカタカリ手指ジェスチャー認識

Kathakali Hand Gesture Recognition With Minimal Data ( http://arxiv.org/abs/2404.11205v1 )

ライセンス: Link先を確認
Kavitha Raju, Nandini J. Warrier, (参考訳) インド古典のダンスドラマ『カタカリ』には、ムドラと呼ばれる手振りのセットがあり、ダンスの動きと姿勢の基本的な単位となっている。 描かれた泥の認識は、そのデジタル処理における最初のステップの1つとなる。 この研究は24クラス分類タスクとしてこの問題を扱い、ポーズ推定を用いたベクトル類似性に基づくアプローチを提案し、さらなるトレーニングや微調整の必要性を排除した。 このアプローチは、同様のドメインにおけるAIの適用を制限する、データの不足という課題を克服するものだ。 この手法は、ドメインに存在する他のモデルトレーニングベースの作業と同じような、あるいはより優れたパフォーマンスの92%の精度を達成する。 画像やビデオ、さらにはリアルタイムストリームの操作も可能だ。 このシステムは、手書き画像やフルボディ画像でも使える。 我々は、この研究の一環として、カタリ・ムドラ認識のためのデータセットを開発し、公開しました。

The Indian classical dance-drama Kathakali has a set of hand gestures called Mudras, which form the fundamental units of all its dance moves and postures. Recognizing the depicted mudra becomes one of the first steps in its digital processing. The work treats the problem as a 24-class classification task and proposes a vector-similarity-based approach using pose estimation, eliminating the need for further training or fine-tuning. This approach overcomes the challenge of data scarcity that limits the application of AI in similar domains. The method attains 92% accuracy which is a similar or better performance as other model-training-based works existing in the domain, with the added advantage that the method can still work with data sizes as small as 1 or 5 samples with a slightly reduced performance. Working with images, videos, and even real-time streams is possible. The system can work with hand-cropped or full-body images alike. We have developed and made public a dataset for the Kathakali Mudra Recognition as part of this work.
翻訳日:2024-04-18 14:35:31 公開日:2024-04-17
# テキスト要約によるクリックベイト検出のためのプロンプトチューニング

Prompt-tuning for Clickbait Detection via Text Summarization ( http://arxiv.org/abs/2404.11206v1 )

ライセンス: Link先を確認
Haoxiang Deng, Yi Zhu, Ye Wang, Jipeng Qiang, Yunhao Yuan, Yun Li, Runmei Zhang, (参考訳) クリックベイトは驚くべきソーシャル投稿や偽ニュースの見出しで、クリック数を増やすためにユーザーを引き付けようとするものだ。 クリックベイトの拡散はユーザーに大きな悪影響を及ぼし、ユーザーが誤解を招いたり、クリックジャック攻撃さえもする。 フェイクニュースと異なり、クリックベイト検出における重要な問題は、見出しが対応するコンテンツと一致するかどうかを決定することである。 既存のほとんどの手法は、クリックベイトを検出するために見出しと内容のセマンティックな類似性を計算する。 しかし、見出しと内容の長大な違いと意味的特徴により、直接的に意味的類似性を計算することはしばしば困難である。 そこで本論文では,テキスト要約によるクリックベイト検出の高速化手法を提案し,その内容を要約するためにテキスト要約を導入し,生成された要約と内容との類似性に基づいてクリックベイト検出を行う。 具体的には、まず、事前訓練された言語モデルに基づいて高品質なニュース要約を生成するための2段階のテキスト要約モデルを導入し、その後、見出しと新たに生成された要約をインプットとして組み込む。 さらに,クリックベイト検出の性能向上のために,外部知識を取り入れるための様々な戦略が実施されている。 有名なクリックベイト検出データセットに関する広範な実験により,本手法が最先端の性能を達成したことを示す。

Clickbaits are surprising social posts or deceptive news headlines that attempt to lure users for more clicks, which have posted at unprecedented rates for more profit or commercial revenue. The spread of clickbait has significant negative impacts on the users, which brings users misleading or even click-jacking attacks. Different from fake news, the crucial problem in clickbait detection is determining whether the headline matches the corresponding content. Most existing methods compute the semantic similarity between the headlines and contents for detecting clickbait. However, due to significant differences in length and semantic features between headlines and contents, directly calculating semantic similarity is often difficult to summarize the relationship between them. To address this problem, we propose a prompt-tuning method for clickbait detection via text summarization in this paper, text summarization is introduced to summarize the contents, and clickbait detection is performed based on the similarity between the generated summary and the contents. Specifically, we first introduce a two-stage text summarization model to produce high-quality news summaries based on pre-trained language models, and then both the headlines and new generated summaries are incorporated as the inputs for prompt-tuning. Additionally, a variety of strategies are conducted to incorporate external knowledge for improving the performance of clickbait detection. The extensive experiments on well-known clickbait detection datasets demonstrate that our method achieved state-of-the-art performance.
翻訳日:2024-04-18 14:35:31 公開日:2024-04-17
# マルチモーダル大言語モデルにおける視覚プロンプトの伝達可能性の検討

Exploring the Transferability of Visual Prompting for Multimodal Large Language Models ( http://arxiv.org/abs/2404.11207v1 )

ライセンス: Link先を確認
Yichi Zhang, Yinpeng Dong, Siyuan Zhang, Tianzan Min, Hang Su, Jun Zhu, (参考訳) MLLM(Multimodal Large Language Models)は有望な汎用能力を示しているが、その性能は下流タスクの特殊モデルよりも劣っている。 しかし、微調整法は全てのモデルに対して独立した訓練を必要とするため、膨大な計算とメモリオーバーヘッドが生じる。 本稿では,下流タスクに最適化された共有パラメータ群を用いて,多様なMLLMの性能向上を目的とした,新しい設定を提案する。 そこで本研究では,異なるモデルに転送可能な視覚的プロンプトを簡易かつ効果的に生成し,一つのモデルでトレーニングした後の下流タスクの性能向上を図ることを目的とした,Transferable Visual Prompting (TVP)を提案する。 既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処する2つの戦略を導入し、学習したプロンプトの伝達可能性を高める。 1) 機能整合性アライメント:タスク非依存の知識を維持するため,引き起こされた機能変更に制約を課す。 2)タスクセマンティック・エンリッチメント: よりリッチなタスク固有のセマンティクスを言語指導に含めるように促す。 対象認識やカウント,マルチモーダル推論や幻覚補正など,さまざまなタスクにおいて,最新のMLLMを6つ併用した広範囲な実験により,TVPの有効性を検証した。

Although Multimodal Large Language Models (MLLMs) have demonstrated promising versatile capabilities, their performance is still inferior to specialized models on downstream tasks, which makes adaptation necessary to enhance their utility. However, fine-tuning methods require independent training for every model, leading to huge computation and memory overheads. In this paper, we propose a novel setting where we aim to improve the performance of diverse MLLMs with a group of shared parameters optimized for a downstream task. To achieve this, we propose Transferable Visual Prompting (TVP), a simple and effective approach to generate visual prompts that can transfer to different models and improve their performance on downstream tasks after trained on only one model. We introduce two strategies to address the issue of cross-model feature corruption of existing visual prompting methods and enhance the transferability of the learned prompts, including 1) Feature Consistency Alignment: which imposes constraints to the prompted feature changes to maintain task-agnostic knowledge; 2) Task Semantics Enrichment: which encourages the prompted images to contain richer task-specific semantics with language guidance. We validate the effectiveness of TVP through extensive experiments with 6 modern MLLMs on a wide variety of tasks ranging from object recognition and counting to multimodal reasoning and hallucination correction.
翻訳日:2024-04-18 14:35:31 公開日:2024-04-17
# CAGE:グローバルな説明のための因果関係を意識した共有価値

CAGE: Causality-Aware Shapley Value for Global Explanations ( http://arxiv.org/abs/2404.11208v1 )

ライセンス: Link先を確認
Nils Ole Breuer, Andreas Sauter, Majid Mohammadi, Erman Acar, (参考訳) 人工知能(AI)が私たちの日常生活により多くの影響を与えているため、AIベースの決定が透明で説明可能であることが重要になる。 その結果、eXplainable AI(またはXAI)の分野は近年人気が高まっている。 AIモデルを説明する1つの方法は、一般的にはグローバル説明とも呼ばれる、AIモデルに対する入力機能の予測的重要性を明らかにすることである。 協調ゲーム理論に触発されたシェープリーは、特徴の重要性を説明として定量化する便利な方法を提供する。 しかしながら、Shapley値に基づく多くのメソッドは、機能独立の仮定に基づいて構築されており、MLモデルにおいてその重要性に影響を与える可能性のある機能の因果関係を見落としていることが多い。 CAGE(Causally-Aware Shapley Values for Global Explanations)を提案する。 特に、入力特徴の因果関係を尊重する外部特徴に対する新しいサンプリング手順を導入する。 我々は、因果的知識をグローバルな説明に取り入れた実践的アプローチを導き、因果関係を考慮し、予測的特徴の重要性を解釈する可能性を提供する。 合成データと実世界のデータについて,本手法の評価を行った。 提案手法は, 従来のグローバルな説明法に比べ, 直感的なだけでなく, 忠実であることを示すものである。

As Artificial Intelligence (AI) is having more influence on our everyday lives, it becomes important that AI-based decisions are transparent and explainable. As a consequence, the field of eXplainable AI (or XAI) has become popular in recent years. One way to explain AI models is to elucidate the predictive importance of the input features for the AI model in general, also referred to as global explanations. Inspired by cooperative game theory, Shapley values offer a convenient way for quantifying the feature importance as explanations. However many methods based on Shapley values are built on the assumption of feature independence and often overlook causal relations of the features which could impact their importance for the ML model. Inspired by studies of explanations at the local level, we propose CAGE (Causally-Aware Shapley Values for Global Explanations). In particular, we introduce a novel sampling procedure for out-coalition features that respects the causal relations of the input features. We derive a practical approach that incorporates causal knowledge into global explanation and offers the possibility to interpret the predictive feature importance considering their causal relation. We evaluate our method on synthetic data and real-world data. The explanations from our approach suggest that they are not only more intuitive but also more faithful compared to previous global explanation methods.
翻訳日:2024-04-18 14:35:31 公開日:2024-04-17
# プレトレーニングLDMを用いた胸部X線構造レポートのプロンプトガイド生成

Prompt-Guided Generation of Structured Chest X-Ray Report Using a Pre-trained LLM ( http://arxiv.org/abs/2404.11209v1 )

ライセンス: Link先を確認
Hongzhao Li, Hongyu Wang, Xia Sun, Hua He, Jun Feng, (参考訳) 医療報告生成は、画像からの放射線学的記述を自動化し、医師の負担を軽減し、エラーを最小限にする。 しかし、現在の方法では、明確な臨床報告のための構造的アウトプットと医師の相互作用が欠如している。 本手法では,事前学習した大言語モデル (LLM) を用いて胸部X線構造レポートを生成する。 まず,胸部X線で解剖学的領域を同定し,重要な視覚要素に焦点を絞った文章を生成する。 また,検出された解剖学を,解剖学的理解を LLM に伝達するテキストプロンプトに変換する。 さらに、臨床コンテキストは、LLMに相互作用性と臨床要件を強調するよう促す。 解剖学に焦点を当てた文と解剖学的/臨床的プロンプトを統合することで、前訓練されたLCMは、解剖学的領域と臨床状況に合わせた構造化された胸部X線レポートを生成することができる。 言語生成と臨床効果指標を用いて評価を行い,高い性能を示した。

Medical report generation automates radiology descriptions from images, easing the burden on physicians and minimizing errors. However, current methods lack structured outputs and physician interactivity for clear, clinically relevant reports. Our method introduces a prompt-guided approach to generate structured chest X-ray reports using a pre-trained large language model (LLM). First, we identify anatomical regions in chest X-rays to generate focused sentences that center on key visual elements, thereby establishing a structured report foundation with anatomy-based sentences. We also convert the detected anatomy into textual prompts conveying anatomical comprehension to the LLM. Additionally, the clinical context prompts guide the LLM to emphasize interactivity and clinical requirements. By integrating anatomy-focused sentences and anatomy/clinical prompts, the pre-trained LLM can generate structured chest X-ray reports tailored to prompted anatomical regions and clinical contexts. We evaluate using language generation and clinical effectiveness metrics, demonstrating strong performance.
翻訳日:2024-04-18 14:35:31 公開日:2024-04-17
# ジェスチャー認識における耐雑音性の再検討:表面筋電図信号解析の短期的改善

Revisiting Noise Resilience Strategies in Gesture Recognition: Short-Term Enhancement in Surface Electromyographic Signal Analysis ( http://arxiv.org/abs/2404.11213v1 )

ライセンス: Link先を確認
Weiyu Guo, Ziyue Qiao, Ying Sun, Hui Xiong, (参考訳) 表面筋電図(sEMG)に基づくジェスチャー認識は,多くの3次元インタラクティブシーンにおいて重要視されている。 しかし、sEMGは実環境における様々なノイズの影響を受けやすく、sEMGを介して長期安定な相互作用を提供する上での課題に繋がる。 既存の手法は、様々な事前定義されたデータ拡張技術を通して、モデルノイズの回復力を高めるのに苦労することが多い。 本研究では,SEMG固有のパターン情報とスライディング・ウインドウ・アテンションを用いて,学習可能な雑音を伴う様々な一般的な雑音シナリオに対する精度と頑健性を向上させるために,短期的な拡張の観点から問題を再検討する。 本稿では,様々なモデルと容易に統合できるショート・ターム・エンハンスメント・モジュール(STEM)を提案する。 STEMにはいくつかの利点があります。 1)手作業によるデータ拡張を伴わずにノイズ低減が可能な難聴者 2)スケーラビリティ,各種モデルへの適応性,及び 3) 費用対効果, 減量化による短期的な向上, 効率的な注意機構の確立。 特に,STEMを変換器に組み込んで,STET(Short Term Enhanced Transformer)を作成する。 ベストコンペティングアプローチと比較して、STETに対するノイズの影響は20%以上減少する。 また、分類と回帰データの両方について有望な結果を報告し、STEMが様々なジェスチャー認識タスクにまたがって一般化することを実証した。

Gesture recognition based on surface electromyography (sEMG) has been gaining importance in many 3D Interactive Scenes. However, sEMG is easily influenced by various forms of noise in real-world environments, leading to challenges in providing long-term stable interactions through sEMG. Existing methods often struggle to enhance model noise resilience through various predefined data augmentation techniques. In this work, we revisit the problem from a short term enhancement perspective to improve precision and robustness against various common noisy scenarios with learnable denoise using sEMG intrinsic pattern information and sliding-window attention. We propose a Short Term Enhancement Module(STEM) which can be easily integrated with various models. STEM offers several benefits: 1) Learnable denoise, enabling noise reduction without manual data augmentation; 2) Scalability, adaptable to various models; and 3) Cost-effectiveness, achieving short-term enhancement through minimal weight-sharing in an efficient attention mechanism. In particular, we incorporate STEM into a transformer, creating the Short Term Enhanced Transformer (STET). Compared with best-competing approaches, the impact of noise on STET is reduced by more than 20%. We also report promising results on both classification and regression datasets and demonstrate that STEM generalizes across different gesture recognition tasks.
翻訳日:2024-04-18 14:35:31 公開日:2024-04-17
# 特徴補正伝達学習:非視覚条件における物体検出の終端解

Feature Corrective Transfer Learning: End-to-End Solutions to Object Detection in Non-Ideal Visual Conditions ( http://arxiv.org/abs/2404.11214v1 )

ライセンス: Link先を確認
Chuheng Wei, Guoyuan Wu, Matthew J. Barth, (参考訳) 物体検出の分野における重要な課題は、雨、霧、照明の少ない、ISP処理を欠いたバイエルの生画像など、非理想的な撮像条件下でのシステムの性能にある。 本研究は,非理想的画像からRGB画像への変換を必要とせずに,これらの難易度シナリオにおけるオブジェクトのエンドツーエンド検出を容易にするために,転送学習と分岐損失関数を活用する新しい手法である「Feature Corrective Transfer Learning」を紹介する。 提案手法では,まず,既存のRGB画像データセットを用いて包括的モデルを訓練する。 その後、初期理想RGBモデルと特徴マップを比較して、非理想画像を処理する。 この比較は、類似性を定量化し、それらを検出損失に組み込むように設計された新規な損失関数である拡張領域新規構造離散損失(EANSDL)を用いている。 このアプローチは、特徴補正学習の本質をカプセル化した直接特徴写像補正により、様々な条件でオブジェクト検出を行うモデルの能力を洗練する。 KITTIデータセットの変種に関する実験的検証では、平均平均精度(mAP)が大幅に改善され、3.8~8.1%の相対的な検出精度がベースラインモデルと比較して非理想的条件で向上し、標準のFaster RCNNアルゴリズムによる理想的な条件下で達成されたmAP@[0.5:0.95]の1.3%未満の性能差が少ないことが示されている。

A significant challenge in the field of object detection lies in the system's performance under non-ideal imaging conditions, such as rain, fog, low illumination, or raw Bayer images that lack ISP processing. Our study introduces "Feature Corrective Transfer Learning", a novel approach that leverages transfer learning and a bespoke loss function to facilitate the end-to-end detection of objects in these challenging scenarios without the need to convert non-ideal images into their RGB counterparts. In our methodology, we initially train a comprehensive model on a pristine RGB image dataset. Subsequently, non-ideal images are processed by comparing their feature maps against those from the initial ideal RGB model. This comparison employs the Extended Area Novel Structural Discrepancy Loss (EANSDL), a novel loss function designed to quantify similarities and integrate them into the detection loss. This approach refines the model's ability to perform object detection across varying conditions through direct feature map correction, encapsulating the essence of Feature Corrective Transfer Learning. Experimental validation on variants of the KITTI dataset demonstrates a significant improvement in mean Average Precision (mAP), resulting in a 3.8-8.1% relative enhancement in detection under non-ideal conditions compared to the baseline model, and a less marginal performance difference within 1.3% of the mAP@[0.5:0.95] achieved under ideal conditions by the standard Faster RCNN algorithm.
翻訳日:2024-04-18 14:35:31 公開日:2024-04-17
# 位置工学:位置情報操作による大規模言語モデルの構築

Position Engineering: Boosting Large Language Models through Positional Information Manipulation ( http://arxiv.org/abs/2404.11216v1 )

ライセンス: Link先を確認
Zhiyuan He, Huiqiang Jiang, Zilong Wang, Yuqing Yang, Luna Qiu, Lili Qiu, (参考訳) 大規模言語モデル(LLM)の性能は、提供されたプロンプトの品質に大きく影響される。 これに対し、研究者らは、タスクパフォーマンスを向上させるために、プロンプトテキストを変更することを目的とした、膨大なプロンプトエンジニアリング戦略を開発した。 本稿では,大規模言語モデルをより効率的にガイドする方法として,位置工学と呼ばれる新しい手法を提案する。 LLMに提供されるテキストを変更するのにかなりの労力を要するプロンプトエンジニアリングとは異なり、位置エンジニアリングは単にテキスト自体を変更することなくプロンプト内の位置情報を変更するだけである。 我々は、検索強化生成(RAG)とテキスト内学習(ICL)の2つの広く使われているLCMシナリオにおいて、位置エンジニアリングを評価した。 以上の結果から,両症例とも位置工学がベースラインを大幅に改善することが明らかとなった。 位置エンジニアリングは、大きな言語モデルの能力を活用するための有望な新しい戦略である。

The performance of large language models (LLMs) is significantly influenced by the quality of the prompts provided. In response, researchers have developed enormous prompt engineering strategies aimed at modifying the prompt text to enhance task performance. In this paper, we introduce a novel technique termed position engineering, which offers a more efficient way to guide large language models. Unlike prompt engineering, which requires substantial effort to modify the text provided to LLMs, position engineering merely involves altering the positional information in the prompt without modifying the text itself. We have evaluated position engineering in two widely-used LLM scenarios: retrieval-augmented generation (RAG) and in-context learning (ICL). Our findings show that position engineering substantially improves upon the baseline in both cases. Position engineering thus represents a promising new strategy for exploiting the capabilities of large language models.
翻訳日:2024-04-18 14:35:31 公開日:2024-04-17
# AndroLog: Androidのインスツルメンテーションとコードカバレッジ分析

AndroLog: Android Instrumentation and Code Coverage Analysis ( http://arxiv.org/abs/2404.11223v1 )

ライセンス: Link先を確認
Jordan Samhi, Andreas Zeller, (参考訳) 動的解析はAndroidアプリのテストにおいて重要なテクニックとして登場し、バグ、悪意のあるコード、脆弱性の検出を可能にした。 この目的のために研究コミュニティと実践コミュニティの両方が採用するツールの有効性を評価する上で重要な指標はコードカバレッジである。 コードカバレッジを確保するには、通常、実行中にカバレッジデータを集めるためにアプリ内に調査を配置する必要がある。 アナリストへのソースコードの一般利用が不可能なため、アプリがこれらのプローブをブラックボックス環境に挿入するインスツルメンテーションが必要である。 しかし、そのようなインスツルメンテーションに使えるツールは信頼性に制限があり、アプリの機能に干渉する侵入的変更を必要とする。 本稿では、クラス、メソッド、ステートメント、Androidコンポーネントなど、さまざまなレベルで詳細なカバレッジ情報を提供するように設計された、Sootフレームワーク上に開発された新しいツールであるAndroLogを紹介します。 既存のツールとは対照的に、AndroLogはアプリをアナリストにテストする責任を残しており、そのモットーは単純である。 この論文で示されているように、AndroLogは、COSMOとACVToolでそれぞれ79%と48%の既存のツールと比較して、最近のAndroidアプリの98%を計測することができる。 AndroLogはまた、需要の粒度を増大させる将来的な拡張の可能性についても注目している。 AndroLogをコミュニティに公開し、AndroLogのデモビデオを提供しています(セクション8参照)。

Dynamic analysis has emerged as a pivotal technique for testing Android apps, enabling the detection of bugs, malicious code, and vulnerabilities. A key metric in evaluating the efficacy of tools employed by both research and practitioner communities for this purpose is code coverage. Obtaining code coverage typically requires planting probes within apps to gather coverage data during runtime. Due to the general unavailability of source code to analysts, there is a necessity for instrumenting apps to insert these probes in black-box environments. However, the tools available for such instrumentation are limited in their reliability and require intrusive changes interfering with apps' functionalities. This paper introduces AndroLog a novel tool developed on top of the Soot framework, designed to provide fine-grained coverage information at multiple levels, including class, methods, statements, and Android components. In contrast to existing tools, AndroLog leaves the responsibility to test apps to analysts, and its motto is simplicity. As demonstrated in this paper, AndroLog can instrument up to 98% of recent Android apps compared to existing tools with 79% and 48% respectively for COSMO and ACVTool. AndroLog also stands out for its potential for future enhancements to increase granularity on demand. We make AndroLog available to the community and provide a video demonstration of AndroLog (see section 8).
翻訳日:2024-04-18 14:35:31 公開日:2024-04-17
# 学習機械学習回帰モデルによる不確実性伝播の解析結果

Analytical results for uncertainty propagation through trained machine learning regression models ( http://arxiv.org/abs/2404.11224v1 )

ライセンス: Link先を確認
Andrew Thompson, (参考訳) 機械学習(ML)モデルは、メタロジーアプリケーションでますます使われています。 しかし、メタロジカルな文脈でMLモデルを信頼性のあるものにするには、原理化された不確実性定量化を伴わなければならない。 本稿では、トレーニング/修正機械学習(ML)回帰モデルによる不確実性伝播の課題に対処する。 特定の入力データ分布および各種MLモデルに対して、モデル出力の平均および分散に対する解析式を取得/表示する。 本稿では,線形回帰,ペナル化線形回帰,カーネルリッジ回帰,ガウス過程(GP),サポートベクターマシン(SVM),関連ベクターマシン(RVM)などのMLモデルについて述べる。 計算効率の観点から,本手法の有効性を検証し,モンテカルロ法と比較する数値実験を行った。 EIS(Electronic Impedance Spectroscopy)データに基づくリチウムイオンセルの健康状態のモデル化という,メトロジー応用の文脈における我々の手法についても解説する。

Machine learning (ML) models are increasingly being used in metrology applications. However, for ML models to be credible in a metrology context they should be accompanied by principled uncertainty quantification. This paper addresses the challenge of uncertainty propagation through trained/fixed machine learning (ML) regression models. Analytical expressions for the mean and variance of the model output are obtained/presented for certain input data distributions and for a variety of ML models. Our results cover several popular ML models including linear regression, penalised linear regression, kernel ridge regression, Gaussian Processes (GPs), support vector machines (SVMs) and relevance vector machines (RVMs). We present numerical experiments in which we validate our methods and compare them with a Monte Carlo approach from a computational efficiency point of view. We also illustrate our methods in the context of a metrology application, namely modelling the state-of-health of lithium-ion cells based upon Electrical Impedance Spectroscopy (EIS) data
翻訳日:2024-04-18 14:35:31 公開日:2024-04-17
# 内部とモーメント最適化を用いたインテクスト学習状態ベクトル

In-Context Learning State Vector with Inner and Momentum Optimization ( http://arxiv.org/abs/2404.11225v1 )

ライセンス: Link先を確認
Dongfang Li, Zhenyu Liu, Xinshuo Hu, Zetian Sun, Baotian Hu, Min Zhang, (参考訳) 大規模言語モデル(LLM)は、わずか数例からICL(In-Context Learning)を実行する素晴らしい能力を示した。 近年の研究では、ICLが学習した関数は変換器から得られる圧縮ベクトルで表現できることが示されている。 しかし、これらのベクトルの動作機構と最適化はまだ十分に研究されていない。 本稿では,これらの圧縮ベクトルを包括的に解析し,勾配降下で訓練されたパラメータに並列性を引き出すことにより,このギャップに対処し,状態ベクトルの概念を導入する。 モデルスープと運動量に基づく勾配降下の研究に触発され、テスト時間適応として段階的に状態ベクトルを洗練させる内部および運動量最適化法を提案する。 さらに、多数の例からなる実演が通常のICLには長すぎるような状態ベクトル集約を複数例でシミュレートし、さらにこの課題に対処するための分割・対数アグリゲーション法を提案する。 ゼロショット設定と少数ショット設定の両方において,Llama-2 と GPT-J を用いた広範囲な実験を行った。 実験結果から, 最適化手法は状態ベクトルを効果的に向上し, 多様なタスクにおける最先端性能を実現することが示唆された。 コードはhttps://github.com/HITsz-TMG/ICL-State-Vectorで入手できる。

Large Language Models (LLMs) have exhibited an impressive ability to perform In-Context Learning (ICL) from only a few examples. Recent works have indicated that the functions learned by ICL can be represented through compressed vectors derived from the transformer. However, the working mechanisms and optimization of these vectors are yet to be thoroughly explored. In this paper, we address this gap by presenting a comprehensive analysis of these compressed vectors, drawing parallels to the parameters trained with gradient descent, and introduce the concept of state vector. Inspired by the works on model soup and momentum-based gradient descent, we propose inner and momentum optimization methods that are applied to refine the state vector progressively as test-time adaptation. Moreover, we simulate state vector aggregation in the multiple example setting, where demonstrations comprising numerous examples are usually too lengthy for regular ICL, and further propose a divide-and-conquer aggregation method to address this challenge. We conduct extensive experiments using Llama-2 and GPT-J in both zero-shot setting and few-shot setting. The experimental results show that our optimization method effectively enhances the state vector and achieves the state-of-the-art performance on diverse tasks. Code is available at https://github.com/HITsz-TMG/ICL-State-Vector
翻訳日:2024-04-18 14:35:31 公開日:2024-04-17
# 簡易な位置データ拡張による監視対象検出

Simple In-place Data Augmentation for Surveillance Object Detection ( http://arxiv.org/abs/2404.11226v1 )

ライセンス: Link先を確認
Munkh-Erdene Otgonbold, Ganzorig Batnasan, Munkhjargal Gochoo, (参考訳) 限定ラベル付きサンプルを用いたトラヒック監視タスクのモデル性能向上の必要性から,オブジェクト検出データセットに特化して,静止カメラベースのアプリケーションに特化して設計された,簡単な拡張手法を提案する。 提案手法では,オブジェクトをオリジナルと同じ位置に配置することで,その有効性を保証する。 同じカメラ入力画像からオブジェクトにインプレース拡張を適用することで、元のオブジェクトと以前選択されたオブジェクトと重複する課題に対処する。 2つのトラヒックモニタリングデータセットの広範なテストを通じて、モデル性能を改善するための拡張戦略の有効性について説明する。 特に,本手法は,データセット全体をトレーニングしたモデルに匹敵する性能を示し,元のデータの8.5%しか利用していない。 さらに,mAP@.5は0.4798から0.5025に増加し,mAP@.5:.95は0.29から0.3138に増加した。 これらの結果は,交通監視アプリケーションにおけるオブジェクト検出モデルの拡張における拡張アプローチの可能性を強調した。

Motivated by the need to improve model performance in traffic monitoring tasks with limited labeled samples, we propose a straightforward augmentation technique tailored for object detection datasets, specifically designed for stationary camera-based applications. Our approach focuses on placing objects in the same positions as the originals to ensure its effectiveness. By applying in-place augmentation on objects from the same camera input image, we address the challenge of overlapping with original and previously selected objects. Through extensive testing on two traffic monitoring datasets, we illustrate the efficacy of our augmentation strategy in improving model performance, particularly in scenarios with limited labeled samples and imbalanced class distributions. Notably, our method achieves comparable performance to models trained on the entire dataset while utilizing only 8.5 percent of the original data. Moreover, we report significant improvements, with mAP@.5 increasing from 0.4798 to 0.5025, and the mAP@.5:.95 rising from 0.29 to 0.3138 on the FishEye8K dataset. These results highlight the potential of our augmentation approach in enhancing object detection models for traffic monitoring applications.
翻訳日:2024-04-18 14:35:31 公開日:2024-04-17
# 制限ボルツマンマシンの分割関数の効率的な評価のためのAnnealed Importance Smplingアルゴリズムの平均場初期化

Mean field initialization of the Annealed Importance Sampling algorithm for an efficient evaluation of the Partition Function of Restricted Boltzmann Machines ( http://arxiv.org/abs/2404.11229v1 )

ライセンス: Link先を確認
A. Prat Pou, E. Romero, J. Martí, F. Mazzanti, (参考訳) 物理学における確率モデルは、しばしば正規化ボルツマン因子の評価から要求されるが、これは分割関数 Z の計算を意味する。 この問題はRestricted Boltzmann Machine (RBM) のような確率論的学習モデルにも存在し、正確な学習規則は各繰り返しにおけるZの計算を意味するため、状況はさらに悪化する。 この問題に対処する方法の1つは、システムのパーティション関数を確率的に推定するツールであるAnnealed Importance Sampling (AIS)アルゴリズムを使用することである。 これまでのところ、AISアルゴリズムの標準的な適用は、均一な確率分布から始まり、多数のモンテカルロステップを使用して、アニール過程の後にZの信頼性の高い推定値を得る。 本研究では,推定値の品質と計算コストの両方を,適切に選択された平均場開始確率分布を用いて向上させることができることを示す。 我々は,AISを小規模・大規模ともに体系的に分析し,その結果を既知の問題における正確な値と比較する。 系統分析の結果、分析された全ての問題でうまく機能する2つの戦略が提案される。 計算コストが比較的低いAISを用いて分割関数を推定するには,これらがよい出発点である。

Probabilistic models in physics often require from the evaluation of normalized Boltzmann factors, which in turn implies the computation of the partition function Z. Getting the exact value of Z, though, becomes a forbiddingly expensive task as the system size increases. This problem is also present in probabilistic learning models such as the Restricted Boltzmann Machine (RBM), where the situation is even worse as the exact learning rules implies the computation of Z at each iteration. A possible way to tackle this problem is to use the Annealed Importance Sampling (AIS) algorithm, which provides a tool to stochastically estimate the partition function of the system. So far, the standard application of the AIS algorithm starts from the uniform probability distribution and uses a large number of Monte Carlo steps to obtain reliable estimations of Z following an annealing process. In this work we show that both the quality of the estimation and the cost of the computation can be significantly improved by using a properly selected mean-field starting probability distribution. We perform a systematic analysis of AIS in both small- and large-sized problems, and compare the results to exact values in problems where these are known. As a result of our systematic analysis, we propose two successful strategies that work well in all the problems analyzed. We conclude that these are good starting points to estimate the partition function with AIS with a relatively low computational cost.
翻訳日:2024-04-18 14:35:31 公開日:2024-04-17
# エネルギー効率の良い不確かさを考慮したバイオマス組成予測

Energy-Efficient Uncertainty-Aware Biomass Composition Prediction at the Edge ( http://arxiv.org/abs/2404.11230v1 )

ライセンス: Link先を確認
Muhammad Zawish, Paul Albert, Flavio Esposito, Steven Davy, Lizy Abraham, (参考訳) クローバーは大気から地面へ窒素を固定し、外部窒素の施肥を減らすために草とクローバーの混合物を非常に好ましいものにする。 クローバーを含むハーベージは食物の摂取量も増加し、牛乳の生産量も増加する。 しかしながら、ハーベージの探索には時間を要する手動実験室分析が必要であるため、ほとんど使われていない。 この情報がないと、農家はローカライズドローイングを行うことができず、あるいはターゲットの受精決定を下すことができない。 深層学習アルゴリズムは,草地の直接画像から乾式バイオマス組成を推定する目的で提案されている。 しかし、ディープラーニングのエネルギー集約的な性質は、スマートフォンのような実用的なエッジデバイスへの展開を制限する。 本稿では,既存のディープラーニングソリューションのエネルギー要求を削減するためにフィルタプルーニングを適用して,このギャップを埋めることを提案する。 刈り取られたネットワークは、制御された高品質な草のイメージに対して正確であるが、現実のスマートフォンの画像をぼやけたり、難解な角度から捉えたりするのに苦労している、と報告している。 この課題に対して,分散減衰損失を用いてフィルタ計算モデルを訓練し,予測の不確かさを予測する。 不確実性がしきい値を超えると、より正確な未切断モデルを用いて再推論する。 このハイブリッドアプローチにより、高い精度を維持しながらエネルギー消費を減らすことができる。 NVIDIA Jetson Nanoエッジデバイスを用いたGrassCloverとIrishクローバの2つのデータセットでアルゴリズムの評価を行った。 我々は、最先端のソリューションに対するエネルギー削減を、4%の精度損失で平均50%削減することを発見した。

Clover fixates nitrogen from the atmosphere to the ground, making grass-clover mixtures highly desirable to reduce external nitrogen fertilization. Herbage containing clover additionally promotes higher food intake, resulting in higher milk production. Herbage probing however remains largely unused as it requires a time-intensive manual laboratory analysis. Without this information, farmers are unable to perform localized clover sowing or take targeted fertilization decisions. Deep learning algorithms have been proposed with the goal to estimate the dry biomass composition from images of the grass directly in the fields. The energy-intensive nature of deep learning however limits deployment to practical edge devices such as smartphones. This paper proposes to fill this gap by applying filter pruning to reduce the energy requirement of existing deep learning solutions. We report that although pruned networks are accurate on controlled, high-quality images of the grass, they struggle to generalize to real-world smartphone images that are blurry or taken from challenging angles. We address this challenge by training filter-pruned models using a variance attenuation loss so they can predict the uncertainty of their predictions. When the uncertainty exceeds a threshold, we re-infer using a more accurate unpruned model. This hybrid approach allows us to reduce energy consumption while retaining a high accuracy. We evaluate our algorithm on two datasets: the GrassClover and the Irish clover using an NVIDIA Jetson Nano edge device. We find that we reduce energy reduction with respect to state-of-the-art solutions by 50% on average with only 4% accuracy loss.
翻訳日:2024-04-18 14:35:31 公開日:2024-04-17
# OnOT: 高品質ICAO準拠の合成Mugshotデータセット

ONOT: a High-Quality ICAO-compliant Synthetic Mugshot Dataset ( http://arxiv.org/abs/2404.11236v1 )

ライセンス: Link先を確認
Nicolò Di Domenico, Guido Borghi, Annalisa Franco, Davide Maltoni, (参考訳) 現在、最先端のAIベースの生成モデルは、顔などの個人情報を含むデータセットの収集において、プライバシー問題やバイアスを克服するための実行可能なソリューションである。 本研究は,国際民間航空機関(ICAO)のガイドラインに従って,電子機械可読旅行文書(eMRTD)における顔画像の交換形式を定義したISO/IEC 39794-5規格に準拠する,高品質な顔の生成に焦点を当てた合成データセットであるONOTを紹介する。 OnOTに含まれる厳密に制御された様々なマグショット画像は、Morphing DetectionやFace Quality AssessmentといったeMRTDの顔画像の分析に関連する研究分野で有用である。 データセットは、再現性を改善し、将来の拡張を可能にするため、生成手順の詳細と組み合わせて、公開されている。

Nowadays, state-of-the-art AI-based generative models represent a viable solution to overcome privacy issues and biases in the collection of datasets containing personal information, such as faces. Following this intuition, in this paper we introduce ONOT, a synthetic dataset specifically focused on the generation of high-quality faces in adherence to the requirements of the ISO/IEC 39794-5 standards that, following the guidelines of the International Civil Aviation Organization (ICAO), defines the interchange formats of face images in electronic Machine-Readable Travel Documents (eMRTD). The strictly controlled and varied mugshot images included in ONOT are useful in research fields related to the analysis of face images in eMRTD, such as Morphing Attack Detection and Face Quality Assessment. The dataset is publicly released, in combination with the generation procedure details in order to improve the reproducibility and enable future extensions.
翻訳日:2024-04-18 14:24:17 公開日:2024-04-17
# 一般化OneMaxを用いた多値コンパクト遺伝的アルゴリズムの実行時解析

Runtime Analysis of a Multi-Valued Compact Genetic Algorithm on Generalized OneMax ( http://arxiv.org/abs/2404.11239v1 )

ライセンス: Link先を確認
Sumit Adak, Carsten Witt, (参考訳) 進化的アルゴリズムのような従来の戦略のより洗練された代用として、EDAsと呼ばれるメタヒューリスティックな手法のクラスが最適化に用いられている。 EDAは一般に、探索空間からの繰り返しサンプリングと選択を通じて潜在的な候補解の明示的な確率的モデルを作成することにより、最適探索を推進している。 EDAに関するほとんどの理論的研究は擬似ブール最適化に焦点を当てている。 Jedidia et al (GECCO 2023) は、多値決定変数を含む問題を最適化するための最初のEDAを提案した。 フレームワークを構築することで、r値のLeadingOnes関数上で、多値のUMDAのランタイムを分析した。 それらのフレームワークを用いて、我々は、多値コンパクト遺伝的アルゴリズム(r-cGA)に注目し、一般化されたOneMax関数の最初の実行時解析を提供する。 本研究の結果を裏付けるために,遺伝的ドリフトと確率モデルの最適への進展について検討した。 適切なアルゴリズムパラメータを見つけた後、r-cGAがこのr値のOneMax問題を効率的に解くことを証明した。 高い確率で、ランタイム境界は O(r2 n log2 r log3 n) であることを示す。 実験の最後には、多値OneMax関数の別の変種が期待されるランタイムに関する予想を述べる。

A class of metaheuristic techniques called estimation-of-distribution algorithms (EDAs) are employed in optimization as more sophisticated substitutes for traditional strategies like evolutionary algorithms. EDAs generally drive the search for the optimum by creating explicit probabilistic models of potential candidate solutions through repeated sampling and selection from the underlying search space. Most theoretical research on EDAs has focused on pseudo-Boolean optimization. Jedidia et al. (GECCO 2023) proposed the first EDAs for optimizing problems involving multi-valued decision variables. By building a framework, they have analyzed the runtime of a multi-valued UMDA on the r-valued LeadingOnes function. Using their framework, here we focus on the multi-valued compact genetic algorithm (r-cGA) and provide a first runtime analysis of a generalized OneMax function. To prove our results, we investigate the effect of genetic drift and progress of the probabilistic model towards the optimum. After finding the right algorithm parameters, we prove that the r-cGA solves this r-valued OneMax problem efficiently. We show that with high probability, the runtime bound is O(r2 n log2 r log3 n). At the end of experiments, we state one conjecture related to the expected runtime of another variant of multi-valued OneMax function.
翻訳日:2024-04-18 14:24:17 公開日:2024-04-17
# デノイング拡散モデルを用いた光画像間変換:不均一な変化検出を事例として

Optical Image-to-Image Translation Using Denoising Diffusion Models: Heterogeneous Change Detection as a Use Case ( http://arxiv.org/abs/2404.11243v1 )

ライセンス: Link先を確認
João Gabriel Vinholi, Marco Chini, Anis Amziane, Renato Machado, Danilo Silva, Patrick Matgen, (参考訳) 本稿では,低分解能画像から異なる光学センサからの高分解能画像への変換に拡散モデルを用いた革新的な深層学習手法を提案する。 提案手法は,2枚組のSentinel-IIとPlanet Doveの大規模かつ多様なデータセットを用いて,実験・評価を行った。 本稿では,多感光リモートセンシング画像のイメージ・ツー・イメージ翻訳作業にDDIM(Denoising Diffusion Implicit Model)フレームワークを用いることで,色・特徴の両面において,高い一貫性のある画像を生成することができることを示す。 さらに, ベイルート, レバノン, オースチンの2つの都市部において, 異種変化検出がいかに改善されるかを実証した。 私たちの貢献は次のとおりです。 一 光学画像翻訳の拡散モデルに基づく新たな訓練及び試験アルゴリズム 二 総合的な画質評価及びアブレーション研究 三 分類器フリーのDDIMフレームワークとの比較 四 異種データの検出実験を変更すること。

We introduce an innovative deep learning-based method that uses a denoising diffusion-based model to translate low-resolution images to high-resolution ones from different optical sensors while preserving the contents and avoiding undesired artifacts. The proposed method is trained and tested on a large and diverse data set of paired Sentinel-II and Planet Dove images. We show that it can solve serious image generation issues observed when the popular classifier-free guided Denoising Diffusion Implicit Model (DDIM) framework is used in the task of Image-to-Image Translation of multi-sensor optical remote sensing images and that it can generate large images with highly consistent patches, both in colors and in features. Moreover, we demonstrate how our method improves heterogeneous change detection results in two urban areas: Beirut, Lebanon, and Austin, USA. Our contributions are: i) a new training and testing algorithm based on denoising diffusion models for optical image translation; ii) a comprehensive image quality evaluation and ablation study; iii) a comparison with the classifier-free guided DDIM framework; and iv) change detection experiments on heterogeneous data.
翻訳日:2024-04-18 14:24:17 公開日:2024-04-17
# 多言語場面における視覚言語知識蒸留とアライメントの進歩的枠組み

A Progressive Framework of Vision-language Knowledge Distillation and Alignment for Multilingual Scene ( http://arxiv.org/abs/2404.11249v1 )

ライセンス: Link先を確認
Wenbo Zhang, Yifan Zhang, Jianfeng Lin, Binqiang Huang, Jinlu Zhang, Wenhao Yu, (参考訳) CLIPのような事前学習された視覚言語(V-L)モデルは、多くの下流のクロスモーダルタスクにおいて優れた性能を示している。 しかし、そのほとんどは英語の文脈に当てはまる。 その後の研究はこの問題に焦点を合わせ、CN-CLIPやAltCLIPのような改良されたモデルを提案した。 それでもこれらのモデルは、高いレイテンシと大きなメモリフットプリントの推論に悩まされており、リソース制約のあるエッジデバイスへのデプロイが制限されている。 本研究では,概念的にシンプルだが効果的な多言語CLIP圧縮フレームワークを提案し,中国語と英語の両方の文脈で,DC-CLIPと呼ばれる軽量多言語視覚言語モデルを訓練する。 本研究では,高品質な中国語と英語のテキストイメージを収集し,多言語視覚言語の特徴蒸留とアライメントを含む2つの訓練段階を設計する。 第1段階では、軽量な画像/テキスト学生モデルは、それぞれ対応する教師モデルから、堅牢な視覚的・多言語的特徴表現能力を学ぶように設計されている。 その後、多言語視覚言語アライメントステージは、視覚的および多言語テキスト特徴の効果的なアライメントを可能にし、モデルの多言語パフォーマンスをさらに向上させる。 ELEVATERベンチマークに基づくゼロショット画像分類における総合的な実験により、DC-CLIPは、類似パラメータの既存モデルと比較して、訓練データが少なくても、英語文脈での優れた性能と中国語文脈での競争性能を達成できることを示した。 本評価は,設計したトレーニング機構の有効性を示すものである。

Pre-trained vision-language (V-L) models such as CLIP have shown excellent performance in many downstream cross-modal tasks. However, most of them are only applicable to the English context. Subsequent research has focused on this problem and proposed improved models, such as CN-CLIP and AltCLIP, to facilitate their applicability to Chinese and even other languages. Nevertheless, these models suffer from high latency and a large memory footprint in inference, which limits their further deployment on resource-constrained edge devices. In this work, we propose a conceptually simple yet effective multilingual CLIP Compression framework and train a lightweight multilingual vision-language model, called DC-CLIP, for both Chinese and English context. In this framework, we collect high-quality Chinese and English text-image pairs and design two training stages, including multilingual vision-language feature distillation and alignment. During the first stage, lightweight image/text student models are designed to learn robust visual/multilingual textual feature representation ability from corresponding teacher models, respectively. Subsequently, the multilingual vision-language alignment stage enables effective alignment of visual and multilingual textual features to further improve the model's multilingual performance. Comprehensive experiments in zero-shot image classification, conducted based on the ELEVATER benchmark, showcase that DC-CLIP achieves superior performance in the English context and competitive performance in the Chinese context, even with less training data, when compared to existing models of similar parameter magnitude. The evaluation demonstrates the effectiveness of our designed training mechanism.
翻訳日:2024-04-18 14:24:17 公開日:2024-04-17
# Bayesianパラメータ化量子回路最適化(BPQCO):タスクとハードウェアに依存したアプローチ

Bayesian Parameterized Quantum Circuit Optimization (BPQCO): A task and hardware-dependent approach ( http://arxiv.org/abs/2404.11253v1 )

ライセンス: Link先を確認
Alexander Benítez-Buenache, Queralt Portell-Montserrat, (参考訳) 変分量子アルゴリズム(VQA)は、パラメータ化量子回路(PQC)を用いて最適化と機械学習問題を解決するための有望な量子代替手段として登場した。 これらの回路の設計は、解空間を効率的に探索し、より最適な解に収束するアルゴリズムの能力に影響を与える。 適切な回路トポロジ、ゲートセット、パラメータ化スキームを選択することは、優れた性能を達成するために決定的に重要である。 加えて、問題に依存しているだけでなく、使用した量子ハードウェアも結果に大きな影響を与えている。 そこで,ベイズ最適化に基づく最適PQC探索手法BPQCOを提案する。 この目的のために,回路設計が2つの分類問題(合成データセットとよく知られたアイリスデータセット)の性能に与える影響を実験的に実証し,回路アンサッツの設計に焦点を当てた。 さらに,実量子コンピュータのシミュレーションにおいて,ノイズの存在下で得られた回路の劣化について検討した。 ノイズの影響を軽減するために,量子システムの特性に基づく2つの最適化手法を提案する。 その結果, 提案手法の妥当性を確認し, PQCsを応用したさらなる開発が可能であることがわかった。

Variational quantum algorithms (VQA) have emerged as a promising quantum alternative for solving optimization and machine learning problems using parameterized quantum circuits (PQCs). The design of these circuits influences the ability of the algorithm to efficiently explore the solution space and converge to more optimal solutions. Choosing an appropriate circuit topology, gate set, and parameterization scheme is determinant to achieve good performance. In addition, it is not only problem-dependent, but the quantum hardware used also has a significant impact on the results. Therefore, we present BPQCO, a Bayesian Optimization-based strategy to search for optimal PQCs adapted to the problem to be solved and to the characteristics and limitations of the chosen quantum hardware. To this end, we experimentally demonstrate the influence of the circuit design on the performance obtained for two classification problems (a synthetic dataset and the well-known Iris dataset), focusing on the design of the circuit ansatz. In addition, we study the degradation of the obtained circuits in the presence of noise when simulating real quantum computers. To mitigate the effect of noise, two alternative optimization strategies based on the characteristics of the quantum system are proposed. The results obtained confirm the relevance of the presented approach and allow its adoption in further work based on the use of PQCs.
翻訳日:2024-04-18 14:24:17 公開日:2024-04-17
# MMCBE:作物バイオマス推定のためのマルチモーダリティデータセット

MMCBE: Multi-modality Dataset for Crop Biomass Estimation and Beyond ( http://arxiv.org/abs/2404.11256v1 )

ライセンス: Link先を確認
Xuesong Li, Zeeshan Hayder, Ali Zia, Connor Cassidy, Shiming Liu, Warwick Stiller, Eric Stone, Warren Conaty, Lars Petersson, Vivien Rolland, (参考訳) 作物の生育、健康、生産性の重要指標である作物のバイオマスは、作物の育種プログラムや農業研究に有用である。 しかし、既存の測定方法の限界により、作物のバイオマスの正確でスケーラブルな定量化は依然として不可能である。 現在の作物バイオマス予測手法の進歩を妨げる障害の1つは、公開データセットの不足である。 このギャップに対処するため、我々はこの領域における新たなデータセット、すなわち、作物バイオマス推定のためのマルチモダリティデータセットを導入する。 216セットのマルチビュー・ドローン画像とLiDAR点雲とハンドラベリングされた地上真実を組み合わせたMCCBEは、この分野における最初のマルチモダリティの1つだ。 このデータセットは、作物のバイオマス定量化のためのベンチマーク手法を確立し、ビジョンベースのアプローチの開発を促進することを目的としている。 我々は,MCCBEを用いた最先端の作物バイオマス推定手法を厳格に評価し,ドローン画像からの3D作物の復元やノベルビューレンダリングなど,新たな応用の可能性を探った。 この発表で、包括的データセットを、より広いコミュニティで利用可能にしています。

Crop biomass, a critical indicator of plant growth, health, and productivity, is invaluable for crop breeding programs and agronomic research. However, the accurate and scalable quantification of crop biomass remains inaccessible due to limitations in existing measurement methods. One of the obstacles impeding the advancement of current crop biomass prediction methodologies is the scarcity of publicly available datasets. Addressing this gap, we introduce a new dataset in this domain, i.e. Multi-modality dataset for crop biomass estimation (MMCBE). Comprising 216 sets of multi-view drone images, coupled with LiDAR point clouds, and hand-labelled ground truth, MMCBE represents the first multi-modality one in the field. This dataset aims to establish benchmark methods for crop biomass quantification and foster the development of vision-based approaches. We have rigorously evaluated state-of-the-art crop biomass estimation methods using MMCBE and ventured into additional potential applications, such as 3D crop reconstruction from drone imagery and novel-view rendering. With this publication, we are making our comprehensive dataset available to the broader community.
翻訳日:2024-04-18 14:24:17 公開日:2024-04-17
# サンプリングに基づく擬似推論によるメンバーシップ推論攻撃

Sampling-based Pseudo-Likelihood for Membership Inference Attacks ( http://arxiv.org/abs/2404.11262v1 )

ライセンス: Link先を確認
Masahiro Kaneko, Youmi Ma, Yuki Wata, Naoaki Okazaki, (参考訳) 大規模言語モデル(LLM)は、大規模Webデータに基づいて訓練されており、各テキストのコントリビューションの把握が困難である。 これは、トレーニングデータにベンチマーク、個人情報、著作権のあるテキストなどの不適切なデータをリークするリスクを引き起こす。 モデルのトレーニングデータに与えられたテキストが含まれているかどうかを判断するメンバーシップ推論攻撃(MIA)が注目されている。 MIAsの以前の研究により、LLMの漏れを検出するために可能性に基づく分類が有効であることが判明した。 しかし、既存のメソッドはChatGPTやClaude 3のようないくつかのプロプライエタリなモデルには適用できない。 本研究では, LLM が生成したテキストのみを用いて SPL を計算し, 漏洩を検知するサンプルベース Pseudo-Likelihood (\textbf{SPL}) 手法を提案する。 SaMIAは、対象テキストを基準テキストとして扱い、LLMからの複数の出力をテキストサンプルとして扱い、SPLとn$-gramマッチの度合いを算出し、トレーニングデータ中のテキストのメンバシップを決定する。 SaMIAは、可能性のない場合でも、既存の可能性ベースの手法と同等に実行された。

Large Language Models (LLMs) are trained on large-scale web data, which makes it difficult to grasp the contribution of each text. This poses the risk of leaking inappropriate data such as benchmarks, personal information, and copyrighted texts in the training data. Membership Inference Attacks (MIA), which determine whether a given text is included in the model's training data, have been attracting attention. Previous studies of MIAs revealed that likelihood-based classification is effective for detecting leaks in LLMs. However, the existing methods cannot be applied to some proprietary models like ChatGPT or Claude 3 because the likelihood is unavailable to the user. In this study, we propose a Sampling-based Pseudo-Likelihood (\textbf{SPL}) method for MIA (\textbf{SaMIA}) that calculates SPL using only the text generated by an LLM to detect leaks. The SaMIA treats the target text as the reference text and multiple outputs from the LLM as text samples, calculates the degree of $n$-gram match as SPL, and determines the membership of the text in the training data. Even without likelihoods, SaMIA performed on par with existing likelihood-based methods.
翻訳日:2024-04-18 14:24:17 公開日:2024-04-17
# 被害者と受益者: 汚染されたデータでクリーンなモデルを訓練するために、汚染されたモデルを爆発させる

The Victim and The Beneficiary: Exploiting a Poisoned Model to Train a Clean Model on Poisoned Data ( http://arxiv.org/abs/2404.11265v1 )

ライセンス: Link先を確認
Zixuan Zhu, Rui Wang, Cong Zou, Lihua Jing, (参考訳) 近年、バックドア攻撃はディープニューラルネットワーク(DNN)のトレーニングプロセスに深刻なセキュリティ上の脅威をもたらしている。 攻撃されたモデルは、通常、良質なサンプルで振る舞うが、トリガーが存在するときに特定の結果を出力する。 しかし、バックドア攻撃の進行と比べ、既存の防御はこれらの脅威に効果的に対処することが困難であり、実際のシナリオでは利用できない良質なサンプルを必要とする。 本稿では, 有毒試料と良性試料を予測エントロピーで識別できることを見出した。 V&B(The Victim and The Beneficiary)は、有害なモデルを利用して、余分な良性サンプルを使わずにクリーンなモデルをトレーニングするものです。 まず、不審なサンプルのトレーニングによって、Victimネットワークを強力な有毒サンプル検出器として犠牲にする。 次に,Besticiary NetworkをVictimによって選択された信頼性サンプル上でトレーニングし,バックドア注入を抑制する。 第3に、潜在的なバックドアを消去し、モデル性能を向上させるための半教師付き抑制戦略を採用する。 さらに,欠落した有毒なサンプルを効果的に抑制するために,提案するV&Bフレームワークとうまく連携する強力なデータ拡張手法であるAttentionMixを提案する。 6つの最先端攻撃に対して広く利用されている2つのデータセットに対する大規模な実験は、我々のフレームワークが良質なサンプルの性能を維持しつつ、バックドア注入を防止し、様々な攻撃に対して堅牢であることを示す。 私たちのコードはhttps://github.com/Zixuan-Zhu/VaB.comで公開されています。

Recently, backdoor attacks have posed a serious security threat to the training process of deep neural networks (DNNs). The attacked model behaves normally on benign samples but outputs a specific result when the trigger is present. However, compared with the rocketing progress of backdoor attacks, existing defenses are difficult to deal with these threats effectively or require benign samples to work, which may be unavailable in real scenarios. In this paper, we find that the poisoned samples and benign samples can be distinguished with prediction entropy. This inspires us to propose a novel dual-network training framework: The Victim and The Beneficiary (V&B), which exploits a poisoned model to train a clean model without extra benign samples. Firstly, we sacrifice the Victim network to be a powerful poisoned sample detector by training on suspicious samples. Secondly, we train the Beneficiary network on the credible samples selected by the Victim to inhibit backdoor injection. Thirdly, a semi-supervised suppression strategy is adopted for erasing potential backdoors and improving model performance. Furthermore, to better inhibit missed poisoned samples, we propose a strong data augmentation method, AttentionMix, which works well with our proposed V&B framework. Extensive experiments on two widely used datasets against 6 state-of-the-art attacks demonstrate that our framework is effective in preventing backdoor injection and robust to various attacks while maintaining the performance on benign samples. Our code is available at https://github.com/Zixuan-Zhu/VaB.
翻訳日:2024-04-18 14:24:17 公開日:2024-04-17
# インスタンスセグメンテーションにおける不確かさに基づくコーナケース検出の基準

Criteria for Uncertainty-based Corner Cases Detection in Instance Segmentation ( http://arxiv.org/abs/2404.11266v1 )

ライセンス: Link先を確認
Florian Heidecker, Ahmad El-Khateeb, Maarten Bieshaar, Bernhard Sick, (参考訳) 高度自動化車両の運転環境は、例えば、天候、照明、または高度自動化車両が安全に乗客を航行しなければならない異なる物体やその他の参加者を含むシナリオによって変化する。 これらの状況は、高度に自動化された運転機能を開発し、検証する際に考慮する必要がある。 これは、深層学習モデルのトレーニングと評価にすでに問題がある、なぜなら、何千ものレコードを高価なラベル付けなしで、データがさらなるモデルトレーニングに関連があり興味深いデータを含んでいるかどうかを知らないからである。 この目的のために,予測の不確実性に基づくコーナーケース基準を提案する。 コーナーケースの基準により、グラウンド・真理(GT)データに頼ることなく、オブジェクト・インスタンス・セグメンテーション・モデルの不確実性に基づくコーナーケースを検出することができる。 我々はCOCOとNuImagesデータセットを用いて各コーナーケース基準を評価し,アプローチの可能性について分析した。 また、各対象を正正(TP)、正正(False Positive)、正極(False Positive)、正極(False Positive)に区別できるコーナーケース決定関数も提供する。 また、ベースラインを上回り、コーナーケース決定関数に基づいてトレーニングデータセットに付加されたデータが選択される反復トレーニングサイクルの最初の結果を提示する。

The operating environment of a highly automated vehicle is subject to change, e.g., weather, illumination, or the scenario containing different objects and other participants in which the highly automated vehicle has to navigate its passengers safely. These situations must be considered when developing and validating highly automated driving functions. This already poses a problem for training and evaluating deep learning models because without the costly labeling of thousands of recordings, not knowing whether the data contains relevant, interesting data for further model training, it is a guess under which conditions and situations the model performs poorly. For this purpose, we present corner case criteria based on the predictive uncertainty. With our corner case criteria, we are able to detect uncertainty-based corner cases of an object instance segmentation model without relying on ground truth (GT) data. We evaluated each corner case criterion using the COCO and the NuImages dataset to analyze the potential of our approach. We also provide a corner case decision function that allows us to distinguish each object into True Positive (TP), localization and/or classification corner case, or False Positive (FP). We also present our first results of an iterative training cycle that outperforms the baseline and where the data added to the training dataset is selected based on the corner case decision function.
翻訳日:2024-04-18 14:24:17 公開日:2024-04-17
# DACAD:多変量時系列における異常検出のためのドメイン適応コントラスト学習

DACAD: Domain Adaptation Contrastive Learning for Anomaly Detection in Multivariate Time Series ( http://arxiv.org/abs/2404.11269v1 )

ライセンス: Link先を確認
Zahra Zamanzadeh Darban, Geoffrey I. Webb, Mahsa Salehi, (参考訳) 時系列異常検出(TAD)は、ラベル付きデータの不足により重要な課題に直面し、正確な検出モデルの開発を妨げる。 教師なしドメイン適応(UDA)は、関連するドメインからラベル付きデータセットを活用して、ターゲットデータセットの異常を検出することで、この問題に対処する。 既存のドメイン適応手法は、異常なクラスの数がソースとターゲットドメインの間で変化しないと仮定する。 本稿では,UDAと対照的表現学習を組み合わせた多変量時系列(DACAD)モデルにおける異常検出のためのドメイン適応コントラスト学習を提案する。 DACADのアプローチには、様々な種類の合成異常を導入する異常注入機構が含まれており、異なるドメインにおける目に見えない異常なクラスをまたいでモデルを一般化する能力を高めている。 この方法はモデルの適応性と堅牢性を著しく拡張する。 さらに、ソースドメインに対する教師付きコントラスト損失と、ターゲットドメインに対する自己監督型コントラスト3重項損失を提案し、包括的特徴表現学習とドメイン不変特徴の抽出を改善した。 最後に、ソース領域における正規境界の正確な学習を容易にするために、特に異常検出に有効なCentral-based Entropy Classifier (CEC)を提案する。 時系列異常検出における先行モデルに対する複数の実世界のデータセットに対する広範な評価と,UDAによるDACADの有効性の評価を行った。 その結果,ドメイン間の知識伝達におけるDACADの優位性と,時系列異常検出におけるラベル付きデータ制限の課題を軽減する可能性について検証した。

Time series anomaly detection (TAD) faces a significant challenge due to the scarcity of labelled data, which hinders the development of accurate detection models. Unsupervised domain adaptation (UDA) addresses this challenge by leveraging a labelled dataset from a related domain to detect anomalies in a target dataset. Existing domain adaptation techniques assume that the number of anomalous classes does not change between the source and target domains. In this paper, we propose a novel Domain Adaptation Contrastive learning for Anomaly Detection in multivariate time series (DACAD) model to address this issue by combining UDA and contrastive representation learning. DACAD's approach includes an anomaly injection mechanism that introduces various types of synthetic anomalies, enhancing the model's ability to generalise across unseen anomalous classes in different domains. This method significantly broadens the model's adaptability and robustness. Additionally, we propose a supervised contrastive loss for the source domain and a self-supervised contrastive triplet loss for the target domain, improving comprehensive feature representation learning and extraction of domain-invariant features. Finally, an effective Centre-based Entropy Classifier (CEC) is proposed specifically for anomaly detection, facilitating accurate learning of normal boundaries in the source domain. Our extensive evaluation across multiple real-world datasets against leading models in time series anomaly detection and UDA underscores DACAD's effectiveness. The results validate DACAD's superiority in transferring knowledge across domains and its potential to mitigate the challenge of limited labelled data in time series anomaly detection.
翻訳日:2024-04-18 14:24:17 公開日:2024-04-17
# ジャイネス・カミングス・ハミルトンとジャイネス・カミングス・コヒーレント状態の対角化

Diagonalizing the Jaynes-Cummings Hamiltonian and Jaynes-Cummings coherent states ( http://arxiv.org/abs/2404.11272v1 )

ライセンス: Link先を確認
Stephen M. Barnett, Bryan J. Dalton, (参考訳) 我々は、Jaynes-Cummings Hamiltonian を対角化するユニタリ変換の形式を決定する。 これは作用素に作用を与え、その作用は着飾った状態、エネルギー固有状態の言葉で簡単に解釈できる。 これは、服装状態に基づくコヒーレント状態とスピンコヒーレント状態の集合を示唆している。

We determine the form of the unitary transformation that diagonalizes the Jaynes-Cummings Hamiltonian. This leads to operators the action of which has a simple interpretation in terms of the dressed states, the energy eigenstates. This suggests a set of coherent states and spin coherent states based on the dressed states.
翻訳日:2024-04-18 14:24:17 公開日:2024-04-17
# ウェーブレット損失によるトレーニング変圧器モデルによる単一画像超解法における定量的・視覚的性能の向上

Training Transformer Models by Wavelet Losses Improves Quantitative and Visual Performance in Single Image Super-Resolution ( http://arxiv.org/abs/2404.11273v1 )

ライセンス: Link先を確認
Cansu Korkmaz, A. Murat Tekalp, (参考訳) トランスフォーマーベースのモデルは、画像超解像(SR)を含む低レベルの視覚タスクにおいて顕著な成果を上げている。 しかし、オーバーラップしないウィンドウ内で自己注意に依存する初期のTransformerベースのアプローチは、グローバル情報を取得する上での課題に直面する。 グローバルにより多くの入力ピクセルを活性化するために、ハイブリッドアテンションモデルが提案されている。 さらに,L1などの画素単位のRGB損失を最小化することによるトレーニングは,必須の高周波の詳細を捉えるのに不十分であることが判明した。 本稿では,2つのコントリビューションについて述べる。 一 畳み込み非局所スパースアテンション(NLSA)ブロックを導入し、ハイブリッドトランスフォーマーアーキテクチャを拡張して、受容場をさらに強化する。 二 定量的・主観的性能を向上させるためにトランスフォーマーモデルを訓練するためにウェーブレット損失を用いる。 従来、ウェーブレットの損失は調査されてきたが、トランスフォーマーベースのSRモデルをトレーニングする際のパワーを示すのは、新しいことである。 実験により,提案手法は様々なベンチマークデータセットに対して,最新のPSNR結果と優れた視覚性能を提供することを示した。

Transformer-based models have achieved remarkable results in low-level vision tasks including image super-resolution (SR). However, early Transformer-based approaches that rely on self-attention within non-overlapping windows encounter challenges in acquiring global information. To activate more input pixels globally, hybrid attention models have been proposed. Moreover, training by solely minimizing pixel-wise RGB losses, such as L1, have been found inadequate for capturing essential high-frequency details. This paper presents two contributions: i) We introduce convolutional non-local sparse attention (NLSA) blocks to extend the hybrid transformer architecture in order to further enhance its receptive field. ii) We employ wavelet losses to train Transformer models to improve quantitative and subjective performance. While wavelet losses have been explored previously, showing their power in training Transformer-based SR models is novel. Our experimental results demonstrate that the proposed model provides state-of-the-art PSNR results as well as superior visual performance across various benchmark datasets.
翻訳日:2024-04-18 14:24:17 公開日:2024-04-17
# RD2Bench:データ中心の自動研究開発を目指して

RD2Bench: Toward Data-Centric Automatic R&D ( http://arxiv.org/abs/2404.11276v1 )

ライセンス: Link先を確認
Haotian Chen, Xinjie Shen, Zeqi Ye, Xiao Yang, Xu Yang, Weiqing Liu, Jiang Bian, (参考訳) 人類の進歩は、無数の実験を伴って成功した発見によって引き起こされる。 研究者はしばしば、本を読み、実験を通して検証することで、潜在的研究の方向性を求める。 このプロセスは研究者に多大な負担を課している。 過去10年間で、データ駆動のブラックボックス深層学習法は、研究者の実験的負担を悪化させ、潜在的に成功した発見をもたらす幅広い実世界のシナリオにおいて、その効果を実証した。 そのため、そのような研究開発プロセス(R&D)の自動化が急務である。 本稿では,実世界のデータ中心型自動R&Dベンチマーク,すなわちRD2Benchを提案することで,目標を定式化する最初の試みとして機能する。 RD2Benchは、データ中心の自動R&D(D-CARD)におけるすべての操作をベンチマークして、私たちのゴールに向けての今後の作業をナビゲートします。 本稿では,様々なモデル能力の相互作用と相乗効果を評価し,信頼性の高いモデルの選択を支援することに焦点を当てる。 RD2Bench は GPT-4 (State-of-the-art) と呼ばれる大規模言語モデル (LLM) に対して非常に困難であり、十分な研究機会とさらなる研究努力を示しているが、LLM は D-CARD にさらなる発展をもたらす有望な可能性を秘めている。 我々は、自動R&Dに取り組む技術開発を考慮に入れ、人間の生産性に革命的なアップグレードの可能性をもたらすことを、今後の課題にアピールする。

The progress of humanity is driven by those successful discoveries accompanied by countless failed experiments. Researchers often seek the potential research directions by reading and then verifying them through experiments. The process imposes a significant burden on researchers. In the past decade, the data-driven black-box deep learning method demonstrates its effectiveness in a wide range of real-world scenarios, which exacerbates the experimental burden of researchers and thus renders the potential successful discoveries veiled. Therefore, automating such a research and development (R&D) process is an urgent need. In this paper, we serve as the first effort to formalize the goal by proposing a Real-world Data-centric automatic R&D Benchmark, namely RD2Bench. RD2Bench benchmarks all the operations in data-centric automatic R&D (D-CARD) as a whole to navigate future work toward our goal directly. We focuses on evaluating the interaction and synergistic effects of various model capabilities and aiding to select the well-performed trustworthy models. Although RD2Bench is very challenging to the state-of-the-art (SOTA) large language model (LLM) named GPT-4, indicating ample research opportunities and more research efforts, LLMs possess promising potential to bring more significant development to D-CARD: They are able to implement some simple methods without adopting any additional techniques. We appeal to future work to take developing techniques for tackling automatic R&D into consideration, thus bringing the opportunities of the potential revolutionary upgrade to human productivity.
翻訳日:2024-04-18 14:24:17 公開日:2024-04-17
# 産業用テンソルネットワークにおける量子インスピレーション技術

Quantum-inspired Techniques in Tensor Networks for Industrial Contexts ( http://arxiv.org/abs/2404.11277v1 )

ライセンス: Link先を確認
Alejandro Mata Ali, Iñigo Perez Delgado, Aitor Moreno Fdez. de Leceta, (参考訳) 本稿では,産業環境や文脈のテンソルネットワークにおける量子インスパイアされたアルゴリズムと手法の適用性および実現可能性について検討し,利用可能な文献のコンパイルと,そのような手法に影響を及ぼす可能性のあるユースケースの分析を行う。 さらに,このような手法の限界について検討し,その潜在的な拡張性について検討する。

In this paper we present a study of the applicability and feasibility of quantum-inspired algorithms and techniques in tensor networks for industrial environments and contexts, with a compilation of the available literature and an analysis of the use cases that may be affected by such methods. In addition, we explore the limitations of such techniques in order to determine their potential scalability.
翻訳日:2024-04-18 14:24:17 公開日:2024-04-17
# リソース制限ネットワークのマルチモーダル類似性推定を用いた画像生成セマンティック通信

Image Generative Semantic Communication with Multi-Modal Similarity Estimation for Resource-Limited Networks ( http://arxiv.org/abs/2404.11280v1 )

ライセンス: Link先を確認
Eri Hosonuma, Taku Yamazaki, Takumi Miyoshi, Akihito Taya, Yuuki Nishiyama, Kaoru Sezaki, (参考訳) 限られたリソースでネットワークトラフィックを削減し、サポート環境を構築するためには、少ない送信データで画像を送信する方法が必要である。 特徴を維持しながら画像のサイズを圧縮する機械学習に基づく画像圧縮手法が提案されている。 しかし、ある状況下では、受信側で画像の意味情報の一部を再構成することは十分である。 この概念を実現するために,セマンティックコミュニケーションと呼ばれるセマンティック情報に基づくコミュニケーションと,セマンティックコミュニケーションを用いた画像伝達手法が提案されている。 この方法は画像の意味情報のみを送信し、受信者は画像生成モデルを用いて画像を再構成する。 本手法は,1種類の意味情報を利用するが,本来の画像と類似した画像の再構成は困難である。 本研究では,多様な意味情報を利用して効率的な意味コミュニケーションを行うマルチモーダル画像伝送手法を提案する。 提案手法は,画像からマルチモーダルな意味情報を抽出し,その情報のみを送信する。 その後、受信機は画像生成モデルを用いて複数の画像を生成し、意味的類似性に基づいて出力を選択する。 受信側は受信した特徴のみに基づいて出力を選択する必要があるが、従来のメトリクスを用いた意味的類似性の評価は困難である。 そこで本研究では,画像の意味的特徴の類似性を評価するための新しい指標について検討し,二つのスコアリング手法を提案する。 その結果,提案手法は,原画像と生成画像のセマンティック特徴との位置や構成などのセマンティックな類似性を比較することができることがわかった。 そこで,提案手法は,様々なサービスアプリケーションを対象とした移動体ネットワークによる画像の送信と利用を容易にする。

To reduce network traffic and support environments with limited resources, a method for transmitting images with low amounts of transmission data is required. Machine learning-based image compression methods, which compress the data size of images while maintaining their features, have been proposed. However, in certain situations, reconstructing a part of semantic information of images at the receiver end may be sufficient. To realize this concept, semantic-information-based communication, called semantic communication, has been proposed, along with an image transmission method using semantic communication. This method transmits only the semantic information of an image, and the receiver reconstructs the image using an image-generation model. This method utilizes one type of semantic information, but reconstructing images similar to the original image using only it is challenging. This study proposes a multi-modal image transmission method that leverages diverse semantic information for efficient semantic communication. The proposed method extracts multi-modal semantic information from an image and transmits only it. Subsequently, the receiver generates multiple images using an image-generation model and selects an output based on semantic similarity. The receiver must select the output based only on the received features; however, evaluating semantic similarity using conventional metrics is challenging. Therefore, this study explored new metrics to evaluate the similarity between semantic features of images and proposes two scoring procedures. The results indicate that the proposed procedures can compare semantic similarities, such as position and composition, between semantic features of the original and generated images. Thus, the proposed method can facilitate the transmission and utilization of photographs through mobile networks for various service applications.
翻訳日:2024-04-18 14:24:17 公開日:2024-04-17
# SoK:分散ファイナンス(DeFi)の基礎、分類、リスク

SoK: Decentralized Finance (DeFi) -- Fundamentals, Taxonomy and Risks ( http://arxiv.org/abs/2404.11281v1 )

ライセンス: Link先を確認
Krzysztof Gogol, Christian Killer, Malte Schlosser, Thomas Bocek, Burkhard Stiller, Claudio Tessone, (参考訳) 分散ファイナンス(Decentralized Finance、DeFi)は、暗号通貨とは必ずしも関係のない金融サービスを指す。 セキュリティと整合性のためにブロックチェーンを採用することで、DeFiは、中央銀行を含む小売や機関のユーザーを引きつける新たな可能性を生み出している。 新たな応用と洗練された設計を考えると、DeFiサービスと関連するリスクを理解することは、しばしば複雑である。 この研究は、DeFiの総値ロック(TVL)の90%以上をカバーするDeFiプロトコルの主要なカテゴリを体系的に提示する。 設計とアーキテクチャに基づいてDeFiプロトコルを区別するための構造化された方法論を確立する。 すべてのDeFiプロトコルは、流動性プール、ペッグと合成トークン、アグリゲータプロトコルの3つのグループのうちの1つに分類され、次にリスク分析が続く。 特に、我々は、同様のリスクに類似したペッグ付きトークンとして、安定したコイン、液体ステイクトークン、およびブリッジされた(包装された)資産を分類する。 DeFiユーザの完全なリスク露光は、DeFiプロトコルの設計だけでなく、その使用方法やトークンからもたらされる。

Decentralized Finance (DeFi) refers to financial services that are not necessarily related to crypto-currencies. By employing blockchain for security and integrity, DeFi creates new possibilities that attract retail and institution users, including central banks. Given its novel applications and sophisticated designs, the distinction between DeFi services and understanding the risk involved is often complex. This work systematically presents the major categories of DeFi protocols that cover over 90\% of total value locked (TVL) in DeFi. It establishes a structured methodology to differentiate between DeFi protocols based on their design and architecture. Every DeFi protocol is classified into one of three groups: liquidity pools, pegged and synthetic tokens, and aggregator protocols, followed by risk analysis. In particular, we classify stablecoins, liquid staking tokens, and bridged (wrapped) assets as pegged tokens resembling similar risks. The full risk exposure of DeFi users is derived not only from the DeFi protocol design but also from how it is used and with which tokens.
翻訳日:2024-04-18 14:14:33 公開日:2024-04-17
# 暗黙の転送とビットコミットメントのためのロバストで構成可能なデバイス非依存量子プロトコル

Robust and composable device-independent quantum protocols for oblivious transfer and bit commitment ( http://arxiv.org/abs/2404.11283v1 )

ライセンス: Link先を確認
Rishabh Batra, Sayantan Chakraborty, Rahul Jain, Upendra Kapshikar, (参考訳) 我々は、Magic Squareデバイスを用いて、Oblivious Transfer (OT) とbit commitment (BC) のための堅牢で構成可能なデバイス非依存の量子プロトコルを提案する。 我々は、長期の量子メモリが存在しないと仮定し、つまり、有限時間間隔の後に 'textbf{DELAY} と呼ばれる状態がデコヘアに格納されていると仮定する。 私たちのプロトコルのハイライトであるロバスト性によって、デバイスが理想的な仕様(emph{faulty but non-malicious} regime)から少し離れている場合でも、プロトコルは正確かつ安全であることを意味します。 実世界では、デバイスは製造ミスが小さく、理想的とは期待できないため、これは重要な特性である。 我々の理解と知識を最大限に活用するために、文献におけるOTとBCのための既知のDIプロトコルはいずれも堅牢ではない。 我々のプロトコルはシーケンシャルに構成可能であり、セキュリティ保証を保ちながら、より大きなプロトコルを構築するためのビルディングブロックとして使用できる。

We present robust and composable device-independent quantum protocols for oblivious transfer (OT) and bit commitment (BC) using Magic Square devices. We assume there is no long-term quantum memory, that is, after a finite time interval, referred to as \textbf{DELAY}, the states stored in the devices decohere. By robustness, which is a highlight of our protocols, we mean that the protocols are correct and secure even when devices are slightly off from their ideal specifications (the \emph{faulty but non-malicious} regime). This is an important property, since in the real world, devices would certainly have small manufacturing errors and cannot be expected to be ideal. To the best of our understanding and knowledge, none of the known DI protocols for OT and BC in the literature are robust; they can not guarantee correctness in the faulty but non-malicious regime. Our protocols are sequentially composable and hence, can be used as building blocks to construct larger protocols, while still preserving security guarantees.
翻訳日:2024-04-18 14:14:33 公開日:2024-04-17
# Processing-in-Memory 操作による主記憶型タイミングカバーとサイドチャネルの増幅

Amplifying Main Memory-Based Timing Covert and Side Channels using Processing-in-Memory Operations ( http://arxiv.org/abs/2404.11284v1 )

ライセンス: Link先を確認
Konstantinos Kanellopoulos, F. Nisa Bostanci, Ataberk Olgun, A. Giray Yaglikci, Ismail Emir Yuksel, Nika Mansouri Ghiasi, Zulal Bingol, Mohammad Sadrosadati, Onur Mutlu, (参考訳) プロセス・イン・メモリ(PiM)アーキテクチャの採用は、データ移動ボトルネックを緩和することで、高いパフォーマンスと低エネルギー消費を提供するため、勢いを増している。 しかし、そのようなアーキテクチャのセキュリティは十分に調査されていない。 PiMソリューションの採用により、メインメモリに直接アクセスする新たな方法が提供される。 この新たなメインメモリアクセス方式は、性能上のオーバーヘッドを伴わずに軽減し難い高スループットタイミング攻撃ベクトルの機会を開放することを示す。 本稿では,ハイスループットな主メモリベースのタイミングアタックであるIMPACTを導入し,PiMアーキテクチャの特性を活用して秘密チャネルとサイドチャネルを確立する。 IMPACTは、高スループット通信とプライベート情報漏洩を可能にする。 これを実現するためにIMPACT i)プロセッサ中心のメインメモリとキャッシュベースのタイミングアタックに必要な、高価なキャッシュバイパスステップを排除する。 (ii) PiM 演算の本質的な並列性を利用する。 まず、ホストCPU上で動作し、PiMアーキテクチャを活用して、メインメモリへの直接的かつ高速なアクセスと、高スループットの通信秘密チャネルを確立する2つのシークレットチャネル攻撃変種を紹介する。 第2に、PiM操作を利用して、ユーザのサンプルゲノムのプライベートな特性をリークするDNAシークエンス解析アプリケーションに対するサイドチャネル攻撃を示す。 私たちの結果は (i)我々の秘密チャネルは14.16Mb/sの通信スループットを実現しており、これは最先端のメインメモリベースの秘密チャネルの6.38倍高速である。 i) サイドチャネル攻撃により, 試料ゲノムの特性を, 96%の精度で7.5Mb/sのスループットで決定できる。 我々は、セキュアで堅牢なPiMアーキテクチャを実現するためのIMPACTのいくつかの対策を議論し、評価する。

The adoption of processing-in-memory (PiM) architectures has been gaining momentum because they provide high performance and low energy consumption by alleviating the data movement bottleneck. Yet, the security of such architectures has not been thoroughly explored. The adoption of PiM solutions provides a new way to directly access main memory, which can be potentially exploited by malicious user applications. We show that this new way to access main memory opens opportunities for high-throughput timing attack vectors that are hard-to-mitigate without significant performance overhead. We introduce IMPACT, a set of high-throughput main memory-based timing attacks that leverage characteristics of PiM architectures to establish covert and side channels. IMPACT enables high-throughput communication and private information leakage. To achieve this, IMPACT (i) eliminates expensive cache bypassing steps required by processor-centric main memory and cache-based timing attacks and (ii) leverages the intrinsic parallelism of PiM operations. First, we showcase two covert-channel attack variants that run on the host CPU and leverage PiM architectures to gain direct and fast access to main memory and establish high-throughput communication covert channels. Second, we showcase a side-channel attack on a DNA sequence analysis application that leaks the private characteristics of a user's sample genome by leveraging PiM operations. Our results demonstrate that (i) our covert channels achieve up to 14.16 Mb/s communication throughput, which is 6.38x faster than the state-of-the-art main memory-based covert channels, and (ii) our side-channel attack allows the attacker to determine the properties of a sample genome at a throughput of 7.5 Mb/s with 96% accuracy. We discuss and evaluate several countermeasures for IMPACT to enable secure and robust PiM architectures.
翻訳日:2024-04-18 14:14:33 公開日:2024-04-17
# 大規模言語モデルを用いた拡張翻訳のための嗜好駆動パラダイム

A Preference-driven Paradigm for Enhanced Translation with Large Language Models ( http://arxiv.org/abs/2404.11288v1 )

ライセンス: Link先を確認
Dawei Zhu, Sony Trenous, Xiaoyu Shen, Dietrich Klakow, Bill Byrne, Eva Hasler, (参考訳) 近年,大規模言語モデル (LLM) は,少量の並列データのみを用いて教師付き微調整 (SFT) によって顕著な翻訳性能を達成できることが報告されている。 しかし、SFTは単にトークンレベルで参照翻訳を模倣するようにモデルに指示し、参照に存在するノイズに弱い。 したがって、LLMがある程度の翻訳能力を獲得すれば、SFTの支援は高原に達することがしばしばあり、さらに並列データのサイズを拡大しても、さらなるメリットは得られない。 模倣に基づく SFT に付随するこの高原を克服するために,Planet-Luce モデルに基づく嗜好に基づくアプローチを提案する。 目的は、総合的な視点から翻訳の好みをより微妙な理解に向けてLSMを操ることであり、また、金の翻訳がない場合にはより弾力性が高いことである。 さらに,提案手法の有効性を検証するために,MAPLEというデータセットを構築した。 大規模な実験は、多種多様なLSMとテスト設定をまたいだ「高原を破る」アプローチの優位性を実証している。 我々の詳細な分析は、アプローチの成功における多種多様な翻訳と正確な選好スコアの重要な役割を浮き彫りにしている。

Recent research has shown that large language models (LLMs) can achieve remarkable translation performance through supervised fine-tuning (SFT) using only a small amount of parallel data. However, SFT simply instructs the model to imitate the reference translations at the token level, making it vulnerable to the noise present in the references. Hence, the assistance from SFT often reaches a plateau once the LLMs have achieved a certain level of translation capability, and further increasing the size of parallel data does not provide additional benefits. To overcome this plateau associated with imitation-based SFT, we propose a preference-based approach built upon the Plackett-Luce model. The objective is to steer LLMs towards a more nuanced understanding of translation preferences from a holistic view, while also being more resilient in the absence of gold translations. We further build a dataset named MAPLE to verify the effectiveness of our approach, which includes multiple translations of varying quality for each source sentence. Extensive experiments demonstrate the superiority of our approach in "breaking the plateau" across diverse LLMs and test settings. Our in-depth analysis underscores the pivotal role of diverse translations and accurate preference scores in the success of our approach.
翻訳日:2024-04-18 14:14:33 公開日:2024-04-17
# Webを用いたオンライン知能教育システムにおける高速学習のための帰納的認知診断

Inductive Cognitive Diagnosis for Fast Student Learning in Web-Based Online Intelligent Education Systems ( http://arxiv.org/abs/2404.11290v1 )

ライセンス: Link先を確認
Shuo Liu, Junhao Shen, Hong Qian, Aimin Zhou, (参考訳) 認知診断は、生徒の反応ログに基づいて、生徒の熟達度を測定することを目的としている。 Webベースのオンラインインテリジェント教育システム(WOIES)において重要なモジュールとして機能し、アイテムレコメンデーションの学習やコンピュータ化された適応テストといった下流タスクにおいて、上流と基本的な役割を担っている。 WOIESはオープンな学習環境であり、多くの新入生が常にトレーニングを登録し完了している。 WOIESでは、フィードバックの迅速化と学習の促進に効果的な認知診断が不可欠である。 しかし,既存の認知診断手法では,学習中に見つからない新入生の扱いにおいて,再学習が遅れてコストがかかるため,内在的に生徒固有の埋め込みが採用されている。 そこで本研究では,WOIESにおける学習者の素早い熟達レベル推論のための帰納的認知診断モデル(ICDM)を提案する。 具体的には、ICDMにおいて、新しい学生中心グラフ(SCG)を提案する。 学生固有の埋め込みを更新することで、熟達レベルを推定するのではなく、SCGにおける生徒の隣人の集合結果として帰納的熟達レベルを導出する。 すなわち、SCGはタスクを、レスポンスログに適合する最も適した生徒固有の埋め込みを見つけることから、SCGの異なるノードタイプに最も適した表現を見つけること、そして後者は、もはや再トレーニングを必要としないため、より効率的である。 この表現を得るために、ICDMは、学生、運動、概念の最終的な表現を学習する構築集約世代変換プロセスから構成される。 実世界のデータセットにまたがる大規模な実験により、ICDMは、常にトランスダクティブである既存の認知診断手法と比較して、新しい学生にとっての競合推論性能を維持しながら、はるかに高速であることが示された。

Cognitive diagnosis aims to gauge students' mastery levels based on their response logs. Serving as a pivotal module in web-based online intelligent education systems (WOIESs), it plays an upstream and fundamental role in downstream tasks like learning item recommendation and computerized adaptive testing. WOIESs are open learning environment where numerous new students constantly register and complete exercises. In WOIESs, efficient cognitive diagnosis is crucial to fast feedback and accelerating student learning. However, the existing cognitive diagnosis methods always employ intrinsically transductive student-specific embeddings, which become slow and costly due to retraining when dealing with new students who are unseen during training. To this end, this paper proposes an inductive cognitive diagnosis model (ICDM) for fast new students' mastery levels inference in WOIESs. Specifically, in ICDM, we propose a novel student-centered graph (SCG). Rather than inferring mastery levels through updating student-specific embedding, we derive the inductive mastery levels as the aggregated outcomes of students' neighbors in SCG. Namely, SCG enables to shift the task from finding the most suitable student-specific embedding that fits the response logs to finding the most suitable representations for different node types in SCG, and the latter is more efficient since it no longer requires retraining. To obtain this representation, ICDM consists of a construction-aggregation-generation-transformation process to learn the final representation of students, exercises and concepts. Extensive experiments across real-world datasets show that, compared with the existing cognitive diagnosis methods that are always transductive, ICDM is much more faster while maintains the competitive inference performance for new students.
翻訳日:2024-04-18 14:14:33 公開日:2024-04-17
# 近似と物理誘導適応を用いた近接的人間再構成

Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption ( http://arxiv.org/abs/2404.11291v1 )

ライセンス: Link先を確認
Buzhen Huang, Chen Li, Chongyang Xu, Liang Pan, Yangang Wang, Gim Hee Lee, (参考訳) 既存の複数人の再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てているが、密接な相互作用のモデリングを見落としている。 本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。 このタスクの主な課題は、深度あいまいさと重度の対人閉塞によって引き起こされる視覚情報不足である。 そこで我々は,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。 これは、人間の相互作用が社会的プロキシに従って特定のパターンを持つという観察に基づいている。 具体的には,まず,Vector Quantized-Variational AutoEncoder(VQ-VAE)に基づく潜在表現を設計し,人間のインタラクションをモデル化する。 次に、初期分布を認知するために、近似および物理誘導拡散モデルを導入する。 我々は拡散モデルを1つの個人を表す分岐を持つ二重分岐として設計し、相互に注意して相互作用をモデル化する。 VQ-VAEの学習先行と物理的制約を付加情報として,本提案手法は,近似や物理にも適する正確なポーズを推定できる。 Hi4D, 3DPW, CHI3Dの実験結果から, 提案手法が既存手法より優れていることが示された。 コードは \url{https://github.com/boycehbz/HumanInteraction} で公開されている。

Existing multi-person human reconstruction approaches mainly focus on recovering accurate poses or avoiding penetration, but overlook the modeling of close interactions. In this work, we tackle the task of reconstructing closely interactive humans from a monocular video. The main challenge of this task comes from insufficient visual information caused by depth ambiguity and severe inter-person occlusion. In view of this, we propose to leverage knowledge from proxemic behavior and physics to compensate the lack of visual information. This is based on the observation that human interaction has specific patterns following the social proxemics. Specifically, we first design a latent representation based on Vector Quantised-Variational AutoEncoder (VQ-VAE) to model human interaction. A proxemics and physics guided diffusion model is then introduced to denoise the initial distribution. We design the diffusion model as dual branch with each branch representing one individual such that the interaction can be modeled via cross attention. With the learned priors of VQ-VAE and physical constraint as the additional information, our proposed approach is capable of estimating accurate poses that are also proxemics and physics plausible. Experimental results on Hi4D, 3DPW, and CHI3D demonstrate that our method outperforms existing approaches. The code is available at \url{https://github.com/boycehbz/HumanInteraction}.
翻訳日:2024-04-18 14:14:33 公開日:2024-04-17
# LogSD:自己教師型学習と周波数ベースのマスキングによるシステムログからの異常検出

LogSD: Detecting Anomalies from System Logs through Self-supervised Learning and Frequency-based Masking ( http://arxiv.org/abs/2404.11294v1 )

ライセンス: Link先を確認
Yongzheng Xie, Hongyu Zhang, Muhammad Ali Babar, (参考訳) ログ分析は、大規模なソフトウェアシステムのトラブルシューティングにエンジニアが使用する主要なテクニックの1つである。 近年,システムログを解析してシステム異常を検出するために,教師付き,半教師付き,および教師なしのログ解析法が数多く提案されている。 これらの中、半教師付き手法は、緩やかなラベル付きデータ要求と最適な検出性能のバランスを保ち、教師なしと教師なしの手法とは対照的に注目を集めている。 しかし、既存の半教師付き手法は、学習された通常のパターン上の頻繁なログメッセージによって引き起こされる潜在的なバイアスを見落としているため、その性能は満足できない。 本研究では,新しい半教師付き自己教師型学習手法であるLogSDを提案する。 LogSDはデュアルネットワークアーキテクチャを採用し、周波数ベースのマスキングスキーム、グローバルからローカルへの再構築パラダイム、そして3つの自己教師型学習タスクを組み込んでいる。 これらの機能により、LogSDは比較的頻度の低いログメッセージに集中でき、これにより、歴史的な通常のデータからバイアスが少なく、差別的なパターンを効果的に学習できる。 この強調は最終的に異常検出性能の改善につながる。 一般的に使用されている3つのデータセットに対して大規模な実験が行われ、その結果、LogSDは8つの最先端ベンチマーク手法よりも著しく優れていることが示された。

Log analysis is one of the main techniques that engineers use for troubleshooting large-scale software systems. Over the years, many supervised, semi-supervised, and unsupervised log analysis methods have been proposed to detect system anomalies by analyzing system logs. Among these, semi-supervised methods have garnered increasing attention as they strike a balance between relaxed labeled data requirements and optimal detection performance, contrasting with their supervised and unsupervised counterparts. However, existing semi-supervised methods overlook the potential bias introduced by highly frequent log messages on the learned normal patterns, which leads to their less than satisfactory performance. In this study, we propose LogSD, a novel semi-supervised self-supervised learning approach. LogSD employs a dual-network architecture and incorporates a frequency-based masking scheme, a global-to-local reconstruction paradigm and three self-supervised learning tasks. These features enable LogSD to focus more on relatively infrequent log messages, thereby effectively learning less biased and more discriminative patterns from historical normal data. This emphasis ultimately leads to improved anomaly detection performance. Extensive experiments have been conducted on three commonly-used datasets and the results show that LogSD significantly outperforms eight state-of-the-art benchmark methods.
翻訳日:2024-04-18 14:14:33 公開日:2024-04-17
# 予測可能な行動の禁止方法

How to Exhibit More Predictable Behaviors ( http://arxiv.org/abs/2404.11296v1 )

ライセンス: Link先を確認
Salomé Lepers, Sophie Lemonnier, Vincent Thomas, Olivier Buffet, (参考訳) 本稿では,外部観測者による予測を最適化するために,エージェントが戦略を選択するという予測可能性の問題について考察する。 本研究では,環境動態やエージェントの方針に不確かさを考慮しつつ,これらの問題に対処する。 その目的のために、我々はオブザーバーが 1. 各段階におけるエージェントの今後の行動や状態を予測し、 2. 既知問題から計算した確率的ポリシーを用いてエージェントをモデル化し, オブザーバ対応マルコフ決定プロセス(OAMDP)の枠組みを活用する。 我々は,エージェントポリシーに関するオブザーバの信念に基づく報酬関数による行動および状態予測可能性のパフォーマンス基準を提案し,これらの予測可能なOAMDPは,目標指向あるいは割引されたMDPで表現できることを示し,提案された報酬関数の特性を理論的および経験的に2種類のグリッドワールド問題に基づいて分析する。

This paper looks at predictability problems, i.e., wherein an agent must choose its strategy in order to optimize the predictions that an external observer could make. We address these problems while taking into account uncertainties on the environment dynamics and on the observed agent's policy. To that end, we assume that the observer 1. seeks to predict the agent's future action or state at each time step, and 2. models the agent using a stochastic policy computed from a known underlying problem, and we leverage on the framework of observer-aware Markov decision processes (OAMDPs). We propose action and state predictability performance criteria through reward functions built on the observer's belief about the agent policy; show that these induced predictable OAMDPs can be represented by goal-oriented or discounted MDPs; and analyze the properties of the proposed reward functions both theoretically and empirically on two types of grid-world problems.
翻訳日:2024-04-18 14:14:33 公開日:2024-04-17
# 変圧器を用いた非競合データからの学習:高分解能空中画像のセマンティックセグメンテーションのための領域適応

Learning from Unlabelled Data with Transformers: Domain Adaptation for Semantic Segmentation of High Resolution Aerial Images ( http://arxiv.org/abs/2404.11299v1 )

ライセンス: Link先を確認
Nikolaos Dionelis, Francesco Pro, Luca Maiano, Irene Amerini, Bertrand Le Saux, (参考訳) 衛星や航空機からのデータは、ほとんどの場合未解決である。 このようなデータを正確にアノテートするのは難しく、専門知識が必要であり、時間的にもコストがかかる。 地球観測(EO)データが正しくラベル付けされたとしても、ラベルは時間とともに変化する可能性がある。 空中画像のセグメンテーションのための半教師付き学習フレームワーク内での非競合データからの学習は困難である。 本論文では,非アノテート・アース・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・モデル(NEOS)を開発した。 NEOSは、ターゲットドメインが基底真理セマンティックセグメンテーションマスクを持っていないため、ドメイン適応を行う。 ターゲットドメインとソースドメイン間の不整合は、取得シーン、環境条件、センサー、時間の違いに起因する。 我々のモデルは、異なるドメインの学習された表現を一致させる。 評価結果は、NEOSが成功し、未ラベルデータのセマンティックセグメンテーションにおいて、他のモデルよりも優れていることを示している。

Data from satellites or aerial vehicles are most of the times unlabelled. Annotating such data accurately is difficult, requires expertise, and is costly in terms of time. Even if Earth Observation (EO) data were correctly labelled, labels might change over time. Learning from unlabelled data within a semi-supervised learning framework for segmentation of aerial images is challenging. In this paper, we develop a new model for semantic segmentation of unlabelled images, the Non-annotated Earth Observation Semantic Segmentation (NEOS) model. NEOS performs domain adaptation as the target domain does not have ground truth semantic segmentation masks. The distribution inconsistencies between the target and source domains are due to differences in acquisition scenes, environment conditions, sensors, and times. Our model aligns the learned representations of the different domains to make them coincide. The evaluation results show that NEOS is successful and outperforms other models for semantic segmentation of unlabelled data.
翻訳日:2024-04-18 14:14:33 公開日:2024-04-17
# 地対空画像マッチングのためのセマンティックセグメンテーション誘導手法

A Semantic Segmentation-guided Approach for Ground-to-Aerial Image Matching ( http://arxiv.org/abs/2404.11302v1 )

ライセンス: Link先を確認
Francesco Pro, Nikolaos Dionelis, Luca Maiano, Bertrand Le Saux, Irene Amerini, (参考訳) 現在、地上画像の正確な地理的局在化は、ジャーナリズム、法科学分析、輸送、地球観測といった分野において重要な役割を担っている。 本研究は,GPSデータを使わずに,問合せ地上画像と対応する衛星画像とをマッチングする問題に対処する。 これは地上画像と衛星画像の特徴を比較することで行われ、3ストリームのシームズ様のネットワークを通じて、対応する衛星のセグメンテーションマスクを革新的に活用する。 提案手法であるSemantic Align Net (SAN)は,FoV(FoV)と地上パノラマ画像(FoV of 360{\deg})に焦点をあてる。 この斬新さは、衛星画像とセマンティックセグメンテーションマスクを融合させ、モデルが有用な特徴を抽出し、画像の重要な部分に集中できるようにすることを目的としている。 この研究は、画像のセマンティック解析を通してSANが、テストされた全FoVに対する未ラベルCVUSAデータセットのパフォーマンスを改善する方法を示す。

Nowadays the accurate geo-localization of ground-view images has an important role across domains as diverse as journalism, forensics analysis, transports, and Earth Observation. This work addresses the problem of matching a query ground-view image with the corresponding satellite image without GPS data. This is done by comparing the features from a ground-view image and a satellite one, innovatively leveraging the corresponding latter's segmentation mask through a three-stream Siamese-like network. The proposed method, Semantic Align Net (SAN), focuses on limited Field-of-View (FoV) and ground panorama images (images with a FoV of 360{\deg}). The novelty lies in the fusion of satellite images in combination with their semantic segmentation masks, aimed at ensuring that the model can extract useful features and focus on the significant parts of the images. This work shows how SAN through semantic analysis of images improves the performance on the unlabelled CVUSA dataset for all the tested FoVs.
翻訳日:2024-04-18 14:14:33 公開日:2024-04-17
# ランダムフォンノイマン測定に基づく量子物理学的非包含関数からの量子認証における既存の非包含性

Existential Unforgeability in Quantum Authentication From Quantum Physical Unclonable Functions Based on Random von Neumann Measurement ( http://arxiv.org/abs/2404.11306v1 )

ライセンス: Link先を確認
Soham Ghosh, Vladlen Galetsky, Pol Julià Farré, Christian Deppe, Roberto Ferrara, Holger Boche, (参考訳) Physical Unclonable Function (PUF) は、認証などの暗号化プロトコルにセキュアな指紋を提供する、ユニークな入力と出力のペアをもたらす、固有の非クロンブルな物理的ランダム性を持つという仮定を持つハードウェアデバイスである。 量子PUF(QPUF)の場合、入出力ペアは古典的なビットストリングの代わりに量子状態で構成され、公開チャネルによるチャレンジ再利用や、非閉鎖定理による信頼できる当事者に対する非信頼など、古典的なPUF(CPUF)よりも有利である。 近年、QPUFの研究のための一般化された数学的枠組みが開発され、QPUFモデルにセキュリティを保証できる方法が開発されている。 量子多項式時間 (QPT) に対する 'emph{existential unforgeability} は任意のランダムユニタリQPUFでは達成できないことが証明された。 非単位量子過程であるので、ランダムフォン・ノイマン測度に基づいてQPUFを定義する。 我々は、そのようなQPUFが存在しないことを証明した。 そこで本稿では,このような高いレベルの証明可能なセキュリティを記述した,既存の文献の最初のモデルを紹介する。 また、Haarランダムユニタリに適用された量子位相推定(QPE)プロトコルが、ユニタリの固有ベイジに関するフォン・ノイマン測度を近似することにより、この種のQPUFの近似実装として機能することを証明した。

Physical Unclonable Functions (PUFs) are hardware devices with the assumption of possessing inherent non-clonable physical randomness which leads to unique pairs of inputs and outputs that provide a secure fingerprint for cryptographic protocols like authentication. In the case of quantum PUFs (QPUFs), the input-output pairs consist of quantum states instead of classical bitstrings, offering advantages over classical PUFs (CPUFs) such as challenge reusability via public channels and non-reliance over any trusted party due to the no-cloning theorem. In recent literature, a generalized mathematical framework for studying QPUFs was developed, which paved the way for having QPUF models with provable security. It was proved that \emph{existential unforgeability} against Quantum Polynomial Time (QPT) adversaries cannot be achieved by any random unitary QPUF. Since measurements are non-unitary quantum processes, we define a QPUF based on random von Neumann measurements. We prove that such a QPUF is existentially unforgeable. Thus, we introduce the first model in existing literature that depicts such a high level of provable security. We also prove that the Quantum Phase Estimation (QPE) protocol applied on a Haar random unitary serves as an approximate implementation for this kind of QPUF as it approximates a von Neumann measurement on the eigenbasis of the unitary.
翻訳日:2024-04-18 14:14:33 公開日:2024-04-17
# 畳み込み操作における回転不変性の実現:データ駆動からメカニズム保証への移行

Achieving Rotation Invariance in Convolution Operations: Shifting from Data-Driven to Mechanism-Assured ( http://arxiv.org/abs/2404.11309v1 )

ライセンス: Link先を確認
Hanlin Mo, Guoying Zhao, (参考訳) データに依存しないディープニューラルネットワークの回転不変性を実現することは、常にホットな研究トピックである。 内在的な回転不変性はモデルの特徴表現能力を高め、多方向オブジェクト認識や検出といったタスクのパフォーマンスを向上させることができる。 本稿では,勾配,ソート,局所二項パターン,最大値など,学習不能な演算子の種類に基づいて,任意の回転に自然に不変な新しい畳み込み演算を設計する。 従来の研究とは異なり、これらの回転不変畳み込み(RIConvs)は学習可能なパラメータの数と同じであり、従来の畳み込み演算と同様の計算プロセスを持ち、交換可能である。 MNIST-Rotデータセットを用いて、まず様々な回転角の下でこれらのRIConvの不変性を検証し、それらの性能を以前の回転不変畳み込みニューラルネットワーク(RI-CNN)と比較する。 勾配演算子に基づく2種類のRIConvは、最先端の結果を得る。 その後、RIConvsと従来のCNNバックボーンの異なるタイプと深さを組み合わせる。 OuTex_00012, MTARSI, NWPU-RESISC-45データセットを用いて, テクスチャ認識, 航空機型認識, リモートセンシング画像分類タスクの性能試験を行った。 RIConvsはトレーニングデータに制限がある場合,これらのCNNバックボーンの精度を著しく向上することを示した。 さらに、データ拡張であっても、RIConvsはモデルの性能をさらに向上させることができる。

Achieving rotation invariance in deep neural networks without relying on data has always been a hot research topic. Intrinsic rotation invariance can enhance the model's feature representation capability, enabling better performance in tasks such as multi-orientation object recognition and detection. Based on various types of non-learnable operators, including gradient, sort, local binary pattern, maximum, etc., this paper designs a set of new convolution operations that are natually invariant to arbitrary rotations. Unlike most previous studies, these rotation-invariant convolutions (RIConvs) have the same number of learnable parameters and a similar computational process as conventional convolution operations, allowing them to be interchangeable. Using the MNIST-Rot dataset, we first verify the invariance of these RIConvs under various rotation angles and compare their performance with previous rotation-invariant convolutional neural networks (RI-CNNs). Two types of RIConvs based on gradient operators achieve state-of-the-art results. Subsequently, we combine RIConvs with different types and depths of classic CNN backbones. Using the OuTex_00012, MTARSI, and NWPU-RESISC-45 datasets, we test their performance on texture recognition, aircraft type recognition, and remote sensing image classification tasks. The results show that RIConvs significantly improve the accuracy of these CNN backbones, especially when the training data is limited. Furthermore, we find that even with data augmentation, RIConvs can further enhance model performance.
翻訳日:2024-04-18 14:14:33 公開日:2024-04-17
# 並列説明モデルを用いた細胞劣化検出のためのニューラルネットワーク構成の透明性向上

Use of Parallel Explanatory Models to Enhance Transparency of Neural Network Configurations for Cell Degradation Detection ( http://arxiv.org/abs/2404.11311v1 )

ライセンス: Link先を確認
David Mulvey, Chuan Heng Foh, Muhammad Ali Imran, Rahim Tafazolli, (参考訳) 前報では、リカレントニューラルネットワーク(RNN)を用いて、セルネットワーク電波信号の劣化を正確に検出できることが示されている。 しかし、予想外の結果、RNNにレイヤーを追加すると精度が低下することがわかった。 そこで本研究では,連続的な入力を処理するために内部状態を格納するRNNなどのニューラルネットワークの内部動作を照らし,理解するための並列モデルを構築した。 このモデルは、入力がガウス混合で表現できる任意の入力領域で使用できるという点で広く応用できる。 確率密度関数の観点からのRNN処理から,RNNの各層が入力分布を変換して検出精度を高める方法を示すことができる。 同時に、精度の向上を制限するために作用する副作用も発見する。 モデルの忠実性を示すため、RNN処理の各ステージと出力予測に対して検証する。 その結果、RNNの性能制限の理由を、将来のRNNや同様のタイプのニューラルネットワークの設計に有用な洞察で説明することができた。

In a previous paper, we have shown that a recurrent neural network (RNN) can be used to detect cellular network radio signal degradations accurately. We unexpectedly found, though, that accuracy gains diminished as we added layers to the RNN. To investigate this, in this paper, we build a parallel model to illuminate and understand the internal operation of neural networks, such as the RNN, which store their internal state in order to process sequential inputs. This model is widely applicable in that it can be used with any input domain where the inputs can be represented by a Gaussian mixture. By looking at the RNN processing from a probability density function perspective, we are able to show how each layer of the RNN transforms the input distributions to increase detection accuracy. At the same time we also discover a side effect acting to limit the improvement in accuracy. To demonstrate the fidelity of the model we validate it against each stage of RNN processing as well as the output predictions. As a result, we have been able to explain the reasons for the RNN performance limits with useful insights for future designs for RNNs and similar types of neural network.
翻訳日:2024-04-18 14:14:33 公開日:2024-04-17
# NTIRE 2024 短期UGC映像品質評価への挑戦:方法と結果

NTIRE 2024 Challenge on Short-form UGC Video Quality Assessment: Methods and Results ( http://arxiv.org/abs/2404.11313v1 )

ライセンス: Link先を確認
Xin Li, Kun Yuan, Yajing Pei, Yiting Lu, Ming Sun, Chao Zhou, Zhibo Chen, Radu Timofte, Wei Sun, Haoning Wu, Zicheng Zhang, Jun Jia, Zhichao Zhang, Linhan Cao, Qiubo Chen, Xiongkuo Min, Weisi Lin, Guangtao Zhai, Jianhui Sun, Tianyi Wang, Lei Li, Han Kong, Wenxuan Wang, Bing Li, Cheng Luo, Haiqiang Wang, Xiangguang Chen, Wenhui Meng, Xiang Pan, Huiying Shi, Han Zhu, Xiaozhong Xu, Lei Sun, Zhenzhong Chen, Shan Liu, Fangyuan Kong, Haotian Fan, Yifang Xu, Haoran Xu, Mengduo Yang, Jie Zhou, Jiaze Li, Shijie Wen, Mai Xu, Da Li, Shunyu Yao, Jiazhi Du, Wangmeng Zuo, Zhibo Li, Shuai He, Anlong Ming, Huiyuan Fu, Huadong Ma, Yong Wu, Fie Xue, Guozhi Zhao, Lina Du, Jie Guo, Yu Zhang, Huimin Zheng, Junhao Chen, Yue Liu, Dulan Zhou, Kele Xu, Qisheng Xu, Tao Sun, Zhixiang Ding, Yuhang Hu, (参考訳) NTIRE 2024 Challenge on Shortform UGC Video Quality Assessment (S-UGC VQA) では,人気ビデオプラットフォームであるKuaishou/Kwai Platformから収集したデータセットKVQに対して,様々な優れたソリューションを提出し,評価する。 KVQデータベースはトレーニング用2926本、検証用420本、テスト用854本を含む3つのパートに分けられる。 目的は、新しいベンチマークを構築し、S-UGC VQAの開発を進めることである。 コンテストには200人の参加者が参加し、13チームが最終テストフェーズに有効なソリューションを提出した。 提案手法はS-UGC VQAの最先端性能を実現した。 このプロジェクトはhttps://github.com/lixinustc/KVQChallenge-CVPR-NTIRE2024で見ることができる。

This paper reviews the NTIRE 2024 Challenge on Shortform UGC Video Quality Assessment (S-UGC VQA), where various excellent solutions are submitted and evaluated on the collected dataset KVQ from popular short-form video platform, i.e., Kuaishou/Kwai Platform. The KVQ database is divided into three parts, including 2926 videos for training, 420 videos for validation, and 854 videos for testing. The purpose is to build new benchmarks and advance the development of S-UGC VQA. The competition had 200 participants and 13 teams submitted valid solutions for the final testing phase. The proposed solutions achieved state-of-the-art performances for S-UGC VQA. The project can be found at https://github.com/lixinustc/KVQChallenge-CVPR-NTIRE2024.
翻訳日:2024-04-18 14:14:33 公開日:2024-04-17
# 転落・落落・落落の予測 : 日本語を事例として

To Drop or Not to Drop? Predicting Argument Ellipsis Judgments: A Case Study in Japanese ( http://arxiv.org/abs/2404.11315v1 )

ライセンス: Link先を確認
Yukiko Ishizuki, Tatsuki Kuribayashi, Yuichiroh Matsubayashi, Ryohei Sasano, Kentaro Inui, (参考訳) 話者は文中の述語についての特定の議論を省略することがある。 この研究は、人間による談話処理への関心と、この選択に対する支援書の執筆に動機づけられた、エリプシス(母語話者のエリプシスの決定を説明できるもの)に関する疑問に対処する。 そこで我々はまず,日本語のバランスの取れたコーパスにおいて,2000以上のデータポイントで特定の議論を省略すべきか否か,またその理由について,大規模な人文アノテーションを収集する。 その結果,母語話者はこれらの判断の共通基準を共有し,その量的特徴,例えば,バランスの取れたコーパスにおける関連言語因子の分布を明らかにした。 さらに,言語モデルに基づく議論楕円判断モデルの性能について検討し,特定の言語的側面におけるシステムの予測と人間の判断とのギャップを明らかにする。 我々の基本的な資源は、自然のヒトの楕円体判定に関するさらなる研究を促進することを願っている。

Speakers sometimes omit certain arguments of a predicate in a sentence; such omission is especially frequent in pro-drop languages. This study addresses a question about ellipsis -- what can explain the native speakers' ellipsis decisions? -- motivated by the interest in human discourse processing and writing assistance for this choice. To this end, we first collect large-scale human annotations of whether and why a particular argument should be omitted across over 2,000 data points in the balanced corpus of Japanese, a prototypical pro-drop language. The data indicate that native speakers overall share common criteria for such judgments and further clarify their quantitative characteristics, e.g., the distribution of related linguistic factors in the balanced corpus. Furthermore, the performance of the language model-based argument ellipsis judgment model is examined, and the gap between the systems' prediction and human judgments in specific linguistic aspects is revealed. We hope our fundamental resource encourages further studies on natural human ellipsis judgment.
翻訳日:2024-04-18 14:14:33 公開日:2024-04-17
# 正負のスケーリングによるコントラスト学習による合成画像検索の改善

Improving Composed Image Retrieval via Contrastive Learning with Scaling Positives and Negatives ( http://arxiv.org/abs/2404.11317v1 )

ライセンス: Link先を確認
Zhangchi Feng, Richong Zhang, Zhijie Nie, (参考訳) Composed Image Retrieval (CIR)タスクは、参照画像と修正テキストからなる合成クエリを使用してターゲット画像を取得することを目的としている。 高度な手法はしばしば、適切な正と負の例から恩恵を受ける最適化の目的として対照的な学習を利用する。 しかし、CIRの三重項は、高い手動アノテーションコストを発生させ、限られた正の例をもたらす。 さらに、既存の手法では、バッチ内の負のサンプリングが一般的であり、モデルで利用できる負の数を減少させる。 正の欠如に対処するために,マルチモーダルな大言語モデルを用いてCIR用三重項を生成するデータ生成手法を提案する。 そこで我々は,2段目のCIRのための2段階の微調整フレームワークを設計し,その2段目では多くの静的な否定表現を導入し,表現空間を高速に最適化する。 上記の2つの改善は効果的に積み重ねられ、プラグイン・アンド・プレイとして設計され、元のアーキテクチャを変更することなく既存のCIRモデルに容易に適用できる。 拡張実験とアブレーション分析により,本手法は正と負を効果的にスケールし,FashionIQとCIRRの両方のデータセットで最先端の結果が得られることを示した。 さらに,提案手法はゼロショット合成画像検索でも良好に機能し,低リソースシナリオに新たなCIRソリューションを提供する。

The Composed Image Retrieval (CIR) task aims to retrieve target images using a composed query consisting of a reference image and a modified text. Advanced methods often utilize contrastive learning as the optimization objective, which benefits from adequate positive and negative examples. However, the triplet for CIR incurs high manual annotation costs, resulting in limited positive examples. Furthermore, existing methods commonly use in-batch negative sampling, which reduces the negative number available for the model. To address the problem of lack of positives, we propose a data generation method by leveraging a multi-modal large language model to construct triplets for CIR. To introduce more negatives during fine-tuning, we design a two-stage fine-tuning framework for CIR, whose second stage introduces plenty of static representations of negatives to optimize the representation space rapidly. The above two improvements can be effectively stacked and designed to be plug-and-play, easily applied to existing CIR models without changing their original architectures. Extensive experiments and ablation analysis demonstrate that our method effectively scales positives and negatives and achieves state-of-the-art results on both FashionIQ and CIRR datasets. In addition, our methods also perform well in zero-shot composed image retrieval, providing a new CIR solution for the low-resources scenario.
翻訳日:2024-04-18 14:04:48 公開日:2024-04-17
# リモートセンシング変化検出のための微粒化情報とノイズデカップリングの活用

Leveraging Fine-Grained Information and Noise Decoupling for Remote Sensing Change Detection ( http://arxiv.org/abs/2404.11318v1 )

ライセンス: Link先を確認
Qiangang Du, Jinlong Peng, Changan Wang, Xu Chen, Qingdong He, Wenbing Zhu, Mingmin Chi, Yabiao Wang, Chengjie Wang, (参考訳) 変化検出は、バイテンポラルイメージペア間のデータを分析することによって、リモートセンシングオブジェクトの変化を識別することを目的としている。 変化検出画像対におけるデータ収集の時間的・空間的幅が大きいため、タスク固有のノイズやタスクに依存しないノイズがかなり多いことがしばしばある。 これまでの努力は、デノベーションに過度に焦点を合わせてきたが、これは、きめ細かい情報を大量に失うことになる。 本稿では、変更検出におけるきめ細かい特徴の重要性を再考し、きめ細かい情報補償とノイズデカップリング(FINO)のための一連の操作を提案する。 まず、そのコンテキストを利用して、特徴空間内のきめ細かい情報を補う。 次に、表現学習能力を向上させるために、形状認識と明るさ認識モジュールを設計する。 形状認識モジュールは、より正確な形状推定のために背骨をガイドし、物体形状特徴の抽出において背骨ネットワークを誘導する。 明るさ認識モジュールは全体輝度推定を学習し、タスク非依存雑音に対するモデルの堅牢性を改善する。 最後に、タスク固有のノイズ分離構造を、特徴的類似性からノイズ干渉を分離するモデルの能力を改善するために設計する。 これらのトレーニング手法により,提案手法は複数の変更検出ベンチマークにおいて新しいSOTA(State-of-the-art)を実現する。 コードは利用可能になります。

Change detection aims to identify remote sense object changes by analyzing data between bitemporal image pairs. Due to the large temporal and spatial span of data collection in change detection image pairs, there are often a significant amount of task-specific and task-agnostic noise. Previous effort has focused excessively on denoising, with this goes a great deal of loss of fine-grained information. In this paper, we revisit the importance of fine-grained features in change detection and propose a series of operations for fine-grained information compensation and noise decoupling (FINO). First, the context is utilized to compensate for the fine-grained information in the feature space. Next, a shape-aware and a brightness-aware module are designed to improve the capacity for representation learning. The shape-aware module guides the backbone for more precise shape estimation, guiding the backbone network in extracting object shape features. The brightness-aware module learns a overall brightness estimation to improve the model's robustness to task-agnostic noise. Finally, a task-specific noise decoupling structure is designed as a way to improve the model's ability to separate noise interference from feature similarity. With these training schemes, our proposed method achieves new state-of-the-art (SOTA) results in multiple change detection benchmarks. The code will be made available.
翻訳日:2024-04-18 14:04:48 公開日:2024-04-17
# VBR: ローマのビジョンベンチマーク

VBR: A Vision Benchmark in Rome ( http://arxiv.org/abs/2404.11322v1 )

ライセンス: Link先を確認
Leonardo Brizi, Emanuele Giacomini, Luca Di Giammarino, Simone Ferrari, Omar Salem, Lorenzo De Rebotti, Giorgio Grisetti, (参考訳) 本稿では,RGBデータ,3次元点雲,IMU,GPSデータを含む,ローマで収集された視覚・知覚研究データセットについて述べる。 我々は、自律ロボット工学とコンピュータビジョンの研究を進めるために、視覚計測とSLAMをターゲットにした新しいベンチマークを導入する。 この作業は、環境の多様性、モーションパターン、センサー周波数など、いくつかの問題に同時に対処することで、既存のデータセットを補完する。 最新のデバイスを使用し、時間同期に対処しながら、センサーの内在的および外在的を正確に校正する効果的な手順を提示する。 録音中は、マルチフロアの建物、庭園、都市と高速道路のシナリオをカバーしています。 ハンドヘルドとカーベースのデータ収集を組み合わせることで、私たちのセットアップはあらゆるロボット(四輪車、四輪車、自動運転車)をシミュレートできます。 このデータセットは、Bundle Adjustmentを通じてLiDAR点雲を用いてRTK-GPS推定を洗練する新しい手法に基づく、正確な6-dof基底真理を含んでいる。 トレーニングとテストで分割されたすべてのシーケンスは、私たちのWebサイトからアクセスできます。

This paper presents a vision and perception research dataset collected in Rome, featuring RGB data, 3D point clouds, IMU, and GPS data. We introduce a new benchmark targeting visual odometry and SLAM, to advance the research in autonomous robotics and computer vision. This work complements existing datasets by simultaneously addressing several issues, such as environment diversity, motion patterns, and sensor frequency. It uses up-to-date devices and presents effective procedures to accurately calibrate the intrinsic and extrinsic of the sensors while addressing temporal synchronization. During recording, we cover multi-floor buildings, gardens, urban and highway scenarios. Combining handheld and car-based data collections, our setup can simulate any robot (quadrupeds, quadrotors, autonomous vehicles). The dataset includes an accurate 6-dof ground truth based on a novel methodology that refines the RTK-GPS estimate with LiDAR point clouds through Bundle Adjustment. All sequences divided in training and testing are accessible through our website.
翻訳日:2024-04-18 14:04:48 公開日:2024-04-17
# 依存雑音を持つ親の学習について

On Learning Parities with Dependent Noise ( http://arxiv.org/abs/2404.11325v1 )

ライセンス: Link先を確認
Noah Golowich, Ankur Moitra, Dhruv Rohatgi, (参考訳) 本報告では,小バッチのノイズ分布の弱さに対して,LPN仮定による学習パリティが頑健であることを示す。 これは[AG11]の線形化手法に部分的に反する。 本論文の資料は,強化学習と教師あり学習の暗号的分離において,ロバスト性保証が重要な要素であった,著者らによる最近の研究[GMR24]から得られたものである。

In this expository note we show that the learning parities with noise (LPN) assumption is robust to weak dependencies in the noise distribution of small batches of samples. This provides a partial converse to the linearization technique of [AG11]. The material in this note is drawn from a recent work by the authors [GMR24], where the robustness guarantee was a key component in a cryptographic separation between reinforcement learning and supervised learning.
翻訳日:2024-04-18 14:04:48 公開日:2024-04-17
# 領域一般化のための単一時間監視型リモート変更検出

Single-temporal Supervised Remote Change Detection for Domain Generalization ( http://arxiv.org/abs/2404.11326v1 )

ライセンス: Link先を確認
Qiangang Du, Jinlong Peng, Xu Chen, Qingdong He, Qiang Nie, Wenbing Zhu, Mingmin Chi, Yabiao Wang, Chengjie Wang, (参考訳) 変化検出はリモートセンシング画像解析に広く応用されている。 既存の方法はデータセットごとに個別にトレーニングモデルを必要とするため、ドメインの一般化は不十分である。 さらに、これらの手法は、高価で実用的でない、大量の高品質なペアラベルデータに大きく依存している。 本稿では,変化検出領域の一般化のための視覚言語事前学習に基づくマルチモーダルコントラスト学習(ChangeCLIP)を提案する。 さらに,素早い学習のための動的文脈最適化を提案する。 一方、既存の手法のデータ依存問題に対処するため、単時間かつ制御可能なAI生成トレーニング戦略(SAIN)を導入する。 これにより、実世界の画像ペアを使わずに、多数の単一時間画像を用いてモデルを訓練し、優れた一般化を実現することができる。 一連の実変化検出データセットに関する大規模な実験により、ChangeCLIPの優位性と強力な一般化が検証され、最先端の変化検出方法よりも優れた結果が得られた。 コードは利用可能です。

Change detection is widely applied in remote sensing image analysis. Existing methods require training models separately for each dataset, which leads to poor domain generalization. Moreover, these methods rely heavily on large amounts of high-quality pair-labelled data for training, which is expensive and impractical. In this paper, we propose a multimodal contrastive learning (ChangeCLIP) based on visual-language pre-training for change detection domain generalization. Additionally, we propose a dynamic context optimization for prompt learning. Meanwhile, to address the data dependency issue of existing methods, we introduce a single-temporal and controllable AI-generated training strategy (SAIN). This allows us to train the model using a large number of single-temporal images without image pairs in the real world, achieving excellent generalization. Extensive experiments on series of real change detection datasets validate the superiority and strong generalization of ChangeCLIP, outperforming state-of-the-art change detection methods. Code will be available.
翻訳日:2024-04-18 14:04:48 公開日:2024-04-17
# ソーシャルナビゲーションにおけるヒューマンスレッドの追従

Following the Human Thread in Social Navigation ( http://arxiv.org/abs/2404.11327v1 )

ライセンス: Link先を確認
Luca Scofano, Alessio Sampieri, Tommaso Campari, Valentino Sacco, Indro Spinelli, Lamberto Ballan, Fabio Galasso, (参考訳) 共有環境での人間とロボットのコラボレーションの成功は、ロボットの人間の動きへのリアルタイム適応に依存している。 特にSocial Navigationでは、エージェントは十分に接近して助けるが、人間が自由に動き、衝突を避けられるようにバックアップする準備が整う必要がある。 人間軌道は社会航法において重要な手がかりとして現れるが、ロボットの自我中心的な視点から部分的に観察可能であり、処理には計算的に複雑である。 本研究では,ロボットの行動履歴に基づく社会ダイナミクス適応モデル(SDA)を提案する。 本稿では、まず、人間の軌道を社会力学にエンコードする2段階強化学習フレームワークを提案し、この符号化された情報、現在の状況、および以前の行動に基づいて、動作ポリシーを学習する。 ここでは、軌道は完全に見え、すなわち特権情報として仮定される。 第2段階では、訓練されたポリシーは軌道に直接アクセスすることなく機能する。 その代わり、このモデルは、過去の行動や状況の履歴だけからリアルタイムで社会的ダイナミクスを推測する。 新たなHabitat 3.0プラットフォームでテストされたSDAは、人間の発見と追跡において、新しい最先端(SoA)のパフォーマンスを設定できる。

The success of collaboration between humans and robots in shared environments relies on the robot's real-time adaptation to human motion. Specifically, in Social Navigation, the agent should be close enough to assist but ready to back up to let the human move freely, avoiding collisions. Human trajectories emerge as crucial cues in Social Navigation, but they are partially observable from the robot's egocentric view and computationally complex to process. We propose the first Social Dynamics Adaptation model (SDA) based on the robot's state-action history to infer the social dynamics. We propose a two-stage Reinforcement Learning framework: the first learns to encode the human trajectories into social dynamics and learns a motion policy conditioned on this encoded information, the current status, and the previous action. Here, the trajectories are fully visible, i.e., assumed as privileged information. In the second stage, the trained policy operates without direct access to trajectories. Instead, the model infers the social dynamics solely from the history of previous actions and statuses in real-time. Tested on the novel Habitat 3.0 platform, SDA sets a novel state of the art (SoA) performance in finding and following humans.
翻訳日:2024-04-18 14:04:48 公開日:2024-04-17
# ニューラルネットワーク特徴属性の分解問題の理解に向けて

Toward Understanding the Disagreement Problem in Neural Network Feature Attribution ( http://arxiv.org/abs/2404.11330v1 )

ライセンス: Link先を確認
Niklas Koenen, Marvin N. Wright, (参考訳) 近年、ニューラルネットワークは、複雑なパターンや関係を生データから識別する顕著な能力を示している。 しかし、これらのブラックボックスモデルの内部動作を理解することは依然として困難でありながら、高い意思決定には不可欠である。 これらのブラックボックスを説明するための顕著なアプローチは、モデル予測のために各入力変数に関連性や貢献スコアを割り当てる特徴属性法である。 勾配に基づく手法からバックプロパゲーションに基づく手法まで、提案された手法の多さにもかかわらず、どの手法を使うべきかという重要な議論が続いている。 結果の信頼性や堅牢性を評価するために,様々な評価指標が提案されている。 しかし、現在の研究は、彼らの説明における最先端の手法の相違を浮き彫りにしている。 我々の研究は、説明の基本的な、分布的な振る舞いを調査することによって、この混乱に対処する。 さらに、包括的シミュレーション研究を通じて、一般的なスケーリングとエンコーディング技術が説明品質に与える影響を説明し、その効果を異なる効果サイズで評価し、ランクに基づく評価指標における矛盾の原因を実証する。

In recent years, neural networks have demonstrated their remarkable ability to discern intricate patterns and relationships from raw data. However, understanding the inner workings of these black box models remains challenging, yet crucial for high-stake decisions. Among the prominent approaches for explaining these black boxes are feature attribution methods, which assign relevance or contribution scores to each input variable for a model prediction. Despite the plethora of proposed techniques, ranging from gradient-based to backpropagation-based methods, a significant debate persists about which method to use. Various evaluation metrics have been proposed to assess the trustworthiness or robustness of their results. However, current research highlights disagreement among state-of-the-art methods in their explanations. Our work addresses this confusion by investigating the explanations' fundamental and distributional behavior. Additionally, through a comprehensive simulation study, we illustrate the impact of common scaling and encoding techniques on the explanation quality, assess their efficacy across different effect sizes, and demonstrate the origin of inconsistency in rank-based evaluation metrics.
翻訳日:2024-04-18 14:04:48 公開日:2024-04-17
# 空洞ネットワークにおける量子ウォークと絡み合い

Quantum walks and entanglement in cavity networks ( http://arxiv.org/abs/2404.11331v1 )

ライセンス: Link先を確認
Christian Di Fidio, Laura Ares, Jan Sperling, (参考訳) 量子現象のポテンシャルを最大限に活用するためには、異なる物理プラットフォームのジョイント量子演算に依存して、光物質界面と複雑な量子ネットワークが必要である。 本研究では、多部量子系の量子特性を解析し、2レベル原子を持つ光学キャビティの任意に大きな集合から成る。 特に、そのような系の量子ウォークを探索し、結果として生じる絡み合いを決定する。 現実的な不完全性は、原子の光学的損失と自然崩壊としてモデルに含まれる。 トーラスのトポロジーと非配向性M\オビウスストリップは、我々のアプローチの汎用性を実証し、量子シミュレーション応用に興味深い量子力学と干渉効果をもたらす複雑なネットワークの例として機能する。

For harnessing the full potential of quantum phenomena, light-matter interfaces and complexly connected quantum networks are required, relying on the joint quantum operation of different physical platforms. In this work, we analyze the quantum properties of multipartite quantum systems, consisting of an arbitrarily large collection of optical cavities with two-level atoms. In particular, we explore quantum walks in such systems and determine the resulting entanglement. Realistic imperfections are included in the model as optical losses and spontaneous decays of atoms. The topology of torus and the non-orientable M\"obius strip serve as examples of complex networks we consider, demonstrating the versatility of our approach and resulting in interesting quantum dynamics and interference effects for quantum simulation applications.
翻訳日:2024-04-18 14:04:48 公開日:2024-04-17
# パリティ符号と雑音バイアス量子ビットを用いたフォールトトレラント量子コンピューティング

Fault-tolerant quantum computing with the parity code and noise-biased qubits ( http://arxiv.org/abs/2404.11332v1 )

ライセンス: Link先を確認
Anette Messinger, Valentin Torggler, Berend Klaver, Michael Fellner, Wolfgang Lechner, (参考訳) 本稿では,ノイズバイアス量子ビットのコード結合とパリティアーキテクチャに基づく,フォールトトレラントな普遍量子コンピューティングアーキテクチャを提案する。 パリティアーキテクチャは、近接する物理的相互作用から任意の論理接続を得るために特別に調整されたLDPCコードとして理解することができる。 コードレイアウトはアルゴリズムの要求に応じて動的に調整できる。 これにより任意のコード距離に到達し、フォールトトレラントゲートの普遍的なセットでエラーを指数関数的に抑制することができる。 コンカレントキャットコードのためのツールセットに加えて,コード内のパリティキュービットに直接対処することにより,任意のキュービット集合間の並列化可能な相互作用を特徴付ける。 提案方式では,重み3と重み4の安定化器と近接する2次元正方格子接続しか必要とせず,同じ符号距離の繰り返し符号に比べて物理量子ビットオーバーヘッドの少ない符号が可能である。

We present a fault-tolerant universal quantum computing architecture based on a code concatenation of noise-biased qubits and the parity architecture. The parity architecture can be understood as a LDPC code tailored specifically to obtain any desired logical connectivity from nearest neighbor physical interactions. The code layout can be dynamically adjusted to algorithmic requirements on-the-fly. This allows reaching arbitrary code distances and thereby exponential suppression of errors with a universal set of fault-tolerant gates. In addition to the previously explored tool-sets for concatenated cat codes, our approach features parallelizable interactions between arbitrary sets of qubits by directly addressing the parity qubits in the code. The proposed scheme enables codes with less physical qubit overhead compared to the repetition code with the same code distances, while requiring only weight-3 and weight-4 stabilizers and nearest neighbor 2D square-lattice connectivity.
翻訳日:2024-04-18 14:04:48 公開日:2024-04-17
# SoccerNetゲーム状態再構築:ミニマップ上でのエンド・ツー・エンドの選手追跡と識別

SoccerNet Game State Reconstruction: End-to-End Athlete Tracking and Identification on a Minimap ( http://arxiv.org/abs/2404.11335v1 )

ライセンス: Link先を確認
Vladimir Somers, Victor Joos, Anthony Cioppa, Silvio Giancola, Seyed Abolfazl Ghasemzadeh, Floriane Magera, Baptiste Standaert, Amir Mohammad Mansourian, Xin Zhou, Shohreh Kasaei, Bernard Ghanem, Alexandre Alahi, Marc Van Droogenbroeck, Christophe De Vleeschouwer, (参考訳) ピッチ上の選手の追跡と識別は、プレイヤーがカバーする全距離を推定したり、チームの戦術を理解するなど、ゲームから重要な洞察を集める上で中心的な役割を果たす。 このトラッキングと識別処理は、ピッチの2Dトップビュー(すなわちミニマップ)上の選手の位置とアイデンティティによって定義されるゲーム状態の再構築に不可欠である。 しかし、1台のカメラで撮影したビデオからゲームの状態を再構築することは困難である。 フィールド内の選手をローカライズし識別するために、選手の位置とカメラの視点を理解する必要がある。 本稿では,ゲーム状態再構成のタスクを形式化し,サッカー映像に着目した新しいゲーム状態再構成データセットであるFocoNet-GSRを紹介する。 SoccerNet-GSRは、ピッチローカライゼーションとカメラキャリブレーションのための937万ラインポイントのアノテートされた30秒間の200のビデオシーケンスと、それぞれの役割、チーム、ジャージー番号でピッチ上の236万以上のアスリートのポジションで構成されている。 さらに,ゲーム状態復元手法を評価する新しい指標であるGS-HOTAを紹介する。 最後に,ゲーム状態復元のためのエンド・ツー・エンドのベースラインを提案し,その研究をブートストラップする。 我々の実験は、GSRは挑戦的な新しい課題であり、将来の研究の場を開くことを示している。 データセットとコードベースはhttps://github.com/SoccerNet/sn-gamestate.comで公開されています。

Tracking and identifying athletes on the pitch holds a central role in collecting essential insights from the game, such as estimating the total distance covered by players or understanding team tactics. This tracking and identification process is crucial for reconstructing the game state, defined by the athletes' positions and identities on a 2D top-view of the pitch, (i.e. a minimap). However, reconstructing the game state from videos captured by a single camera is challenging. It requires understanding the position of the athletes and the viewpoint of the camera to localize and identify players within the field. In this work, we formalize the task of Game State Reconstruction and introduce SoccerNet-GSR, a novel Game State Reconstruction dataset focusing on football videos. SoccerNet-GSR is composed of 200 video sequences of 30 seconds, annotated with 9.37 million line points for pitch localization and camera calibration, as well as over 2.36 million athlete positions on the pitch with their respective role, team, and jersey number. Furthermore, we introduce GS-HOTA, a novel metric to evaluate game state reconstruction methods. Finally, we propose and release an end-to-end baseline for game state reconstruction, bootstrapping the research on this task. Our experiments show that GSR is a challenging novel task, which opens the field for future research. Our dataset and codebase are publicly available at https://github.com/SoccerNet/sn-gamestate.
翻訳日:2024-04-18 14:04:48 公開日:2024-04-17
# 船舶に航空機を着陸させる視覚制御

Vision-based control for landing an aerial vehicle on a marine vessel ( http://arxiv.org/abs/2404.11336v1 )

ライセンス: Link先を確認
Haohua Dong, (参考訳) 本研究は,イメージベースビジュアルサーボ制御を用いた移動プラットフォーム上での航空機の着陸問題に対処する。 第一に、四回転子機の数学的モデルを導入し、次いでインナーループ制御の設計を行う。 第2段階では、テクスチャ化された対象平面上の画像特徴を利用して、視覚に基づく制御法則を導出する。 着陸目標に存在するランドマークの球面セントロイドの画像は位置測定として、翻訳光流は速度測定として用いられる。 視線系の運動学は観測可能な特徴の観点から表現され、提案法は、視線系と対象との未知距離を推定することなく収束を保証し、また、望ましくない衝突を回避して、厳密な正の維持が保証される。 提案法の性能は,MATLABおよび3次元シミュレーションソフトウェアGazeboで評価される。 移動目標の異なる速度プロファイルに対して, 提案した制御器のロバスト性を示す4軸UAVのシミュレーション結果を提供する。

This work addresses the landing problem of an aerial vehicle, exemplified by a simple quadrotor, on a moving platform using image-based visual servo control. First, the mathematical model of the quadrotor aircraft is introduced, followed by the design of the inner-loop control. At the second stage, the image features on the textured target plane are exploited to derive a vision-based control law. The image of the spherical centroid of a set of landmarks present in the landing target is used as a position measurement, whereas the translational optical flow is used as velocity measurement. The kinematics of the vision-based system is expressed in terms of the observable features, and the proposed control law guarantees convergence without estimating the unknown distance between the vision system and the target, which is also guaranteed to remain strictly positive, avoiding undesired collisions. The performance of the proposed control law is evaluated in MATLAB and 3-D simulation software Gazebo. Simulation results for a quadrotor UAV are provided for different velocity profiles of the moving target, showcasing the robustness of the proposed controller.
翻訳日:2024-04-18 14:04:48 公開日:2024-04-17
# LLMs for Cyber Security: 新たな機会

LLMs for Cyber Security: New Opportunities ( http://arxiv.org/abs/2404.11338v1 )

ライセンス: Link先を確認
Dinil Mon Divakaran, Sai Teja Peddinti, (参考訳) 大規模言語モデル (LLMs) は、多くの産業にとって有益な、強力で汎用的なモデルである。 LLMの出現に伴い、サイバーセキュリティ、特にセキュリティおよび安全領域の課題に対処する上でのLLMの可能性を探究し、要約するなど、サイバーセキュリティを新たに検討する。

Large language models (LLMs) are a class of powerful and versatile models that are beneficial to many industries. With the emergence of LLMs, we take a fresh look at cyber security, specifically exploring and summarizing the potential of LLMs in addressing challenging problems in the security and safety domains.
翻訳日:2024-04-18 14:04:48 公開日:2024-04-17
# 手書き文字認識システムにおけるベストプラクティス

Best Practices for a Handwritten Text Recognition System ( http://arxiv.org/abs/2404.11339v1 )

ライセンス: Link先を確認
George Retsinas, Giorgos Sfikas, Basilis Gatos, Christophoros Nikou, (参考訳) 近年,深層学習の普及に伴い,手書き文字認識が急速に発展してきた。 ディープラーニング手法は、テキスト認識に関するパフォーマンスを顕著に向上させるが、小さな前処理やアーキテクチャ/最適化要素を変更した場合でも、パフォーマンスの非自明な偏差を検出することができる。 この作業は‘ベストプラクティス’の理屈に従っており、手書きのテキスト認識システムをさらに強化し、優れたパフォーマンスを提供するための、シンプルで効果的な経験的プラクティスを強調している。 具体的には,深部HTRシステムの3つの基本的な側面を検討した。 1)前処理ステップにおける画像のアスペクト比を保持する。 2) CNN出力の3D特徴マップを一連の特徴に変換するために最大プールを使用する。 3)追加のCTC損失によりトレーニング手順を補助し,最大値の逐次的特徴のショートカットとして機能する。 これらの単純な修正によって、IAMとRIMESの両方のデータセットに対して、基本的な畳み込みリカレント(CNN+LSTM)アーキテクチャを考慮しながら、最先端の結果に近づくことができる。 コードはhttps://github.com/georgeretsi/HTR-best-practices/で公開されている。

Handwritten text recognition has been developed rapidly in the recent years, following the rise of deep learning and its applications. Though deep learning methods provide notable boost in performance concerning text recognition, non-trivial deviation in performance can be detected even when small pre-processing or architectural/optimization elements are changed. This work follows a ``best practice'' rationale; highlight simple yet effective empirical practices that can further help training and provide well-performing handwritten text recognition systems. Specifically, we considered three basic aspects of a deep HTR system and we proposed simple yet effective solutions: 1) retain the aspect ratio of the images in the preprocessing step, 2) use max-pooling for converting the 3D feature map of CNN output into a sequence of features and 3) assist the training procedure via an additional CTC loss which acts as a shortcut on the max-pooled sequential features. Using these proposed simple modifications, one can attain close to state-of-the-art results, while considering a basic convolutional-recurrent (CNN+LSTM) architecture, for both IAM and RIMES datasets. Code is available at https://github.com/georgeretsi/HTR-best-practices/.
翻訳日:2024-04-18 14:04:48 公開日:2024-04-17
# 因果室:AI方法論のテストベッドとしてのリアル物理システム

The Causal Chambers: Real Physical Systems as a Testbed for AI Methodology ( http://arxiv.org/abs/2404.11341v1 )

ライセンス: Link先を確認
Juan L. Gamella, Jonas Peters, Peter Bühlmann, (参考訳) AI、機械学習、統計学のいくつかの分野において、新しい方法やアルゴリズムの検証は、適切な実世界のデータセットの不足によって妨げられることが多い。 研究者はしばしばシミュレーションデータに目を向ける必要があり、提案手法の実際の問題への適用性に関する限られた情報が得られる。 一歩前進して、非自明だがよく理解された物理的システムから、大規模データセットを迅速かつ安価に生成できる2つのデバイスを構築しました。 因果室と呼ばれる装置は、コンピュータ制御された研究室で、これらの物理システムから変数の配列を操作および測定することができ、様々な分野のアルゴリズムのリッチなテストベッドを提供する。 本稿では、因果発見、分布外一般化、変化点検出、独立成分分析、記号回帰などの分野における一連のケーススタディを通して、潜在的な応用を解説する。 因果推論に応用するためには、チャンバーは慎重に介入を行うことができる。 また,各チャンバーの因果モデルを提供し,実証的に検証する。 すべてのハードウェアとソフトウェアはオープンソースであり、データセットは causalchamber.org または Python パッケージ causalchamber で公開されている。

In some fields of AI, machine learning and statistics, the validation of new methods and algorithms is often hindered by the scarcity of suitable real-world datasets. Researchers must often turn to simulated data, which yields limited information about the applicability of the proposed methods to real problems. As a step forward, we have constructed two devices that allow us to quickly and inexpensively produce large datasets from non-trivial but well-understood physical systems. The devices, which we call causal chambers, are computer-controlled laboratories that allow us to manipulate and measure an array of variables from these physical systems, providing a rich testbed for algorithms from a variety of fields. We illustrate potential applications through a series of case studies in fields such as causal discovery, out-of-distribution generalization, change point detection, independent component analysis, and symbolic regression. For applications to causal inference, the chambers allow us to carefully perform interventions. We also provide and empirically validate a causal model of each chamber, which can be used as ground truth for different tasks. All hardware and software is made open source, and the datasets are publicly available at causalchamber.org or through the Python package causalchamber.
翻訳日:2024-04-18 14:04:48 公開日:2024-04-17
# 協調フィルタリングに適合する大規模言語モデル: 効率的なLLMベースのレコメンダシステム

Large Language Models meet Collaborative Filtering: An Efficient All-round LLM-based Recommender System ( http://arxiv.org/abs/2404.11343v1 )

ライセンス: Link先を確認
Sein Kim, Hongseok Kang, Seungyoon Choi, Donghyun Kim, Minchul Yang, Chanyoung Park, (参考訳) 協調フィルタリング推薦システム (CF-RecSys) は, ソーシャルメディアやeコマースプラットフォーム上でのユーザエクスペリエンス向上に成功している。 しかし, CF-RecSysは, 疎密なユーザとイテムの相互作用を伴うコールドシナリオで苦労しているため, 事前学習したモダリティエンコーダとLarge Language Models(LLMs)に基づくユーザ/イテム(例えばテキストや画像)のモダリティ情報の活用に重点を置いている。 寒冷なシナリオでは有効であるが, 協調的な知識の欠如により, 温暖なシナリオ下では, 単純な協調フィルタリングモデルが不十分であることがわかった。 本研究では, コールドシナリオだけでなく, ウォームシナリオにおいても優れる, A-LLMRec と呼ばれる全周 LLM ベースの効率的なレコメンダシステムを提案する。 我々の基本的な考え方は、LLMが事前訓練されたCF-RecSysに含まれる協調的な知識を直接活用することで、LLMの創発的能力と、すでに最先端のCF-RecSysによって訓練されている高品質なユーザ/イテム埋め込みを共同で活用できるようにすることである。 このアプローチは、(1)モデルに依存しない、既存のCF-RecSysとの統合を可能にする、(2)効率の2つの利点をもたらす。 さまざまな実世界のデータセットに関する広範な実験は、コールド/ウォーム、少数ショット、コールドユーザー、クロスドメインシナリオなど、さまざまなシナリオにおいてA-LLMRecの優位性を実証している。 推薦タスクの他に、お気に入りのジャンル予測タスクを実行することで協調的な知識の理解に基づいて、自然言語出力を生成するA-LLMRecの可能性を示す。 私たちのコードはhttps://github.com/ghdtjr/A-LLMRecで利用可能です。

Collaborative filtering recommender systems (CF-RecSys) have shown successive results in enhancing the user experience on social media and e-commerce platforms. However, as CF-RecSys struggles under cold scenarios with sparse user-item interactions, recent strategies have focused on leveraging modality information of user/items (e.g., text or images) based on pre-trained modality encoders and Large Language Models (LLMs). Despite their effectiveness under cold scenarios, we observe that they underperform simple traditional collaborative filtering models under warm scenarios due to the lack of collaborative knowledge. In this work, we propose an efficient All-round LLM-based Recommender system, called A-LLMRec, that excels not only in the cold scenario but also in the warm scenario. Our main idea is to enable an LLM to directly leverage the collaborative knowledge contained in a pre-trained state-of-the-art CF-RecSys so that the emergent ability of the LLM as well as the high-quality user/item embeddings that are already trained by the state-of-the-art CF-RecSys can be jointly exploited. This approach yields two advantages: (1) model-agnostic, allowing for integration with various existing CF-RecSys, and (2) efficiency, eliminating the extensive fine-tuning typically required for LLM-based recommenders. Our extensive experiments on various real-world datasets demonstrate the superiority of A-LLMRec in various scenarios, including cold/warm, few-shot, cold user, and cross-domain scenarios. Beyond the recommendation task, we also show the potential of A-LLMRec in generating natural language outputs based on the understanding of the collaborative knowledge by performing a favorite genre prediction task. Our code is available at https://github.com/ghdtjr/A-LLMRec .
翻訳日:2024-04-18 14:04:48 公開日:2024-04-17
# TeClass: Teluguのための人間関連性に基づく見出し分類と生成データセット

TeClass: A Human-Annotated Relevance-based Headline Classification and Generation Dataset for Telugu ( http://arxiv.org/abs/2404.11349v1 )

ライセンス: Link先を確認
Gopichand Kanumolu, Lokesh Madasu, Nirmal Surange, Manish Shrivastava, (参考訳) ニュースの見出し生成は、ニュースの読者とプロデューサーの両方にとって、生産性を高めるための重要なタスクである。 このタスクは、自動化されたニュース見出し生成モデルによって容易に支援できる。 しかし, ニュース記事に無関係な見出しの存在は, 生成モデルの準最適性能をもたらす。 本稿では,関連性に基づく見出し分類が,関連する見出しを生成する作業に大いに役立つことを提案する。 関連性に基づく見出し分類では、対応するニュース記事との関連性に基づいてニュースの見出しを分類する。 このタスクは英語で十分に確立されているが、注釈付きデータがないため、Teluguのような低リソース言語では未探索のままである。 このギャップに対処するために、26,178の記事と見出しのペアに78,534のアノテーションを含む、初めて人間に注釈を付けたTeClassを紹介した。 様々なベースラインモデルを用いて実験を行い、その結果を包括的に分析する。 さらに、TeClassデータセットを用いて様々な見出し生成モデルを微調整することで、この研究の影響を実証する。 ROUGE-Lスコアの約5ポイント向上を示した。 将来の研究を促進するため、アノテーション付きデータセットとアノテーションガイドラインが公開されている。

News headline generation is a crucial task in increasing productivity for both the readers and producers of news. This task can easily be aided by automated News headline-generation models. However, the presence of irrelevant headlines in scraped news articles results in sub-optimal performance of generation models. We propose that relevance-based headline classification can greatly aid the task of generating relevant headlines. Relevance-based headline classification involves categorizing news headlines based on their relevance to the corresponding news articles. While this task is well-established in English, it remains under-explored in low-resource languages like Telugu due to a lack of annotated data. To address this gap, we present TeClass, the first-ever human-annotated Telugu news headline classification dataset, containing 78,534 annotations across 26,178 article-headline pairs. We experiment with various baseline models and provide a comprehensive analysis of their results. We further demonstrate the impact of this work by fine-tuning various headline generation models using TeClass dataset. The headlines generated by the models fine-tuned on highly relevant article-headline pairs, showed about a 5 point increment in the ROUGE-L scores. To encourage future research, the annotated dataset as well as the annotation guidelines will be made publicly available.
翻訳日:2024-04-18 13:54:57 公開日:2024-04-17
# 正規化、信頼最小化、選択推論によるベイズ学習の校正

Calibrating Bayesian Learning via Regularization, Confidence Minimization, and Selective Inference ( http://arxiv.org/abs/2404.11350v1 )

ライセンス: Link先を確認
Jiayi Huang, Sangwoo Park, Osvaldo Simeone, (参考訳) エンジニアリングなどの分野における人工知能(AI)モデルの適用は、AIの決定の信頼性を定量化することの難しさによって制限される。 適切に校正されたAIモデルは、その精度を分布内入力(ID)に正しく報告し、また、分布外入力(OOD)の検出を可能にする必要がある。 キャリブレーションを改善するための従来のアプローチはベイズアンサンブルの応用である。 しかし、計算の制限とモデルのミススペクテーションのため、実用的なアンサンブル戦略はキャリブレーションを必ずしも強化しない。 本稿では,ID性能向上のためのキャリブレーション正則化とOOD検出のための信頼度最小化と選択キャリブレーションを併用し,キャリブレーション正則化と信頼度最小化の相乗的利用を確保するための変分推論(VI)に基づくベイズ学習の拡張を提案する。 このスキームは、まずキャリブレーション正規化ベイズ学習(CBNN)を導入し、次に分布外信頼度最小化(OCM)を導入してCBNN-OCMを生成し、最後に選択的なキャリブレーションを統合して選択的なCBNN-OCM(SCBNN-OCM)を生成する。 選択キャリブレーションは、キャリブレーション性能が不十分であると期待される入力を拒否する。 数値的な結果は, 頻繁な学習法とベイズ学習法の両方で得られたID精度, IDキャリブレーション, OODキャリブレーションのトレードオフを示す。 主な結論のうち、SCBNN-OCMは、十分に多くの入力を拒否するコストで既存の最先端アプローチと比較して、最高のIDとOOD性能を達成する。

The application of artificial intelligence (AI) models in fields such as engineering is limited by the known difficulty of quantifying the reliability of an AI's decision. A well-calibrated AI model must correctly report its accuracy on in-distribution (ID) inputs, while also enabling the detection of out-of-distribution (OOD) inputs. A conventional approach to improve calibration is the application of Bayesian ensembling. However, owing to computational limitations and model misspecification, practical ensembling strategies do not necessarily enhance calibration. This paper proposes an extension of variational inference (VI)-based Bayesian learning that integrates calibration regularization for improved ID performance, confidence minimization for OOD detection, and selective calibration to ensure a synergistic use of calibration regularization and confidence minimization. The scheme is constructed successively by first introducing calibration-regularized Bayesian learning (CBNN), then incorporating out-of-distribution confidence minimization (OCM) to yield CBNN-OCM, and finally integrating also selective calibration to produce selective CBNN-OCM (SCBNN-OCM). Selective calibration rejects inputs for which the calibration performance is expected to be insufficient. Numerical results illustrate the trade-offs between ID accuracy, ID calibration, and OOD calibration attained by both frequentist and Bayesian learning methods. Among the main conclusions, SCBNN-OCM is seen to achieve best ID and OOD performance as compared to existing state-of-the-art approaches at the cost of rejecting a sufficiently large number of inputs.
翻訳日:2024-04-18 13:54:57 公開日:2024-04-17
# 適応最適化のための分散分断ベイズ学習

Distributed Fractional Bayesian Learning for Adaptive Optimization ( http://arxiv.org/abs/2404.11354v1 )

ライセンス: Link先を確認
Yaqun Yang, Jinlong Lei, Guanghui Wen, Yiguang Hong, (参考訳) 本稿では,各エージェントが共通パラメータを持つローカルコスト関数にのみアクセス可能な分散適応最適化問題について考察する。 そのような問題に対する一般的な数学的枠組みはまだ研究されていない。 分散最適化問題におけるパラメータの不確実性に対処し、同時に最適な解を見つけるための貴重な洞察を提供することを目的としている。 そこで本稿では, 未知パラメータの信念を更新するために, 対数平均化による分散分数的ベイズ学習を利用した最適化手法と, 最適解の推定を更新するための分散勾配降下法を提案する。 そして、適切な仮定の下で、すべてのエージェントの信念と決定変数が、それぞれ真パラメータと真パラメータの最適解にほぼ確実に収束していることを証明する。 さらに、信念列のサブ線形収束率を確立する。 最後に、理論的解析を裏付ける数値実験を行う。

This paper considers a distributed adaptive optimization problem, where all agents only have access to their local cost functions with a common unknown parameter, whereas they mean to collaboratively estimate the true parameter and find the optimal solution over a connected network. A general mathematical framework for such a problem has not been studied yet. We aim to provide valuable insights for addressing parameter uncertainty in distributed optimization problems and simultaneously find the optimal solution. Thus, we propose a novel Prediction while Optimization scheme, which utilizes distributed fractional Bayesian learning through weighted averaging on the log-beliefs to update the beliefs of unknown parameters, and distributed gradient descent for renewing the estimation of the optimal solution. Then under suitable assumptions, we prove that all agents' beliefs and decision variables converge almost surely to the true parameter and the optimal solution under the true parameter, respectively. We further establish a sublinear convergence rate for the belief sequence. Finally, numerical experiments are implemented to corroborate the theoretical analysis.
翻訳日:2024-04-18 13:54:57 公開日:2024-04-17
# Consisaug:内視鏡画像解析におけるポリプ検出のための一貫性に基づく拡張

Consisaug: A Consistency-based Augmentation for Polyp Detection in Endoscopy Image Analysis ( http://arxiv.org/abs/2404.11355v1 )

ライセンス: Link先を確認
Ziyu Zhou, Wenyuan Shen, Chang Liu, (参考訳) 大腸癌(CRC)は当初良性ポリープから発生することが多いが、世界的ながん関連死亡率に大きく寄与している。 大腸内視鏡によるこれらのポリープの早期かつ正確な検出はCRC予防に不可欠である。 しかし、従来の大腸内視鏡検査法は操作者の経験に大きく依存しており、適度なポリープ検出率に繋がる。 さらに、パブリックデータベースはポリプサイズと形状の多様性に制限されている。 ポリプ検出のための利用可能なデータを強化するために,ディープラーニングを活用したデータ拡張のための革新的で効果的な手法であるConsisaugを紹介した。 画像がフリップされると、クラスラベルは等しくなり、ボンディングボックスは一貫性を持つべきであるという制約を利用する。 5つのパブリックなポリプデータセットと3つのバックボーンにConsisaugを実装し,本手法の有効性を示した。

Colorectal cancer (CRC), which frequently originates from initially benign polyps, remains a significant contributor to global cancer-related mortality. Early and accurate detection of these polyps via colonoscopy is crucial for CRC prevention. However, traditional colonoscopy methods depend heavily on the operator's experience, leading to suboptimal polyp detection rates. Besides, the public database are limited in polyp size and shape diversity. To enhance the available data for polyp detection, we introduce Consisaug, an innovative and effective methodology to augment data that leverages deep learning. We utilize the constraint that when the image is flipped the class label should be equal and the bonding boxes should be consistent. We implement our Consisaug on five public polyp datasets and at three backbones, and the results show the effectiveness of our method.
翻訳日:2024-04-18 13:54:57 公開日:2024-04-17
# 検出器崩壊:破滅的過負荷または盲点に対する後方物体検出

Detector Collapse: Backdooring Object Detection to Catastrophic Overload or Blindness ( http://arxiv.org/abs/2404.11357v1 )

ライセンス: Link先を確認
Hangtao Zhang, Shengshan Hu, Yichen Wang, Leo Yu Zhang, Ziqi Zhou, Xianlong Wang, Yanjun Zhang, Chao Chen, (参考訳) オブジェクト検出タスクは、自律運転のような安全に重要なシステムにおいて重要であり、オブジェクトの位置をピンポイントすることに集中する。 これらの検出器は、バックドア攻撃の影響を受けやすいことが知られている。 しかし、既存のバックドア技術は、主に分類タスクから適応しており、オブジェクト検出に特有のより深い脆弱性を見下ろしている。 本稿では,物体検出に適した新たなバックドアアタックパラダイムであるインテグレータ・コラプス(DC)を導入することで,このギャップを埋めることを目的としている。 DCは、検出器を瞬時に無力化するように設計されている(つまり、検出器の性能が著しく損なわれ、サービス停止で終了する)。 この目的のために,広汎な誤識別を誘発するスポンジと,見えない物体をレンダリングするブラインドという2つの革新的な攻撃手法を開発した。 特筆すべきは、本研究では、自然物を利用した新たな中毒対策を導入し、実環境における実践的なバックドアとして機能させることである。 いくつかのベンチマークで異なる検出器を実験したところ、最先端の攻撃に対する攻撃効果において、大幅な改善($\sim$10\%-60\%、$\sim$2-7$\times$ relative)が見られた。

Object detection tasks, crucial in safety-critical systems like autonomous driving, focus on pinpointing object locations. These detectors are known to be susceptible to backdoor attacks. However, existing backdoor techniques have primarily been adapted from classification tasks, overlooking deeper vulnerabilities specific to object detection. This paper is dedicated to bridging this gap by introducing Detector Collapse} (DC), a brand-new backdoor attack paradigm tailored for object detection. DC is designed to instantly incapacitate detectors (i.e., severely impairing detector's performance and culminating in a denial-of-service). To this end, we develop two innovative attack schemes: Sponge for triggering widespread misidentifications and Blinding for rendering objects invisible. Remarkably, we introduce a novel poisoning strategy exploiting natural objects, enabling DC to act as a practical backdoor in real-world environments. Our experiments on different detectors across several benchmarks show a significant improvement ($\sim$10\%-60\% absolute and $\sim$2-7$\times$ relative) in attack efficacy over state-of-the-art attacks.
翻訳日:2024-04-18 13:54:57 公開日:2024-04-17
# DeblurGS: カメラモーションブラーのためのガウシアンスプラッティング

DeblurGS: Gaussian Splatting for Camera Motion Blur ( http://arxiv.org/abs/2404.11358v1 )

ライセンス: Link先を確認
Jeongtaek Oh, Jaeyoung Chung, Dongwoo Lee, Kyoung Mu Lee, (参考訳) モーションブルー画像からシャープな3Dシーンを再構築する大きな進歩があったが、現実のアプリケーションへの移行は依然として困難である。 主な障害は、初期カメラの取得における不正確な原因となる激しいぼやけ(Structure-from-Motion)である。 この課題に対処するために、ノイズの多いカメラが初期化している場合でも、モーションブル画像からシャープな3次元ガウススプラッティングを最適化するDeblurGSを提案する。 我々は,3次元ガウススプラッティングの顕著な再構成能力を活用して,きめ細かなシャープシーンを復元する。 提案手法は,6自由度カメラの動きを各ぼやけた観測のために推定し,その最適化プロセスのために対応するぼやけたレンダリングを合成する。 さらに,カメラの動作が不正確である初期訓練段階において,不正確なガウシアンの発生を防止するため,ガウシアンデンシフィケーションアニーリング戦略を提案する。 我々のDeblurGSは、実世界と合成ベンチマークのデータセット、およびフィールドキャプチャーされたスマートフォンビデオに対して、デブロアリングと新しいビュー合成において最先端のパフォーマンスを達成することを、総合的な実験で実証している。

Although significant progress has been made in reconstructing sharp 3D scenes from motion-blurred images, a transition to real-world applications remains challenging. The primary obstacle stems from the severe blur which leads to inaccuracies in the acquisition of initial camera poses through Structure-from-Motion, a critical aspect often overlooked by previous approaches. To address this challenge, we propose DeblurGS, a method to optimize sharp 3D Gaussian Splatting from motion-blurred images, even with the noisy camera pose initialization. We restore a fine-grained sharp scene by leveraging the remarkable reconstruction capability of 3D Gaussian Splatting. Our approach estimates the 6-Degree-of-Freedom camera motion for each blurry observation and synthesizes corresponding blurry renderings for the optimization process. Furthermore, we propose Gaussian Densification Annealing strategy to prevent the generation of inaccurate Gaussians at erroneous locations during the early training stages when camera motion is still imprecise. Comprehensive experiments demonstrate that our DeblurGS achieves state-of-the-art performance in deblurring and novel view synthesis for real-world and synthetic benchmark datasets, as well as field-captured blurry smartphone videos.
翻訳日:2024-04-18 13:54:57 公開日:2024-04-17
# 非相互作用可積分モデルにおける開系固有状態熱化

Open-system eigenstate thermalization in a noninteracting integrable model ( http://arxiv.org/abs/2404.11360v1 )

ライセンス: Link先を確認
Krzysztof Ptaszynski, Massimiliano Esposito, (参考訳) 我々は、オープン量子系の観点から、孤立量子系における熱化を研究する。 マクロな浴槽に接続された小さなシステムでは,システムバス構成がハミルトニアンの固有状態である場合,系は熱的である(強いカップリングによる局所化によって熱化が抑制されない限り)。 非相互作用性フェミオン浴に結合した1つのフェミオンレベルの主張について述べる。 さらに、ハミルトニアン系を焼成すると、系占有率は新しいハミルトニアン系に対応する熱値に緩和されることを示す。 最後に、ハミルトニアンの典型的な固有状態で初期化された入浴に結合した系にも、系熱化が生じることを示した。 以上の結果から, カオスと非可積分性は熱化の唯一の要因ではなく, 統計力学の出現過程をより包括的に理解するためには, 相補的アプローチが必要であることが示唆された。

We study thermalization in isolated quantum systems from an open quantum systems perspective. We argue that for a small system connected to a macroscopic bath, the system observables are thermal if the combined system-bath configuration is in an eigenstate of its Hamiltonian, even for fully integrable models (unless thermalization is suppressed by localization due to strong coupling). We illustrate our claim for a single fermionic level coupled to a noninteracting fermionic bath. We further show that upon quenching the system Hamiltonian, the system occupancy relaxes to the thermal value corresponding to the new Hamiltonian. Finally, we demonstrate that system thermalization also arises for a system coupled to a bath initialized in a typical eigenstate of its Hamiltonian. Our findings show that chaos and nonintegrability are not the sole drivers of thermalization and complementary approaches are needed to offer a more comprehensive understanding of how statistical mechanics emerges.
翻訳日:2024-04-18 13:54:57 公開日:2024-04-17
# 適応的畳み込み層を用いた医用画像分割性能の向上

Boosting Medical Image Segmentation Performance with Adaptive Convolution Layer ( http://arxiv.org/abs/2404.11361v1 )

ライセンス: Link先を確認
Seyed M. R. Modaresi, Aomar Osmani, Mohammadreza Razzazi, Abdelghani Chibani, (参考訳) 医用画像のセグメンテーションは様々な臨床応用において重要な役割を担い、解剖学的構造や病理領域の正確な記述と分析を可能にする。 伝統的なCNNはこの分野で大きな成功を収めた。 しかし、それらはしばしば固定されたカーネルサイズに依存しており、機器のばらつき、ターゲットサイズ、専門家の解釈による様々なスケールと構成を示す医療画像のパフォーマンスと適応性を制限することができる。 本稿では,UCTransNetなどの先進的なディープラーニングモデルに先立って,入力画像の局所的コンテキストに基づいてカーネルサイズを動的に調整する適応層を提案する。 UCTransnetなどの大規模モジュールを内部的に実装した最近のアーキテクチャにおいても,多種多様な解剖学的構造や微妙な画像の処理能力の向上が図られている。 本提案の有効性を評価するため,医用画像データセットのベンチマーク実験を行った。 これは、SegPC2021やISIC2018などの一般的なデータセットにおいて、同じ数のパラメータで固定されたカーネルサイズで、セグメンテーション精度、Dice、IoUを一貫して上回る。 モデルとデータはオープンソースリポジトリに公開され、有望な結果の透明性と再現性を確保します。

Medical image segmentation plays a vital role in various clinical applications, enabling accurate delineation and analysis of anatomical structures or pathological regions. Traditional CNNs have achieved remarkable success in this field. However, they often rely on fixed kernel sizes, which can limit their performance and adaptability in medical images where features exhibit diverse scales and configurations due to variability in equipment, target sizes, and expert interpretations. In this paper, we propose an adaptive layer placed ahead of leading deep-learning models such as UCTransNet, which dynamically adjusts the kernel size based on the local context of the input image. By adaptively capturing and fusing features at multiple scales, our approach enhances the network's ability to handle diverse anatomical structures and subtle image details, even for recently performing architectures that internally implement intra-scale modules, such as UCTransnet. Extensive experiments are conducted on benchmark medical image datasets to evaluate the effectiveness of our proposal. It consistently outperforms traditional \glspl{CNN} with fixed kernel sizes with a similar number of parameters, achieving superior segmentation Accuracy, Dice, and IoU in popular datasets such as SegPC2021 and ISIC2018. The model and data are published in the open-source repository, ensuring transparency and reproducibility of our promising results.
翻訳日:2024-04-18 13:54:57 公開日:2024-04-17
# 急速電子と光の絡み合いの実証のための量子消去器実験

Quantum eraser experiments for the demonstration of entanglement between swift electrons and light ( http://arxiv.org/abs/2404.11368v1 )

ライセンス: Link先を確認
Jan-Wilke Henke, Hao Jeng, Claus Ropers, (参考訳) 透過電子顕微鏡における光子生成におけるコヒーレントカソードルミネッセンスに頼って、急速電子と光の量子的絡み合いを示すための有形の実験的手法と、絡み合いの形成と検証のための量子消去器構成を提案する。 光による自由電子の絡み合いは、自由電子量子光学とその量子センシング、新しいフォトニックおよび電子状態生成、自由電子間の絡み合いなどの潜在的な応用の鍵となる。

We propose a tangible experimental scheme for demonstrating quantum entanglement between swift electrons and light, relying on coherent cathodoluminescence for photon generation in a transmission electron microscope, and a quantum eraser setup for formation and verification of entanglement. The entanglement of free electrons with light is key to developing free-electron quantum optics and its potential applications such as quantum sensing, novel photonic and electron state generation, and entanglement between free electrons.
翻訳日:2024-04-18 13:54:57 公開日:2024-04-17
# AIインタフェースにおけるデザインパターンとの相互作用による特徴付けとモデリング

Characterizing and modeling harms from interactions with design patterns in AI interfaces ( http://arxiv.org/abs/2404.11370v1 )

ライセンス: Link先を確認
Lujain Ibrahim, Luc Rocher, Ana Valdivia, (参考訳) 人工知能(AI)システムを用いたアプリケーションの普及は、洗練されたインターフェースを通じてこれらのシステムと対話するユーザの増加につながっている。 ヒューマンコンピュータインタラクションの研究は、ユーザー行動と技術的能力とリスクに対するユーザーの認識の両方を形作るインターフェースを長年にわたって示してきた。 しかし、AIシステムの社会的および倫理的リスクを評価する実践者や研究者は、人間とAIの相互作用に対する人為的、欺く、没入的なインターフェースの影響を見落としてしまう傾向にある。 ここでは,適応型AIシステムを用いたインタフェースの設計は,従来考えられていた以上のフィードバックループによって,カスケード効果をもたらす可能性がある,と論じる。 まず、AIインターフェース設計のスコーピングレビューを行い、AIインターフェースに潜在的に有害なデザインパターンの有害なテーマを抽出する。 そこで我々は,AIインタフェース設計における影響評価を構造化し,促進する概念モデルとして,AIシステムの設計強化制御(DECAI)を提案する。 DECAIは制御系理論(動的物理系の解析と設計の理論)の原則に基づいて、ヒューマンAIシステムにおけるインターフェースの役割を解明する。 推薦システムと対話型言語モデルシステムに関する2つのケーススタディを通じて、AIインタフェース設計の評価にDECAIをどのように利用できるかを示す。

The proliferation of applications using artificial intelligence (AI) systems has led to a growing number of users interacting with these systems through sophisticated interfaces. Human-computer interaction research has long shown that interfaces shape both user behavior and user perception of technical capabilities and risks. Yet, practitioners and researchers evaluating the social and ethical risks of AI systems tend to overlook the impact of anthropomorphic, deceptive, and immersive interfaces on human-AI interactions. Here, we argue that design features of interfaces with adaptive AI systems can have cascading impacts, driven by feedback loops, which extend beyond those previously considered. We first conduct a scoping review of AI interface designs and their negative impact to extract salient themes of potentially harmful design patterns in AI interfaces. Then, we propose Design-Enhanced Control of AI systems (DECAI), a conceptual model to structure and facilitate impact assessments of AI interface designs. DECAI draws on principles from control systems theory -- a theory for the analysis and design of dynamic physical systems -- to dissect the role of the interface in human-AI systems. Through two case studies on recommendation systems and conversational language model systems, we show how DECAI can be used to evaluate AI interface designs.
翻訳日:2024-04-18 13:54:57 公開日:2024-04-17
# S3PHER:患者主導型健康データ共有のためのセキュアで検索可能なシステム

S3PHER: Secure and Searchable System for Patient-driven HEalth data shaRing ( http://arxiv.org/abs/2404.11372v1 )

ライセンス: Link先を確認
Ivan Costa, Ivone Amorim, Eva Maia, Pedro Barbosa, Isabel Praca, (参考訳) 医療データには、個人に関する最も機密性の高い情報が含まれているが、このデータを医療実践者と共有することは、患者のケアを著しく強化し、研究活動を支援することができる。 しかし、現在の患者と介護者との健康データ共有システムは、プライバシ、機密性、同意管理といった重要なセキュリティ要件を完全には解決していない。 さらに、GDPRやHIPAAなどの規制法への準拠は、典型的には、医療機関がデータにアクセスするための一般的な同意を与えるよう要求されるため、しばしば不十分である。 S3PHERは、患者がデータにアクセスした人、アクセスした人、そしていつデータにアクセスしたかを制御するための、新しい健康データ共有手法である。 本システムでは,患者の文書をプライベートに検索・アクセスするために,同型暗号化を利用してプロキシ再暗号化スキームを検索可能暗号化スキームに統合することにより,エンド・ツー・エンドのプライバシを確保する。 S3PHERの実用性と利点は、エンド・ツー・エンドのデプロイメントとユースケース分析を通じてさらに検証される。

Healthcare data contains some of the most sensitive information about an individual, yet sharing this data with healthcare practitioners can significantly enhance patient care and support research efforts. However, current systems for sharing health data between patients and caregivers do not fully address the critical security requirements of privacy, confidentiality, and consent management. Furthermore, compliance with regulatory laws such as GDPR and HIPAA is often deficient, largely because patients typically are asked to provide general consent for healthcare entities to access their data. Recognizing the limitations of existing systems, we present S3PHER, a novel approach to sharing health data that provides patients with control over who accesses their data, what data is accessed, and when. Our system ensures end to end privacy by integrating a Proxy ReEncryption Scheme with a Searchable Encryption Scheme, utilizing Homomorphic Encryption to enable healthcare practitioners to privately search and access patients' documents. The practicality and benefits of S3PHER are further validated through end to end deployment and use case analyses, with tests on real datasets demonstrating promising execution times.
翻訳日:2024-04-18 13:54:57 公開日:2024-04-17
# 多剤副作用予測のためのテンソル因子化

Tensor Factorisation for Polypharmacy Side Effect Prediction ( http://arxiv.org/abs/2404.11374v1 )

ライセンス: Link先を確認
Oliver Lloyd, Yi Liu, Tom R. Gaunt, (参考訳) 薬物の組み合わせによって引き起こされる逆反応は、ますます一般的な現象であり、それらの正確な予測は現代医学において重要な課題である。 しかし、この問題の多項式の性質は、実験室による有害反応の同定が不十分であることを示している。 そのため、近年では多くの計算手法が提案されており、成功の度合いは様々である。 この領域であまり使われていないように見える手法の1つは、このタイプのデータに明確な適用性があるにもかかわらず、テンソル分解である。 本研究では,既存の手法と比較するために,ベンチマークデータセットに3つのモデルを適用する。 従来の報告とは対照的に、このタスクテンソル分解モデルは最先端のグラフニューラルネットワークモデルと競合するものであり、この分野での今後の研究は、コストのかかるディープラーニングプロセスを実行する前に、線形複雑さを伴うより安価な方法を検討することを推奨する。

Adverse reactions caused by drug combinations are an increasingly common phenomenon, making their accurate prediction an important challenge in modern medicine. However, the polynomial nature of this problem renders lab-based identification of adverse reactions insufficient. Dozens of computational approaches have therefore been proposed for the task in recent years, with varying degrees of success. One group of methods that has seemingly been under-utilised in this area is tensor factorisation, despite their clear applicability to this type of data. In this work, we apply three such models to a benchmark dataset in order to compare them against established techniques. We find, in contrast to previous reports, that for this task tensor factorisation models are competitive with state-of-the-art graph neural network models and we recommend that future work in this field considers cheaper methods with linear complexity before running costly deep learning processes.
翻訳日:2024-04-18 13:54:57 公開日:2024-04-17
# テキスト制御モーションマンバ:テキスト指示による人間の動作の時間的グラウンド

Text-controlled Motion Mamba: Text-Instructed Temporal Grounding of Human Motion ( http://arxiv.org/abs/2404.11375v1 )

ライセンス: Link先を確認
Xinghan Wang, Zixi Kang, Yadong Mu, (参考訳) 人間の動きの理解は、大規模なモーションキャプチャーデータセットの可用性によって促進される、多様な実践的応用の基本的なタスクである。 近年の研究では、テキストベースのモーション生成、編集、質問応答などのテキストモーションタスクに焦点が当てられている。 本研究では,テキストをベースとしたヒューマン・モーション・グラウンディング(THMG)の新たな課題について紹介する。 THMGタスクには,グローバルな時間情報の収集が不可欠である。 しかし,グローバルな時間的自己注意に依存したトランスフォーマーモデルでは,2次計算コストによる長い不整合列の処理が困難である。 本研究では,時間的グローバルコンテキスト,言語クエリ制御,空間グラフトポロジを線形メモリコストのみで統合した統合モデルであるテキスト制御型モーションマンバ(TM-Mamba)を提案する。 このモデルの中核は、テキストクエリに基づいてグローバル時間情報を動的に組み込むテキスト制御選択機構である。 このモデルは、関係埋め込みの統合により、トポロジに気付くようにさらに強化されている。 BABEL-Groundingは、人間の行動の詳細なテキスト記述と対応する時間セグメントを提供する最初のテキスト・モーション・データセットである。 BABEL-Groundingに対するTM-Mambaの有効性を広範囲に評価した。

Human motion understanding is a fundamental task with diverse practical applications, facilitated by the availability of large-scale motion capture datasets. Recent studies focus on text-motion tasks, such as text-based motion generation, editing and question answering. In this study, we introduce the novel task of text-based human motion grounding (THMG), aimed at precisely localizing temporal segments corresponding to given textual descriptions within untrimmed motion sequences. Capturing global temporal information is crucial for the THMG task. However, transformer-based models that rely on global temporal self-attention face challenges when handling long untrimmed sequences due to the quadratic computational cost. We address these challenges by proposing Text-controlled Motion Mamba (TM-Mamba), a unified model that integrates temporal global context, language query control, and spatial graph topology with only linear memory cost. The core of the model is a text-controlled selection mechanism which dynamically incorporates global temporal information based on text query. The model is further enhanced to be topology-aware through the integration of relational embeddings. For evaluation, we introduce BABEL-Grounding, the first text-motion dataset that provides detailed textual descriptions of human actions along with their corresponding temporal segments. Extensive evaluations demonstrate the effectiveness of TM-Mamba on BABEL-Grounding.
翻訳日:2024-04-18 13:54:57 公開日:2024-04-17
# 画像からUMLへ:LLMを用いた画像ベースUMLダイアグラム生成の第一結果

From Image to UML: First Results of Image Based UML Diagram Generation Using LLMs ( http://arxiv.org/abs/2404.11376v1 )

ライセンス: Link先を確認
Aaron Conrardy, Jordi Cabot, (参考訳) ソフトウェア工学のプロセスでは、システムはUMLのようなモデリング言語を使って最初に特定される。 これらの初期設計は、しばしば共同で作成され、様々なドメインの専門家がホワイトボードや紙、その他のクイックサポートを使って図面や青写真を作成するミーティングで、形式化する必要がある。 これらの適切なマシン可読なモデルは、モデルが自動化プロセスの一部になることを保証するための鍵となります(例えば、ローコード生成パイプライン、モデルベースのテストシステム、...)。 しかし、手描きの図を実際のモデルに移すことは、時としてソフトウェアドキュメントに非公式なイメージとして追加され、その価値が大幅に削減されるという、時間を要するプロセスです。 この面倒な作業を避けるため、与えられた図面からUMLモデルの形式表現を生成するために、LLM(Large Language Models)の使用法を検討する。 より具体的には、UMLクラス図の画像を、画像に表される実際のモデルに変換する異なるLLMの能力を評価した。 結果は、モデル駆動のエンジニアリングパイプラインの一部としてそのようなアプローチを使用するのに十分ですが、現在の制限と、これらの制限を克服するために人間をループに留める必要性を強調します。

In software engineering processes, systems are first specified using a modeling language such as UML. These initial designs are often collaboratively created, many times in meetings where different domain experts use whiteboards, paper or other types of quick supports to create drawings and blueprints that then will need to be formalized. These proper, machine-readable, models are key to ensure models can be part of automated processes (e.g. input of a low-code generation pipeline, a model-based testing system, ...). But going form hand-drawn diagrams to actual models is a time-consuming process that sometimes ends up with such drawings just added as informal images to the software documentation, reducing their value a lot. To avoid this tedious task, we explore the usage of Large Language Models (LLM) to generate the formal representation of (UML) models from a given drawing. More specifically, we have evaluated the capabilities of different LLMs to convert images of UML class diagrams into the actual models represented in the images. While the results are good enough to use such an approach as part of a model-driven engineering pipeline we also highlight some of their current limitations and the need to keep the human in the loop to overcome those limitations.
翻訳日:2024-04-18 13:54:57 公開日:2024-04-17
# 心と脳の関係と意味の視点

The mind-brain relationship and the perspective of meaning ( http://arxiv.org/abs/2404.11379v1 )

ライセンス: Link先を確認
Ranjan Mukhopadhyay, (参考訳) 我々は、現象的意識と精神因果関係という2つの相互に結びついた問題、すなわち、物理的神経学的プロセスから主観的意識経験がどのように生ずるか、そして意識的精神状態が物理的世界に対して因果的行動を起こすかという観点から、心の問題を考察する。 これらの問題を解決するために、私は、脳の産物としての心の物質主義的な見方と、根底にある隠された現実に根ざした意識のメタ物理的な見方という、2つの明らかにアンチテティカルな見解を組み合わせた非物理主義的な枠組みを開発します。 この枠組みが精神因果関係の問題をいかに解決し、基本的物理原理と同時に解決するかを論じる。 物理的な神経学的プロセスと意識的な心の間の橋渡しとして機能する意味の観点から、この枠組みがどのように結びついているかを明らかにする。 さらに、我々の自己に対する意識と外部世界に対する表現が、この視点にどのように結びついているかを見ていく。

We view the mind-body problem in terms of the two interconnected problems of phenomenal consciousness and mental causation, namely, how subjective conscious experience can arise from physical neurological processes and how conscious mental states can causally act upon the physical world. In order to address these problems, I develop here a non-physicalist framework that combines two apparently antithetical views: the materialist view of the mind as a product of the brain and the metaphysical view of consciousness rooted in an underlying hidden reality. I discuss how this framework resolves the problem of mental causation while being simultaneously consistent with fundamental physical principles. I will elucidate how the framework ties in to the perspective of meaning that acts as the bridge between physical neurological processes and the conscious mind. Moreover, we will see how both our awareness of the self and our representation of the external world are connected to this perspective.
翻訳日:2024-04-18 13:54:57 公開日:2024-04-17
# ペアワイズ生成とグラフ分割によるキーポイント解析の探索

Exploring Key Point Analysis with Pairwise Generation and Graph Partitioning ( http://arxiv.org/abs/2404.11384v1 )

ライセンス: Link先を確認
Xiao Li, Yong Jiang, Shen Huang, Pengjun Xie, Gong Cheng, Fei Huang, (参考訳) キーポイント分析(キーポイント分析、英: Key Point Analysis、KPA)は、複数の引数を簡潔なキーポイントの集合にまとめることであり、議論マイニングの分野において重要な問題であり続けている。 既存のモデルは、クラスタリング引数の2段階のパイプラインを適用したり、引数クラスタのキーポイントを生成する。 このアプローチは、引数間の共有キーポイントの存在を測定するのではなく、意味的類似性に依存する。 さらに、鍵ポイントを共有しない引数間のクラスタ間関係を無視して、引数間のクラスタ間関係のみをモデル化する。 これらの制約に対処するために、ペア生成とグラフ分割によるKPAの新しいアプローチを提案する。 我々の目標は、一対の引数の間に共有キーポイントが存在することを示すスコアを同時に提供し、共有キーポイントを生成するための生成モデルを訓練することである。 その後、生成された冗長なキーポイントをキーポイントの簡潔な集合にマッピングするために、引数を頂点として、生成されたキーポイントをエッジとして、スコアをエッジウェイトとして、引数グラフを構築する。 次に、同じキーポイントを共有する全ての引数を同じサブグラフに分割するグラフ分割アルゴリズムを提案する。 特に,提案モデルがArgKPとQAMの両方のデータセットで評価した場合,従来のモデルよりも優れていることを示す。

Key Point Analysis (KPA), the summarization of multiple arguments into a concise collection of key points, continues to be a significant and unresolved issue within the field of argument mining. Existing models adapt a two-stage pipeline of clustering arguments or generating key points for argument clusters. This approach rely on semantic similarity instead of measuring the existence of shared key points among arguments. Additionally, it only models the intra-cluster relationship among arguments, disregarding the inter-cluster relationship between arguments that do not share key points. To address these limitations, we propose a novel approach for KPA with pairwise generation and graph partitioning. Our objective is to train a generative model that can simultaneously provide a score indicating the presence of shared key point between a pair of arguments and generate the shared key point. Subsequently, to map generated redundant key points to a concise set of key points, we proceed to construct an arguments graph by considering the arguments as vertices, the generated key points as edges, and the scores as edge weights. We then propose a graph partitioning algorithm to partition all arguments sharing the same key points to the same subgraph. Notably, our experimental findings demonstrate that our proposed model surpasses previous models when evaluated on both the ArgKP and QAM datasets.
翻訳日:2024-04-18 13:45:12 公開日:2024-04-17
# ボース・アインシュタイン凝縮体における荷電ポーラロンに対する修正平均場アンサッツ

Modified mean field ansatz for charged polarons in a Bose-Einstein condensate ( http://arxiv.org/abs/2404.11387v1 )

ライセンス: Link先を確認
Ubaldo Cavazos Olivas, Luis A. Peña Ardila, Krzysztof Jachymski, (参考訳) イオン・ボース・ポーラロン(Ionic Bose polaron)は、イオンとボース・アインシュタイン凝縮体(BEC)の間の相互作用から生じる量子物質であり、ガス治癒長と競合する長距離相互作用を特徴とする。 これは強い粒子間相関とイオンの周囲の気体密度の増大をもたらす。 この複雑なシステムを高精度に記述するための1つの可能なアプローチは、量子モンテカルロ法(QMC)のような数値処理に依存している。 それでも計算は非常に高価であり、システム力学の研究は容易ではない。 一方、共動フレームにおける平均場に基づく変分アンザッツは、ガス密度の大きな変化を捉えることができる。 正則化イオン原子ポテンシャルの場合に適用し、その全数値結果を定性的に再現することを示した。 また, 入浴による効果的な相互作用に着目し, 2本のピン付きイオンの系についても検討した。 このアプローチは、凝縮媒質中の荷電(bi)ポラロンの輸送と非平衡ダイナミクスを研究する上で有望であると考えられる。

Ionic Bose polarons are quantum entities emerging from the interaction between an ion and a Bose-Einstein condensate (BEC), featuring long-ranged interactions that can compete with the gas healing length. This can result in strong interparticle correlations and enhancement of gas density around the ion. One possible approach to describe this complex system with high accuracy relies on numerical treatment such as the quantum Monte Carlo (QMC) techniques. Nevertheless, it is computationally very expensive and does not easily allow to study the system dynamics. On the other hand, a mean-field based variational ansatz in the co-moving frame can capture a sizeable change in the gas density. We apply it to the case of regularized ion-atom potential and find that it qualitatively reproduces the full numerical results. In addition, we also study the system of two pinned ions, focusing on their effective interaction induced by the bath. This approach seems to be promising for studying transport and nonequilibrium dynamics of charged (bi)polarons in condensed media.
翻訳日:2024-04-18 13:45:12 公開日:2024-04-17
# ワイヤレスセンサネットワークにおけるデータプライバシの強化:医療と国家安全保障の重要分野における、ワイヤレスセンサネットワーク上で送信されたデータのプライバシ保護のための技術とプロトコルの調査

Enhancing Data Privacy In Wireless Sensor Networks: Investigating Techniques And Protocols To Protect Privacy Of Data Transmitted Over Wireless Sensor Networks In Critical Applications Of Healthcare And National Security ( http://arxiv.org/abs/2404.11388v1 )

ライセンス: Link先を確認
Akinsola Ahmed, Ejiofor Oluomachi, Akinde Abdullah, Njoku Tochukwu, (参考訳) 本稿では、データ処理と通信における画期的な技術として、無線センサネットワーク(WSN)の出現について論じる。 分散した自律センサからなるWSNが、物理的および環境要因を監視し、分析のためにデータをワイヤレスで送信する方法について概説している。 この記事では、医療、国家安全保障、緊急対応、インフラ監視におけるWSNのさまざまな応用について検討し、患者のケア、公衆衛生監視、国境警備、災害管理、軍事活動の強化における彼らの役割を強調している。 さらに、暗号化技術、認証機構、匿名化技術、アクセス制御機構に焦点を当て、WSNにおけるデータプライバシの基本概念について検討する。 この記事はまた、医療や国家安全保障の文脈におけるデータのプライバシーに関する脆弱性、脅威、課題に対処し、規制の遵守、倫理的考慮、社会経済的要因を強調している。 さらに、WSNにおけるプライバシー強化技術の採用を理解するためのフレームワークとして、イノベーション理論の拡散を紹介します。 最後に、WSNにおけるデータプライバシ保護におけるセキュリティソリューションの有効性を実証する実証的研究をレビューし、機密情報の保護の進歩に関する洞察を提供する。

The article discusses the emergence of Wireless Sensor Networks (WSNs) as a groundbreaking technology in data processing and communication. It outlines how WSNs, composed of dispersed autonomous sensors, are utilized to monitor physical and environmental factors, transmitting data wirelessly for analysis. The article explores various applications of WSNs in healthcare, national security, emergency response, and infrastructure monitoring, highlighting their roles in enhancing patient care, public health surveillance, border security, disaster management, and military operations. Additionally, it examines the foundational concepts of data privacy in WSNs, focusing on encryption techniques, authentication mechanisms, anonymization techniques, and access control mechanisms. The article also addresses vulnerabilities, threats, and challenges related to data privacy in healthcare and national security contexts, emphasizing regulatory compliance, ethical considerations, and socio-economic factors. Furthermore, it introduces the Diffusion of Innovation Theory as a framework for understanding the adoption of privacy-enhancing technologies in WSNs. Finally, the article reviews empirical studies demonstrating the efficacy of security solutions in preserving data privacy in WSNs, offering insights into advancements in safeguarding sensitive information.
翻訳日:2024-04-18 13:45:12 公開日:2024-04-17
# RainyScape: Decoupled Neural Rendering を用いた教師なしレインシーン再構築

RainyScape: Unsupervised Rainy Scene Reconstruction using Decoupled Neural Rendering ( http://arxiv.org/abs/2404.11401v1 )

ライセンス: Link先を確認
Xianqiang Lyu, Hui Liu, Junhui Hou, (参考訳) 多視点降雨画像の集合からクリーンなシーンを再構築するための教師なしフレームワークであるRainyScapeを提案する。 RainyScapeは、ニューラルネットワークレンダリングモジュールと予測ネットワークを組み込んだ降雨予測モジュールと、シーンの降雨特性をキャプチャする学習可能な潜水埋め込みの2つの主要モジュールで構成されている。 具体的には、ニューラルネットワークのスペクトルバイアス特性に基づいて、まずニューラルネットワークのレンダリングパイプラインを最適化し、低周波シーン表現を得る。 次に, 適応方向依存性の勾配に基づく復元損失によって駆動される2つのモジュールを協調的に最適化し, ネットワークがシーンの詳細と雨害を区別し, 勾配を関連コンポーネントに伝播させる。 古典的ニューラルラディアンス場と最近提案された3次元ガウススプラッティングの併用実験は,雨害を効果的に排除し,クリーンな画像をレンダリングし,最先端の性能を達成する上で,我々の手法の優位性を実証している。 構築された高品質のデータセットとソースコードが公開されている。

We propose RainyScape, an unsupervised framework for reconstructing clean scenes from a collection of multi-view rainy images. RainyScape consists of two main modules: a neural rendering module and a rain-prediction module that incorporates a predictor network and a learnable latent embedding that captures the rain characteristics of the scene. Specifically, based on the spectral bias property of neural networks, we first optimize the neural rendering pipeline to obtain a low-frequency scene representation. Subsequently, we jointly optimize the two modules, driven by the proposed adaptive direction-sensitive gradient-based reconstruction loss, which encourages the network to distinguish between scene details and rain streaks, facilitating the propagation of gradients to the relevant components. Extensive experiments on both the classic neural radiance field and the recently proposed 3D Gaussian splatting demonstrate the superiority of our method in effectively eliminating rain streaks and rendering clean images, achieving state-of-the-art performance. The constructed high-quality dataset and source code will be publicly available.
翻訳日:2024-04-18 13:45:12 公開日:2024-04-17
# DUPE:ディープフェイクテキストのプロンプトエンジニアリングによる検出

DUPE: Detection Undermining via Prompt Engineering for Deepfake Text ( http://arxiv.org/abs/2404.11408v1 )

ライセンス: Link先を確認
James Weichert, Chinecherem Dimobi, (参考訳) 大規模言語モデル(LLM)がますます一般的になるにつれて、人間とAIのテキストの区別に関する懸念も高まる。 これらのモデルの力の増大は、生徒がLLMを使って学校の課題を書くことを心配する教師にとって特に懸念される。 知らない技術に直面すると、教師は公に利用可能なAIテキスト検出装置に目を向けるかもしれない。 しかし、これらの検出器の精度は十分に検証されていないため、学業上の不正を非難された学生に潜在的に害を与える可能性がある。 本稿では,3種類のAIテキスト検出器(Kirchenbauer et al watermarks, ZeroGPT, GPTZero-against HumanおよびAI生成エッセイ)を評価する。 透かしは偽陽性率が高く,ZeroGPTは偽陽性率も偽陰性率も高いことがわかった。 さらに、ChatGPT 3.5を用いて、元のAI生成テキストを言い換えることで、全検出器の偽陰性率を大幅に向上させ、検出器を効果的にバイパスすることができる。

As large language models (LLMs) become increasingly commonplace, concern about distinguishing between human and AI text increases as well. The growing power of these models is of particular concern to teachers, who may worry that students will use LLMs to write school assignments. Facing a technology with which they are unfamiliar, teachers may turn to publicly-available AI text detectors. Yet the accuracy of many of these detectors has not been thoroughly verified, posing potential harm to students who are falsely accused of academic dishonesty. In this paper, we evaluate three different AI text detectors-Kirchenbauer et al. watermarks, ZeroGPT, and GPTZero-against human and AI-generated essays. We find that watermarking results in a high false positive rate, and that ZeroGPT has both high false positive and false negative rates. Further, we are able to significantly increase the false negative rate of all detectors by using ChatGPT 3.5 to paraphrase the original AI-generated texts, thereby effectively bypassing the detectors.
翻訳日:2024-04-18 13:45:12 公開日:2024-04-17
# SERENE: 回復力のあるレプリケーションベースの検証フレームワーク

SERENE: A Collusion Resilient Replication-based Verification Framework ( http://arxiv.org/abs/2404.11410v1 )

ライセンス: Link先を確認
Amir Esmaeili, Abderrahmen Mtibaa, (参考訳) 自動運転技術の急速な進歩には重大な課題、特に信頼性と正確性を保証することなく遠隔タスクの実行に依存することが伴う。 この外部のコンピュータサーバーへの依存は、悪意のある、あるいは悪質なものであり、重大なセキュリティ上の脅威である。 研究者は検証可能な計算と複製に基づくタスク検証を、結果の正確性を評価するための単純で高速で信頼性の高い方法として検討してきた。 しかし、悪質な労働者の衝突は容易にこの方法を打ち負かすことができる。 既存の畳み込み検出と緩和ソリューションでは、信頼できるサードパーティサーバの使用や、保証が難しい検証されたタスク、あるいは少数の畳み込みサーバの存在を前提とするソリューションが必要となることが多い。 本稿では, 衝突作業者を検出し, 軽減する, 回復力のあるレプリケーションベースの検証フレームワークSERENEを提案する。 最先端のソリューションとは異なり、SERENEは単一の検証タスクに基づいて衝突を検出する軽量な検出アルゴリズムを使用している。 緩和には、労働者をグループ化し、誠実な労働者からの衝突を特定するための2段階のプロセスが必要である。 我々はSERENEのパフォーマンスをStaabなどと比較する。 その結果,検出精度と緩和精度は平均50\%,60\%向上した。

The rapid advancement of autonomous driving technology is accompanied by substantial challenges, particularly the reliance on remote task execution without ensuring a reliable and accurate returned results. This reliance on external compute servers, which may be malicious or rogue, represents a major security threat. While researchers have been exploring verifiable computing, and replication-based task verification as a simple, fast, and dependable method to assess the correctness of results. However, colluding malicious workers can easily defeat this method. Existing collusion detection and mitigation solutions often require the use of a trusted third party server or verified tasks which may be hard to guarantee, or solutions that assume the presence of a minority of colluding servers. We propose SERENE a collusion resilient replication-based verification framework that detects, and mitigates colluding workers. Unlike state-of-the-art solutions, SERENE uses a lightweight detection algorithm that detects collusion based on a single verification task. Mitigation requires a two stage process to group the workers and identifying colluding from honest workers. We implement and compare SERENE's performance to Staab et. al, resulting in an average of 50\% and 60\% accuracy improvement in detection and mitigation accuracy respectively.
翻訳日:2024-04-18 13:45:12 公開日:2024-04-17
# EcoMLS: Green ML-Enabledシステム構築のための自己適応アプローチ

EcoMLS: A Self-Adaptation Approach for Architecting Green ML-Enabled Systems ( http://arxiv.org/abs/2404.11411v1 )

ライセンス: Link先を確認
Meghana Tedla, Shubham Kulkarni, Karthik Vaidhyanathan, (参考訳) 機械学習可能システム(MLS)の持続可能性、特にエネルギー効率に関しては、開発と展開において重要な課題である。 ソフトウェアシステム内の省エネの可能性で認識されている自己適応技術は、実行時の不確実性がモデルの性能とエネルギー消費に大きな影響を及ぼす機械学習・エンタブル・システム(MLS)において、まだ広く研究されていない。 この変動性は、動作中のMLモデルの変動エネルギー要求と並んで、動的アプローチを必要とする。 これらの課題に対処するために,機械学習モデルバランサの概念を活用して,実行時MLモデルスイッチングによるMLSの持続可能性を高めるEcoMLSアプローチを導入する。 監視されたランタイム条件に適応することにより、EcoMLSはエネルギー消費とモデル信頼性のバランスを最適に保ち、持続的でエネルギー効率のよい機械学習ソリューションへの大きな進歩を示す。 オブジェクト検出の例を通して、EcoMLSの適用例を説明し、その使用を通して高いモデル精度を維持しながら、エネルギー消費を減らす能力を示す。 本研究は、インテリジェントランタイム適応によるMLSサステナビリティ向上の実現可能性を強調し、エネルギー効率のよい機械学習に関する現在進行中の議論に価値ある視点を提供する。

The sustainability of Machine Learning-Enabled Systems (MLS), particularly with regard to energy efficiency, is an important challenge in their development and deployment. Self-adaptation techniques, recognized for their potential in energy savings within software systems, have yet to be extensively explored in Machine Learning-Enabled Systems (MLS), where runtime uncertainties can significantly impact model performance and energy consumption. This variability, alongside the fluctuating energy demands of ML models during operation, necessitates a dynamic approach. Addressing these challenges, we introduce EcoMLS approach, which leverages the Machine Learning Model Balancer concept to enhance the sustainability of MLS through runtime ML model switching. By adapting to monitored runtime conditions, EcoMLS optimally balances energy consumption with model confidence, demonstrating a significant advancement towards sustainable, energy-efficient machine learning solutions. Through an object detection exemplar, we illustrate the application of EcoMLS, showcasing its ability to reduce energy consumption while maintaining high model accuracy throughout its use. This research underscores the feasibility of enhancing MLS sustainability through intelligent runtime adaptations, contributing a valuable perspective to the ongoing discourse on energy-efficient machine learning.
翻訳日:2024-04-18 13:45:12 公開日:2024-04-17
# パンシャーピングのためのニューラルシュレーディンガーブリッジマッチング

Neural Shrödinger Bridge Matching for Pansharpening ( http://arxiv.org/abs/2404.11416v1 )

ライセンス: Link先を確認
Zihan Cao, Xiao Wu, Liang-Jian Deng, (参考訳) 近年,パンシャルペン分野における拡散確率モデル (DPM) が注目され,SOTA (State-of-the-art) の性能が向上している。 本稿では,逆問題としてパンシャルペンのタスクにDPMを直接適用する際の欠点を同定する。 1) ガウスノイズから直接サンプリングを開始すると、先行した低分解能マルチスペクトル画像(LRMS)を無視する。 2) サンプリング効率の低下は, サンプリングステップ数の増加を必要とすることが多い。 まずパンシャーペンを逆問題の確率微分方程式(SDE)形式に再構成する。 これに基づいて,両問題に対処するSchr\"odinger bridge matching法を提案する。 提案したSBマッチングに適した,効率的なディープニューラルネットワークアーキテクチャを設計する。 DL-Regressive-based framework(DL-Regressive-based framework)や最近のDPM framework(DPM framework)と比較して,本手法はサンプリングステップを少なくしてSOTA性能を示す。 さらに、SBマッチングとSDEと通常の微分方程式(ODE)に基づく他の手法との関係や、最適輸送との関係についても論じる。 コードは利用可能です。

Recent diffusion probabilistic models (DPM) in the field of pansharpening have been gradually gaining attention and have achieved state-of-the-art (SOTA) performance. In this paper, we identify shortcomings in directly applying DPMs to the task of pansharpening as an inverse problem: 1) initiating sampling directly from Gaussian noise neglects the low-resolution multispectral image (LRMS) as a prior; 2) low sampling efficiency often necessitates a higher number of sampling steps. We first reformulate pansharpening into the stochastic differential equation (SDE) form of an inverse problem. Building upon this, we propose a Schr\"odinger bridge matching method that addresses both issues. We design an efficient deep neural network architecture tailored for the proposed SB matching. In comparison to the well-established DL-regressive-based framework and the recent DPM framework, our method demonstrates SOTA performance with fewer sampling steps. Moreover, we discuss the relationship between SB matching and other methods based on SDEs and ordinary differential equations (ODEs), as well as its connection with optimal transport. Code will be available.
翻訳日:2024-04-18 13:45:12 公開日:2024-04-17
# SLAIM: オンライントラッキングとマッピングのためのロバストディエンスニューラルネットワークSLAM

SLAIM: Robust Dense Neural SLAM for Online Tracking and Mapping ( http://arxiv.org/abs/2404.11419v1 )

ライセンス: Link先を確認
Vincent Cartillier, Grant Schindler, Irfan Essa, (参考訳) SLAIM - 同時局所化とインシシットマッピングを提案する。 本稿では,Neural Radiance Field SLAM (NeRF-SLAM) に適したサース・ツー・ファイントラッキングモデルを提案する。 特に、既存のNeRF-SLAMシステムでは、従来のSLAMアルゴリズムと比較して、追跡性能が劣っている。 NeRF-SLAM法は、画像アライメントと光度バンドル調整によるカメラトラッキングを解決する。 このような最適化プロセスは、画像空間(局所最小値)の最適化損失と初期対応の欠如により、アトラクションが狭くなり、最適化が困難である。 我々はこれらの制限を、NeRF上にガウスピラミッドフィルタを実装することで緩和し、粗い追従最適化戦略を容易にする。 さらに、NeRFシステムは入力ビューが制限された正しい幾何学に収束する際の課題に直面する。 従来の手法では、符号距離関数(Signed-Distance Function, SDF)をベースとしたNeRFを用いて、深度測定により地上の真理SDFを近似することで直接SDF値を監督するが、これはしばしば準最適幾何をもたらす。 対照的に、本手法は体積密度表現を用い、光終端分布に新しいKL正規化器を導入し、空空間と不透明表面からなるシーン幾何学を制約する。 我々のソリューションは, 局所的およびグローバルなバンドル調整を実装し, 頑健(粗大)かつ正確な(KL正規化器)SLAMソリューションを生成する。 我々は、複数のデータセット(ScanNet、TUM、Replica)で、追跡と復元の精度に関する最先端の結果を示す実験を行う。

We present SLAIM - Simultaneous Localization and Implicit Mapping. We propose a novel coarse-to-fine tracking model tailored for Neural Radiance Field SLAM (NeRF-SLAM) to achieve state-of-the-art tracking performance. Notably, existing NeRF-SLAM systems consistently exhibit inferior tracking performance compared to traditional SLAM algorithms. NeRF-SLAM methods solve camera tracking via image alignment and photometric bundle-adjustment. Such optimization processes are difficult to optimize due to the narrow basin of attraction of the optimization loss in image space (local minima) and the lack of initial correspondences. We mitigate these limitations by implementing a Gaussian pyramid filter on top of NeRF, facilitating a coarse-to-fine tracking optimization strategy. Furthermore, NeRF systems encounter challenges in converging to the right geometry with limited input views. While prior approaches use a Signed-Distance Function (SDF)-based NeRF and directly supervise SDF values by approximating ground truth SDF through depth measurements, this often results in suboptimal geometry. In contrast, our method employs a volume density representation and introduces a novel KL regularizer on the ray termination distribution, constraining scene geometry to consist of empty space and opaque surfaces. Our solution implements both local and global bundle-adjustment to produce a robust (coarse-to-fine) and accurate (KL regularizer) SLAM solution. We conduct experiments on multiple datasets (ScanNet, TUM, Replica) showing state-of-the-art results in tracking and in reconstruction accuracy.
翻訳日:2024-04-18 13:45:12 公開日:2024-04-17
# 注意誘導型リカレントニューラルネットワークに基づく短期風速予測モデルと誤差補正戦略

Short-term wind speed forecasting model based on an attention-gated recurrent neural network and error correction strategy ( http://arxiv.org/abs/2404.11422v1 )

ライセンス: Link先を確認
Haojian Huang, (参考訳) 正確な風速シリーズ予測は、グリッドディスパッチのセキュリティと風力発電の適用に非常に重要である。 しかし、その非線形性や非定常性を考慮すると、短期的な予測は非常に難しい。 したがって、この論文は、改良されたゲートリカレントニューラルネットワーク(AtGRU)と誤り訂正の戦術により、注意の基盤として1つの短期風速予測パターンを提起する。 このモデルは予備予測器としてAtGRUモデルを使用し、エラー修正器としてGRUモデルを使用する。 当初、SSA (singular spectrum analysis) は、ノイズを低減するために以前の風速シリーズで採用されていた。 その後、過去の風速シリーズが予測器の訓練に使用される。 この過程において、予測は特定の誤りを犯す可能性がある。 変分モード分解(VMD)によって処理されるこれらのエラーのシーケンスは、誤りの修正を訓練するために使用される。 最終的な予測結果は、単に予測器予測とエラー修正器の合計である。 提案したSSA-AtGRU-VMD-GRUモデルは、ウッドバーン、セントトーマス、サンタクルーズの3つのケーススタディにおいて比較モデルより優れている。 このモデルにより風速予測の精度が向上することが示唆された。

The accurate wind speed series forecast is very pivotal to security of grid dispatching and the application of wind power. Nevertheless, on account of their nonlinear and non-stationary nature, their short-term forecast is extremely challenging. Therefore, this dissertation raises one short-term wind speed forecast pattern on the foundation of attention with an improved gated recurrent neural network (AtGRU) and a tactic of error correction. That model uses the AtGRU model as the preliminary predictor and the GRU model as the error corrector. At the beginning, SSA (singular spectrum analysis) is employed in previous wind speed series for lessening the noise. Subsequently, historical wind speed series is going to be used for the predictor training. During this process, the prediction can have certain errors. The sequence of these errors processed by variational modal decomposition (VMD) is used to train the corrector of error. The eventual forecast consequence is just the sum of predictor forecast and error corrector. The proposed SSA-AtGRU-VMD-GRU model outperforms the compared models in three case studies on Woodburn, St. Thomas, and Santa Cruz. It is indicated that the model evidently enhances the correction of the wind speed forecast.
翻訳日:2024-04-18 13:45:11 公開日:2024-04-17
# SPAMming Labels:明日のトラッカーに効率的なアノテーション

SPAMming Labels: Efficient Annotations for the Trackers of Tomorrow ( http://arxiv.org/abs/2404.11426v1 )

ライセンス: Link先を確認
Orcun Cetintas, Tim Meinhardt, Guillem Brasó, Laura Leal-Taixé, (参考訳) ビデオからのトラジェクトリアノテーションのアノテーション効率の向上は、次世代のデータハングリートラッキングアルゴリズムが大規模データセット上で成長する可能性を秘めている。 このタスクの重要性にもかかわらず、トラッキングデータセットを包括的に効率的にラベル付けする方法を研究する研究は、今のところほとんどない。 本研究では,人間の介入を最小限に抑えた高品質なラベルを提供する追跡データエンジンSPAMを紹介する。 SPAMは2つの重要な洞察に基づいて構築されています。 i)ほとんどの追跡シナリオは簡単に解決できる。 これを活用するために、トレーニング済みのモデルを用いて高品質な擬似ラベルを生成し、より難しいインスタンスの小さなサブセットに人間の関与を保ちます。 二 時間にわたってトラックアノテーションの時空間的依存関係を扱うことは、グラフを通して優雅かつ効率的に定式化することができる。 そこで我々は統合グラフ定式化を用いて、トラックの検知と同一性関連の両方のアノテーションに時間をかけて対処する。 これらの知見に基づき、SPAMは、基礎となる真理ラベルのコストをわずかに抑えた高品質なアノテーションを生成する。 我々はSPAMラベルでトレーニングされたトラッカーが人間のアノテーションで訓練されたトラッカーに匹敵する性能を達成でき、人間のラベル付け作業の3-20%しか必要としないことを示した。 したがって、SPAMは大規模追跡データセットの高効率なラベル付けへの道を開く。 私たちのコードとモデルは受け入れられるでしょう。

Increasing the annotation efficiency of trajectory annotations from videos has the potential to enable the next generation of data-hungry tracking algorithms to thrive on large-scale datasets. Despite the importance of this task, there are currently very few works exploring how to efficiently label tracking datasets comprehensively. In this work, we introduce SPAM, a tracking data engine that provides high-quality labels with minimal human intervention. SPAM is built around two key insights: i) most tracking scenarios can be easily resolved. To take advantage of this, we utilize a pre-trained model to generate high-quality pseudo-labels, reserving human involvement for a smaller subset of more difficult instances; ii) handling the spatiotemporal dependencies of track annotations across time can be elegantly and efficiently formulated through graphs. Therefore, we use a unified graph formulation to address the annotation of both detections and identity association for tracks across time. Based on these insights, SPAM produces high-quality annotations with a fraction of ground truth labeling cost. We demonstrate that trackers trained on SPAM labels achieve comparable performance to those trained on human annotations while requiring only 3-20% of the human labeling effort. Hence, SPAM paves the way towards highly efficient labeling of large-scale tracking datasets. Our code and models will be available upon acceptance.
翻訳日:2024-04-18 13:45:11 公開日:2024-04-17
# 深層学習とXAIを用いた胸部X線画像からの肺疾患分類

Explainable Lung Disease Classification from Chest X-Ray Images Utilizing Deep Learning and XAI ( http://arxiv.org/abs/2404.11428v1 )

ライセンス: Link先を確認
Tanzina Taher Ifty, Saleh Ahmed Shafin, Shoeb Mohammad Shahriar, Tashfia Towhid, (参考訳) 肺疾患は依然として重要な世界的な健康上の問題であり、正確な診断方法と迅速な診断方法を持つことが重要です。 この研究は、異なる肺疾患をウイルス性肺炎、細菌性肺炎、COVID、結核、正常肺の5つのグループに分類することに焦点を当てている。 高度なディープラーニング技術を活用して、CNN、ハイブリッドモデル、アンサンブル、トランスフォーマー、Big Transferなど、さまざまなモデルを調査します。 本研究は,超パラメータチューニング,階層化k-フォルダクロスバリデーション,微調整によるトランスファーラーニングなどの包括的手法を網羅し,Xceptionモデルが5-フォルダクロスバリデーションにより微調整され,96.21\%の精度が得られることを示した。 この成功は、我々の方法が異なる肺疾患を正確に識別するのに役立つことを示している。 説明可能な人工知能(XAI)手法の探索により、これらのモデルが採用する意思決定プロセスの理解がさらに深まり、臨床応用への信頼が高まります。

Lung diseases remain a critical global health concern, and it's crucial to have accurate and quick ways to diagnose them. This work focuses on classifying different lung diseases into five groups: viral pneumonia, bacterial pneumonia, COVID, tuberculosis, and normal lungs. Employing advanced deep learning techniques, we explore a diverse range of models including CNN, hybrid models, ensembles, transformers, and Big Transfer. The research encompasses comprehensive methodologies such as hyperparameter tuning, stratified k-fold cross-validation, and transfer learning with fine-tuning.Remarkably, our findings reveal that the Xception model, fine-tuned through 5-fold cross-validation, achieves the highest accuracy of 96.21\%. This success shows that our methods work well in accurately identifying different lung diseases. The exploration of explainable artificial intelligence (XAI) methodologies further enhances our understanding of the decision-making processes employed by these models, contributing to increased trust in their clinical applications.
翻訳日:2024-04-18 13:45:11 公開日:2024-04-17
# CarcassFormer:poultry Carcas欠陥の同時局在・分別・分類のためのエンドツーエンドトランスフォーマーベースのフレームワーク

CarcassFormer: An End-to-end Transformer-based Framework for Simultaneous Localization, Segmentation and Classification of Poultry Carcass Defect ( http://arxiv.org/abs/2404.11429v1 )

ライセンス: Link先を確認
Minh Tran, Sang Truong, Arthur F. A. Fernandes, Michael T. Kidd, Ngan Le, (参考訳) 食品産業では、加工中の鶏肉の質を評価することが重要なステップである。 本研究では, 熟練労働者や検査官の関与を必要とせず, カーカス品質評価の自動化に有効な手法を提案する。 提案システムは機械学習(ML)とコンピュータビジョン(CV)技術に基づいて,自動欠陥検出とカーカス品質評価を可能にする。 この目的のために、CarcassFormerと呼ばれるエンドツーエンドフレームワークが導入されている。 トランスフォーマーをベースとしたアーキテクチャで、視覚的表現を効果的に抽出し、同時に毛細血管の欠陥を検出し、セグメンティングし、分類する。 提案する枠組みは, 生産・輸送の福祉問題による不完全性の解析, プラントステンナー, スカンダ, ピッカー, その他の機器の故障を処理できる。 フレームワークをベンチマークするために、最初は7,321枚の画像のデータセットが取得され、画像ごとに1枚と複数個のカーケースが含まれていた。 本研究では,CarcassFormerシステムの性能を,分類,検出,セグメンテーションタスクにおける他の最先端(SOTA)手法と比較する。 本研究では,AP,AP@50,AP@75などの各種評価指標において,従来手法よりも優れた性能向上を図っている。 さらに、質的な結果は、羽を含む細部を捉え、高精度で正確な位置決めとセグメンテーションを行うカルカスフォルマーの強さを強調している。 さらなる研究とコラボレーションを容易にするため、CarcassFormerの事前訓練済みモデルとソースコードは、以下の研究目的で利用可能である。

In the food industry, assessing the quality of poultry carcasses during processing is a crucial step. This study proposes an effective approach for automating the assessment of carcass quality without requiring skilled labor or inspector involvement. The proposed system is based on machine learning (ML) and computer vision (CV) techniques, enabling automated defect detection and carcass quality assessment. To this end, an end-to-end framework called CarcassFormer is introduced. It is built upon a Transformer-based architecture designed to effectively extract visual representations while simultaneously detecting, segmenting, and classifying poultry carcass defects. Our proposed framework is capable of analyzing imperfections resulting from production and transport welfare issues, as well as processing plant stunner, scalder, picker, and other equipment malfunctions. To benchmark the framework, a dataset of 7,321 images was initially acquired, which contained both single and multiple carcasses per image. In this study, the performance of the CarcassFormer system is compared with other state-of-the-art (SOTA) approaches for both classification, detection, and segmentation tasks. Through extensive quantitative experiments, our framework consistently outperforms existing methods, demonstrating remarkable improvements across various evaluation metrics such as AP, AP@50, and AP@75. Furthermore, the qualitative results highlight the strengths of CarcassFormer in capturing fine details, including feathers, and accurately localizing and segmenting carcasses with high precision. To facilitate further research and collaboration, the pre-trained model and source code of CarcassFormer is available for research purposes at: \url{https://github.com/UARK-AICV/CarcassFormer}.
翻訳日:2024-04-18 13:45:11 公開日:2024-04-17
# 非フラットな仮定に基づく論証の確立と計算的側面

Instantiations and Computational Aspects of Non-Flat Assumption-based Argumentation ( http://arxiv.org/abs/2404.11431v1 )

ライセンス: Link先を確認
Tuomo Lehtonen, Anna Rapberger, Francesca Toni, Markus Ulbricht, Johannes P. Wallner, (参考訳) 仮定に基づく議論(ABA)のための既存の計算ツールのほとんどは、より一般的なケースを無視して、いわゆるフラットフレームワークに焦点を当てている。 本稿では,非平坦なABAにおける推論に対するインスタンス化に基づくアプローチについて検討する。 ABAとバイポーラ議論フレームワーク(BAF)のセマンティックス保存翻訳を利用する。 コンパイル可能性理論を利用することで、構築されたBAFが一般に指数関数のサイズになることを示す。 議論の数と計算コストを低く抑えるために、冗長な議論を識別する3つの方法を提案する。 さらに,ポリサイズインスタンス化を許容するABAの断片を同定する。 非平坦なABAにおける推論のための2つのアルゴリズム的アプローチを提案する。 第1のアプローチはBAFインスタンス化を利用し、第2のアプローチは引数を構築することなく直接動作する。 経験的評価は、BAF推論の複雑さが低いことを反映して、前者が後者を多くのケースで上回っていることを示している。 この結果は、直接アプローチがインスタンスベースのアプローチを支配しているフラットなABAとは対照的である。

Most existing computational tools for assumption-based argumentation (ABA) focus on so-called flat frameworks, disregarding the more general case. In this paper, we study an instantiation-based approach for reasoning in possibly non-flat ABA. We make use of a semantics-preserving translation between ABA and bipolar argumentation frameworks (BAFs). By utilizing compilability theory, we establish that the constructed BAFs will in general be of exponential size. In order to keep the number of arguments and computational cost low, we present three ways of identifying redundant arguments. Moreover, we identify fragments of ABA which admit a poly-sized instantiation. We propose two algorithmic approaches for reasoning in possibly non-flat ABA. The first approach utilizes the BAF instantiation while the second works directly without constructing arguments. An empirical evaluation shows that the former outperforms the latter on many instances, reflecting the lower complexity of BAF reasoning. This result is in contrast to flat ABA, where direct approaches dominate instantiation-based approaches.
翻訳日:2024-04-18 13:45:11 公開日:2024-04-17
# 多目的問題におけるNSGA-IIIの実行時解析

Runtime Analyses of NSGA-III on Many-Objective Problems ( http://arxiv.org/abs/2404.11433v1 )

ライセンス: Link先を確認
Andre Opris, Duc-Cuong Dang, Dirk Sudholt, (参考訳) NSGA-IIとNSGA-IIIは、実際には最も一般的な進化的多目的アルゴリズムである。 NSGA-IIは2や3のような少数の目的のために使用されるが、NSGA-IIIはより多くの目的を扱うように設計されている。 最近のブレークスルーで、Wietheger and Doerr (IJCAI 2023) は、3オブジェクトのOneMinMax問題に対してNSGA-IIIの最初のランタイム解析を行い、この最先端のアルゴリズムを厳密に分析できることを示した。 我々は, NSGA-III の初回ランタイム解析を, mLOTZ, mOMM, mCOCZ の多目的ベンチマーク問題である mLOTZ, mOMM および mCOCZ に対して, 任意の定数数$m$ の目的に対して提示することによって, 新たな研究線を推し進める。 本分析は,提案アルゴリズムの重要なパラメータ,すなわち参照点数と集団サイズを設定する方法を提供し,優れた性能を保証できる。 これらのパラメータは,問題次元,目的数,適合範囲によってどのようにスケールするかを示す。 我々の知る限り、これらは3つ以上の目的に対してNSGA-IIIの最初のランタイム解析である。

NSGA-II and NSGA-III are two of the most popular evolutionary multi-objective algorithms used in practice. While NSGA-II is used for few objectives such as 2 and 3, NSGA-III is designed to deal with a larger number of objectives. In a recent breakthrough, Wietheger and Doerr (IJCAI 2023) gave the first runtime analysis for NSGA-III on the 3-objective OneMinMax problem, showing that this state-of-the-art algorithm can be analyzed rigorously. We advance this new line of research by presenting the first runtime analyses of NSGA-III on the popular many-objective benchmark problems mLOTZ, mOMM, and mCOCZ, for an arbitrary constant number $m$ of objectives. Our analysis provides ways to set the important parameters of the algorithm: the number of reference points and the population size, so that a good performance can be guaranteed. We show how these parameters should be scaled with the problem dimension, the number of objectives and the fitness range. To our knowledge, these are the first runtime analyses for NSGA-III for more than 3 objectives.
翻訳日:2024-04-18 13:45:11 公開日:2024-04-17
# スピンによる水素原子のSO(4)$対称性

$SO(4)$ Symmetry in Hydrogen Atom with Spin ( http://arxiv.org/abs/2404.11437v1 )

ライセンス: Link先を確認
Xing-Yan Fan, Xiang-Ru Xie, Sheng-Ming Li, Jing-Ling Chen, (参考訳) 自然界で最も単純な原子として、水素原子は非相対論的量子力学から相対論的量子力学まで徹底的に研究されてきた。 水素原子の研究の中で、そのエネルギー準位は最も基本的なものであり、波動方程式の分解能よりも$SO(4)$対称性でより便利に予測できる。 さらに、'spin'' もまた量子力学において必須の話題であり、本質的な自由度として現れる。 本研究では、量子ルンゲ・レンツベクトルをスピン依存ベクトルに一般化し、その後、$SO(4)$対称性の要求に基づき、スピンを持つ水素原子の新しいハミルトニアンを抽出する。 さらに、スピンポテンシャルを持つ水素原子のエネルギースペクトルは、$SO(4)$対称性の顕著なアプローチによって決定される。 我々の研究は水素原子の基盤を広げ、水素原子に基づく他の複雑なモデルに寄与する可能性がある。

As the simplest atom in nature, the hydrogen atom has been explored thoroughly from the perspective of non-relativistic quantum mechanics to relativistic quantum mechanics. Among the research on hydrogen atom, its energy level is the most basic, which can be obtained more conveniently predicated on the $SO(4)$ symmetry than the wave-equation resolution. Moreover, ``spin'' is another indispensable topic in quantum mechanics, appearing as an intrinsic degree of freedom. In this work, we generalize the quantum Runge-Lenz vector to a spin-dependent one, and then extract a novel Hamiltonian of hydrogen atom with spin based on the requirement of $SO(4)$ symmetry. Furthermore, the energy spectrum of hydrogen atom with spin potentials is also determined by the remarkable approach of $SO(4)$ symmetry. Our findings extend the ground of hydrogen atom, and may contribute to other complicated models based on hydrogen atom.
翻訳日:2024-04-18 13:35:28 公開日:2024-04-17
# Rydberg Atomsによる電力グリッド最適化問題の解決

Solving Power Grid Optimization Problems with Rydberg Atoms ( http://arxiv.org/abs/2404.11440v1 )

ライセンス: Link先を確認
Nora Bauer, Kübra Yeter-Aydeniz, Elias Kokkas, George Siopsis, (参考訳) 中性原子量子ハードウェアの急速な開発は、量子ユーティリティーを確立することを目的とした現実世界の問題を解決するハードウェア中心のアルゴリズムを設計するユニークな機会を提供する。 本研究では,各重み付きグラフに対するMaxCut問題の解法における2つのアルゴリズムの性能について検討する。 第1の方法は、最先端の機械学習ツールを使用して、Adiabatic Ansatzを使ってグラフのパルス形状と埋め込みを最適化し、基底状態を見つける。 本研究では,IEEE 9-bus 電力系統の最大電力分割タスクの探索と,Aquila 量子プロセッサ上で最大12個のランダムに発生する問題の MaxCut の取得について,本手法の性能試験を行った。 我々の知る限りでは、この研究はQueraの量子ハードウェアAquilaの最初のMaxCut結果を示す。 Aquila上での我々の実験は、解を得る確率が減ったとしても、クラウドアクセス中性原子量子ハードウェア上でのMaxCut問題を解くことができることを示した。 第2の方法は、Aquilaハードウェアの創発的な更新であるローカルデチューニングを使用して、同等の性能の標準QAOA Ansatzをほぼ正確に実現している。 最後に, IEEE 9-bus 電力グリッド状態のベンチマークとして, 断熱法で実現された時間経過の忠実度について検討した。

The rapid development of neutral atom quantum hardware provides a unique opportunity to design hardware-centered algorithms for solving real-world problems aimed at establishing quantum utility. In this work, we study the performance of two such algorithms on solving MaxCut problem for various weighted graphs. The first method uses a state-of-the-art machine learning tool to optimize the pulse shape and embedding of the graph using an adiabatic Ansatz to find the ground state. We tested the performance of this method on finding maximum power section task of the IEEE 9-bus power system and obtaining MaxCut of randomly generated problems of size up to 12 on the Aquila quantum processor. To the best of our knowledge, this work presents the first MaxCut results on Quera's Aquila quantum hardware. Our experiments run on Aquila demonstrate that even though the probability of obtaining the solution is reduced, one can still solve the MaxCut problem on cloud-accessed neutral atom quantum hardware. The second method uses local detuning, which is an emergent update on the Aquila hardware, to obtain a near exact realization of the standard QAOA Ansatz with similar performance. Finally, we study the fidelity throughout the time evolution realized in the adiabatic method as a benchmark for the IEEE 9-bus power grid graph state.
翻訳日:2024-04-18 13:35:28 公開日:2024-04-17
# CEEMDAN-PSO-SVMに基づく無人表面容器運動姿勢の予測

Prediction of Unmanned Surface Vessel Motion Attitude Based on CEEMDAN-PSO-SVM ( http://arxiv.org/abs/2404.11443v1 )

ライセンス: Link先を確認
Zhuoya Geng, Jianmei Chen, Wanqiang Zhu, (参考訳) 無人船は、海上を航行しながら、機材や機器で経験した波乱を緩和するために、アクティブな補償システムを利用する。 しかし,無人船の姿勢測定には遅延があり,信号取得過程における遅延を補うために無人船の姿勢予測を導入する。 本稿では, 波動の基本原理に基づいて, 波動エネルギースペクトルから無人船の波動の乱れパターンを導出する。 無人船の動作姿勢のシミュレーション解析により、動作姿勢データを取得し、その後の作業のための実験データを提供する。 適応雑音を用いた完全アンサンブル経験モード分解(CEEMDAN)、粒子群最適化(PSO)、支援ベクトルマシン(SVM)に基づく予測モデルを構築し、無人船の動作姿勢を予測する。 シミュレーションの結果,従来の予測モデルよりも優れた予測精度が得られた。 例えば、平均絶対誤差では、EMD-PSO-SVMモデルと比較して17%改善する。

Unmanned boats, while navigating at sea, utilize active compensation systems to mitigate wave disturbances experienced by onboard instruments and equipment. However, there exists a lag in the measurement of unmanned boat attitudes, thus introducing unmanned boat motion attitude prediction to compensate for the lag in the signal acquisition process. This paper, based on the basic principles of waves, derives the disturbance patterns of waves on unmanned boats from the wave energy spectrum. Through simulation analysis of unmanned boat motion attitudes, motion attitude data is obtained, providing experimental data for subsequent work. A combined prediction model based on Complete Ensemble Empirical Mode Decomposition with Adaptive Noise (CEEMDAN), Particle Swarm Optimization (PSO), and Support Vector Machine (SVM) is designed to predict the motion attitude of unmanned boats. Simulation results validate its superior prediction accuracy compared to traditional prediction models. For example, in terms of mean absolute error, it improves by 17% compared to the EMD-PSO-SVM model.
翻訳日:2024-04-18 13:35:28 公開日:2024-04-17
# 量子体積回路における忠実度減衰と誤差蓄積

Fidelity decay and error accumulation in quantum volume circuits ( http://arxiv.org/abs/2404.11444v1 )

ライセンス: Link先を確認
Nadir Samos Sáenz de Buruaga, Rafał Bistroń, Marcin Rudziński, Rodrigo Miguel Chinita Pereira, Karol Życzkowski, Pedro Ribeiro, (参考訳) 故障量子回路モデルにおける忠実度減衰と誤り蓄積の包括的解析を行う。 所望の出力状態と不良出力状態の間の平均忠実度に限定した解析的境界を考案し,2量子ゲートとマルチキュービット置換の実装時に発生するエラーを考慮に入れた。 本研究では,2種類の誤差のパラメータ化確率の関数として,量子ビット数と回路深さの両方で指数関数的に減衰し,減衰率を決定することを示した。 これらの減衰定数は、プロセッサアーキテクチャの接続性と次元性に複雑に結びついている。 さらに,量子ボリュームテストにおいて,量子プロセッサのベンチマークに使用される重出力周波数と忠実度との線形関係を,誤差プロトコルに基づいて確立する。 これらの知見は、特定のエラーが存在する場合の忠実度トレンドを予測する方法を示し、量子ボリュームを増やすための最良の戦略に関する洞察を提供する。

We provide a comprehensive analysis of fidelity decay and error accumulation in faulty quantum circuit models. We devise an analytical bound to the average fidelity between the desired and faulty output states, accounting for errors that may arise during the implementation of two-qubit gates and multi-qubit permutations. We demonstrate that fidelity decays exponentially with both the number of qubits and circuit depth, and determine the decay rates as a function of the parameterized probabilities of the two types of errors. These decay constants are intricately linked to the connectivity and dimensionality of the processor's architecture. Furthermore, we establish a robust linear relationship between fidelity and the heavy output frequency used in Quantum Volume tests to benchmark quantum processors, under the considered errors protocol. These findings pave the way for predicting fidelity trends in the presence of specific errors and offer insights into the best strategies for increasing Quantum Volume.
翻訳日:2024-04-18 13:35:28 公開日:2024-04-17
# 大規模言語モデルを用いたオープンエンディングウォーゲーム

Open-Ended Wargames with Large Language Models ( http://arxiv.org/abs/2404.11446v1 )

ライセンス: Link先を確認
Daniel P. Hogan, Andrea Brennen, (参考訳) ウォーゲームは現実世界の意思決定を理解しリハーサルするための強力なツールだ。 人工知能(AI)を用いたウォーゲームの自動プレイは、人間が操作するゲーム以外の可能性を可能にしている。 戦闘ゲームには2つのカテゴリがある: 定量的ゲーム、離散的なタイプの動き、質的なゲーム。 歴史的に、自動化の取り組みは定量ゲームに焦点を当ててきたが、大規模言語モデル(LLM)は質的なウォーゲームを自動化することができる。 質的なウォーゲームを行うための LLM ベースのマルチエージェントシステムである "Snow Globe" を紹介する。 Snow Globeでは、シナリオ準備からゲーム後分析までのテキストベースの定性的ウォーゲームの各ステージを、AI、人間、またはそれらの組み合わせによって任意に行うことができる。 我々はそのソフトウェアアーキテクチャを概念的に記述し、この出版とともにオープンソース実装をリリースする。 ケーススタディでは、AIインシデント対応に関するテーブルトップエクササイズと、地政学的危機に関する政治戦争ゲームをシミュレートする。 このアプローチの潜在的な応用と、より広範なウォーガーミングエコシステムにどのように適合するかについて論じる。

Wargames are a powerful tool for understanding and rehearsing real-world decision making. Automated play of wargames using artificial intelligence (AI) enables possibilities beyond those of human-conducted games, such as playing the game many times over to see a range of possible outcomes. There are two categories of wargames: quantitative games, with discrete types of moves, and qualitative games, which revolve around open-ended responses. Historically, automation efforts have focused on quantitative games, but large language models (LLMs) make it possible to automate qualitative wargames. We introduce "Snow Globe," an LLM-powered multi-agent system for playing qualitative wargames. With Snow Globe, every stage of a text-based qualitative wargame from scenario preparation to post-game analysis can be optionally carried out by AI, humans, or a combination thereof. We describe its software architecture conceptually and release an open-source implementation alongside this publication. As case studies, we simulate a tabletop exercise about an AI incident response and a political wargame about a geopolitical crisis. We discuss potential applications of the approach and how it fits into the broader wargaming ecosystem.
翻訳日:2024-04-18 13:35:28 公開日:2024-04-17
# 自動対話システムに基づく感情的知的対話生成に関する研究

Research on emotionally intelligent dialogue generation based on automatic dialogue system ( http://arxiv.org/abs/2404.11447v1 )

ライセンス: Link先を確認
Jin Wang, JinFei Wang, Shuying Dai, Jiqiang Yu, Keqin Li, (参考訳) 自動対話システムは人工知能の重要な応用であり、従来のシステムはユーザーの感情を理解し、共感的なフィードバックを提供するのに苦労している。 本研究では、感情知能技術を自動対話システムに統合し、深層学習と自然言語処理技術を通して感情知能を備えた対話生成モデルを作成する。 モデルは、広範囲の感情と特定の痛み信号をリアルタイムで検出し、理解することができ、システムは共感的な相互作用を提供することができる。 人工知能は痛みを検知し、痛みの共感を表現するか?」という研究結果を統合することで、痛みの共感の微妙な要素を理解する能力が向上し、感情的な知性対話システムにより高い基準が設定された。 本プロジェクトは,高度な感情情報機能を対話システムに統合し,ユーザエクスペリエンスと対話品質を向上させるための理論的理解と実践的提案を提供することを目的としている。

Automated dialogue systems are important applications of artificial intelligence, and traditional systems struggle to understand user emotions and provide empathetic feedback. This study integrates emotional intelligence technology into automated dialogue systems and creates a dialogue generation model with emotional intelligence through deep learning and natural language processing techniques. The model can detect and understand a wide range of emotions and specific pain signals in real time, enabling the system to provide empathetic interaction. By integrating the results of the study "Can artificial intelligence detect pain and express pain empathy?", the model's ability to understand the subtle elements of pain empathy has been enhanced, setting higher standards for emotional intelligence dialogue systems. The project aims to provide theoretical understanding and practical suggestions to integrate advanced emotional intelligence capabilities into dialogue systems, thereby improving user experience and interaction quality.
翻訳日:2024-04-18 13:35:28 公開日:2024-04-17
# AIによる認知行動療法の強化:ソーシャルメディアテキストから認知経路を抽出するためのディープラーニングと大規模言語モデル

AI-Enhanced Cognitive Behavioral Therapy: Deep Learning and Large Language Models for Extracting Cognitive Pathways from Social Media Texts ( http://arxiv.org/abs/2404.11449v1 )

ライセンス: Link先を確認
Meng Jiang, Yi Jing Yu, Qing Zhao, Jianqiang Li, Changwei Song, Hongzhi Qi, Wei Zhai, Dan Luo, Xiaoqin Wang, Guanghui Fu, Bing Xiang Yang, (参考訳) 認知行動療法(Cognitive Behavioral Therapy, CBT)は、精神疾患から生じる不合理な思考に対処する有効な手法であるが、患者の治療に成功するための認知経路を正確に同定する必要がある。 現代の社会では、個人は特定のトピックについてソーシャルメディア上で否定的な感情を表現することが多く、極端な場合における自殺行動を含む認知的歪みを呈することが多い。 しかし、心理療法士がオンラインで効果的な介入を行うのに役立つ認知経路を解析するための方法論が欠如している。 本研究では,ソーシャルメディアからデータを収集し,認知的理論的枠組みに基づいて,認知的経路を抽出するタスクを確立した。 当初,認知経路を4つの主要なカテゴリと19のサブカテゴリからなる階層的テキスト分類として抽出する作業に分類した。 その後,精神療法士が重要な情報を素早く把握できるよう,テキスト要約タスクを構築した。 本研究は,これらの課題に対するディープラーニングと大規模言語モデル(LLM)の性能評価である。 その結果,階層型テキスト分類作業において,マイクロF1スコア62.34%の深層学習が達成された。 一方、テキスト要約タスクでは、GPT-4 は 54.92 の Rouge-1 スコアと 30.86 の Rouge-2 スコアを達成し、実験的なディープラーニングモデルの性能を上回った。 しかし、幻覚に悩まされることもある。 この分野のさらなる研究を支援するために、すべてのモデルとコードを公開しました。

Cognitive Behavioral Therapy (CBT) is an effective technique for addressing the irrational thoughts stemming from mental illnesses, but it necessitates precise identification of cognitive pathways to be successfully implemented in patient care. In current society, individuals frequently express negative emotions on social media on specific topics, often exhibiting cognitive distortions, including suicidal behaviors in extreme cases. Yet, there is a notable absence of methodologies for analyzing cognitive pathways that could aid psychotherapists in conducting effective interventions online. In this study, we gathered data from social media and established the task of extracting cognitive pathways, annotating the data based on a cognitive theoretical framework. We initially categorized the task of extracting cognitive pathways as a hierarchical text classification with four main categories and nineteen subcategories. Following this, we structured a text summarization task to help psychotherapists quickly grasp the essential information. Our experiments evaluate the performance of deep learning and large language models (LLMs) on these tasks. The results demonstrate that our deep learning method achieved a micro-F1 score of 62.34% in the hierarchical text classification task. Meanwhile, in the text summarization task, GPT-4 attained a Rouge-1 score of 54.92 and a Rouge-2 score of 30.86, surpassing the experimental deep learning model's performance. However, it may suffer from an issue of hallucination. We have made all models and codes publicly available to support further research in this field.
翻訳日:2024-04-18 13:35:28 公開日:2024-04-17
# 局所微分プライバシーを用いた実時間軌道合成

Real-Time Trajectory Synthesis with Local Differential Privacy ( http://arxiv.org/abs/2404.11450v1 )

ライセンス: Link先を確認
Yujia Hu, Yuntao Du, Zhikun Zhang, Ziquan Fang, Lu Chen, Kai Zheng, Yunjun Gao, (参考訳) 軌道ストリームは、スマートフォンや車載ナビゲーションシステムのような位置認識デバイスから生成される。 位置情報の繊細な性質のため、ユーザートラジェクトリを直接共有することは、プライバシーの漏洩問題に悩まされる。 ローカルディファレンシャルプライバシ(LDP)は、共有または分析される前にユーザ側の機密データを摂動させ、プライベートなトラジェクトリストリームの収集と分析のための有望なソリューションとして現れる。 残念なことに、既存のストリームリリースアプローチは、トラジェクトリストリーム内の豊富な時空間コンテキスト情報を無視することが多い。 そこで本研究では,ユーザの軌道ストリームからプライベートに抽出したモビリティパターンに基づいて,オンザフライの軌道合成が可能な,新しいリアルタイム軌道合成フレームワークRetraSynを提案する。 これにより、プライバシー保護付き高ユーティリティ合成データに対して、下流軌道解析を行うことができる。 また,実世界の移動旅行者の真の行動も考慮し,信頼性と実用性を確保する。 RetraSynの重要なコンポーネントは、グローバルモビリティモデル、動的モビリティ更新機構、リアルタイム合成、適応アロケーション戦略である。 我々は、さまざまな位置情報ベースのユーティリティメトリクスに基づいて、複数の実世界および合成軌道データセットに関する広範な実験を行い、ストリーミングと過去のシナリオの両方を包含する。 実験結果は,提案フレームワークの優位性と汎用性を示すものである。

Trajectory streams are being generated from location-aware devices, such as smartphones and in-vehicle navigation systems. Due to the sensitive nature of the location data, directly sharing user trajectories suffers from privacy leakage issues. Local differential privacy (LDP), which perturbs sensitive data on the user side before it is shared or analyzed, emerges as a promising solution for private trajectory stream collection and analysis. Unfortunately, existing stream release approaches often neglect the rich spatial-temporal context information within trajectory streams, resulting in suboptimal utility and limited types of downstream applications. To this end, we propose RetraSyn, a novel real-time trajectory synthesis framework, which is able to perform on-the-fly trajectory synthesis based on the mobility patterns privately extracted from users' trajectory streams. Thus, the downstream trajectory analysis can be performed on the high-utility synthesized data with privacy protection. We also take the genuine behaviors of real-world mobile travelers into consideration, ensuring authenticity and practicality. The key components of RetraSyn include the global mobility model, dynamic mobility update mechanism, real-time synthesis, and adaptive allocation strategy. We conduct extensive experiments on multiple real-world and synthetic trajectory datasets under various location-based utility metrics, encompassing both streaming and historical scenarios. The empirical results demonstrate the superiority and versatility of our proposed framework.
翻訳日:2024-04-18 13:35:28 公開日:2024-04-17
# 情報検索におけるバイアスと不公平の統一:大規模言語モデルによる課題と機会の調査

Unifying Bias and Unfairness in Information Retrieval: A Survey of Challenges and Opportunities with Large Language Models ( http://arxiv.org/abs/2404.11457v1 )

ライセンス: Link先を確認
Sunhao Dai, Chen Xu, Shicheng Xu, Liang Pang, Zhenhua Dong, Jun Xu, (参考訳) 大規模言語モデル(LLM)の急速な進歩に伴い、検索エンジンやレコメンダシステムといった情報検索(IR)システムは、重要なパラダイムシフトを経ている。 この進化は、新たな機会を示唆する一方で、特にバイアスや不公平の観点から、情報エコシステムを脅かすような、新たな課題をもたらす。 本稿では,LLMの統合において,赤外線システムにおけるバイアスや不公平性の問題の発生・抑圧に関する既存の研究を包括的に調査する。 まず、分布ミスマッチ問題としてバイアスと不公平を統一し、分布アライメントを通じて様々な緩和戦略を分類する基盤となる。 その後,LLMのIRシステムへの3つの重要な段階(データ収集,モデル開発,結果評価)から生じる偏見と不公平性の問題について,系統的に検討した。 そこで我々は,近年の文献を精査して分析し,これらの問題に関連する定義,特徴,およびそれに対応する緩和戦略に注目した。 最後に、我々は、IR分野の研究者や利害関係者に刺激を与え、このLLM時代のIRのバイアスや不公平問題をより深く理解し緩和することを目的として、将来の作業におけるいくつかのオープンな問題と課題を特定し、強調する。 関連論文やリソースのGitHubリポジトリも一貫して,https://github.com/KID-22/LLM-IR-Bias-Fairness-Surveyで維持しています。

With the rapid advancement of large language models (LLMs), information retrieval (IR) systems, such as search engines and recommender systems, have undergone a significant paradigm shift. This evolution, while heralding new opportunities, introduces emerging challenges, particularly in terms of biases and unfairness, which may threaten the information ecosystem. In this paper, we present a comprehensive survey of existing works on emerging and pressing bias and unfairness issues in IR systems when the integration of LLMs. We first unify bias and unfairness issues as distribution mismatch problems, providing a groundwork for categorizing various mitigation strategies through distribution alignment. Subsequently, we systematically delve into the specific bias and unfairness issues arising from three critical stages of LLMs integration into IR systems: data collection, model development, and result evaluation. In doing so, we meticulously review and analyze recent literature, focusing on the definitions, characteristics, and corresponding mitigation strategies associated with these issues. Finally, we identify and highlight some open problems and challenges for future work, aiming to inspire researchers and stakeholders in the IR field and beyond to better understand and mitigate bias and unfairness issues of IR in this LLM era. We also consistently maintain a GitHub repository for the relevant papers and resources in this rising direction at https://github.com/KID-22/LLM-IR-Bias-Fairness-Survey.
翻訳日:2024-04-18 13:35:28 公開日:2024-04-17
# Learn to Tour: ピックアップ・アンド・デリバリー・トラベリング・セールスマン問題におけるソリューション・フィージビリティ・マッピングのためのオペレータ設計

Learn to Tour: Operator Design For Solution Feasibility Mapping in Pickup-and-delivery Traveling Salesman Problem ( http://arxiv.org/abs/2404.11458v1 )

ライセンス: Link先を確認
Bowen Fang, Xu Chen, Xuan Di, (参考訳) 本稿では,旅行セールスマン問題 (TSP) の学習方法,すなわち,1対1のピックアップ・アンド・デリバリノードの順序に沿って最短のツアーを見出すことのできるピックアップ・アンド・デリバリTSP (PDTSP) を開発することを目的とする。 ここで1対1とは、輸送された人や商品が指定されたピックアップと配送ノードに関連付けられていることを意味する。 PDTSPでは、各ピックアップノードを対応する配信ノードの前に訪問しなければならないという優先的な制約を満たさなければならない。 PDTSPの古典的操作研究(OR)アルゴリズムは大規模問題へのスケールが難しい。 近年, 強化学習 (RL) がTSPに適用されている。 基本的な考え方は、ソリューション空間における訪問シーケンスを探索し、評価することである。 しかし、この手法は計算効率が低い可能性があり、先行制約に違反する多くの実現不可能な解を評価する必要がある。 実現可能空間内の解探索を制限するために、実現不可能な解空間を探索するのに時間を費やすことなく、ある実現可能解を常に別の実現可能空間にマップする演算子を利用する。 このような演算子は、RLフレームワークでPDTSPを解くポリシーとして評価され、選択される。 従来のORアルゴリズムや既存の学習方法など,提案手法とベースラインを比較した。 その結果,本手法はベースラインよりも短いツアーを見つけることができることがわかった。

This paper aims to develop a learning method for a special class of traveling salesman problems (TSP), namely, the pickup-and-delivery TSP (PDTSP), which finds the shortest tour along a sequence of one-to-one pickup-and-delivery nodes. One-to-one here means that the transported people or goods are associated with designated pairs of pickup and delivery nodes, in contrast to that indistinguishable goods can be delivered to any nodes. In PDTSP, precedence constraints need to be satisfied that each pickup node must be visited before its corresponding delivery node. Classic operations research (OR) algorithms for PDTSP are difficult to scale to large-sized problems. Recently, reinforcement learning (RL) has been applied to TSPs. The basic idea is to explore and evaluate visiting sequences in a solution space. However, this approach could be less computationally efficient, as it has to potentially evaluate many infeasible solutions of which precedence constraints are violated. To restrict solution search within a feasible space, we utilize operators that always map one feasible solution to another, without spending time exploring the infeasible solution space. Such operators are evaluated and selected as policies to solve PDTSPs in an RL framework. We make a comparison of our method and baselines, including classic OR algorithms and existing learning methods. Results show that our approach can find tours shorter than baselines.
翻訳日:2024-04-18 13:35:28 公開日:2024-04-17
# Octopus v3: オンデバイスサブビリオンマルチモーダルAIエージェントの技術レポート

Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent ( http://arxiv.org/abs/2404.11459v1 )

ライセンス: Link先を確認
Wei Chen, Zhiyuan Li, (参考訳) マルチモーダルAIエージェントは、自然言語、視覚、音声入力など、さまざまな種類のデータを処理して学習し、その動作を知らせる能力によって特徴付けられる。 GPT-4Vのような視覚データを組み込んだ大規模言語モデルの進歩にもかかわらず、画像ベースのデータをAIエージェントの実用的な結果に効果的に翻訳することは困難である。 本稿では,AIエージェントアプリケーション用に設計された関数トークンの概念を取り入れたマルチモーダルモデルを提案する。 エッジデバイスとの互換性を確保するため、我々のモデルは1Bパラメータ未満のコンパクトなサイズに最適化されている。 GPT-4と同様に、我々のモデルは英語と中国語の両方を処理できる。 我々はこのモデルがRaspberry Piのように制約のある幅広いエッジデバイス上で効率的に動作可能であることを実証した。

A multimodal AI agent is characterized by its ability to process and learn from various types of data, including natural language, visual, and audio inputs, to inform its actions. Despite advancements in large language models that incorporate visual data, such as GPT-4V, effectively translating image-based data into actionable outcomes for AI agents continues to be challenging. In this paper, we introduce a multimodal model that incorporates the concept of functional token specifically designed for AI agent applications. To ensure compatibility with edge devices, our model is optimized to a compact size of less than 1B parameters. Like GPT-4, our model can process both English and Chinese. We demonstrate that this model is capable of operating efficiently on a wide range of edge devices, including as constrained as a Raspberry Pi.
翻訳日:2024-04-18 13:35:28 公開日:2024-04-17
# ゲームエンジンと機械学習を用いたテーブルトップ検証演習のための合成衛星画像の作成

Using Game Engines and Machine Learning to Create Synthetic Satellite Imagery for a Tabletop Verification Exercise ( http://arxiv.org/abs/2404.11461v1 )

ライセンス: Link先を確認
Johannes Hoster, Sara Al-Sayed, Felix Biessmann, Alexander Glaser, Kristian Hildebrand, Igor Moric, Tuong Vy Nguyen, (参考訳) 衛星画像は、市民による関心活動の監視の絶好の機会と見なされている。 しかし、関連するイメージは十分な高解像度、品質、ケイデンスでは利用できないかもしれない。 このことは、市民が利用可能な衛星画像を用いて核活動を監視する真の長期的な可能性を評価することを制限する。 本稿では,最新のゲームエンジンと高度な機械学習技術を組み合わせることで,要求に応じて関連パラメータを選択可能なサイト合成画像を生成する方法を紹介する。 同時に、衛星の異なる特性をシミュレートするために解像度と外径の角度を調整することができる。 合成画像にはいくつかのユースケースが考えられるが、ここでは、新しい衛星コンステレーションと非常に短い再訪時間によって可能となる検証能力をよりよく理解するために、単純な監視シナリオを検証できるテーブルトップ演習を支援するための有用性に焦点を当てる。

Satellite imagery is regarded as a great opportunity for citizen-based monitoring of activities of interest. Relevant imagery may however not be available at sufficiently high resolution, quality, or cadence -- let alone be uniformly accessible to open-source analysts. This limits an assessment of the true long-term potential of citizen-based monitoring of nuclear activities using publicly available satellite imagery. In this article, we demonstrate how modern game engines combined with advanced machine-learning techniques can be used to generate synthetic imagery of sites of interest with the ability to choose relevant parameters upon request; these include time of day, cloud cover, season, or level of activity onsite. At the same time, resolution and off-nadir angle can be adjusted to simulate different characteristics of the satellite. While there are several possible use-cases for synthetic imagery, here we focus on its usefulness to support tabletop exercises in which simple monitoring scenarios can be examined to better understand verification capabilities enabled by new satellite constellations and very short revisit times.
翻訳日:2024-04-18 13:35:28 公開日:2024-04-17
# 散逸性チャーン絶縁体の量子力学

Quantum dynamics of dissipative Chern insulator ( http://arxiv.org/abs/2404.11466v1 )

ライセンス: Link先を確認
Jilian Zhong, Xiaoyue Li, (参考訳) 開放量子系の場合、短時間の進化は実効性非エルミート・ハミルトニアンによってよく説明されるが、長期の力学ではリンドブラッドのマスター方程式が必要であり、この方程式は、リエルミート超作用素が時間発展を特徴付ける。この論文では、チェン絶縁体に適切な利得と損失演算子を加えて、数値シミュレーションにより、長時間の量子状態の時間的進化を研究することによって、オープンシステムを構築した。

For open quantum systems,a short-time evolution is usually well described by the effective non-Hermitian Hamiltonians,while long-time dynamics requires the Lindblad master equation,in which the Liouvillian superoperators characterize the time evolution.In this paper, we constructed an open system by adding suitable gain and loss operators to the Chen insulator to investigate the time evolution of quantum states at long times by numerical simulations.Finally,we also propose a topolectrical circuits to realize the dissipative system for experimental observation.It is found that the opening and closing of the Liouvillian gap leads to different damping behaviours of the system and that the presence of non-Hermitian skin effects leads to a phenomenon of chiral damping with sharp wavefronts.Our study deepens the understanding of quantum dynamics of dissipative system.
翻訳日:2024-04-18 13:35:28 公開日:2024-04-17
# オープンソースソフトウェアエコシステムにおけるパッケージの大規模きめ細かい分析

A Large-scale Fine-grained Analysis of Packages in Open-Source Software Ecosystems ( http://arxiv.org/abs/2404.11467v1 )

ライセンス: Link先を確認
Xiaoyan Zhou, Feiran Liang, Zhaojie Xie, Yang Lan, Wenjia Niu, Jiqiang Liu, Haining Wang, Qiang Li, (参考訳) NPM、Maven、PyPIといったパッケージマネージャは、オープンソースソフトウェア(OSS)エコシステムにおいて重要な役割を果たす。 ソフトウェアパッケージ内の詳細な詳細は、既存のOSSエコシステム内の潜在的なリスクを明らかにし、悪意のあるパッケージを検出するための貴重な洞察を提供する。 本研究では, メタデータ, 静的, 動的機能など, きめ細かい情報(FGI)に着目した大規模実験分析を行った。 具体的には,5万以上の合法パッケージと1000以上の悪意パッケージの多種多様なFGI使用状況について検討する。 この多様なデータ収集に基づいて、正当性と悪意のあるパッケージの比較分析を行った。 その結果,(1) 悪意パッケージはメタデータの内容が少なく,(2) 正当性よりも静的・動的機能が少ないこと,(2) 悪意パッケージはFTPやSMTPといった他のアプリケーションサービスに比べてHTTP/URL関数を起動する傾向が高いこと,(3) FGIは正当性と悪質パッケージの区別可能な指標として機能すること,(4) FGIの1次元は,悪意パッケージを検出するのに十分な識別能力を有し,FGIのすべての次元を組み合わせることで全体的な性能を著しく向上できないこと,などが判明した。

Package managers such as NPM, Maven, and PyPI play a pivotal role in open-source software (OSS) ecosystems, streamlining the distribution and management of various freely available packages. The fine-grained details within software packages can unveil potential risks within existing OSS ecosystems, offering valuable insights for detecting malicious packages. In this study, we undertake a large-scale empirical analysis focusing on fine-grained information (FGI): the metadata, static, and dynamic functions. Specifically, we investigate the FGI usage across a diverse set of 50,000+ legitimate and 1,000+ malicious packages. Based on this diverse data collection, we conducted a comparative analysis between legitimate and malicious packages. Our findings reveal that (1) malicious packages have less metadata content and utilize fewer static and dynamic functions than legitimate ones; (2) malicious packages demonstrate a higher tendency to invoke HTTP/URL functions as opposed to other application services, such as FTP or SMTP; (3) FGI serves as a distinguishable indicator between legitimate and malicious packages; and (4) one dimension in FGI has sufficient distinguishable capability to detect malicious packages, and combining all dimensions in FGI cannot significantly improve overall performance.
翻訳日:2024-04-18 13:35:28 公開日:2024-04-17
# 攻撃的言語識別のためのプライバシ保護のためのフェデレーション学習手法

A Federated Learning Approach to Privacy Preserving Offensive Language Identification ( http://arxiv.org/abs/2404.11470v1 )

ライセンス: Link先を確認
Marcos Zampieri, Damith Premasiri, Tharindu Ranasinghe, (参考訳) 様々な形の攻撃的発言がオンラインで拡散することは、ソーシャルメディアにおいて重要な関心事である。 プラットフォームはこの問題に対処する方法に多大な投資をしてきたが、プライバシーに関する問題はいまだに未解決のままだ。 ソーシャルメディア上で攻撃的言語を検出するために訓練されたモデルは、集中型サーバにしばしば格納される大量のデータを用いて訓練または/または微調整される。 ソーシャルメディアデータの多くはエンドユーザに由来するため,攻撃的言語識別の文脈において,攻撃的言語識別(FL)を導入することにより,攻撃的言語をオンラインで識別するための分散型アーキテクチャをプライバシ保護することを提案する。 FLは分散アーキテクチャであり、複数のモデルをデータ共有を必要とせずにローカルにトレーニングできるため、ユーザのプライバシを保護できる。 FLを行うためのモデル融合手法を提案する。 公開されている4つの英語ベンチマークデータセット(AHSD, HASOC, HateXplain, OLID)で、複数のディープラーニングモデルをトレーニングし、そのパフォーマンスを詳細に評価した。 また、英語とスペイン語で言語間実験を行った。 提案したモデル融合アプローチは、プライバシを保ちながら、すべてのデータセットのベースラインを上回ります。

The spread of various forms of offensive speech online is an important concern in social media. While platforms have been investing heavily in ways of coping with this problem, the question of privacy remains largely unaddressed. Models trained to detect offensive language on social media are trained and/or fine-tuned using large amounts of data often stored in centralized servers. Since most social media data originates from end users, we propose a privacy preserving decentralized architecture for identifying offensive language online by introducing Federated Learning (FL) in the context of offensive language identification. FL is a decentralized architecture that allows multiple models to be trained locally without the need for data sharing hence preserving users' privacy. We propose a model fusion approach to perform FL. We trained multiple deep learning models on four publicly available English benchmark datasets (AHSD, HASOC, HateXplain, OLID) and evaluated their performance in detail. We also present initial cross-lingual experiments in English and Spanish. We show that the proposed model fusion approach outperforms baselines in all the datasets while preserving privacy.
翻訳日:2024-04-18 13:35:28 公開日:2024-04-17
# 米国における現在のサイバーセキュリティ規制とポリシーの有効性を評価する

Assessing The Effectiveness Of Current Cybersecurity Regulations And Policies In The US ( http://arxiv.org/abs/2404.11473v1 )

ライセンス: Link先を確認
Ejiofor Oluomachi, Akinsola Ahmed, Wahab Ahmed, Edozie Samson, (参考訳) 本稿は、サイバー脅威の頻度と高度化の中で、米国における現在のサイバーセキュリティ規制と政策の有効性を評価する。 NIST(National Institute of Standards and Technology)サイバーセキュリティフレームワーク、HIPAA、GLBA、FISMA、CISA、CCPA、DODサイバーセキュリティ成熟度モデル認定などの重要な規則に注目が集まっている。 本研究は、2000年から2022年までのサイバー犯罪データの傾向を分析し、これらの規制が異なる分野に与える影響を評価する。 この調査結果は、サイバー脅威の進化に直面する課題、成功、継続的な適応の必要性を浮き彫りにした。

This article assesses the effectiveness of current cybersecurity regulations and policies in the United States amidst the escalating frequency and sophistication of cyber threats. The focus is on the comprehensive framework established by the U.S. government, with a spotlight on the National Institute of Standards and Technology (NIST) Cybersecurity Framework and key regulations such as HIPAA, GLBA, FISMA, CISA, CCPA, and the DOD Cybersecurity Maturity Model Certification. The study evaluates the impact of these regulations on different sectors and analyzes trends in cybercrime data from 2000 to 2022. The findings highlight the challenges, successes, and the need for continuous adaptation in the face of evolving cyber threats
翻訳日:2024-04-18 13:25:44 公開日:2024-04-17
# ステップ・アウェアとレイヤー・アウェア・プロンプトによる安定拡散による高現実的な芸術的スタイルの伝達に向けて

Towards Highly Realistic Artistic Style Transfer via Stable Diffusion with Step-aware and Layer-aware Prompt ( http://arxiv.org/abs/2404.11474v1 )

ライセンス: Link先を確認
Zhanjie Zhang, Quanwei Zhang, Huaizhong Lin, Wei Xing, Juncheng Mo, Shuaicheng Huang, Jinheng Xie, Guangyuan Li, Junsheng Luan, Lei Zhao, Dalong Zhang, Lixia Chen, (参考訳) 芸術的スタイルの転送は、学習した芸術的スタイルを任意のコンテンツイメージに転送することを目的としており、芸術的なスタイル化されたイメージを生成する。 既存の生成的対向的ネットワークベースの手法は、非常にリアルなスタイリングされたイメージを生成できず、常に明らかなアーティファクトや不調和なパターンを導入します。 近年,大規模な事前学習拡散モデルが,高度にリアルな芸術的スタイリング画像を生成する新たな方法を生み出している。 しかし、拡散モデルに基づく手法は、通常、入力されたコンテンツ画像のコンテンツ構造をうまく保存することができず、望ましくないコンテンツ構造やスタイルパターンを導入している。 上記の問題に対処するために,LSASTと呼ばれる,事前学習した拡散型芸術的スタイル転送手法を提案する。 具体的には、学習可能なプロンプトの集合であるステップ認識とレイヤ認識のPrompt Spaceを導入し、アート作品のコレクションからスタイル情報を学習し、入力画像のコンテンツ構造とスタイルパターンを動的に調整する。 本研究では,プロンプト空間を学習するために,ステップウェアとレイヤアウェアのPrompt Inversionと呼ばれる新しいインバージョン手法を提案する。 さらに,私たちのLSASTに事前学習したControlNet条件分岐を注入することで,コンテント構造を維持するためのフレームワークの能力をさらに向上する。 大規模な実験により,提案手法は最先端の芸術的スタイル伝達法よりも,よりリアルな芸術的スタイル化画像を生成することができることが示された。

Artistic style transfer aims to transfer the learned artistic style onto an arbitrary content image, generating artistic stylized images. Existing generative adversarial network-based methods fail to generate highly realistic stylized images and always introduce obvious artifacts and disharmonious patterns. Recently, large-scale pre-trained diffusion models opened up a new way for generating highly realistic artistic stylized images. However, diffusion model-based methods generally fail to preserve the content structure of input content images well, introducing some undesired content structure and style patterns. To address the above problems, we propose a novel pre-trained diffusion-based artistic style transfer method, called LSAST, which can generate highly realistic artistic stylized images while preserving the content structure of input content images well, without bringing obvious artifacts and disharmonious style patterns. Specifically, we introduce a Step-aware and Layer-aware Prompt Space, a set of learnable prompts, which can learn the style information from the collection of artworks and dynamically adjusts the input images' content structure and style pattern. To train our prompt space, we propose a novel inversion method, called Step-ware and Layer-aware Prompt Inversion, which allows the prompt space to learn the style information of the artworks collection. In addition, we inject a pre-trained conditional branch of ControlNet into our LSAST, which further improved our framework's ability to maintain content structure. Extensive experiments demonstrate that our proposed method can generate more highly realistic artistic stylized images than the state-of-the-art artistic style transfer methods.
翻訳日:2024-04-18 13:25:44 公開日:2024-04-17
# AdaIR: 画像復元タスクとアダプタの類似点を爆発させる

AdaIR: Exploiting Underlying Similarities of Image Restoration Tasks with Adapters ( http://arxiv.org/abs/2404.11475v1 )

ライセンス: Link先を確認
Hao-Wei Chen, Yu-Syuan Xu, Kelvin C. K. Chan, Hsien-Kai Kuo, Chun-Yi Lee, Ming-Hsuan Yang, (参考訳) 既存の画像復元手法は通常、指定された劣化に特化して訓練された広範囲なネットワークを使用する。 有効であるにもかかわらず、これらの方法は必然的に、タスク固有のネットワークに依存するため、かなりのストレージコストと計算オーバーヘッドを伴います。 本研究は、この確立された枠組みを超えて、画像復元作業における固有の共通点を活用するものである。 主な目的は、リストアタスク間で共有可能なコンポーネントを特定し、個々のタスクのために特別に訓練されたモジュールで共有コンポーネントを拡張することである。 この目標に向けて,性能を犠牲にすることなく,低ストレージコストと効率的なトレーニングを可能にする新しいフレームワークであるAdaIRを提案する。 具体的には, 合成劣化を利用した自己教師付き事前学習により, 総合的な修復ネットワークを構築した。 プレトレーニングフェーズの後、アダプタはトレーニング済みのネットワークを特定の劣化に適応するように訓練される。 AdaIRは軽量でタスク固有のモジュールのトレーニングのみを必要とし、より効率的なストレージとトレーニング体制を確保する。 我々は,AdaIRの有効性を検証し,共有可能なコンポーネントの発見に対する事前学習戦略の影響を分析するために,広範囲な実験を行った。 広範囲な実験結果から,AdaIRはマルチタスク修復において,各修復作業に要するパラメータ (1.9 MB) とトレーニング時間 (7時間) を著しく減らし,優れた結果が得られた。 ソースコードとトレーニングされたモデルがリリースされる。

Existing image restoration approaches typically employ extensive networks specifically trained for designated degradations. Despite being effective, such methods inevitably entail considerable storage costs and computational overheads due to the reliance on task-specific networks. In this work, we go beyond this well-established framework and exploit the inherent commonalities among image restoration tasks. The primary objective is to identify components that are shareable across restoration tasks and augment the shared components with modules specifically trained for individual tasks. Towards this goal, we propose AdaIR, a novel framework that enables low storage cost and efficient training without sacrificing performance. Specifically, a generic restoration network is first constructed through self-supervised pre-training using synthetic degradations. Subsequent to the pre-training phase, adapters are trained to adapt the pre-trained network to specific degradations. AdaIR requires solely the training of lightweight, task-specific modules, ensuring a more efficient storage and training regimen. We have conducted extensive experiments to validate the effectiveness of AdaIR and analyze the influence of the pre-training strategy on discovering shareable components. Extensive experimental results show that AdaIR achieves outstanding results on multi-task restoration while utilizing significantly fewer parameters (1.9 MB) and less training time (7 hours) for each restoration task. The source codes and trained models will be released.
翻訳日:2024-04-18 13:25:44 公開日:2024-04-17
# 規制に対する分類学:EU AI法におけるAIリスクと規制措置のための(地質)政治分類学

Taxonomy to Regulation: A (Geo)Political Taxonomy for AI Risks and Regulatory Measures in the EU AI Act ( http://arxiv.org/abs/2404.11476v1 )

ライセンス: Link先を確認
Sinan Arda, (参考訳) 技術革新は、社会に利益を与え、害を与える素晴らしい能力を示してきた。 AIは、悪質なアクターを含む社会の大部分にアクセス可能な、民主化された洗練された技術を構成する。 この研究は、AIに関連する(地質)政治的リスクに焦点を当てた分類法を提案する。 1)地政学的圧力,(2)悪用,(3)環境,社会的,倫理的リスク,(4)プライバシ・トラスト・ヴァイオレーションの4つのカテゴリに分類される。 本稿では、規制側を組み込んだEU AI法に関する政策評価を行う。 2023年3月に採択されたこの目覚ましい規制は、AIリスク削減に関するトップダウンの影響を肯定的に与える可能性があるが、リスクをより包括的に緩和するためには規制調整が必要である。 オープンソースモデルの規制例外、GPAIモデルの分類のための過剰な高いパラメータの体系的リスク、および規制の義務から軍事目的のために設計されたシステムの除外は、将来の行動のために余地を逸脱する。

Technological innovations have shown remarkable capabilities to benefit and harm society alike. AI constitutes a democratized sophisticated technology accessible to large parts of society, including malicious actors. This work proposes a taxonomy focusing on on (geo)political risks associated with AI. It identifies 12 risks in total divided into four categories: (1) Geopolitical Pressures, (2) Malicious Usage, (3) Environmental, Social, and Ethical Risks, and (4) Privacy and Trust Violations. Incorporating a regulatory side, this paper conducts a policy assessment of the EU AI Act. Adopted in March 2023, the landmark regulation has the potential to have a positive top-down impact concerning AI risk reduction but needs regulatory adjustments to mitigate risks more comprehensively. Regulatory exceptions for open-source models, excessively high parameters for the classification of GPAI models as a systemic risk, and the exclusion of systems designed exclusively for military purposes from the regulation's obligations leave room for future action.
翻訳日:2024-04-18 13:25:44 公開日:2024-04-17
# シンボリック機械学習から核モデルを発見する

Discovering Nuclear Models from Symbolic Machine Learning ( http://arxiv.org/abs/2404.11477v1 )

ライセンス: Link先を確認
Jose M. Munoz, Silviu M. Udrescu, Ronald F. Garcia Ruiz, (参考訳) 多くの現象学的核モデルが提案され、核チャートの異なる領域で特定の観測可能物を記述することが提案されている。 しかしながら、全ての核の複雑な振る舞いを記述する統一モデルの開発は、依然として未解決の課題である。 ここでは,新しいシンボリック機械学習(ML)が,従来の物理モデルを再発見するか,あるいは簡易性,忠実性,予測力を向上した代替品を識別できるかを検討する。 この課題に対処するために,多目的反復型シンボル回帰手法を開発し,複数の観測対象に対するシンボル回帰を処理し,実験的不確実性を考慮し,高次元問題に対して頑健である。 原理の証明として,光・中質量核の核結合エネルギーと電荷半径を記述するために本手法を適用した。 提案手法では, 陽子数と中性子数に基づいて単純な解析関係を同定し, 最先端の原子核モデルに匹敵する精度で解釈可能なモデルを提供する。 さらに、このML発見モデルと既存の補完モデルを統合し、核安定性の限界を推定した。 これらの結果は、正確な核モデルを開発し、複雑な多体問題の記述をガイドするシンボリックMLの可能性を強調している。

Numerous phenomenological nuclear models have been proposed to describe specific observables within different regions of the nuclear chart. However, developing a unified model that describes the complex behavior of all nuclei remains an open challenge. Here, we explore whether novel symbolic Machine Learning (ML) can rediscover traditional nuclear physics models or identify alternatives with improved simplicity, fidelity, and predictive power. To address this challenge, we developed a Multi-objective Iterated Symbolic Regression approach that handles symbolic regressions over multiple target observables, accounts for experimental uncertainties and is robust against high-dimensional problems. As a proof of principle, we applied this method to describe the nuclear binding energies and charge radii of light and medium mass nuclei. Our approach identified simple analytical relationships based on the number of protons and neutrons, providing interpretable models with precision comparable to state-of-the-art nuclear models. Additionally, we integrated this ML-discovered model with an existing complementary model to estimate the limits of nuclear stability. These results highlight the potential of symbolic ML to develop accurate nuclear models and guide our description of complex many-body problems.
翻訳日:2024-04-18 13:25:44 公開日:2024-04-17
# 半古典的手法によるエネルギー依存ポテンシャルの逆問題

Inverse problem in energy-dependent potentials using semi-classical methods ( http://arxiv.org/abs/2404.11478v1 )

ライセンス: Link先を確認
Saulo Albuquerque, Sebastian H. Völkel, Kostas D. Kokkotas, (参考訳) エネルギー依存ポテンシャルを持つ波動方程式は、核物理学からブラックホール摂動理論まで、物理学の多くの分野に現れる。 本研究では,半古典的なWKB法を用いて,ボーア・ソマーフェルト則とガモウ公式を用いて,ポテンシャル井戸の有界状態と反射/透過係数の計算を再検討する。 次に、後者の観測値がポテンシャルの性質を再構築する出発点として用いられる逆問題について議論する。 既知の反転手法をエネルギー依存ポテンシャルに拡張することにより、いわゆる幅等価ポテンシャルやWKB等価ポテンシャルはもはや等スペクトルではないことを示す。 その代わり、逆手法で準等スペクトルポテンシャルを構築することは可能であることを明確に示している。 これらの再構成されたエネルギー非依存ポテンシャルは、幅等価ポテンシャルと鍵特性を共有する。 エネルギーに依存しない用語を含めると、特にエネルギーに依存しない等価ポテンシャルに対して豊かな現象論ができると報告する。

Wave equations with energy-dependent potentials appear in many areas of physics, ranging from nuclear physics to black hole perturbation theory. In this work, we use the semi-classical WKB method to first revisit the computation of bound states of potential wells and reflection/transmission coefficients in terms of the Bohr-Sommerfeld rule and the Gamow formula. We then discuss the inverse problem, in which the latter observables are used as a starting point to reconstruct the properties of the potentials. By extending known inversion techniques to energy-dependent potentials, we demonstrate that so-called width-equivalent or WKB-equivalent potentials are not isospectral anymore. Instead, we explicitly demonstrate that constructing quasi-isospectral potentials with the inverse techniques is still possible. Those reconstructed, energy-independent potentials share key properties with the width-equivalent potentials. We report that including energy-dependent terms allows for a rich phenomenology, particularly for the energy-independent equivalent potentials.
翻訳日:2024-04-18 13:25:44 公開日:2024-04-17
# AgentKit: コーディングではなくグラフによるフローエンジニアリング

AgentKit: Flow Engineering with Graphs, not Coding ( http://arxiv.org/abs/2404.11483v1 )

ライセンス: Link先を確認
Yue Wu, Yewen Fan, So Yeon Min, Shrimai Prabhumoye, Stephen McAleer, Yonatan Bisk, Ruslan Salakhutdinov, Yuanzhi Li, Tom Mitchell, (参考訳) 多機能エージェントのための直感的なLCMプロンプトフレームワーク(AgentKit)を提案する。 AgentKitは、単純な自然言語プロンプトから複雑な"思考プロセス"を明示的に構築するための統一されたフレームワークを提供する。 AgentKitの基本的なビルディングブロックはノードであり、特定のサブタスクの自然言語プロンプトを含んでいる。 ユーザーはLEGOの部品を積み重ねるなど、一連のノードを組み立てる。 ノードの連鎖は、自然に構造化された「思考プロセス」を明示的に強制するように設計することができる。 例えば、論文を書くタスクは、まず思考のプロセスから始めることができる。 1)コアメッセージを識別する。 2 先行研究ギャップ等を特定すること。 AgentKitのノードは、オンザフライの階層的計画、リフレクション、インタラクションからの学習など、さまざまな方法で複数の高度な機能を実装することができる。 加えて、モジュール的な性質と、明示的な人間の思考過程をシミュレートする直感的な設計のため、基本的なエージェントはサブタスクのプロンプトのリストのようにシンプルに実装することができ、プログラミング経験のない人によって設計および調整が可能である。 定量的に、AgentKitによって設計されたエージェントがWebShopおよびCrafter上でSOTA性能を達成することを示す。 これらの進歩は、広範囲のアプリケーションでLLMエージェントを効果的かつアクセスしやすくするAgentKitの可能性を浮き彫りにした。 https://github.com/holmeswww/AgentKit

We propose an intuitive LLM prompting framework (AgentKit) for multifunctional agents. AgentKit offers a unified framework for explicitly constructing a complex "thought process" from simple natural language prompts. The basic building block in AgentKit is a node, containing a natural language prompt for a specific subtask. The user then puts together chains of nodes, like stacking LEGO pieces. The chains of nodes can be designed to explicitly enforce a naturally structured "thought process". For example, for the task of writing a paper, one may start with the thought process of 1) identify a core message, 2) identify prior research gaps, etc. The nodes in AgentKit can be designed and combined in different ways to implement multiple advanced capabilities including on-the-fly hierarchical planning, reflection, and learning from interactions. In addition, due to the modular nature and the intuitive design to simulate explicit human thought process, a basic agent could be implemented as simple as a list of prompts for the subtasks and therefore could be designed and tuned by someone without any programming experience. Quantitatively, we show that agents designed through AgentKit achieve SOTA performance on WebShop and Crafter. These advances underscore AgentKit's potential in making LLM agents effective and accessible for a wider range of applications. https://github.com/holmeswww/AgentKit
翻訳日:2024-04-18 13:25:44 公開日:2024-04-17
# Randomly Pivoted Partial Cholesky:Random How?

Randomly Pivoted Partial Cholesky: Random How? ( http://arxiv.org/abs/2404.11487v1 )

ライセンス: Link先を確認
Stefan Steinerberger, (参考訳) 我々は、対称で正定値な$A \in \mathbb{R}^{n \times n}$の良好な低階近似を求める問題を考える。 Chen-Epperly-Tropp-Webber は、無作為に選択されたColeskyアルゴリズムは、各ステップに期待するトレースノルム (Schatten 1-norm) を普遍的に収縮させることを示した。 A_{ii}^2$ 1 に比例して $i-$th 列を選択すると、フロベニウスノルム (Schatten 2-norm) において同じ結果が得られることを示す。 グリーディ・ピボット・ルールとピボット・セレクション・ストラテジーの意義について論じる。

We consider the problem of finding good low rank approximations of symmetric, positive-definite $A \in \mathbb{R}^{n \times n}$. Chen-Epperly-Tropp-Webber showed, among many other things, that the randomly pivoted partial Cholesky algorithm that chooses the $i-$th row with probability proportional to the diagonal entry $A_{ii}$ leads to a universal contraction of the trace norm (the Schatten 1-norm) in expectation for each step. We show that if one chooses the $i-$th row with likelihood proportional to $A_{ii}^2$ one obtains the same result in the Frobenius norm (the Schatten 2-norm). Implications for the greedy pivoting rule and pivot selection strategies are discussed.
翻訳日:2024-04-18 13:25:44 公開日:2024-04-17
# 超低消費電力組込みシステムにおけるビデオ物体検出のための多分解能Rescored ByteTrack

Multi-resolution Rescored ByteTrack for Video Object Detection on Ultra-low-power Embedded Systems ( http://arxiv.org/abs/2404.11488v1 )

ライセンス: Link先を確認
Luca Bompani, Manuele Rusci, Daniele Palossi, Francesco Conti, Luca Benini, (参考訳) 本稿では,超低消費電力組み込みプロセッサのための新しいビデオオブジェクト検出フレームワークであるMulti-Resolution Rescored Byte-Track(MR2-ByteTrack)を紹介する。 この方法は、複数のダウンサイズのフレーム(192$\times$192ピクセル)で高解像度画像(320$\times$320ピクセル)の処理を交互にすることで、オフザシェルディープニューラルネットワーク(DNN)ベースのオブジェクト検出器の平均計算負荷を最大2.25$\times$に削減する。 MR2-ByteTrackは、画像入力サイズの削減による精度劣化に対処するため、ByteTrackトラッカーを用いて出力検出を時間とともに相関させ、新しい確率的Rescoreアルゴリズムを用いて潜在的な誤分類を修正する。 MR2-ByteTrackと異なる最先端のDNNオブジェクト検出器の入力として,高解像度で2つのダウンサイズ画像をインターリーブすることにより,GAP9マイクロコントローラにおける平均精度2.16%,遅延低減率43%を,フル解像度画像のみを用いたベースラインフレーム・バイ・フレーム推論方式と比較して示す。 https://github.com/Bomps4/Multi_Resolution_Rescored_ByteTrack

This paper introduces Multi-Resolution Rescored Byte-Track (MR2-ByteTrack), a novel video object detection framework for ultra-low-power embedded processors. This method reduces the average compute load of an off-the-shelf Deep Neural Network (DNN) based object detector by up to 2.25$\times$ by alternating the processing of high-resolution images (320$\times$320 pixels) with multiple down-sized frames (192$\times$192 pixels). To tackle the accuracy degradation due to the reduced image input size, MR2-ByteTrack correlates the output detections over time using the ByteTrack tracker and corrects potential misclassification using a novel probabilistic Rescore algorithm. By interleaving two down-sized images for every high-resolution one as the input of different state-of-the-art DNN object detectors with our MR2-ByteTrack, we demonstrate an average accuracy increase of 2.16% and a latency reduction of 43% on the GAP9 microcontroller compared to a baseline frame-by-frame inference scheme using exclusively full-resolution images. Code available at: https://github.com/Bomps4/Multi_Resolution_Rescored_ByteTrack
翻訳日:2024-04-18 13:25:44 公開日:2024-04-17
# 高次元量子システムを解く変分法

Variational methods for solving high dimensional quantum systems ( http://arxiv.org/abs/2404.11490v1 )

ライセンス: Link先を確認
Daming Li, (参考訳) 変分法は高次元量子システムを解くための非常に貴重な計算ツールである。 本稿では,密度行列再正規化群(DMRG),ボルツマン機械学習,変分量子固有解法(VQE)の3つの変分法の有効性について検討する。 これらの手法を、凝縮物質物理学におけるフェルミ・ハバードモデルと高エネルギー物理学におけるシュウィンガーモデルという2つの異なる量子系に適用する。 量子コンピュータ上での計算を容易にするため、Jordan-Wigner変換を用いて各モデルをスピン1/2系にマッピングする。 この変換により、量子コンピューティングの能力を利用することができます。 両量子系の基底状態を計算し、3つの変分法を用いて得られた結果と比較する。 これにより、複雑な量子システムに対処する上で、これらの変分的アプローチのパワーと効果を実証することを目指す。

Variational methods are highly valuable computational tools for solving high-dimensional quantum systems. In this paper, we explore the effectiveness of three variational methods: the density matrix renormalization group (DMRG), Boltzmann machine learning, and the variational quantum eigensolver (VQE). We apply these methods to two different quantum systems: the fermi-Hubbard model in condensed matter physics and the Schwinger model in high energy physics. To facilitate the computations on quantum computers, we map each model to a spin 1/2 system using the Jordan-Wigner transformation. This transformation allows us to take advantage of the capabilities of quantum computing. We calculate the ground state of both quantum systems and compare the results obtained using the three variational methods. By doing so, we aim to demonstrate the power and effectiveness of these variational approaches in tackling complex quantum systems.
翻訳日:2024-04-18 13:25:44 公開日:2024-04-17
# arcjetCV:材料アブレーションを分析するオープンソースソフトウェア

arcjetCV: an open-source software to analyze material ablation ( http://arxiv.org/abs/2404.11492v1 )

ライセンス: Link先を確認
Alexandre Quintart, Magnus Haw, Federico Semeraro, (参考訳) arcjetCVはオープンソースのPythonソフトウェアで、Arcjetテストビデオ映像から熱シールド材質の凹凸と凹凸率の時間分解測定を自動化するように設計されている。 この新しい自動化とアクセス性は従来の手動抽出法を大きく超え、プロファイルビデオ付きサンプルの材料凹凸の迅速かつ詳細なキャラクタリゼーションを可能にする。 arcjetCVは1次元(1D)の畳み込みニューラルネットワーク(CNN)による興味のタイムウインドウの推測、画像とエッジのセグメンテーションのための2次元(2D)のCNN、アウトリーフィルタのためのローカル・アウトリー・ファクター(LOF)など、機械学習モデルによるビデオセグメンテーションプロセスを自動化する。 グラフィカルユーザインタフェース(GUI)はユーザエクスペリエンスを単純化し、アプリケーションプログラミングインターフェース(API)は、ユーザーがスクリプトからコア機能を呼び出し、ビデオバッチ処理を可能にする。 アークジェットCVの時間分解凹度測定能力により、非線形プロセス(収縮、膨潤、融解流など)のキャラクタリゼーションが可能となり、高忠実度検証に寄与し、熱シールド材料の性能のモデリングの改善に寄与する。 この記事に関連するソースコードはhttps://github.com/magnus-haw/arcjetCVにある。

arcjetCV is an open-source Python software designed to automate time-resolved measurements of heatshield material recession and recession rates from arcjet test video footage. This new automated and accessible capability greatly exceeds previous manual extraction methods, enabling rapid and detailed characterization of material recession for any sample with a profile video. arcjetCV automates the video segmentation process using machine learning models, including a one-dimensional (1D) Convolutional Neural Network (CNN) to infer the time-window of interest, a two-dimensional (2D) CNN for image and edge segmentation, and a Local Outlier Factor (LOF) for outlier filtering. A graphical user interface (GUI) simplifies the user experience and an application programming interface (API) allows users to call the core functions from scripts, enabling video batch processing. arcjetCV's capability to measure time-resolved recession in turn enables characterization of non-linear processes (shrinkage, swelling, melt flows, etc.), contributing to higher fidelity validation and improved modeling of heatshield material performance. The source code associated with this article can be found at https://github.com/magnus-haw/arcjetCV.
翻訳日:2024-04-18 13:25:44 公開日:2024-04-17
# 多目的 (LeadingOnes, TrailingZeros) 問題における進化的多様性最適化の実行時解析

Runtime Analysis of Evolutionary Diversity Optimization on the Multi-objective (LeadingOnes, TrailingZeros) Problem ( http://arxiv.org/abs/2404.11496v1 )

ライセンス: Link先を確認
Denis Antipov, Aneta Neumann, Frank Neumann. Andrew M. Sutton, (参考訳) 多様性最適化は最適化問題のクラスであり、優れたソリューションの多様なセットを見つけることを目的としています。 このような問題を解決するためによく使われるアプローチの1つは、望ましい多様な個体群を進化させる進化的アルゴリズムを使用することである。 このアプローチは進化的多様性最適化(EDO)と呼ばれる。 本稿では,2オブジェクトのベンチマーク関数 (LeadingOnes, TrailingZeros) を改良した3オブジェクト関数 LOTZ$_k$ を用いてEDOを解析する。 我々は、GSEMOが全てのパレート最適解の集合を$O(kn^3)$期待反復で計算することを証明した。 また、GSEMO$_D$(多様性最適化のためのGSEMOの変更)のランタイムを解析し、2つの異なる多様性尺度、総不均衡とソート不均衡ベクトルに対して、最も可能な多様性を持つ個体群を見つける。 第1の測度に対して、GSEMO$_D$はパレート最適集団よりも漸近的に最適化され、$O(kn^2\log(n))$期待反復、第2の測度では$O(k^2n^3\log(n))$期待反復を示す。 我々は、理論解析を実証的な研究で補完し、理論予測に近く、両方の多様性尺度に非常によく似た振る舞いを示す。

The diversity optimization is the class of optimization problems, in which we aim at finding a diverse set of good solutions. One of the frequently used approaches to solve such problems is to use evolutionary algorithms which evolve a desired diverse population. This approach is called evolutionary diversity optimization (EDO). In this paper, we analyse EDO on a 3-objective function LOTZ$_k$, which is a modification of the 2-objective benchmark function (LeadingOnes, TrailingZeros). We prove that the GSEMO computes a set of all Pareto-optimal solutions in $O(kn^3)$ expected iterations. We also analyze the runtime of the GSEMO$_D$ (a modification of the GSEMO for diversity optimization) until it finds a population with the best possible diversity for two different diversity measures, the total imbalance and the sorted imbalances vector. For the first measure we show that the GSEMO$_D$ optimizes it asymptotically faster than it finds a Pareto-optimal population, in $O(kn^2\log(n))$ expected iterations, and for the second measure we show an upper bound of $O(k^2n^3\log(n))$ expected iterations. We complement our theoretical analysis with an empirical study, which shows a very similar behavior for both diversity measures that is close to the theory predictions.
翻訳日:2024-04-18 13:25:44 公開日:2024-04-17
# ラゲール・ガウス電子パケットの原子上弾性散乱

Elastic scattering of Laguerre-Gaussian electron packets on atoms ( http://arxiv.org/abs/2404.11497v1 )

ライセンス: Link先を確認
N. Sheremet, A. Chaikovskaia, D. Grosman, D. Karlovets, (参考訳) 一般化ボルン近似における原子標的上の標準ラゲール・ガウシアン(sLG)およびエレガントラゲール・ガウシアン(eLG)パケットの形で非相対論的電子の弾性散乱を探索し,ベッセル・ガウシアン(BG)パケットとの比較を行った。 水素、鉄、銀、金のターゲットによる散乱が考慮されている。 入射電子は非ゼロ軌道角運動量を持ち、sLG と eLG のパケットは一定の半径量子数 n を持つ。 平均断面の軌道角運動量に対するマクロ的目標感度によるsLGおよびeLG波束の散乱は,BGパケットに欠落する。 我々は、入射ツイスト電子波パケットの特性の解明のための実験散乱結果の違いを利用する機会を強調した。

We explore elastic scattering of non-relativistic electrons in the form of standard Laguerre-Gaussian (sLG) and elegant Laguerre - Gaussian (eLG) packets on atomic targets in the generalized Born approximation and compare these results to the reference with Bessel-Gaussian (BG) packets. Scattering by hydrogen-like, iron, silver, and golden targets is considered. The incident electron carries a nonzero orbital angular momentum, while sLG and eLG packets have a definite radial quantum number n as well. In scattering of sLG and eLG wave packets by a macroscopic target sensitivity of the average cross section to the orbital angular momentum is observed, which is absent for BG packets. We highlight the opportunity to employ the differences in the experimental scattering results for the revelation of the properties of incident twisted electron wave packets
翻訳日:2024-04-18 13:25:44 公開日:2024-04-17
# ROSに基づくロボットシステムの実行時検証とフィールドテスト

Runtime Verification and Field Testing for ROS-Based Robotic Systems ( http://arxiv.org/abs/2404.11498v1 )

ライセンス: Link先を確認
Ricardo Caldas, Juan Antonio Piñera García, Matei Schiopu, Patrizio Pelliccione, Genaína Rodrigues, Thorsten Berger, (参考訳) ロボットシステムは、製造業、医療、宇宙探査など、ますます多くの領域で普及し、採用されつつある。 この目的のために、メンテナンス可能で再利用可能なロボットシステムを構築するための重要な分野として、エンジニアリングソフトウェアが登場した。 ロボティクスソフトウェア工学の研究は注目され、基本的な目標として自律性を育んでいる。 しかし、シミュレーションが現実の現象を現実的にエミュレートするソリューションを提供できないため、ロボティクスの開発者はこの目標を達成するために依然として挑戦されている。 ロボットはまた、ソフトウェアに実装された安全で信頼性の高い自己適応機能を必要とする予測不能で制御不能な環境でも動作する必要がある。 この課題に対処する典型的なテクニックは、実行時検証、フィールドベースのテスト、フェールセーフなソリューションを可能にする緩和技術である。 しかし、実行時検証とフィールドベースのテストを可能にするためにROSベースのシステムを設計するための明確なガイダンスはない。 本稿では,現場でのロボットの開発,検証,テストにおいて,開発者やQAチームを支援するガイドラインを提供することで,このギャップを埋めることを目的とする。 これらのガイドラインは、現実のシナリオでロボットシステムをテストする際の課題と要件に対処するために慎重に調整されている。 ロボットシステムの実行時検証とフィールドベーステスト, ROSベースのアプリケーションリポジトリのマイニング, 適用性, 明確性, 有用性について, 55回答の2つの質問紙を用いて検討した。 ロボットソフトウェア工学の研究者と実践者のための20のガイドラインをコントリビュートする。 最後に、我々のガイドラインを、ROSベースのシステムの実行時検証とフィールドベーステストにおける課題のオープン化にマッピングし、この分野における有望な研究方向性を概説する。

Robotic systems are becoming pervasive and adopted in increasingly many domains, such as manufacturing, healthcare, and space exploration. To this end, engineering software has emerged as a crucial discipline for building maintainable and reusable robotic systems. Robotics software engineering research has received increasing attention, fostering autonomy as a fundamental goal. However, robotics developers are still challenged trying to achieve this goal given that simulation is not able to deliver solutions to realistically emulate real-world phenomena. Robots also need to operate in unpredictable and uncontrollable environments, which require safe and trustworthy self-adaptation capabilities implemented in software. Typical techniques to address the challenges are runtime verification, field-based testing, and mitigation techniques that enable fail-safe solutions. However, there is no clear guidance to architect ROS-based systems to enable and facilitate runtime verification and field-based testing. This paper aims to fill in this gap by providing guidelines that can help developers and QA teams when developing, verifying or testing their robots in the field. These guidelines are carefully tailored to address the challenges and requirements of testing robotics systems in real-world scenarios. We conducted a literature review on studies addressing runtime verification and field-based testing for robotic systems, mined ROS-based application repositories, and validated the applicability, clarity, and usefulness via two questionnaires with 55 answers. We contribute 20 guidelines formulated for researchers and practitioners in robotic software engineering. Finally, we map our guidelines to open challenges thus far in runtime verification and field-based testing for ROS-based systems and, we outline promising research directions in the field.
翻訳日:2024-04-18 13:25:44 公開日:2024-04-17
# 手話生成のためのデータ駆動表現

A Data-Driven Representation for Sign Language Production ( http://arxiv.org/abs/2404.11499v1 )

ライセンス: Link先を確認
Harry Walsh, Abolfazl Ravanshad, Mariam Rahmani, Richard Bowden, (参考訳) 音声表現は、音声言語を録音する際に使用されるが、符号付き言語を記録するための等価な表現は存在しない。 その結果、言語学者は、グロスレベルまたはサブユニットレベルで動作するいくつかのアノテーションシステムを提案したが、これらのリソースは特に不規則で不足している。 手話生成(SLP)は、手話文を自動的に手話の連続配列に変換することを目的としている。 しかし、現在の最先端のアプローチは、機能する言語資源の不足に依存している。 これは分野での進歩が限られている。 本稿では,連続ポーズ生成問題を離散列生成問題に変換することによって,革新的な解を提案する。 したがって、コストのかかるアノテーションの必要性を克服する。 しかし、もし利用可能であれば、私たちのアプローチを強化するために追加情報を活用します。 ベクトル量子化(Vector Quantisation, VQ)を言語データに応用することにより、私たちはまず、手話の自然なシーケンスを生成するために組み合わせられる短い動きのコードブックを学習する。 コードブックの各トークンは、私たちの表現の語彙とみなすことができます。 次に、変換器を用いて、音声言語テキストからコードブックトークンのシーケンスへの変換を行う。 各トークンは、単一のネットワークで翻訳を行うことができる一連のポーズに、直接マッピングすることができる。 さらに,トークンを効果的に結合する手根縫合法を提案する。 我々は,RWTH-PHOENIX-Weather-2014T(PHOENIX14T)とMeine DGS Annotated (mDGS)データセットについて検討した。 提案手法は,BLEU-1の逆翻訳スコアを最大72%向上させるとともに,従来の手法よりも優れていた。

Phonetic representations are used when recording spoken languages, but no equivalent exists for recording signed languages. As a result, linguists have proposed several annotation systems that operate on the gloss or sub-unit level; however, these resources are notably irregular and scarce. Sign Language Production (SLP) aims to automatically translate spoken language sentences into continuous sequences of sign language. However, current state-of-the-art approaches rely on scarce linguistic resources to work. This has limited progress in the field. This paper introduces an innovative solution by transforming the continuous pose generation problem into a discrete sequence generation problem. Thus, overcoming the need for costly annotation. Although, if available, we leverage the additional information to enhance our approach. By applying Vector Quantisation (VQ) to sign language data, we first learn a codebook of short motions that can be combined to create a natural sequence of sign. Where each token in the codebook can be thought of as the lexicon of our representation. Then using a transformer we perform a translation from spoken language text to a sequence of codebook tokens. Each token can be directly mapped to a sequence of poses allowing the translation to be performed by a single network. Furthermore, we present a sign stitching method to effectively join tokens together. We evaluate on the RWTH-PHOENIX-Weather-2014T (PHOENIX14T) and the more challenging Meine DGS Annotated (mDGS) datasets. An extensive evaluation shows our approach outperforms previous methods, increasing the BLEU-1 back translation score by up to 72%.
翻訳日:2024-04-18 13:25:44 公開日:2024-04-17
# パラフレーズと解法:大規模言語モデルの数学的推論における表面形状の影響を探索・展開する

Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models ( http://arxiv.org/abs/2404.11500v1 )

ライセンス: Link先を確認
Yue Zhou, Yada Zhu, Diego Antognini, Yoon Kim, Yang Zhang, (参考訳) 本稿では,問題の表面形状と大規模言語モデルによる可解性との関係について検討する。 表面形状の微妙な変化は解答分布や解答率に大きく影響し, 複雑な問題による解析において, 言語モデルが表面形状に対して頑健さと感度を欠いていることを明らかにする。 数学的推論性能を向上させるために,問題の表面形状から推論経路を多様化する自己整合的パラフレーズ (Self-Consistency-over-Paraphrases, SCoP) を提案する。 我々は3つの大言語モデルに対する4つの数学推論ベンチマークに対するアプローチを評価し、SCoPがバニラ自己整合性よりも数学的推論性能を改善することを示す。 最後に,問題難易度と表面形状に関する追加実験と議論を行い,言語モデル評価のためのクロスモデル難易度合意とパラフレーズ伝達可能性,変分変動(VOV)について述べる。

This paper studies the relationship between the surface form of a mathematical problem and its solvability by large language models. We find that subtle alterations in the surface form can significantly impact the answer distribution and the solve rate, exposing the language model's lack of robustness and sensitivity to the surface form in reasoning through complex problems. To improve mathematical reasoning performance, we propose Self-Consistency-over-Paraphrases (SCoP), which diversifies reasoning paths from specific surface forms of the problem. We evaluate our approach on four mathematics reasoning benchmarks over three large language models and show that SCoP improves mathematical reasoning performance over vanilla self-consistency, particularly for problems initially deemed unsolvable. Finally, we provide additional experiments and discussion regarding problem difficulty and surface forms, including cross-model difficulty agreement and paraphrasing transferability, and Variance of Variations (VOV) for language model evaluation.
翻訳日:2024-04-18 13:16:00 公開日:2024-04-17
# クリフォード代数を用いたヤン・バクスター、テトラヘドロンおよび高次単純方程式の解法

Solving the Yang-Baxter, tetrahedron and higher simplex equations using Clifford algebras ( http://arxiv.org/abs/2404.11501v1 )

ライセンス: Link先を確認
Pramod Padmanabhan, Vladimir Korepin, (参考訳) ベテ・アンサッツは1932年に発見された。 半世紀後、代数構造が発掘され、ヤン=バクスター方程式が発見され、多次元一般化(テトラエドロン方程式と$d$-シプレックス方程式)が発見された。 ここではクリフォード代数を用いてこれらの方程式を解く普遍的な方法を記述する。 ヤン=バクスター方程式(d=2$)、ザマロドチコフのテトラヘドロン方程式(d=3$)、バザノフ=ストロガノフ方程式(d=4$)は特別な場合である。 我々の解は線型空間を形成する。 これはスペクトルパラメータを含めるのに役立ちます。 潜在的な応用について論じる。

Bethe Ansatz was discoverd in 1932. Half a century later its algebraic structure was unearthed: Yang-Baxter equation was discovered, as well as its multidimensional generalizations [tetrahedron equation and $d$-simplex equations]. Here we describe a universal method to solve these equations using Clifford algebras. The Yang-Baxter equation ($d=2$), Zamalodchikov's tetrahedron equation ($d=3$) and the Bazhanov-Stroganov equation ($d=4$) are special cases. Our solutions form a linear space. This helps us to include spectral parameters. Potential applications are discussed.
翻訳日:2024-04-18 13:16:00 公開日:2024-04-17
# 大規模言語モデルにおける推論効率の粗度評価に向けて

Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models ( http://arxiv.org/abs/2404.11502v1 )

ライセンス: Link先を確認
Yushuo Chen, Tianyi Tang, Erge Xiang, Linjiang Li, Wayne Xin Zhao, Jing Wang, Yunpeng Chai, Ji-Rong Wen, (参考訳) 現実世界では、大きな言語モデル(LLM)が、ユーザが仕事を達成するのを助けるアシスタントとして機能し、高度なアプリケーションの開発をサポートする。 LLMの幅広い応用において、推論効率は重要な問題であり、既存の研究で広く研究され、多くの最適化アルゴリズムやコードライブラリが提案されている。 それでも、上記のすべてのメソッドの有効性を比較し、基盤となるメカニズムを理解することは困難である。 本研究では,様々なコードライブラリの推論性能の粗大な解析を行う。 総合的な有効性を評価するために,2つの実用アプリケーション内での4つの利用シナリオについて検討する。 さらに、Transformerアーキテクチャにおける各モジュールの理論的および実証的なきめ細かい解析も提供する。 我々の実験は、研究者がコードライブラリを評価し、推論戦略を改善するのに貴重な総合的な結果をもたらす。

In real world, large language models (LLMs) can serve as the assistant to help users accomplish their jobs, and also support the development of advanced applications. For the wide application of LLMs, the inference efficiency is an essential concern, which has been widely studied in existing work, and numerous optimization algorithms and code libraries have been proposed to improve it. Nonetheless, users still find it challenging to compare the effectiveness of all the above methods and understand the underlying mechanisms. In this work, we perform a detailed coarse-to-fine analysis of the inference performance of various code libraries. To evaluate the overall effectiveness, we examine four usage scenarios within two practical applications. We further provide both theoretical and empirical fine-grained analyses of each module in the Transformer architecture. Our experiments yield comprehensive results that are invaluable for researchers to evaluate code libraries and improve inference strategies.
翻訳日:2024-04-18 13:16:00 公開日:2024-04-17
# 低保磁力によるオープン量子系の混合時間

Mixing Time of Open Quantum Systems via Hypocoercivity ( http://arxiv.org/abs/2404.11503v1 )

ライセンス: Link先を確認
Di Fang, Jianfeng Lu, Yu Tong, (参考訳) オープン量子システムの混合を理解することは、物理学と量子情報科学の基本的な問題である。 既存の混合時間を推定するためのアプローチは、しばしばリンドブラディアン発生器のスペクトルギャップ推定に頼っている。 本研究では,ハミルトニアンと散逸部を別々に扱うオープン量子系の混合時間を推定する新たな理論枠組みを提案し,リンドブラディアン生成器のスペクトルギャップの優先順位推定の必要性を回避した。 この手法は(古典的な)運動論の低エネルギー性から着想を得たエネルギー汎関数の構成に基づいている。

Understanding the mixing of open quantum systems is a fundamental problem in physics and quantum information science. Existing approaches for estimating the mixing time often rely on the spectral gap estimation of the Lindbladian generator, which can be challenging to obtain in practice. We propose a novel theoretical framework to estimate the mixing time of open quantum systems that treats the Hamiltonian and dissipative part separately, thus circumventing the need for a priori estimation of the spectral gap of the full Lindbladian generator. The technique is based on the construction of an energy functional inspired by the hypocoercivity of (classical) kinetic theory.
翻訳日:2024-04-18 13:16:00 公開日:2024-04-17
# 発明政策のVC理論

VC Theory for Inventory Policies ( http://arxiv.org/abs/2404.11509v1 )

ライセンス: Link先を確認
Yaqi Xie, Will Ma, Linwei Xin, (参考訳) 計算能力とAIの進歩は、在庫管理に対する強化学習アプローチへの関心を高めている。 本稿は、これらのアプローチの理論的基盤を提供し、数十年の在庫理論によって確立された政策構造に制限を加えることの利点について考察する。 特に,有望なVapnik-Chervonenkis(VC)理論を活用することで,在庫政策や(s,S)政策など,よく知られたいくつかの在庫政策のクラスを学ぶための一般化保証を証明した。 本稿では,VC理論からPseudo-dimension と Fat-shattering の概念を適用し,在庫政策の一般化可能性,すなわち,トレーニングデータにおける在庫政策のパフォーマンスと予期しないデータにおける期待性能の差を決定する。 我々は、コンテキストのない古典的な設定に重点を置いているが、要求シーケンス上の任意の分布を許容し、時間とともに独立性のような仮定は行わない。 数値シミュレーションを用いて教師付き学習結果の相関付けを行う。 管理面では、我々の理論とシミュレーションは以下の知見に変換される。 まず、在庫管理において「より少ない学習」という原則がある:利用可能なデータ量によっては、過度に適合するエラーを最小限に抑えるために、よりシンプルで最適な在庫政策のクラスに自分自身を制限することは有益かもしれない。 第二に、ポリシークラスにおけるパラメータの数は、過適合誤差の正しい尺度ではないかもしれない: 実際、T の時間変化ベースストックレベルによって定義されるポリシーのクラスは、2パラメータ (s, S) ポリシークラスに匹敵する一般化誤差を示す。 最後に,本研究では,これらの機械が注文量を直接学習する代わりに,ベースストックと在庫位置の概念をブラックボックス学習マシンに組み込むことが有用であることを示唆している。

Advances in computational power and AI have increased interest in reinforcement learning approaches to inventory management. This paper provides a theoretical foundation for these approaches and investigates the benefits of restricting to policy structures that are well-established by decades of inventory theory. In particular, we prove generalization guarantees for learning several well-known classes of inventory policies, including base-stock and (s, S) policies, by leveraging the celebrated Vapnik-Chervonenkis (VC) theory. We apply the concepts of the Pseudo-dimension and Fat-shattering dimension from VC theory to determine the generalizability of inventory policies, that is, the difference between an inventory policy's performance on training data and its expected performance on unseen data. We focus on a classical setting without contexts, but allow for an arbitrary distribution over demand sequences and do not make any assumptions such as independence over time. We corroborate our supervised learning results using numerical simulations. Managerially, our theory and simulations translate to the following insights. First, there is a principle of "learning less is more" in inventory management: depending on the amount of data available, it may be beneficial to restrict oneself to a simpler, albeit suboptimal, class of inventory policies to minimize overfitting errors. Second, the number of parameters in a policy class may not be the correct measure of overfitting error: in fact, the class of policies defined by T time-varying base-stock levels exhibits a generalization error comparable to that of the two-parameter (s, S) policy class. Finally, our research suggests situations in which it could be beneficial to incorporate the concepts of base-stock and inventory position into black-box learning machines, instead of having these machines directly learn the order quantity actions.
翻訳日:2024-04-18 13:16:00 公開日:2024-04-17
# 高速低帯域イメージングのためのイベントカメラSPAD

Event Cameras Meet SPADs for High-Speed, Low-Bandwidth Imaging ( http://arxiv.org/abs/2404.11511v1 )

ライセンス: Link先を確認
Manasi Muglikar, Siddharth Somasundaram, Akshat Dave, Edoardo Charbon, Ramesh Raskar, Davide Scaramuzza, (参考訳) 従来のカメラは低照度性能と高速撮像のトレードオフに直面しており、十分な光を捉えた露光時間が運動のぼやけを生じさせるのに対して、短い露光はポアソンの故障したノイズ画像をもたらす。 バースト撮影技術は、このトレードオフを緩和するのに役立つが、従来のカメラは基本的にセンサーのノイズ特性に制限されている。 イベントカメラと単光雪崩ダイオード(SPAD)センサーは、その望ましい性質から従来のカメラに代わる有望な代替手段として登場した。 SPADはマイクロ秒の時間分解能を持つ単一光子感度を持ち、イベントカメラは1MHzまでの輝度変化を低帯域幅で測定できる。 これらの特性は相補的であり,低帯域幅で低照度かつ高速な画像再構成を実現するのに有効であることを示す。 本研究では,SPADとイベントカメラを組み合わせたセンサ融合フレームワークを導入し,各SPADフレームの使用に伴う高帯域幅コストを低減しつつ,高速で低照度なシーンの再構成を改善する。 従来のカメラに比べて高時間分解能(100kHz)で低照度シーンを再構成する際の性能向上(>5dB PSNR)を示す。 イベントSPAD融合は、ロボット工学や医用画像など、現実世界のアプリケーションにとって非常に有望である。

Traditional cameras face a trade-off between low-light performance and high-speed imaging: longer exposure times to capture sufficient light results in motion blur, whereas shorter exposures result in Poisson-corrupted noisy images. While burst photography techniques help mitigate this tradeoff, conventional cameras are fundamentally limited in their sensor noise characteristics. Event cameras and single-photon avalanche diode (SPAD) sensors have emerged as promising alternatives to conventional cameras due to their desirable properties. SPADs are capable of single-photon sensitivity with microsecond temporal resolution, and event cameras can measure brightness changes up to 1 MHz with low bandwidth requirements. We show that these properties are complementary, and can help achieve low-light, high-speed image reconstruction with low bandwidth requirements. We introduce a sensor fusion framework to combine SPADs with event cameras to improves the reconstruction of high-speed, low-light scenes while reducing the high bandwidth cost associated with using every SPAD frame. Our evaluation, on both synthetic and real sensor data, demonstrates significant enhancements ( > 5 dB PSNR) in reconstructing low-light scenes at high temporal resolution (100 kHz) compared to conventional cameras. Event-SPAD fusion shows great promise for real-world applications, such as robotics or medical imaging.
翻訳日:2024-04-18 13:16:00 公開日:2024-04-17
# コミュニティ主導のフェミニスト倫理のための枠組み

Frameworking for a Community-led Feminist Ethics ( http://arxiv.org/abs/2404.11514v1 )

ライセンス: Link先を確認
Ana O Henriques, Hugo Nicolau, Kyle Montague, (参考訳) 本稿では,フェミニストのデジタル市民とコミュニティ主導のデザインの文脈における倫理観を紹介する。 HCIにおける倫理研究は、主に人間ではなく、規範的な機械倫理と生物倫理の原則に焦点を当てている。 これに対し、我々は、倫理に対するコミュニティ主導のプロセス的アプローチ、パワーダイナミクスと地域文脈の認識を提唱する。 本研究では,HCI設計における多次元適応モデルを提案する。 この枠組みはフェミニストの認識論、方法、方法論を取り入れ、反射的な実践を育む。 位置する知識,立場論,交叉性,参加的方法,ケア倫理を共に織り込むことによって,我々のアプローチは,コミュニティ主導の実践を推進し,この分野における倫理を取り巻く言説を強化することを目的とした,HCIにおける倫理の総合的基盤を提供する。

This paper introduces a relational perspective on ethics within the context of Feminist Digital Civics and community-led design. Ethics work in HCI has primarily focused on prescriptive machine ethics and bioethics principles rather than people. In response, we advocate for a community-led, processual approach to ethics, acknowledging power dynamics and local contexts. We thus propose a multidimensional adaptive model for ethics in HCI design, integrating an intersectional feminist ethical lens. This framework embraces feminist epistemologies, methods, and methodologies, fostering a reflexive practice. By weaving together situated knowledges, standpoint theory, intersectionality, participatory methods, and care ethics, our approach offers a holistic foundation for ethics in HCI, aiming to advance community-led practices and enrich the discourse surrounding ethics within this field.
翻訳日:2024-04-18 13:16:00 公開日:2024-04-17
# 計算社会科学と人工知能研究におけるプライバシーの埋め込み

Embedding Privacy in Computational Social Science and Artificial Intelligence Research ( http://arxiv.org/abs/2404.11515v1 )

ライセンス: Link先を確認
Keenan Jones, Fatima Zahrah, Jason R. C. Nurse, (参考訳) プライバシーは人間の権利だ。 個人が自由に議論をし、グループに参加し、オンラインやオフラインで関係を形成できるようにします。 プライバシを保存することは、特に計算社会科学(CSS)、人工知能(AI)、データサイエンス領域において、新しい洞察のために個人のデータに依存することを考えると、研究において重要な要素として浮上している。 高度な計算モデルの使用の増加は、不適切に使用すれば、プライバシーの権利を急速に侵害し、個人(特に脆弱なグループ)や社会に悪影響を及ぼす可能性があるため、プライバシーの懸念を悪化させる。 われわれは、ChatGPTのような大規模な言語モデル(LLM)の出現によって、多くのプライバシー問題が浮かび上がっているのをすでに目撃している。 この記事では、プライバシの役割と、CSS、AI、データサイエンス、および関連するドメインで働く研究者が直面する主な問題について議論することによって、この分野に貢献する。 そして、研究結果の設計、データ収集と使用、分析、普及において、参加者のプライバシが最善に保存されていることを保証するために、研究者にとって重要な考慮事項をいくつか提示する。

Privacy is a human right. It ensures that individuals are free to engage in discussions, participate in groups, and form relationships online or offline without fear of their data being inappropriately harvested, analyzed, or otherwise used to harm them. Preserving privacy has emerged as a critical factor in research, particularly in the computational social science (CSS), artificial intelligence (AI) and data science domains, given their reliance on individuals' data for novel insights. The increasing use of advanced computational models stands to exacerbate privacy concerns because, if inappropriately used, they can quickly infringe privacy rights and lead to adverse effects for individuals - especially vulnerable groups - and society. We have already witnessed a host of privacy issues emerge with the advent of large language models (LLMs), such as ChatGPT, which further demonstrate the importance of embedding privacy from the start. This article contributes to the field by discussing the role of privacy and the primary issues that researchers working in CSS, AI, data science and related domains are likely to face. It then presents several key considerations for researchers to ensure participant privacy is best preserved in their research design, data collection and use, analysis, and dissemination of research results.
翻訳日:2024-04-18 13:16:00 公開日:2024-04-17
# 部分微分可能なボソンに対する中心極限定理

A central limit theorem for partially distinguishable bosons ( http://arxiv.org/abs/2404.11518v1 )

ライセンス: Link先を確認
Marco Robbio, Michael G. Jabbour, Leonardo Novo, Nicolas J. Cerf, (参考訳) クシェンとハドソンによって導かれた量子中心極限定理は、大きなボゾン系のサブシステムが一元的に平衡に達する方法を理解するための基礎を与える。 量子干渉学の文脈における重要な応用として、例えば光子を用いた量子干渉法がある。 しかし、現在のフォトニクス実験の実践的な特徴は、光子は、例えば、それらが占める分極モードや時空間モードに関連する内部自由度を持ち、それが部分的に区別可能であることである。 理想的不明瞭性からの逸脱は、例えばボソンの束縛など、観測可能な結果をもたらすことがよく知られているが、ボゾン平衡現象におけるその役割の理解はいまだに欠落している。 ここでは、Cushen-Hudson量子中心極限定理を一般化し、部分微分可能性を持つシナリオを包含し、内部自由度で定義される多モードガウス状態へのサブシステムの縮小状態の漸近収束を示唆する。 これらの漸近的内部状態は直接アクセスできないかもしれないが、粒子数分布は識別可能性の重要なシグネチャを持ち、大きなボソンサンプリング実験において実験上の欠陥を診断するために用いられる可能性がある。

The quantum central limit theorem derived by Cushen and Hudson provides the foundations for understanding how subsystems of large bosonic systems evolving unitarily do reach equilibrium. It finds important applications in the context of quantum interferometry, for example, with photons. A practical feature of current photonic experiments, however, is that photons carry their own internal degrees of freedom pertaining to, e.g., the polarization or spatiotemporal mode they occupy, which makes them partially distinguishable. The ensuing deviation from ideal indistinguishability is well known to have observable consequences, for example in relation with boson bunching, but an understanding of its role in bosonic equilibration phenomena is still missing. Here, we generalize the Cushen-Hudson quantum central limit theorem to encompass scenarios with partial distinguishability, implying an asymptotic convergence of the subsystem's reduced state towards a multimode Gaussian state defined over the internal degrees of freedom. While these asymptotic internal states may not be directly accessible, we show that particle number distributions carry important signatures of distinguishability, which may be used to diagnose experimental imperfections in large boson sampling experiments.
翻訳日:2024-04-18 13:16:00 公開日:2024-04-17
# JointViT:長尺OCTAにおける酸素飽和レベルのモデリング

JointViT: Modeling Oxygen Saturation Levels with Joint Supervision on Long-Tailed OCTA ( http://arxiv.org/abs/2404.11525v1 )

ライセンス: Link先を確認
Zeyu Zhang, Xuyin Qi, Mingxi Chen, Guangxi Li, Ryan Pham, Ayub Zuhair, Ella Berry, Zhibin Liao, Owen Siggs, Robert Mclaughlin, Jamie Craig, Minh-Son To, (参考訳) 血液中の酸素飽和度(SaO2)は健康、特に睡眠関連呼吸障害において重要である。 しかし、SaO2の連続モニタリングは、患者の状況に応じて、時間的および高度に変動する。 近年,光コヒーレンストモグラフィー(OCTA)は目関連病変を迅速かつ効果的にスクリーニングし,睡眠関連疾患の診断の可能性を示している。 このギャップを埋めるために、本稿では3つの重要な貢献について述べる。 まず,視覚変換器アーキテクチャに基づく新しいモデルであるJointViTを提案する。 第2に,データ前処理中のバランス向上手法を導入し,特にOCTAデータセット内の長期分布において,モデルの性能向上を図る。 最後に、OCTAデータセットに関する包括的な実験により、提案手法は他の最先端手法よりも大幅に優れ、全体的な精度は最大12.28%向上した。 この進歩は、将来の睡眠関連疾患の診断におけるOCTAの利用の基礎となる。 プロジェクトWebサイト https://steve-zeyu-zhang.github.io/JointViT

The oxygen saturation level in the blood (SaO2) is crucial for health, particularly in relation to sleep-related breathing disorders. However, continuous monitoring of SaO2 is time-consuming and highly variable depending on patients' conditions. Recently, optical coherence tomography angiography (OCTA) has shown promising development in rapidly and effectively screening eye-related lesions, offering the potential for diagnosing sleep-related disorders. To bridge this gap, our paper presents three key contributions. Firstly, we propose JointViT, a novel model based on the Vision Transformer architecture, incorporating a joint loss function for supervision. Secondly, we introduce a balancing augmentation technique during data preprocessing to improve the model's performance, particularly on the long-tail distribution within the OCTA dataset. Lastly, through comprehensive experiments on the OCTA dataset, our proposed method significantly outperforms other state-of-the-art methods, achieving improvements of up to 12.28% in overall accuracy. This advancement lays the groundwork for the future utilization of OCTA in diagnosing sleep-related disorders. See project website https://steve-zeyu-zhang.github.io/JointViT
翻訳日:2024-04-18 13:16:00 公開日:2024-04-17
# Ornstein-Uhlenbeck過程のパラメータ推定における従来の学習法とディープラーニング法の比較

A Comparison of Traditional and Deep Learning Methods for Parameter Estimation of the Ornstein-Uhlenbeck Process ( http://arxiv.org/abs/2404.11526v1 )

ライセンス: Link先を確認
Jacob Fein-Ashley, (参考訳) 我々は、オルンシュタイン-ウレンベック過程(OU)は金融、物理学、生物学で広く使われている確率過程であると考えている。 OUプロセスのパラメータ推定は難しい問題である。 そこで我々は従来の追跡手法をレビューし、それらをディープラーニングの新たな応用と比較し、OUプロセスのパラメータを推定する。 我々はマルチ層パーセプトロンを用いてOUプロセスのパラメータを推定し、その性能をカルマンフィルタや最大推定のような従来のパラメータ推定手法と比較する。 従来のパラメータ推定法は, より小さなデータセットに適していると考えられるが, 多層パーセプトロンは, 観測軌跡の大きなデータセットからOUプロセスのパラメータを正確に推定することができる。

We consider the Ornstein-Uhlenbeck (OU) process, a stochastic process widely used in finance, physics, and biology. Parameter estimation of the OU process is a challenging problem. Thus, we review traditional tracking methods and compare them with novel applications of deep learning to estimate the parameters of the OU process. We use a multi-layer perceptron to estimate the parameters of the OU process and compare its performance with traditional parameter estimation methods, such as the Kalman filter and maximum likelihood estimation. We find that the multi-layer perceptron can accurately estimate the parameters of the OU process given a large dataset of observed trajectories; however, traditional parameter estimation methods may be more suitable for smaller datasets.
翻訳日:2024-04-18 13:16:00 公開日:2024-04-17
# LLMパッケージ:パープレキシティ最適化による試験時間でのモデル融合

Pack of LLMs: Model Fusion at Test-Time via Perplexity Optimization ( http://arxiv.org/abs/2404.11531v1 )

ライセンス: Link先を確認
Costas Mavromatis, Petros Karypis, George Karypis, (参考訳) 複数のLarge Language Models (LLM) からの知識を融合させることで、与えられたタスクのパフォーマンスを向上させることができる。 しかし、現在の融合アプローチは、新しいLLMに一般化しない学習ベースのフューザーに依存するか、あるいはそれぞれのLLMが入力をいかによく理解しているかを考慮しない。 本研究では,任意のユーザ指定LLMからの知識を推論時に活用できるLLM融合を,テスト時に検討する。 入力プロンプトが与えられた場合、各LSMの専門知識を活用するテスト時間融合の有効な方法であるPack of LLM(PackLLM)を紹介する。 PackLLMは、各LLMの重要性を決定する最適化問題を解くことでモデル融合を行い、入力プロンプトのパープレキシティを最小化する。 まず、単純な PackLLM-sim 変種は、パープレキシティがそれぞれのLSMの専門知識を測定するのに良い指標であることを示す。 第二に、当社のPackLLM-opt変種は、グリードアルゴリズムを用いて、パープレキシティの最小化問題を解決する。 導出重みは、推論中にLLMを結合するために用いられる。 我々は,多種多様なタスクに対して,100以上のLLMを用いて実験を行った。 実験の結果 i)パープレキシティ(perplexity)は、LSM融合の信頼性の高い尺度である。 (ii)PackLLMは、テスト時核融合基準線を1.89%精度で上回り、 (iii) PackLLMは3.92-11.94%の精度で、学習ベースの融合アプローチよりも性能を向上させるために新しいLCMを利用することができる。

Fusing knowledge from multiple Large Language Models (LLMs) can combine their diverse strengths to achieve improved performance on a given task. However, current fusion approaches either rely on learning-based fusers that do not generalize to new LLMs, or do not take into account how well each LLM understands the input. In this work, we study LLM fusion at test-time, which enables leveraging knowledge from arbitrary user-specified LLMs during inference. We introduce Pack of LLMs (PackLLM), an effective method for test-time fusion that leverages each LLM's expertise, given an input prompt. PackLLM performs model fusion by solving an optimization problem for determining each LLM's importance, so that perplexity over the input prompt is minimized. First, our simple PackLLM-sim variant validates that perplexity is a good indicator for measuring each LLM's expertise. Second, our PackLLM-opt variant approximately solves the perplexity minimization problem via a greedy algorithm. The derived importance weights are used to combine the LLMs during inference. We conduct experiments with over 100 total LLMs on a diverse set of tasks. Experimental results show that (i) perplexity is a reliable measure for LLM fusion, (ii) PackLLM outperforms test-time fusion baselines by 1.89% accuracy points, and (iii) PackLLM can leverage new LLMs to improve performance over learning-based fusion approaches by 3.92-11.94% accuracy points.
翻訳日:2024-04-18 13:16:00 公開日:2024-04-17
# Select and Reorder: ニューラル手話生成の新しいアプローチ

Select and Reorder: A Novel Approach for Neural Sign Language Production ( http://arxiv.org/abs/2404.11532v1 )

ライセンス: Link先を確認
Harry Walsh, Ben Saunders, Richard Bowden, (参考訳) 署名言語は低リソース言語として分類されることが多いが、並列アノテーション付きデータセットが不足しているため、正確な翻訳を実現する上で大きな課題に直面している。 本稿では,Gloss Selection (GS) とGloss Reordering (GR) の2つのステップに分割することで,データ不足に対処する新しい手法であるSelect and Reorder(S&R)を紹介する。 提案手法は,大規模な音声言語モデルとソース音声言語とターゲット手話との語彙的重複を利用して,初期アライメントを確立する。 どちらのステップも、計算の削減と推論速度の高速化にNon-AutoRegressive (NAR)デコーディングを使用している。 このようなタスクの切り離しを通じて、Meine DGS Annotated (mDGS)データセット上で最先端のBLEUとRogeスコアを達成し、テキストからグロスへの変換(T2G)において37.88%のBLUE-1が大幅に改善されたことを示す。 この革新的なアプローチは、リソース制約のある設定であっても、手話のより効果的な翻訳モデルの道を開く。

Sign languages, often categorised as low-resource languages, face significant challenges in achieving accurate translation due to the scarcity of parallel annotated datasets. This paper introduces Select and Reorder (S&R), a novel approach that addresses data scarcity by breaking down the translation process into two distinct steps: Gloss Selection (GS) and Gloss Reordering (GR). Our method leverages large spoken language models and the substantial lexical overlap between source spoken languages and target sign languages to establish an initial alignment. Both steps make use of Non-AutoRegressive (NAR) decoding for reduced computation and faster inference speeds. Through this disentanglement of tasks, we achieve state-of-the-art BLEU and Rouge scores on the Meine DGS Annotated (mDGS) dataset, demonstrating a substantial BLUE-1 improvement of 37.88% in Text to Gloss (T2G) Translation. This innovative approach paves the way for more effective translation models for sign languages, even in resource-constrained settings.
翻訳日:2024-04-18 13:16:00 公開日:2024-04-17
# モデル計算による予測の分解と編集

Decomposing and Editing Predictions by Modeling Model Computation ( http://arxiv.org/abs/2404.11534v1 )

ライセンス: Link先を確認
Harshay Shah, Andrew Ilyas, Aleksander Madry, (参考訳) 機械学習モデルの内部計算はどのように入力を予測に変換するのか? 本稿では,この問題に対処することを目的としたコンポーネントモデリングという課題を紹介する。 コンポーネントモデリングの目標は、モデル計算の"ビルディングブロック"である単純な関数(例えば、畳み込みフィルタ、アテンションヘッド)を、コンポーネントの観点からMLモデルの予測を分解することである。 本稿では,この課題の特別な事例であるコンポーネント属性に着目し,個々のコンポーネントが所定の予測に与える影響を推定することを目的とする。 次に、コンポーネント属性を推定するためのスケーラブルなアルゴリズムであるCOARを提示し、モデル、データセット、モダリティ間でその効果を実証する。 最後に、COARで推定されるコンポーネント属性は、モデルエラーの修正、‘forgetting’固有のクラス、サブポピュレーションロバスト性の向上、バックドアアタックの局所化、タイポグラフィーアタックに対するロバスト性の向上という、5つのタスクで直接モデル編集を可能にすることを示す。 私たちはCOARのコードをhttps://github.com/MadryLab/modelcomponentsで提供します。

How does the internal computation of a machine learning model transform inputs into predictions? In this paper, we introduce a task called component modeling that aims to address this question. The goal of component modeling is to decompose an ML model's prediction in terms of its components -- simple functions (e.g., convolution filters, attention heads) that are the "building blocks" of model computation. We focus on a special case of this task, component attribution, where the goal is to estimate the counterfactual impact of individual components on a given prediction. We then present COAR, a scalable algorithm for estimating component attributions; we demonstrate its effectiveness across models, datasets, and modalities. Finally, we show that component attributions estimated with COAR directly enable model editing across five tasks, namely: fixing model errors, ``forgetting'' specific classes, boosting subpopulation robustness, localizing backdoor attacks, and improving robustness to typographic attacks. We provide code for COAR at https://github.com/MadryLab/modelcomponents .
翻訳日:2024-04-18 13:16:00 公開日:2024-04-17
# FedPFT:フェデレーテッド・セクシー・ファインタニングのファンデーションモデル

FedPFT: Federated Proxy Fine-Tuning of Foundation Models ( http://arxiv.org/abs/2404.11536v1 )

ライセンス: Link先を確認
Zhaopeng Peng, Xiaoliang Fan, Yufan Chen, Zheng Wang, Shirui Pan, Chenglu Wen, Ruisheng Zhang, Cheng Wang, (参考訳) フェデレートラーニング(FL)を通じて下流タスクにファンデーションモデル(FM)を適用することで、データのプライバシと価値のあるFMを保護するための有望な戦略が浮かび上がっている。 しかし、既存手法では、FLのクライアントにサブFMを割り当てることによってFMを微調整するが、チューニングが不十分で勾配の誤差の蓄積が避けられないため、最適化性能が低下する。 本稿では,FedPFT(Federated Proxy Fine-Tuning)を提案する。 まず、サブFM構築モジュールはレイヤワイド圧縮アプローチを採用し、これらの重要なニューロンを強調することで、すべてのレイヤにわたる包括的なFM微調整を容易にする。 第2に、サブFMアライメントモジュールは、FL微調整中にそれぞれ2段階の蒸留層レベルおよびニューロンレベルレベルを実行し、理論的な保証の下で、サブFMとFMを正確に整列させることで勾配の誤差を低減する。 一般的な7つのデータセット(4つのテキストと3つのビジョン)の実験結果は、FedPFTの優位性を示している。

Adapting Foundation Models (FMs) for downstream tasks through Federated Learning (FL) emerges a promising strategy for protecting data privacy and valuable FMs. Existing methods fine-tune FM by allocating sub-FM to clients in FL, however, leading to suboptimal performance due to insufficient tuning and inevitable error accumulations of gradients. In this paper, we propose Federated Proxy Fine-Tuning (FedPFT), a novel method enhancing FMs adaptation in downstream tasks through FL by two key modules. First, the sub-FM construction module employs a layer-wise compression approach, facilitating comprehensive FM fine-tuning across all layers by emphasizing those crucial neurons. Second, the sub-FM alignment module conducts a two-step distillations-layer-level and neuron-level-before and during FL fine-tuning respectively, to reduce error of gradient by accurately aligning sub-FM with FM under theoretical guarantees. Experimental results on seven commonly used datasets (i.e., four text and three vision) demonstrate the superiority of FedPFT.
翻訳日:2024-04-18 13:16:00 公開日:2024-04-17
# SSDiff:リモートセンシングパンシャーピングのための空間スペクトル統合拡散モデル

SSDiff: Spatial-spectral Integrated Diffusion Model for Remote Sensing Pansharpening ( http://arxiv.org/abs/2404.11537v1 )

ライセンス: Link先を確認
Yu Zhong, Xiao Wu, Liang-Jian Deng, Zihan Cao, (参考訳) パンシャーペニングは、リモートセンシング画像の空間的内容とスペクトル特性を融合して高分解能マルチスペクトル画像を生成する重要な画像融合技術である。 近年,低ランク適応(LoRA)による制御可能な画像生成を向上し,視覚タスクに拡散確率モデルを徐々に応用している。 本稿では,空間的およびスペクトル的成分の融合過程を,部分空間分解の観点から考慮した,リモートセンシング型パンシャーピングタスクであるSSDiffについて,空間スペクトル統合拡散モデルを提案する。 具体的には、SSDiffは空間的分枝とスペクトル的分枝を用いて空間的詳細とスペクトル的特徴を別々に学習し、その後、設計された交互射影融合モジュール(APFM)を用いて融合を行う。 さらに,分枝間の周波数分布を変調するFMIM ( frequency modulation inter-branch Module) を提案する。 SSDiffの2つのコンポーネントは、LoRAのようなブランチワイド代替微調整法を利用する場合、APFMに対して良好に動作する。 SSDiffを改良し、コンポーネント識別機能を十分にキャプチャする。 最後に、WorldView-3、WorldView-2、GaoFen-2、QuickBirdの4つの一般的なデータセットに関する広範な実験は、SSDiffの視覚的および定量的な優位性を実証している。 コードは、可能な限り受け入れられた後、オープンソースにされる。

Pansharpening is a significant image fusion technique that merges the spatial content and spectral characteristics of remote sensing images to generate high-resolution multispectral images. Recently, denoising diffusion probabilistic models have been gradually applied to visual tasks, enhancing controllable image generation through low-rank adaptation (LoRA). In this paper, we introduce a spatial-spectral integrated diffusion model for the remote sensing pansharpening task, called SSDiff, which considers the pansharpening process as the fusion process of spatial and spectral components from the perspective of subspace decomposition. Specifically, SSDiff utilizes spatial and spectral branches to learn spatial details and spectral features separately, then employs a designed alternating projection fusion module (APFM) to accomplish the fusion. Furthermore, we propose a frequency modulation inter-branch module (FMIM) to modulate the frequency distribution between branches. The two components of SSDiff can perform favorably against the APFM when utilizing a LoRA-like branch-wise alternative fine-tuning method. It refines SSDiff to capture component-discriminating features more sufficiently. Finally, extensive experiments on four commonly used datasets, i.e., WorldView-3, WorldView-2, GaoFen-2, and QuickBird, demonstrate the superiority of SSDiff both visually and quantitatively. The code will be made open source after possible acceptance.
翻訳日:2024-04-18 13:06:14 公開日:2024-04-17
# GenFighter: ジェネレーティブでエボレーティブなテキストアタック除去

GenFighter: A Generative and Evolutive Textual Attack Removal ( http://arxiv.org/abs/2404.11538v1 )

ライセンス: Link先を確認
Md Athikul Islam, Edoardo Serra, Sushil Jajodia, (参考訳) 自然言語処理(NLP)におけるTransformerモデルのような、ディープニューラルネットワーク(DNN)に対する敵対的な攻撃は、重大な課題となる。 本稿では,訓練分類分布の学習と推論によって敵の堅牢性を高める新しい防衛戦略であるGenFighterを紹介する。 GenFighterは、ディストリビューションから逸脱した潜在的に悪意のあるインスタンスを特定し、トレーニングデータに沿った意味論的に等価なインスタンスに変換し、統一された堅牢なレスポンスのためにアンサンブル技術を使用する。 広範な実験を行うことで、GenFighterは攻撃および攻撃成功率の指標の下で、最先端の防御性能より優れていることを示す。 さらに、攻撃毎に大量のクエリを必要とするため、実際のシナリオでは攻撃がより困難になる。 本研究は,NLP攻撃に対する効果的な防御手段として,トランスファーラーニング(transfer learning),ジェネレーティブ/エボレーティブ・プロシージャ(generative/evolutive procedure),アンサンブル法(enmble method)を統合した。

Adversarial attacks pose significant challenges to deep neural networks (DNNs) such as Transformer models in natural language processing (NLP). This paper introduces a novel defense strategy, called GenFighter, which enhances adversarial robustness by learning and reasoning on the training classification distribution. GenFighter identifies potentially malicious instances deviating from the distribution, transforms them into semantically equivalent instances aligned with the training data, and employs ensemble techniques for a unified and robust response. By conducting extensive experiments, we show that GenFighter outperforms state-of-the-art defenses in accuracy under attack and attack success rate metrics. Additionally, it requires a high number of queries per attack, making the attack more challenging in real scenarios. The ablation study shows that our approach integrates transfer learning, a generative/evolutive procedure, and an ensemble method, providing an effective defense against NLP adversarial attacks.
翻訳日:2024-04-18 13:06:14 公開日:2024-04-17
# 生成パラダイムにおけるスパン抽出の評価:アスペクトベース感性分析の考察

Evaluating Span Extraction in Generative Paradigm: A Reflection on Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2404.11539v1 )

ライセンス: Link先を確認
Soyoung Yang, Won Ik Cho, (参考訳) 自然言語処理の領域における生成言語モデルの急速な進化の時代には、特にアスペクトベースの感情分析(ABSA)の領域において、評価方法論を再検討し、再構築する義務がある。 本稿では,従来の理解課題と生成課題の境界線を緩やかに曖昧にしている生成パラダイムがもたらす課題について論じる。 この分野で広く普及している実践に基づいて、ABSA評価パラダイムに関連する利点と欠点を分析した。 具体例で補足した詳細な調査を通じて、生成的アウトプットと他の評価指標、特に質問応答を含む他のタスクから派生した指標の整合に関する複雑さを強調した。 我々は、特異かつ決定的なメートル法を提唱することを明確にする一方で、この生成パラダイムにおけるABSA評価に適した包括的なガイドラインの道を開くことに貢献する。 本稿では,この発展途上の景観をナビゲートし,正確かつ再現性に富む評価を確実にするための洞察と方向性を実践者に提供することを目的としている。

In the era of rapid evolution of generative language models within the realm of natural language processing, there is an imperative call to revisit and reformulate evaluation methodologies, especially in the domain of aspect-based sentiment analysis (ABSA). This paper addresses the emerging challenges introduced by the generative paradigm, which has moderately blurred traditional boundaries between understanding and generation tasks. Building upon prevailing practices in the field, we analyze the advantages and shortcomings associated with the prevalent ABSA evaluation paradigms. Through an in-depth examination, supplemented by illustrative examples, we highlight the intricacies involved in aligning generative outputs with other evaluative metrics, specifically those derived from other tasks, including question answering. While we steer clear of advocating for a singular and definitive metric, our contribution lies in paving the path for a comprehensive guideline tailored for ABSA evaluations in this generative paradigm. In this position paper, we aim to provide practitioners with profound reflections, offering insights and directions that can aid in navigating this evolving landscape, ensuring evaluations that are both accurate and reflective of generative capabilities.
翻訳日:2024-04-18 13:06:14 公開日:2024-04-17
# IoTクラウドシステムのストレステストのためのリーンシミュレーションフレームワーク

A Lean Simulation Framework for Stress Testing IoT Cloud Systems ( http://arxiv.org/abs/2404.11542v1 )

ライセンス: Link先を確認
Jia Li, Behrad Moeini, Shiva Nejati, Mehrdad Sabetzadeh, Michael McCallen, (参考訳) モノのインターネット(Internet of Things)は、スマートシティ、自動運転車、健康モニタリングなど、さまざまな分野のスマートデバイスを世界中に接続する。 シミュレーションはIoTシステムのテストにおいて重要な役割を果たす。 本稿は、IoTのシミュレーションベースのテストにおいて、特に重要なニーズである、クラウドシステムのストレステストに対処する。 既存のIoT用のストレステストソリューションは、かなりの計算リソースを必要とするため、不適合でコストがかかる。 クラウドと通信する多数のIoTデバイスとエッジデバイスの効率的なシミュレーションを可能にする,IoTクラウドストレステスト用に設計されたリーンシミュレーションフレームワークを提案する。 実践者のシミュレーション構築を容易にするため,モデルベース仕様からシミュレータを生成するためのドメイン固有言語であるIoTECSを開発した。 我々はIoTECSの構文とセマンティクスを提供し、XtextとXtendを使ってIoTECSを実装します。 我々は、クラウドベースのIoT監視システムとIoT接続車両システムという、2つの実世界のシステムのストレステストのためのIoTECS仕様から生成されたシミュレータを評価する。 実験結果から,(1)Dockerコンテナ化の設定時に最高のパフォーマンスを得る,(2)ケーススタディシステムのサービス容量を効果的に評価する,(3) 産業用ストレステストベースラインツールであるJMeterとLocustを,同じハードウェアリソースを使用してシミュレート可能なIoTおよびエッジデバイスの数で3.5倍に向上させる,という結果が得られた。 IoTECSの実用性に関する最初の洞察を得るために、私たちは、IoTECSを初めて経験した業界パートナの2人のエンジニアにインタビューした。 これらのインタビューからのフィードバックは、IoTECSがIoTクラウドシステムのストレステストに有効であり、かなりの時間と労力を節約できることを示している。

The Internet of Things connects a plethora of smart devices globally across various applications like smart cities, autonomous vehicles and health monitoring. Simulation plays a key role in the testing of IoT systems, noting that field testing of a complete IoT product may be infeasible or prohibitively expensive. This paper addresses a specific yet important need in simulation-based testing for IoT: Stress testing of cloud systems. Existing stress testing solutions for IoT demand significant computational resources, making them ill-suited and costly. We propose a lean simulation framework designed for IoT cloud stress testing which enables efficient simulation of a large array of IoT and edge devices that communicate with the cloud. To facilitate simulation construction for practitioners, we develop a domain-specific language (DSL), named IoTECS, for generating simulators from model-based specifications. We provide the syntax and semantics of IoTECS and implement IoTECS using Xtext and Xtend. We assess simulators generated from IoTECS specifications for stress testing two real-world systems: a cloud-based IoT monitoring system and an IoT-connected vehicle system. Our empirical results indicate that simulators created using IoTECS: (1)achieve best performance when configured with Docker containerization; (2)effectively assess the service capacity of our case-study systems, and (3)outperform industrial stress-testing baseline tools, JMeter and Locust, by a factor of 3.5 in terms of the number of IoT and edge devices they can simulate using identical hardware resources. To gain initial insights about the usefulness of IoTECS in practice, we interviewed two engineers from our industry partner who have firsthand experience with IoTECS. Feedback from these interviews suggests that IoTECS is effective in stress testing IoT cloud systems, saving significant time and effort.
翻訳日:2024-04-18 13:06:14 公開日:2024-04-17
# 言語全体にわたる大規模言語モデルの多言語性能の定量化

Quantifying Multilingual Performance of Large Language Models Across Languages ( http://arxiv.org/abs/2404.11553v1 )

ライセンス: Link先を確認
Zihao Li, Yucheng Shi, Zirui Liu, Fan Yang, Ninghao Liu, Mengnan Du, (参考訳) LLM(Large Language Models)のトレーニングプロセスは、広範なテキストコーパスを必要とする。 しかし、これらのデータは、しばしば異なる言語で不均一に分散される。 その結果、LLMは英語、ドイツ語、フランス語などの共通言語でよく機能するが、低リソース言語では性能が良くない。 しかし、現在、低リソース言語におけるLLMの性能を定量的に測定する作業は行われていない。 このギャップを埋めるため,これらの言語上でのLLMの性能に応じて,異なる言語をベンチマークし,ランク付けすることを目的としたLanguage Rankerを提案する。 我々は、LLMのパフォーマンスを英語コーパスにベースラインとして使用し、異なる言語と英語のパフォーマンスを比較した。 以下の3つの発見がある。 1.全ての言語における異なるLLMのパフォーマンスランキングは、ほぼ同じである。 2. 異なる大きさのLLMは同じ部分的な性能を有する。 3) 異なる言語におけるLlaMa2の性能と事前学習コーパスの割合との間には強い相関関係がある。 これらの結果から,LLMの言語性能を測定する指標として,Language Rankerが利用可能であることが示唆された。

The training process of Large Language Models (LLMs) requires extensive text corpus. However, these data are often unevenly distributed in different languages. As a result, LLMs perform well on common languages, such as English, German, and French, but perform poorly on low-resource languages. However, currently there is no work to quantitatively measure the performance of LLMs in low-resource languages. To fill this gap, we proposed the Language Ranker that aims to benchmark and rank different languages according to the performance of LLMs on those languages. We employ the LLM's performance on the English corpus as a baseline to compare the performances of different languages and English. We have the following three findings: 1. The performance rankings of different LLMs in all languages are roughly the same. 2. LLMs with different sizes have the same partial order of performance. 3. There is a strong correlation between LlaMa2's performance in different languages and the proportion of the pre-training corpus. These findings illustrate that the Language Ranker can be used as an indicator to measure the language performance of LLMs.
翻訳日:2024-04-18 13:06:14 公開日:2024-04-17
# 幾何学的・時間的条件付けによる地平線の将来予測

Predicting Long-horizon Futures by Conditioning on Geometry and Time ( http://arxiv.org/abs/2404.11554v1 )

ライセンス: Link先を確認
Tarasha Khurana, Deva Ramanan, (参考訳) 本研究は,過去を前提とした将来のセンサ観測の課題を探求するものである。 私たちは、神経科学の‘予測的コーディング’の概念と、自動運転車のようなロボットアプリケーションによって動機付けられています。 予測ビデオモデリングは、未来はマルチモーダルであり、大規模学習はビデオ処理には計算コストがかかるため、難しい。 両課題に対処するためには,マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用することが重要である。 我々は、新しいフレームタイムスタンプを条件付けして、映像予測のための画像モデルを再利用する。 このようなモデルは、静的シーンと動的シーンの両方のビデオでトレーニングすることができる。 そこで本研究では,本モデルに対して,既設の単分子深度ネットワークを用いて,現場で得られる映像の深度(擬似)を予測するように強制することで,照明とテクスチャを分解し,不均一性を導入する。 実際、グレースケールのピクセルを予測するためにネットワークを変更するだけで、ビデオ予測の精度が向上していることが示されています。 タイムスタンプ条件付けによる余分な制御性を考慮して,従来の自己回帰的・階層的サンプリング戦略よりも優れたサンプリングスケジュールを提案する。 オブジェクト予測文献の確率的指標により、屋内および屋外のシーンにまたがる多様なビデオのセットと大きなオブジェクトの語彙に関するビデオ予測のベンチマークを作成する。 実験では, タイムスタンプ上での条件付き学習の有効性を実証し, 不変なモーダルで未来を予測することの重要性を示した。

Our work explores the task of generating future sensor observations conditioned on the past. We are motivated by `predictive coding' concepts from neuroscience as well as robotic applications such as self-driving vehicles. Predictive video modeling is challenging because the future may be multi-modal and learning at scale remains computationally expensive for video processing. To address both challenges, our key insight is to leverage the large-scale pretraining of image diffusion models which can handle multi-modality. We repurpose image models for video prediction by conditioning on new frame timestamps. Such models can be trained with videos of both static and dynamic scenes. To allow them to be trained with modestly-sized datasets, we introduce invariances by factoring out illumination and texture by forcing the model to predict (pseudo) depth, readily obtained for in-the-wild videos via off-the-shelf monocular depth networks. In fact, we show that simply modifying networks to predict grayscale pixels already improves the accuracy of video prediction. Given the extra controllability with timestamp conditioning, we propose sampling schedules that work better than the traditional autoregressive and hierarchical sampling strategies. Motivated by probabilistic metrics from the object forecasting literature, we create a benchmark for video prediction on a diverse set of videos spanning indoor and outdoor scenes and a large vocabulary of objects. Our experiments illustrate the effectiveness of learning to condition on timestamps, and show the importance of predicting the future with invariant modalities.
翻訳日:2024-04-18 13:06:14 公開日:2024-04-17
# 光から原子へのねじれ度変換

Conversion of twistedness from light to atoms ( http://arxiv.org/abs/2404.11558v1 )

ライセンス: Link先を確認
S. S. Baturin, A. V. Volotka, (参考訳) 我々は、束縛された電子によるツイストされた光子の吸収を利用して、自由空間におけるツイストされた原子の生成を可能にするための簡単なモデルとスキームを提案する。 我々は、光子と原子の非弾性衝突において、光子のねじれ状態が質量中心状態に移され、原子の軌道運動量の投影が$m_\gamma-\Delta m_e$となることを示す。 また、実験条件によっては、光子のねじれ度は原子中心の量子状態に移されるか、束縛された電子遷移の選択規則を変更することが示される。

We develop a simple model and propose a scheme that allows the production of twisted atoms in free space using the absorption of twisted photons by a bound electron. We show that in the inelastic collision of a photon and an atom, the twisted state of the photon is transferred to the center-of-mass state, so that the projection of the orbital momentum of the atom becomes $m_\gamma-\Delta m_e$. We also show that, depending on the experimental conditions, the twistedness of the photon is either transferred to the atomic center-of-mass quantum state or modifies the selection rule for the bound electron transition.
翻訳日:2024-04-18 13:06:14 公開日:2024-04-17
# MoA:パーソナライズされた画像生成における主観的文脈の絡み合いに対する混在認識

MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation ( http://arxiv.org/abs/2404.11565v1 )

ライセンス: Link先を確認
Kuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman, (参考訳) 本稿では,Mixture-of-Attention (MoA)というテキスト・画像拡散モデルのパーソナライズのための新しいアーキテクチャを提案する。 大規模言語モデル(LLM)で使用されるMixture-of-ExpertsメカニズムにインスパイアされたMoAは、生成ワークロードを2つの注意経路 – パーソナライズされたブランチと非パーソナライズされた事前ブランチ – に分散する。 MoAは、前のブランチで注意層を固定し、前のブランチで生成されたレイアウトとコンテキストに被写体を埋め込むことを学習するパーソナライズされたブランチで、生成プロセスに最小限の介入をしながら、元のモデルの事前を維持するように設計されている。 新たなルーティング機構は、各レイヤにおける各ブランチ間のピクセルの分散を管理し、パーソナライズされたコンテンツ生成とジェネリックなコンテンツ生成のブレンドを最適化する。 トレーニングが完了すると、MoAは、複数の被験者が構成や相互作用を持つ高品質でパーソナライズされた画像の作成を促進する。 重要なことに、MoAはモデルの既存の能力と、新たに強化されたパーソナライズされた介入の区別を強化する。 プロジェクトページ:https://snap-research.github.io/mixture-of-attention

We introduce a new architecture for personalization of text-to-image diffusion models, coined Mixture-of-Attention (MoA). Inspired by the Mixture-of-Experts mechanism utilized in large language models (LLMs), MoA distributes the generation workload between two attention pathways: a personalized branch and a non-personalized prior branch. MoA is designed to retain the original model's prior by fixing its attention layers in the prior branch, while minimally intervening in the generation process with the personalized branch that learns to embed subjects in the layout and context generated by the prior branch. A novel routing mechanism manages the distribution of pixels in each layer across these branches to optimize the blend of personalized and generic content creation. Once trained, MoA facilitates the creation of high-quality, personalized images featuring multiple subjects with compositions and interactions as diverse as those generated by the original model. Crucially, MoA enhances the distinction between the model's pre-existing capability and the newly augmented personalized intervention, thereby offering a more disentangled subject-context control that was previously unattainable. Project page: https://snap-research.github.io/mixture-of-attention
翻訳日:2024-04-18 13:06:14 公開日:2024-04-17
# 分子グラフにおけるGNNのスケーラビリティについて

On the Scalability of GNNs for Molecular Graphs ( http://arxiv.org/abs/2404.11568v1 )

ライセンス: Link先を確認
Maciej Sypetkowski, Frederik Wenkel, Farimah Poursafaei, Nia Dickson, Karush Suri, Philip Fradkin, Dominique Beaini, (参考訳) ディープラーニングモデルをスケールすることは、言語モデリングと画像生成における最近の革命の中心である。 モデルのサイズ、データセットのサイズ、パフォーマンスには強い関係がある。 しかし、グラフニューラルネットワーク(GNN)のような構造ベースのアーキテクチャは、スパース演算の効率の低下、大規模なデータ要求、各種アーキテクチャの有効性に関する明確さの欠如など、スケールのメリットを示さない。 このようなGNNの欠点を,そのスケーリング行動を研究することによって解決する。 具体的には,2次元分子グラフの公開コレクションにおいて,メッセージパッシングネットワーク,グラフトランスフォーマー,ハイブリッドアーキテクチャを解析する。 初めて、GNNは、深度、幅、分子数、ラベル数、事前訓練データセットの多様性の増大による大きな利益を享受し、データセットのサイズを8倍に増やすと、10億のパラメータにスケーリングすると30.25%の改善、28.98%の改善が達成される。 さらに,38のタスクにおいて,従来の大規模モデルよりも優れたスケーリング挙動を示す。 我々の研究が、基礎的なGNNが医薬品の発見を促進する時代への道を開くことを願っている。

Scaling deep learning models has been at the heart of recent revolutions in language modelling and image generation. Practitioners have observed a strong relationship between model size, dataset size, and performance. However, structure-based architectures such as Graph Neural Networks (GNNs) are yet to show the benefits of scale mainly due to the lower efficiency of sparse operations, large data requirements, and lack of clarity about the effectiveness of various architectures. We address this drawback of GNNs by studying their scaling behavior. Specifically, we analyze message-passing networks, graph Transformers, and hybrid architectures on the largest public collection of 2D molecular graphs. For the first time, we observe that GNNs benefit tremendously from the increasing scale of depth, width, number of molecules, number of labels, and the diversity in the pretraining datasets, resulting in a 30.25% improvement when scaling to 1 billion parameters and 28.98% improvement when increasing size of dataset to eightfold. We further demonstrate strong finetuning scaling behavior on 38 tasks, outclassing previous large models. We hope that our work paves the way for an era where foundational GNNs drive pharmaceutical drug discovery.
翻訳日:2024-04-18 13:06:14 公開日:2024-04-17
# Global Context Guidance を用いた簡易画像信号処理

Simple Image Signal Processing using Global Context Guidance ( http://arxiv.org/abs/2404.11569v1 )

ライセンス: Link先を確認
Omar Elezabi, Marcos V. Conde, Radu Timofte, (参考訳) 現代のスマートフォンカメラでは、画像信号処理装置(ISP)はセンサーからのRAW読み出しをエンドユーザーにとって知覚的に快適なRGB画像に変換するコア要素である。 ISPは通常プロプライエタリで手作りで、ホワイトバランス、色補正、トーンマッピングなどいくつかのブロックで構成されている。 ディープラーニングベースのISPは、深層ニューラルネットワークを使用してRAW画像をDSLRライクなRGBイメージに変換することを目指している。 しかし、ほとんどの学習済みISPは、計算上の制限のためにパッチ(小さな領域)を使って訓練されている。 このような方法にはグローバルなコンテキストが欠如しており、フル解像度画像に対する有効性を制限し、色濃度や照明などのグローバルな特性をキャプチャする能力を損なう。 まず,全RAW画像からグローバルなコンテキスト情報をキャプチャするために,任意のニューラルISPに統合可能な新しいモジュールを提案する。 次に,提案するモジュールを利用した,効率的でシンプルなニューラルISPを提案する。 本モデルでは,多種多様な実スマートフォン画像を用いて,様々なベンチマークで最新の結果が得られる。

In modern smartphone cameras, the Image Signal Processor (ISP) is the core element that converts the RAW readings from the sensor into perceptually pleasant RGB images for the end users. The ISP is typically proprietary and handcrafted and consists of several blocks such as white balance, color correction, and tone mapping. Deep learning-based ISPs aim to transform RAW images into DSLR-like RGB images using deep neural networks. However, most learned ISPs are trained using patches (small regions) due to computational limitations. Such methods lack global context, which limits their efficacy on full-resolution images and harms their ability to capture global properties such as color constancy or illumination. First, we propose a novel module that can be integrated into any neural ISP to capture the global context information from the full RAW images. Second, we propose an efficient and simple neural ISP that utilizes our proposed module. Our model achieves state-of-the-art results on different benchmarks using diverse and real smartphone images.
翻訳日:2024-04-18 13:06:14 公開日:2024-04-17
# トラッピングイオン量子計算におけるエネルギー量子アドバンテージ

Towards Energetic Quantum Advantage in Trapped-Ion Quantum Computation ( http://arxiv.org/abs/2404.11572v1 )

ライセンス: Link先を確認
Francisca Góis, Marco Pezzutto, Yasser Omar, (参考訳) 量子コンピュータのエネルギー効率に関する問題は、最近になって注目されている。 量子コンピュータを対象とする計算性能で運用するために必要なリソースの正確な理解と、そのスケーラビリティにどのようなエネルギー要求が及ぼすかはまだ分かっていない。 そこで本研究では,量子フーリエ変換(QFT)アルゴリズムのイオントラップによる実装について検討した。 主な焦点は、量子計算のエネルギー的コストを理論的に評価することであった。 実験のエネルギーコストは, イオンの冷却と調製からアルゴリズムの実装, 結果の読み出しに至るまで, 量子計算に関わる構成成分とステップを分析して推定した。 エネルギー的コストの潜在的なスケーリングが議論され、最先端の古典的スーパーコンピュータに対するエネルギー的量子優位性のしきい値を見つけるために使われた。

The question of the energetic efficiency of quantum computers has gained some attention only recently. A precise understanding of the resources required to operate a quantum computer with a targeted computational performance and how the energy requirements can impact the scalability is still missing. In this work, one implementation of the quantum Fourier transform (QFT) algorithm in a trapped ion setup was studied. The main focus was to obtain a theoretical characterization of the energetic costs of quantum computation. The energetic cost of the experiment was estimated by analyzing the components of the setup and the steps involved in a quantum computation, from the cooling and preparation of the ions to the implementation of the algorithm and readout of the result. A potential scaling of the energetic costs was argued and used to find a possible threshold for an energetic quantum advantage against state-of-the-art classical supercomputers.
翻訳日:2024-04-18 13:06:14 公開日:2024-04-17
# 長期移動傾向を考慮した映像予測のための状態空間分解モデル

State-space Decomposition Model for Video Prediction Considering Long-term Motion Trend ( http://arxiv.org/abs/2404.11576v1 )

ライセンス: Link先を確認
Fei Cui, Jiaojiao Fang, Xiaojiang Wu, Zelong Lai, Mengke Yang, Menghan Jia, Guizhong Liu, (参考訳) 確率的映像予測は将来の動きの不確実性を考慮し、環境の動的性質をよりよく反映する。 画像の自動回帰リカレントモデルに基づく確率的ビデオ予測手法は,その予測を潜在空間に戻す必要がある。 逆に、フレーム合成と時間予測を分離した状態空間モデルは、より効率的であることが証明されている。 しかし、運動に関する長期的な時間的情報を推測し、非定常仮定の下で動的シナリオに一般化することは未解決の課題である。 本稿では,全体の映像フレーム生成を決定論的外観予測と確率的動き予測に分解する状態空間分解確率的映像予測モデルを提案する。 適応分解により、モデルの動的シナリオへの一般化能力が向上する。 動き予測の文脈では、将来の動きの長期的傾向に先んじることが重要である。 そこで,確率的動き予測分岐では,条件付きフレームから長期動作傾向を推定し,条件付きフレームとの整合性を示す将来のフレームの生成を導出する。 実験により,本モデルが複数のデータセットのベースラインより優れていることが示された。

Stochastic video prediction enables the consideration of uncertainty in future motion, thereby providing a better reflection of the dynamic nature of the environment. Stochastic video prediction methods based on image auto-regressive recurrent models need to feed their predictions back into the latent space. Conversely, the state-space models, which decouple frame synthesis and temporal prediction, proves to be more efficient. However, inferring long-term temporal information about motion and generalizing to dynamic scenarios under non-stationary assumptions remains an unresolved challenge. In this paper, we propose a state-space decomposition stochastic video prediction model that decomposes the overall video frame generation into deterministic appearance prediction and stochastic motion prediction. Through adaptive decomposition, the model's generalization capability to dynamic scenarios is enhanced. In the context of motion prediction, obtaining a prior on the long-term trend of future motion is crucial. Thus, in the stochastic motion prediction branch, we infer the long-term motion trend from conditional frames to guide the generation of future frames that exhibit high consistency with the conditional frames. Experimental results demonstrate that our model outperforms baselines on multiple datasets.
翻訳日:2024-04-18 13:06:14 公開日:2024-04-17
# 信頼性のある経験的マシン・アンラーニング評価を目指して : ゲーム理論的視点

Towards Reliable Empirical Machine Unlearning Evaluation: A Game-Theoretic View ( http://arxiv.org/abs/2404.11577v1 )

ライセンス: Link先を確認
Yiwen Tu, Pingbang Hu, Jiaqi Ma, (参考訳) 機械学習は、個人が個人データの削除を要求できるデータ保護規則に従うために、特定のトレーニングデータサンプルの情報を削除するために機械学習モデルを更新するプロセスである。 近年、多くの未学習アルゴリズムが開発されているにもかかわらず、これらのアルゴリズムの信頼性評価は依然としてオープンな研究課題である。 本研究では、未学習アルゴリズムの評価において最も一般的なアプローチの一つであるMIAに基づく評価に焦点を当て、信頼性に欠ける既存の評価指標の様々な落とし穴に対処する。 具体的には,非学習アルゴリズムとMIA敵のゲームとして評価プロセスを形式化するゲーム理論フレームワークを提案する。 ゲームの設計を慎重に進めることで,ゲームから誘導される自然な評価基準が,既存の評価基準が満たせないという証明可能な保証を享受できることを実証する。 さらに,ゲームから誘導される評価基準を推定し,理論解析と実験実験の両方を通してその効果を実証する,実用的で効率的なアルゴリズムを提案する。 この研究は、非学習アルゴリズムを実証的に評価するための、新しく信頼性の高いアプローチを示し、より効果的な非学習技術を開発するための道を開いた。

Machine unlearning is the process of updating machine learning models to remove the information of specific training data samples, in order to comply with data protection regulations that allow individuals to request the removal of their personal data. Despite the recent development of numerous unlearning algorithms, reliable evaluation of these algorithms remains an open research question. In this work, we focus on membership inference attack (MIA) based evaluation, one of the most common approaches for evaluating unlearning algorithms, and address various pitfalls of existing evaluation metrics that lack reliability. Specifically, we propose a game-theoretic framework that formalizes the evaluation process as a game between unlearning algorithms and MIA adversaries, measuring the data removal efficacy of unlearning algorithms by the capability of the MIA adversaries. Through careful design of the game, we demonstrate that the natural evaluation metric induced from the game enjoys provable guarantees that the existing evaluation metrics fail to satisfy. Furthermore, we propose a practical and efficient algorithm to estimate the evaluation metric induced from the game, and demonstrate its effectiveness through both theoretical analysis and empirical experiments. This work presents a novel and reliable approach to empirically evaluating unlearning algorithms, paving the way for the development of more effective unlearning techniques.
翻訳日:2024-04-18 13:06:14 公開日:2024-04-17
# 時間論理制約を用いたDeep Policy Optimization

Deep Policy Optimization with Temporal Logic Constraints ( http://arxiv.org/abs/2404.11578v1 )

ライセンス: Link先を確認
Ameesh Shah, Cameron Voloshin, Chenxi Yang, Abhinav Verma, Swarat Chaudhuri, Sanjit A. Seshia, (参考訳) 線形時間論理(LTL)のような時間論理は、(深い)強化学習(RL)エージェントのタスクを正確に指定する手段を提供する。 我々の研究では、タスクがLTLの目的によって指定される設定を考慮しており、最適化する必要があるスカラー報酬が追加されている。 これまでの研究は、LTLタスク満足度ポリシーのみを学ぶか、あるいは有限状態空間に制限されるかに重点を置いていた。 まず、この問題を1つの最適化目標として定式化することで、RLフレンドリなアプローチをこの設定に導入する。 我々の定式化は、LTL仕様を満たす可能性の最大化を図ったポリシーの集合から、最適ポリシーが最大値となることを保証します。 第2に,LTL仕様の満足度にRLエージェントを自動的に誘導するCycle Experience Replay (CyclER)を導入することで,LTL誘導のDeep RLポリシーにしばしば発生する疎結合問題に対処する。 本実験は連続実験領域と離散実験領域の両方において, 実効的なRLポリシーの発見におけるCycleerの有効性を実証した。

Temporal logics, such as linear temporal logic (LTL), offer a precise means of specifying tasks for (deep) reinforcement learning (RL) agents. In our work, we consider the setting where the task is specified by an LTL objective and there is an additional scalar reward that we need to optimize. Previous works focus either on learning a LTL task-satisfying policy alone or are restricted to finite state spaces. We make two contributions: First, we introduce an RL-friendly approach to this setting by formulating this problem as a single optimization objective. Our formulation guarantees that an optimal policy will be reward-maximal from the set of policies that maximize the likelihood of satisfying the LTL specification. Second, we address a sparsity issue that often arises for LTL-guided Deep RL policies by introducing Cycle Experience Replay (CyclER), a technique that automatically guides RL agents towards the satisfaction of an LTL specification. Our experiments demonstrate the efficacy of CyclER in finding performant deep RL policies in both continuous and discrete experimental domains.
翻訳日:2024-04-18 13:06:14 公開日:2024-04-17
# LLMTune: 大規模言語モデルによるデータベースノブチューニングの高速化

LLMTune: Accelerate Database Knob Tuning with Large Language Models ( http://arxiv.org/abs/2404.11581v1 )

ライセンス: Link先を確認
Xinmei Huang, Haoyang Li, Jing Zhang, Xinxin Zhao, Zhiming Yao, Yiyan Li, Zhuohao Yu, Tieying Zhang, Hong Chen, Cuiping Li, (参考訳) データベースのknobチューニングは、特定のワークロードにおけるデータベースパフォーマンスを向上させるために、knob値を最適化することを目的として、データベースコミュニティにおいて重要な課題である。 DBMSは数百の調整可能なノブを特徴としており、DBAが最適な設定を推奨する上で大きな課題となっている。 その結果、このプロセスを自動化するため、多くの機械学習ベースのチューニング手法が開発されている。 様々なオプティマイザが導入されているにもかかわらず、実用アプリケーションは新しい問題を明らかにしている。 この非効率性は主に、最適設定がデフォルト設定と大きく異なる場合が多く、チューニング中に複数のイテレーションが必要になることに起因する。 これを認識し、効率的な出発点が低効率領域における冗長な探索を著しく削減し、最適化器のチューニングプロセスを高速化する可能性があると論じる。 この仮定に基づいて,新しいワークロードの初期かつ高品質な構成を生成するために設計された,大規模言語モデルに基づく構成生成器であるLLMTuneを紹介する。 これらの生成された構成は、様々なベースオプティマイザの出発点として機能し、チューニングプロセスを加速する。 LLMTuneの教師付き微調整のためのトレーニングデータを得るため,多数の<workload,configation>ペアを効率的に生成できる新しい自動データ生成フレームワークを開発した。 LLMTuneの有効性をTPC-HやJOBなど,さまざまなワークロードで評価するための徹底的な実験を行った。 リードメソッドと比較して、LLMTuneは優れた設定を素早く識別する能力を示している。 例えば、難易度の高いTPC-Hワークロードでは、LLMTuneは、最高のパフォーマンス構成を見つける上で、大きな15.6倍のスピードアップ比を実現しています。

Database knob tuning is a critical challenge in the database community, aiming to optimize knob values to enhance database performance for specific workloads. DBMS often feature hundreds of tunable knobs, posing a significant challenge for DBAs to recommend optimal configurations. Consequently, many machine learning-based tuning methods have been developed to automate this process. Despite the introduction of various optimizers, practical applications have unveiled a new problem: they typically require numerous workload runs to achieve satisfactory performance, a process that is both time-consuming and resource-intensive. This inefficiency largely stems from the optimal configuration often being substantially different from the default setting, necessitating multiple iterations during tuning. Recognizing this, we argue that an effective starting point could significantly reduce redundant exploration in less efficient areas, thereby potentially speeding up the tuning process for the optimizers. Based on this assumption, we introduce LLMTune, a large language model-based configuration generator designed to produce an initial, high-quality configuration for new workloads. These generated configurations can then serve as starting points for various base optimizers, accelerating their tuning processes. To obtain training data for LLMTune's supervised fine-tuning, we have devised a new automatic data generation framework capable of efficiently creating a large number of <workload, configuration> pairs. We have conducted thorough experiments to evaluate LLMTune's effectiveness with different workloads, such as TPC-H and JOB. In comparison to leading methods, LLMTune demonstrates a quicker ability to identify superior configurations. For instance, with the challenging TPC-H workload, our LLMTune achieves a significant 15.6x speed-up ratio in finding the best-performing configurations.
翻訳日:2024-04-18 13:06:14 公開日:2024-04-17
# 推論、計画、ツール呼び出しのための新興AIエージェントアーキテクチャの景観:調査

The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey ( http://arxiv.org/abs/2404.11584v1 )

ライセンス: Link先を確認
Tula Masterman, Sandi Besen, Mason Sawtell, Alex Chao, (参考訳) 本稿では、AIエージェントの実装の最近の進歩を考察し、推論、計画、ツール実行能力の強化を必要とする複雑な目標を達成する能力に焦点を当てる。 この仕事の主な目的は a) 既存のAIエージェントの実装の現在の機能と制限を伝えること。 ロ 動作中のこれらのシステムの観察から得た知見を共有すること。 c)AIエージェント設計における今後の発展に重要な考慮事項を提案する。 我々は、単一エージェントおよびマルチエージェントアーキテクチャの概要を提供し、設計選択における重要なパターンと分岐を特定し、提供された目標を達成するための全体的な影響を評価することで、これを実現する。 私たちのコントリビューションは、エージェントアーキテクチャを選択する際の重要なテーマ、エージェントシステムに対するリーダーシップの影響、エージェント通信スタイル、堅牢なAIエージェントシステムを実現するための計画、実行、リフレクションのための重要なフェーズを概説しています。

This survey paper examines the recent advancements in AI agent implementations, with a focus on their ability to achieve complex goals that require enhanced reasoning, planning, and tool execution capabilities. The primary objectives of this work are to a) communicate the current capabilities and limitations of existing AI agent implementations, b) share insights gained from our observations of these systems in action, and c) suggest important considerations for future developments in AI agent design. We achieve this by providing overviews of single-agent and multi-agent architectures, identifying key patterns and divergences in design choices, and evaluating their overall impact on accomplishing a provided goal. Our contribution outlines key themes when selecting an agentic architecture, the impact of leadership on agent systems, agent communication styles, and key phases for planning, execution, and reflection that enable robust AI agent systems.
翻訳日:2024-04-18 12:56:30 公開日:2024-04-17
# 手書き文字認識のための空間文脈に基づく自己教師付き学習

Spatial Context-based Self-Supervised Learning for Handwritten Text Recognition ( http://arxiv.org/abs/2404.11585v1 )

ライセンス: Link先を確認
Carlos Penarrubia, Carlos Garrido-Munoz, Jose J. Valero-Mas, Jorge Calvo-Zaragoza, (参考訳) 手書き文字認識(HTR)は、コンピュータビジョンにおける問題であり、その固有の変数と、その解釈に必要なリッチな文脈化のために固有の課題を暗示している。 コンピュータビジョンにおける自己監視学習(SSL)の成功にもかかわらず、HTRへの応用はかなり散在しており、主要なSSL方法論は未解明のままである。 この作業は、Spatial ContextベースのSSLという、その1つに焦点を当てている。 本稿では,HTRに適応し最適化する手法について検討し,手書きテキストの特徴を活かした新たなワークフローを提案する。 本実験は,HTRにおけるSSLの最先端化に繋がると考えられる手法について,多くのベンチマークケースで検証した。

Handwritten Text Recognition (HTR) is a relevant problem in computer vision, and implies unique challenges owing to its inherent variability and the rich contextualization required for its interpretation. Despite the success of Self-Supervised Learning (SSL) in computer vision, its application to HTR has been rather scattered, leaving key SSL methodologies unexplored. This work focuses on one of them, namely Spatial Context-based SSL. We investigate how this family of approaches can be adapted and optimized for HTR and propose new workflows that leverage the unique features of handwritten text. Our experiments demonstrate that the methods considered lead to advancements in the state-of-the-art of SSL for HTR in a number of benchmark cases.
翻訳日:2024-04-18 12:56:30 公開日:2024-04-17
# 作業と引用テキスト生成に関する調査

Related Work and Citation Text Generation: A Survey ( http://arxiv.org/abs/2404.11588v1 )

ライセンス: Link先を確認
Xiangci Li, Jessica Ouyang, (参考訳) 研究論文の新規性を読者に納得させるため、著者は文学のレビューを行い、以前の作品と現在の作品とを結び、関連付けるコヒーレントな物語を構成する必要がある。 このような文献レビューの難しさは、学術的・計算学的にRWG(Automatic related Work Generation)を興味深いものにするとともに、SOTA自然言語処理(NLP)モデルの能力を調べる上でも優れたテストベッドとなる。 RWGタスクの最初の提案以来、主流のNLPアプローチの能力に従って、その人気は弱まり、衰えている。 本稿では,RWGの歴史研究の動物園を調査し,重要なアプローチと課題定義を要約し,RWGの現在進行中の課題について議論する。

To convince readers of the novelty of their research paper, authors must perform a literature review and compose a coherent story that connects and relates prior works to the current work. This challenging nature of literature review writing makes automatic related work generation (RWG) academically and computationally interesting, and also makes it an excellent test bed for examining the capability of SOTA natural language processing (NLP) models. Since the initial proposal of the RWG task, its popularity has waxed and waned, following the capabilities of mainstream NLP approaches. In this work, we survey the zoo of RWG historical works, summarizing the key approaches and task definitions and discussing the ongoing challenges of RWG.
翻訳日:2024-04-18 12:56:30 公開日:2024-04-17
# 抽象概念理解のためのテキスト・画像拡散モデルのプロンプト最適化

Prompt Optimizer of Text-to-Image Diffusion Models for Abstract Concept Understanding ( http://arxiv.org/abs/2404.11589v1 )

ライセンス: Link先を確認
Zezhong Fan, Xiaohan Li, Chenhao Fang, Topojoy Biswas, Kaushiki Nag, Jianpeng Xu, Kannan Achan, (参考訳) テキストから画像への拡散モデルの急速な進化により、生成的AIの扉が開き、テキスト記述を目覚ましい品質で視覚的に魅力的な画像に変換することができるようになった。 しかし、この領域における永続的な課題は、抽象概念を具体的なオブジェクトに効果的に伝達するプロンプトの最適化である。 例えば、テキストエンコーダは「平和」をほとんど表現できないが、オリーブの枝や白い葉の描写は容易である。 本稿では,抽象概念から画像の解釈・生成において,テキスト・画像拡散モデルの性能を高めるために,POAC(Prompt Optimizer for Abstract Concepts)という新しいアプローチを提案する。 本稿では,事前学習された言語モデルから初期化され,抽象概念プロンプトのキュレートされたデータセットで微調整されたPrompt Language Model (PLM)を提案する。 データセットはGPT-4で作成され、抽象概念をシーンと具体的なオブジェクトに拡張する。 本フレームワークでは, 安定拡散モデルと最適化プロンプトによる画像のアライメントに着目し, 強化学習(RL)に基づく最適化戦略を採用している。 広範にわたる実験により,提案したPOACは生成した画像の精度と美的品質を著しく向上させ,特に抽象概念の記述や最適化プロンプトとの整合性を向上させることを示した。 また、異なる設定下での拡散モデル間のモデルの性能を包括的に分析し、その汎用性と抽象概念表現の強化効果を示す。

The rapid evolution of text-to-image diffusion models has opened the door of generative AI, enabling the translation of textual descriptions into visually compelling images with remarkable quality. However, a persistent challenge within this domain is the optimization of prompts to effectively convey abstract concepts into concrete objects. For example, text encoders can hardly express "peace", while can easily illustrate olive branches and white doves. This paper introduces a novel approach named Prompt Optimizer for Abstract Concepts (POAC) specifically designed to enhance the performance of text-to-image diffusion models in interpreting and generating images from abstract concepts. We propose a Prompt Language Model (PLM), which is initialized from a pre-trained language model, and then fine-tuned with a curated dataset of abstract concept prompts. The dataset is created with GPT-4 to extend the abstract concept to a scene and concrete objects. Our framework employs a Reinforcement Learning (RL)-based optimization strategy, focusing on the alignment between the generated images by a stable diffusion model and optimized prompts. Through extensive experiments, we demonstrate that our proposed POAC significantly improves the accuracy and aesthetic quality of generated images, particularly in the description of abstract concepts and alignment with optimized prompts. We also present a comprehensive analysis of our model's performance across diffusion models under different settings, showcasing its versatility and effectiveness in enhancing abstract concept representation.
翻訳日:2024-04-18 12:56:30 公開日:2024-04-17
# 部分空間拘束型タイラー推定器とその運動構造への応用

A Subspace-Constrained Tyler's Estimator and its Applications to Structure from Motion ( http://arxiv.org/abs/2404.11590v1 )

ライセンス: Link先を確認
Feng Yu, Teng Zhang, Gilad Lerman, (参考訳) 本稿では,低次元部分空間の復元を目的とした部分空間制約型タイラー推定器(STE)について述べる。 STEはタイラーのM推定器(TME)の融合であり、高速中央部分空間の変種である。 我々の理論解析は、STEは、ロバストな部分空間回復の分野において、他の手法と比較して、より少ない不整合率を含む場合であっても、共通の不整合-不整合モデルの下で、基礎となる部分空間を効果的に回復することができることを示唆している。 本研究では,基本行列のロバストな推定と外部カメラの除去,SfMパイプラインのロバスト性の向上,という2つの方法でSTEをSfM(Structure from Motion)の文脈に適用する。 数値実験により,本手法の最先端性能が検証された。 この研究は、特にコンピュータビジョンと3D再構成の文脈において、ロバストなサブスペースリカバリの分野に多大な貢献をしている。

We present the subspace-constrained Tyler's estimator (STE) designed for recovering a low-dimensional subspace within a dataset that may be highly corrupted with outliers. STE is a fusion of the Tyler's M-estimator (TME) and a variant of the fast median subspace. Our theoretical analysis suggests that, under a common inlier-outlier model, STE can effectively recover the underlying subspace, even when it contains a smaller fraction of inliers relative to other methods in the field of robust subspace recovery. We apply STE in the context of Structure from Motion (SfM) in two ways: for robust estimation of the fundamental matrix and for the removal of outlying cameras, enhancing the robustness of the SfM pipeline. Numerical experiments confirm the state-of-the-art performance of our method in these applications. This research makes significant contributions to the field of robust subspace recovery, particularly in the context of computer vision and 3D reconstruction.
翻訳日:2024-04-18 12:56:30 公開日:2024-04-17
# IntrinsicAnything:未知照明下での逆レンダリングにおける拡散の事前学習

IntrinsicAnything: Learning Diffusion Priors for Inverse Rendering Under Unknown Illumination ( http://arxiv.org/abs/2404.11593v1 )

ライセンス: Link先を確認
Xi Chen, Sida Peng, Dongchen Yang, Yuan Liu, Bowen Pan, Chengfei Lv, Xiaowei Zhou, (参考訳) 本稿では,未知の静止照明条件下で撮影されたポーズ画像から対象物質を回収することを目的とする。 近年の手法は、物理的に異なるレンダリングによって材料パラメータを最適化することでこの課題を解決している。 しかし, 物体形状, 材料, 環境光の結合により, 逆レンダリング過程の間には固有のあいまいさがあり, 従来の手法が正確な結果を得るのを妨げている。 この不適切な問題を克服するために、我々は最適化プロセスの正規化のための生成モデルを用いて、材料を事前に学習する。 一般レンダリング方程式は拡散および特異シェーディング項に分割することができ、アルベドとスペキュラの拡散モデルとして先行して材料を定式化することができる。 この設計により、既存の豊富な3Dオブジェクトデータを用いてモデルをトレーニングすることができ、RGB画像から材料表現を復元する際の曖昧さを解決するための汎用ツールとして自然に機能する。 さらに,多視点一貫した制約を満たすために,推定材料を利用して拡散モデルを導出し,より安定かつ正確な結果を得るための粗大な訓練戦略を開発する。 実世界のデータセットと合成データセットの大規模な実験により,本手法が材料回収における最先端性能を実現することを示す。 コードはhttps://zju3dv.github.io/IntrinsicAnything.comから入手できる。

This paper aims to recover object materials from posed images captured under an unknown static lighting condition. Recent methods solve this task by optimizing material parameters through differentiable physically based rendering. However, due to the coupling between object geometry, materials, and environment lighting, there is inherent ambiguity during the inverse rendering process, preventing previous methods from obtaining accurate results. To overcome this ill-posed problem, our key idea is to learn the material prior with a generative model for regularizing the optimization process. We observe that the general rendering equation can be split into diffuse and specular shading terms, and thus formulate the material prior as diffusion models of albedo and specular. Thanks to this design, our model can be trained using the existing abundant 3D object data, and naturally acts as a versatile tool to resolve the ambiguity when recovering material representations from RGB images. In addition, we develop a coarse-to-fine training strategy that leverages estimated materials to guide diffusion models to satisfy multi-view consistent constraints, leading to more stable and accurate results. Extensive experiments on real-world and synthetic datasets demonstrate that our approach achieves state-of-the-art performance on material recovery. The code will be available at https://zju3dv.github.io/IntrinsicAnything.
翻訳日:2024-04-18 12:56:30 公開日:2024-04-17
# バグの自動局所化と修復のための大規模言語モデルへの深い取り組み

A Deep Dive into Large Language Models for Automated Bug Localization and Repair ( http://arxiv.org/abs/2404.11595v1 )

ライセンス: Link先を確認
Soneya Binta Hossain, Nan Jiang, Qiang Zhou, Xiaopeng Li, Wen-Hao Chiang, Yingjun Lyu, Hoan Nguyen, Omer Tripp, (参考訳) 大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。 本研究では,LSMを用いた自動バグ修正について深く検討する。 既知のバグ位置を仮定したり、ラインレベルのローカライズツールに依存する、あるいは1ステップでバグの予測と修正を行う、ディープラーニングベースのAPRメソッドとは対照的に、当社のアプローチでは、トークンレベルでのバグ位置を予測するためにLSMを独自に使用し、その後バグ修正に利用しています。 異なるLLMを用いたバグローカライゼーションと修正の方法論は,多様なコンテキスト情報の効果的な統合と帰納的バイアスの取り込みの改善を可能にする。 Toggle: Token-Granulated Bug Localization and repairは、バグローカライゼーションモデル、調整ユニット、バグ修正モデルを統合する包括的なプログラム修復フレームワークである。 Toggleはバギー関数を入力として、完全な修正関数を生成する。 本稿では, バグ修正モデルに対して, 誘導バイアスをより有効に活用し, 他よりも著しく優れる最も効果的なプロンプトを特定するための, 様々な手法について検討する。 Toggleは、CodeXGLUEコードリファインメントベンチマークにおける新しい最先端(SOTA)パフォーマンスを実現し、Defects4Jを含む、他の広く使用されているAPRデータセットで、より良く、同等のパフォーマンスを示す。

Large language models (LLMs) have shown impressive effectiveness in various software engineering tasks, including automated program repair (APR). In this study, we take a deep dive into automated bug fixing utilizing LLMs. In contrast to many deep learning-based APR methods that assume known bug locations, rely on line-level localization tools, or address bug prediction and fixing in one step, our approach uniquely employs LLMs to predict bug location at the token level and subsequently utilizes them for bug fixing. This methodological separation of bug localization and fixing using different LLMs enables effective integration of diverse contextual information and improved incorporation of inductive biases. We introduce Toggle: Token-Granulated Bug Localization and Repair, a comprehensive program repair framework that integrates a bug localization model, an adjustment unit, and a bug-fixing model. Toggle takes a buggy function as input and generates a complete corrected function. We investigate various styles of prompting to the bug fixing model to identify the most effective prompts that better utilize the inductive bias and significantly outperform others. Toggle achieves the new state-of-the-art (SOTA) performance on the CodeXGLUE code refinement benchmark, and exhibits better and comparable performance on several other widely-used APR datasets, including Defects4J.
翻訳日:2024-04-18 12:56:30 公開日:2024-04-17
# 都市ハイウェイは社会的結びつきの障壁である

Urban highways are barriers to social ties ( http://arxiv.org/abs/2404.11596v1 )

ライセンス: Link先を確認
Luca Maria Aiello, Anastassia Vybornova, Sándor Juhász, Michael Szell, Eszter Bokányi, (参考訳) 都市ハイウェイは、特にアメリカでは一般的であり、都市を自動車中心にしている。 彼らは距離の消滅を約束するが、歩行者の移動を妨げる。 この制限的役割は都市研究で広く認められているが、都市高速道路と社会関係の量的関係は、ほとんど検証されていない。 ここでは、大規模で位置情報のあるオンラインソーシャルネットワークデータを、米国50大都市の高速道路に関連付けるバリアースコアを定義します。 前例のない社会関係の粒度では、都市ハイウェイが社会的つながりの低下に結びついていることが示される。 この障壁効果は特に短い距離で強く、ブラック地区を意図的に破壊したり孤立させたりするために建設された道路の歴史的事例と一致している。 空間的基盤と社会的結びつきデータを組み合わせることで,社会分離の人口動態研究に新たな次元を付加する。 本研究は,実証に基づく空間不平等の低減のためのレパートリープランニングを図り,より一般的には,都市計画におけるソーシャルファブリックのより良い統合を支援する。

Urban highways are common, especially in the US, making cities more car-centric. They promise the annihilation of distance but obstruct pedestrian mobility, thus playing a key role in limiting social interactions locally. Although this limiting role is widely acknowledged in urban studies, the quantitative relationship between urban highways and social ties is barely tested. Here we define a Barrier Score that relates massive, geolocated online social network data to highways in the 50 largest US cities. At the unprecedented granularity of individual social ties, we show that urban highways are associated with decreased social connectivity. This barrier effect is especially strong for short distances and consistent with historical cases of highways that were built to purposefully disrupt or isolate Black neighborhoods. By combining spatial infrastructure with social tie data, our method adds a new dimension to demographic studies of social segregation. Our study can inform reparative planning for an evidence-based reduction of spatial inequality, and more generally, support a better integration of the social fabric in urban planning.
翻訳日:2024-04-18 12:56:30 公開日:2024-04-17
# 正確な故障検出・診断のための説明可能な人工知能技術

Explainable Artificial Intelligence Techniques for Accurate Fault Detection and Diagnosis: A Review ( http://arxiv.org/abs/2404.11597v1 )

ライセンス: Link先を確認
Ahmed Maged, Salah Haridy, Herman Shen, (参考訳) 製造業がセンサーの統合と自動化で進歩するにつれ、機械学習におけるディープラーニングモデルの不透明な性質は、障害検出と診断において重要な課題となっている。 そして、人工知能(AI)がもたらす予測的な洞察にもかかわらず、先進的な機械学習エンジンはブラックボックスのままであることが多い。 本稿では、この文脈におけるeXplainable AI(XAI)ツールとテクニックについてレビューする。 我々は、AI決定を透明にする役割、特に人間が関与する重要なシナリオに焦点をあて、様々なXAI方法論を探求する。 また、重要な産業ユースケースにおけるAIアプリケーションのコンテキストにおける信頼性を改善しながら、モデルパフォーマンスと説明可能性のバランスをとることを目的とした、現在の制限と将来の研究についても論じる。

As the manufacturing industry advances with sensor integration and automation, the opaque nature of deep learning models in machine learning poses a significant challenge for fault detection and diagnosis. And despite the related predictive insights Artificial Intelligence (AI) can deliver, advanced machine learning engines often remain a black box. This paper reviews the eXplainable AI (XAI) tools and techniques in this context. We explore various XAI methodologies, focusing on their role in making AI decision-making transparent, particularly in critical scenarios where humans are involved. We also discuss current limitations and potential future research that aims to balance explainability with model performance while improving trustworthiness in the context of AI applications for critical industrial use cases.
翻訳日:2024-04-18 12:56:30 公開日:2024-04-17
# 変分ベイズ最後の層

Variational Bayesian Last Layers ( http://arxiv.org/abs/2404.11599v1 )

ライセンス: Link先を確認
James Harrison, John Willes, Jasper Snoek, (参考訳) ベイズ最後の層ニューラルネットワークをトレーニングするための決定論的変分定式化を導入する。 これによりサンプリング不要の単一パスモデルと損失が得られ、不確実性推定を効果的に改善する。 我々の変分ベイズ最後の層(VBLL)は、最終層幅の2次複雑さだけで訓練および評価が可能であり、したがって(ほぼ)計算的に標準アーキテクチャに追加できる。 VBLLを実験的に検討し, 予測精度, キャリブレーション, 分布検出の精度を, 回帰, 分類の両面で改善したことを示す。 最後に,VBLL層と変分ベイズ的特徴学習を組み合わせることを検討した。

We introduce a deterministic variational formulation for training Bayesian last layer neural networks. This yields a sampling-free, single-pass model and loss that effectively improves uncertainty estimation. Our variational Bayesian last layer (VBLL) can be trained and evaluated with only quadratic complexity in last layer width, and is thus (nearly) computationally free to add to standard architectures. We experimentally investigate VBLLs, and show that they improve predictive accuracy, calibration, and out of distribution detection over baselines across both regression and classification. Finally, we investigate combining VBLL layers with variational Bayesian feature learning, yielding a lower variance collapsed variational inference method for Bayesian neural networks.
翻訳日:2024-04-18 12:56:30 公開日:2024-04-17
# VG4D:ビジョンランゲージモデルで4Dビデオ認識が可能に

VG4D: Vision-Language Model Goes 4D Video Recognition ( http://arxiv.org/abs/2404.11605v1 )

ライセンス: Link先を確認
Zhichao Deng, Xiangtai Li, Xia Li, Yunhai Tong, Shen Zhao, Mengyuan Liu, (参考訳) ポイントクラウドビデオを通して現実世界を理解することは、ロボット工学と自動運転システムにとって重要な側面である。 しかし、4Dポイントクラウド認識の一般的な方法は、センサーの解像度に制限があるため、詳細な情報が不足している。 近年の進歩は、Webスケールのテキスト画像データセットで事前訓練された視覚言語モデル(VLM)が、様々な下流タスクに転送可能な、きめ細かい視覚概念を学習できることを示している。 しかし、4次元点雲の領域にVLMを効果的に統合することは未解決の問題である。 本研究では、視覚テキスト事前学習モデルから4Dポイント・クラウド・ネットワークへVLMの知識を伝達するためのビジョン・ランゲージ・モデル Goes 4D (VG4D) フレームワークを提案する。 我々のアプローチでは、4Dエンコーダの表現をVLMに合わせることで、大規模な画像テキストペアのトレーニングから共有された視覚空間とテキスト空間を学習する。 VLMの知識を4Dエンコーダに転送し、VLMを組み合わせることで、VG4Dは認識性能を向上させる。 4Dエンコーダを強化するため,従来のダイナミックポイントクラウドバックボーンを近代化し,PSTNetの改良版であるim-PSTNetを提案する。 実験により,NTU RGB+D 60データセットとNTU RGB+D 120データセットの両方において,動作認識のための最先端性能が得られた。 コードは \url{https://github.com/Shark0-0/VG4D} で入手できる。

Understanding the real world through point cloud video is a crucial aspect of robotics and autonomous driving systems. However, prevailing methods for 4D point cloud recognition have limitations due to sensor resolution, which leads to a lack of detailed information. Recent advances have shown that Vision-Language Models (VLM) pre-trained on web-scale text-image datasets can learn fine-grained visual concepts that can be transferred to various downstream tasks. However, effectively integrating VLM into the domain of 4D point clouds remains an unresolved problem. In this work, we propose the Vision-Language Models Goes 4D (VG4D) framework to transfer VLM knowledge from visual-text pre-trained models to a 4D point cloud network. Our approach involves aligning the 4D encoder's representation with a VLM to learn a shared visual and text space from training on large-scale image-text pairs. By transferring the knowledge of the VLM to the 4D encoder and combining the VLM, our VG4D achieves improved recognition performance. To enhance the 4D encoder, we modernize the classic dynamic point cloud backbone and propose an improved version of PSTNet, im-PSTNet, which can efficiently model point cloud videos. Experiments demonstrate that our method achieves state-of-the-art performance for action recognition on both the NTU RGB+D 60 dataset and the NTU RGB+D 120 dataset. Code is available at \url{https://github.com/Shark0-0/VG4D}.
翻訳日:2024-04-18 12:56:30 公開日:2024-04-17
# 確率的図形モデルにおける最も制約のある説明課題の解法

Learning to Solve the Constrained Most Probable Explanation Task in Probabilistic Graphical Models ( http://arxiv.org/abs/2404.11606v1 )

ライセンス: Link先を確認
Shivvrat Arya, Tahrima Rahman, Vibhav Gogate, (参考訳) 本稿では,ログ線形モデルやマルコフネットワークにおいて,次のような制約付き最適化課題を解決するための自己教師付き学習手法を提案する。 f$ と $g$ を、それぞれ確率変数の集合 $\mathbf{X}$ と $\mathbf{Y}$ の2つの対数線型モデルとする。 代入$\mathbf{x}$(エビデンス)と実数$q$のすべての変数に対する代入$\mathbf{x}$を与えられたとき、制約された最も確率的な説明(CMPE)タスクは、$\mathbf{y}$のすべての変数に対する代入$\mathbf{y}$を求め、$f(\mathbf{x}, \mathbf{y})$が最大化され、$g(\mathbf{x}, \mathbf{y})\leq q$となる。 提案した自己教師型アプローチでは、$\mathbf{x}$ to $\mathbf{X}$ (data) が与えられたとき、事前計算されたソリューションへのアクセスを必要とせず、CMPE問題の準最適解を出力することを学ぶディープニューラルネットワークを訓練する。 提案手法の鍵となる考え方は、CMPEの第一原理と近似的推論手法を用いて、実現不可能な解と最適解への実現不可能な解を推し進める新しい損失関数を導出することである。 提案手法の特性を解析し,その有効性をいくつかのベンチマーク問題で実験的に実証する。

We propose a self-supervised learning approach for solving the following constrained optimization task in log-linear models or Markov networks. Let $f$ and $g$ be two log-linear models defined over the sets $\mathbf{X}$ and $\mathbf{Y}$ of random variables respectively. Given an assignment $\mathbf{x}$ to all variables in $\mathbf{X}$ (evidence) and a real number $q$, the constrained most-probable explanation (CMPE) task seeks to find an assignment $\mathbf{y}$ to all variables in $\mathbf{Y}$ such that $f(\mathbf{x}, \mathbf{y})$ is maximized and $g(\mathbf{x}, \mathbf{y})\leq q$. In our proposed self-supervised approach, given assignments $\mathbf{x}$ to $\mathbf{X}$ (data), we train a deep neural network that learns to output near-optimal solutions to the CMPE problem without requiring access to any pre-computed solutions. The key idea in our approach is to use first principles and approximate inference methods for CMPE to derive novel loss functions that seek to push infeasible solutions towards feasible ones and feasible solutions towards optimal ones. We analyze the properties of our proposed method and experimentally demonstrate its efficacy on several benchmark problems.
翻訳日:2024-04-18 12:56:30 公開日:2024-04-17
# Infusion:拡散前の深度を学習することで3Dガウシアンにペンキを塗る

InFusion: Inpainting 3D Gaussians via Learning Depth Completion from Diffusion Prior ( http://arxiv.org/abs/2404.11613v1 )

ライセンス: Link先を確認
Zhiheng Liu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Jie Xiao, Kai Zhu, Nan Xue, Yu Liu, Yujun Shen, Yang Cao, (参考訳) 3Dガウスアンは、最近、新しいビュー合成の効率的な表現として現れた。 本研究は,不完全な3次元ガウスの集合を補足し,視覚的に調和した描画のための追加のポイントを付与することを目的とした,塗装作業に焦点を当てた編集性について研究する。 2Dインペイントと比較すると、3Dガウスの残差は、導入した点のレンダリング関連特性を解明することであり、その最適化は初期3D位置から大きく恩恵を受けている。 この目的のために,観測画像に基づいて深度マップを直接復元する画像条件付き深度完了モデルを用いて点初期化を導出することを提案する。 このような設計により、モデルが元の深さと整合したスケールで深度値を埋めることができ、また、大規模拡散前の強い一般化性を利用することができる。 より正確なディープ・コンプリートのおかげで、我々のアプローチはInFusionと呼ばれ、様々な複雑なシナリオにおいて十分に優れた忠実さと効率性を持つ既存の代替品を上回る。 さらに,ユーザ固有のテクスチャを塗布したり,新しいオブジェクト挿入を施したりといった,いくつかの実践的な応用でInFusionの有効性を実証する。

3D Gaussians have recently emerged as an efficient representation for novel view synthesis. This work studies its editability with a particular focus on the inpainting task, which aims to supplement an incomplete set of 3D Gaussians with additional points for visually harmonious rendering. Compared to 2D inpainting, the crux of inpainting 3D Gaussians is to figure out the rendering-relevant properties of the introduced points, whose optimization largely benefits from their initial 3D positions. To this end, we propose to guide the point initialization with an image-conditioned depth completion model, which learns to directly restore the depth map based on the observed image. Such a design allows our model to fill in depth values at an aligned scale with the original depth, and also to harness strong generalizability from largescale diffusion prior. Thanks to the more accurate depth completion, our approach, dubbed InFusion, surpasses existing alternatives with sufficiently better fidelity and efficiency under various complex scenarios. We further demonstrate the effectiveness of InFusion with several practical applications, such as inpainting with user-specific texture or with novel object insertion.
翻訳日:2024-04-18 12:56:30 公開日:2024-04-17
# 動的タイポグラフィー - 生命に言葉をもたらす

Dynamic Typography: Bringing Words to Life ( http://arxiv.org/abs/2404.11614v1 )

ライセンス: Link先を確認
Zichen Liu, Yihao Meng, Hao Ouyang, Yue Yu, Bolin Zhao, Daniel Cohen-Or, Huamin Qu, (参考訳) テキストアニメーションは、感情を誘発し、意味を強調し、魅力的な物語を構築することによって、静的なコミュニケーションを動的体験に変換する表現媒体として機能する。 セマンティックに認識されているアニメーションを作成することは、グラフィックデザインとアニメーションに関する専門知識を必要とする、重大な課題を引き起こす。 本稿では,2つの課題を組み合わせ,動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。 意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。 本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。 このフレームワークは、ニューラルネットワークを用いて文字を基本形に変換し、フレームごとの動きを適用し、意図したテキストの概念との一貫性を促進する。 形状保存技術と知覚的損失正規化は、アニメーションプロセス全体を通して可視性と構造的整合性を維持するために用いられる。 様々なテキスト・ビデオ・モデルにまたがるアプローチの一般化性を実証し、異なるタスクを構成するであろうベースライン・メソッドよりもエンド・ツー・エンド・エンド・方法論の優位性を強調した。 定量的かつ質的な評価を通じて,可読性を維持しつつユーザのプロンプトを忠実に解釈するコヒーレントなテキストアニメーションを生成する上で,我々のフレームワークの有効性を実証する。 私たちのコードは、https://animate-your-word.github.io/demo/.com/で利用可能です。

Text animation serves as an expressive medium, transforming static communication into dynamic experiences by infusing words with motion to evoke emotions, emphasize meanings, and construct compelling narratives. Crafting animations that are semantically aware poses significant challenges, demanding expertise in graphic design and animation. We present an automated text animation scheme, termed "Dynamic Typography", which combines two challenging tasks. It deforms letters to convey semantic meaning and infuses them with vibrant movements based on user prompts. Our technique harnesses vector graphics representations and an end-to-end optimization-based framework. This framework employs neural displacement fields to convert letters into base shapes and applies per-frame motion, encouraging coherence with the intended textual concept. Shape preservation techniques and perceptual loss regularization are employed to maintain legibility and structural integrity throughout the animation process. We demonstrate the generalizability of our approach across various text-to-video models and highlight the superiority of our end-to-end methodology over baseline methods, which might comprise separate tasks. Through quantitative and qualitative evaluations, we demonstrate the effectiveness of our framework in generating coherent text animations that faithfully interpret user prompts while maintaining readability. Our code is available at: https://animate-your-word.github.io/demo/.
翻訳日:2024-04-18 12:56:30 公開日:2024-04-17
# 因子拡散:ノイズ分解による知覚的錯覚

Factorized Diffusion: Perceptual Illusions by Noise Decomposition ( http://arxiv.org/abs/2404.11615v1 )

ライセンス: Link先を確認
Daniel Geng, Inbum Park, Andrew Owens, (参考訳) 画像の因子を線形成分の和に分解すると、拡散モデルサンプリングにより各成分を制御するゼロショット法を提案する。 例えば、画像を低空間周波数と高空間周波数に分解し、これらの成分を異なるテキストプロンプトで条件付けることができる。 これにより、視距離に応じて外観が変化するハイブリッド画像が生成される。 画像を3つの周波数サブバンドに分解することで、3つのプロンプトでハイブリッド画像を生成することができる。 我々はまた、グレースケールとカラー成分の分解を利用して、グレースケールで見るときの外観が変化した画像を生成し、これは自然に薄暗い照明の下で起こる現象である。 また,動作のぼかしによって外観が変化する画像を生成する動作ぼかしカーネルによる分解を探索する。 提案手法は,異なるプロンプトに条件付した雑音推定の成分から構築した合成雑音推定法を用いて,ノイズ推定を行う。 また, ある分解に対して, コンポジション生成と空間制御に先行した手法を復元することを示した。 最後に、実際の画像からハイブリッド画像を生成するために、我々のアプローチを拡張することができることを示す。 1つのコンポーネントを固定し、残りのコンポーネントを生成することでこれを実現し、逆問題を効果的に解決する。

Given a factorization of an image into a sum of linear components, we present a zero-shot method to control each individual component through diffusion model sampling. For example, we can decompose an image into low and high spatial frequencies and condition these components on different text prompts. This produces hybrid images, which change appearance depending on viewing distance. By decomposing an image into three frequency subbands, we can generate hybrid images with three prompts. We also use a decomposition into grayscale and color components to produce images whose appearance changes when they are viewed in grayscale, a phenomena that naturally occurs under dim lighting. And we explore a decomposition by a motion blur kernel, which produces images that change appearance under motion blurring. Our method works by denoising with a composite noise estimate, built from the components of noise estimates conditioned on different prompts. We also show that for certain decompositions, our method recovers prior approaches to compositional generation and spatial control. Finally, we show that we can extend our approach to generate hybrid images from real images. We do this by holding one component fixed and generating the remaining components, effectively solving an inverse problem.
翻訳日:2024-04-18 12:56:30 公開日:2024-04-17
# ShapeFormer: Visible-to-Amodal Transformer-based Amodal Instance Segmentation

ShapeFormer: Shape Prior Visible-to-Amodal Transformer-based Amodal Instance Segmentation ( http://arxiv.org/abs/2403.11376v4 )

ライセンス: Link先を確認
Minh Tran, Winston Bounsavy, Khoa Vo, Anh Nguyen, Tri Nguyen, Ngan Le, (参考訳) Amodal Instance Segmentation (AIS)は、画像内のオブジェクトの可視部分と隠蔽部分の両方を予測するため、困難なタスクを提示する。 既存のAIS手法は、アモーダル特徴から可視的特徴(可視的特徴)への移行と、可視的特徴から可視的特徴(可視的特徴から可視的特徴(可視的特徴)への移行の両方を含む、双方向アプローチに依存している。 観察の結果,アモーダル・ツー・ヴィジュアブルによるアモーダルな特徴の活用は,視覚ディスプレイに表示されない隠蔽/隠蔽セグメントの余分な情報により,可視的特徴を混乱させる可能性が示唆された。 その結果、その後の可視的・非可視的遷移における可視的特徴の質を損なうことになった。 この問題に対処するために、私たちは、可視からアモーダルへの遷移を持つ、分離されたTransformerベースのモデルであるShapeFormerを紹介します。 これは出力セグメンテーション間の明示的な関係を促進し、アモーダル-可視遷移の必要性を回避する。 ShapeFormerは3つの重要なモジュールから構成される。 一 隠蔽認識による可視的セグメンテーション予測のための可視性マスクヘッド (二)アモーダルマスク及び隠蔽マスク予測用形状プリア・アモーダルマスクヘッド及び 三 カテゴリー比形形先取先取先取先取先取先取先取先取先取先取先取先取 様々なAISベンチマークにおける総合的な実験と広範囲なアブレーション研究は、ShapeFormerの有効性を実証している。 コードは以下の通り。 \url{https://github.com/UARK-AICV/ShapeFormer}

Amodal Instance Segmentation (AIS) presents a challenging task as it involves predicting both visible and occluded parts of objects within images. Existing AIS methods rely on a bidirectional approach, encompassing both the transition from amodal features to visible features (amodal-to-visible) and from visible features to amodal features (visible-to-amodal). Our observation shows that the utilization of amodal features through the amodal-to-visible can confuse the visible features due to the extra information of occluded/hidden segments not presented in visible display. Consequently, this compromised quality of visible features during the subsequent visible-to-amodal transition. To tackle this issue, we introduce ShapeFormer, a decoupled Transformer-based model with a visible-to-amodal transition. It facilitates the explicit relationship between output segmentations and avoids the need for amodal-to-visible transitions. ShapeFormer comprises three key modules: (i) Visible-Occluding Mask Head for predicting visible segmentation with occlusion awareness, (ii) Shape-Prior Amodal Mask Head for predicting amodal and occluded masks, and (iii) Category-Specific Shape Prior Retriever aims to provide shape prior knowledge. Comprehensive experiments and extensive ablation studies across various AIS benchmarks demonstrate the effectiveness of our ShapeFormer. The code is available at: \url{https://github.com/UARK-AICV/ShapeFormer}
翻訳日:2024-04-18 12:46:40 公開日:2024-04-17
# ConsistencyDet: 一貫性モデルのデノジングパラダイムを持つロバストオブジェクト検出器

ConsistencyDet: A Robust Object Detector with a Denoising Paradigm of Consistency Model ( http://arxiv.org/abs/2404.07773v2 )

ライセンス: Link先を確認
Lifan Jiang, Zhihui Wang, Changmiao Wang, Ming Li, Jiaxu Leng, Xindong Wu, (参考訳) オブジェクト検出は、知覚コンピューティングの領域における重要なタスクであり、生成的手法を用いて取り組むことができる。 本研究では,アノテートされたエンティティの摂動境界ボックス上で動作する,物体検出を認知拡散プロセスとして記述する新しいフレームワークを提案する。 ConsistencyDetと呼ばれるこのフレームワークは、Consistency Modelとして知られる革新的な概念を活用している。 このモデルの目玉は自己整合性(self-consistency)機能であり、任意の時間段階から原始状態に歪んだ情報をマッピングし、それによって「一段階の認知」機構を実現する。 このような属性はモデルの運用効率を著しく高め、従来の拡散モデルとは分離する。 トレーニングフェーズ全体を通じて、ConsistencyDetは、接地トルースアノテーションから派生したノイズ注入ボックスによる拡散シーケンスを開始し、デノナイジングタスクを実行するようにモデルに条件付ける。 その後、推論段階では、正規分布からランダムにサンプリングされた境界ボックスで開始する復調サンプリング戦略を採用する。 反復的精錬により、モデルは任意に生成された箱の配置を決定的な検出に変換する。 MS-COCOやLVISといった標準ベンチマークを用いた総合的な評価は、ConsistencyDetがパフォーマンス指標で他の最先端検出器を上回っていることを裏付けている。 私たちのコードはhttps://github.com/Tankowa/ConsistencyDet.comで利用可能です。

Object detection, a quintessential task in the realm of perceptual computing, can be tackled using a generative methodology. In the present study, we introduce a novel framework designed to articulate object detection as a denoising diffusion process, which operates on the perturbed bounding boxes of annotated entities. This framework, termed ConsistencyDet, leverages an innovative denoising concept known as the Consistency Model. The hallmark of this model is its self-consistency feature, which empowers the model to map distorted information from any temporal stage back to its pristine state, thereby realizing a "one-step denoising" mechanism. Such an attribute markedly elevates the operational efficiency of the model, setting it apart from the conventional Diffusion Model. Throughout the training phase, ConsistencyDet initiates the diffusion sequence with noise-infused boxes derived from the ground-truth annotations and conditions the model to perform the denoising task. Subsequently, in the inference stage, the model employs a denoising sampling strategy that commences with bounding boxes randomly sampled from a normal distribution. Through iterative refinement, the model transforms an assortment of arbitrarily generated boxes into definitive detections. Comprehensive evaluations employing standard benchmarks, such as MS-COCO and LVIS, corroborate that ConsistencyDet surpasses other leading-edge detectors in performance metrics. Our code is available at https://github.com/Tankowa/ConsistencyDet.
翻訳日:2024-04-18 12:46:40 公開日:2024-04-17
# LaVy: ベトナムのマルチモーダル大言語モデル

LaVy: Vietnamese Multimodal Large Language Model ( http://arxiv.org/abs/2404.07922v4 )

ライセンス: Link先を確認
Chi Tran, Huong Le Thanh, (参考訳) LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、複雑な推論と言語理解において印象的な能力を持つ嵐によって世界を席巻している。 一方、ベトナムの大規模言語モデルに関連する多くの作品があり、マルチモーダリティにおける高品質な資源の欠如はベトナムのMLLMの進歩を妨げている。 本稿では,現在最先端のベトナム語MLLMであるLaVyを導入することでこの問題に対処し,また,MLLMのベトナム語視覚言語タスクに対する理解を評価するためのLaVy-Benchベンチマークも導入する。 私たちのプロジェクトはhttps://github.com/baochi0212/LaVyで公開されています。

Large Language Models (LLMs) and Multimodal Large language models (MLLMs) have taken the world by storm with impressive abilities in complex reasoning and linguistic comprehension. Meanwhile there are plethora of works related to Vietnamese Large Language Models, the lack of high-quality resources in multimodality limits the progress of Vietnamese MLLMs. In this paper, we pioneer in address this by introducing LaVy, a state-of-the-art Vietnamese MLLM, and we also introduce LaVy-Bench benchmark designated for evaluating MLLMs's understanding on Vietnamese visual language tasks. Our project is public at https://github.com/baochi0212/LaVy
翻訳日:2024-04-18 12:46:40 公開日:2024-04-17
# 公開コードレビューにおける要求品質保証のための統一型プロンプトチューニングについて

On Unified Prompt Tuning for Request Quality Assurance in Public Code Review ( http://arxiv.org/abs/2404.07942v2 )

ライセンス: Link先を確認
Xinyu Chen, Lin Li, Rui Zhang, Peng Liang, (参考訳) PCR(Public Code Review)は、高い知識の普及を促進するSoftware Question Answering (SQA)コミュニティを通じて実装することができる。 現在の手法は主に、有能なレビュアーを見つけること、コメントの品質を予測すること、レビューコメントを推奨/生成することなど、レビュアーの視点に焦点を当てている。 私たちの直感は、レビュー要求を満たすことで、その可視性が向上し、レビュー応答を改善するための前提条件になります。 この目的のために我々は,Masked Language Model (MLM) の下で,開発者ベースの要求品質保証(要求要求の予測とタグサブタスクの推奨)を補完する UniPCR と呼ばれる統一フレームワークを提案する。 具体的には 両方のサブタスクを 1) ハードプロンプトを使用してプロンプトテンプレートを構築することで、2つのサブタスクをMLMに変換するテキストプロンプトチューニング。 2) コードプレフィックスチューニング – 生成した連続ベクトルの小さなセグメントを,ソフトプロンプトを使ってコード表現のプレフィックスとして最適化する。 2011-2022年までのPublic Code Reviewデータセットの実験結果は、我々のUniPCRフレームワークが2つのサブタスクに適応し、要求品質保証のための最先端の手法で同等の精度に基づく結果より優れていることを示している。 これらの結論は、公開コードレビューにおける開発者の視点から、統合フレームワークの有効性を強調します。

Public Code Review (PCR) can be implemented through a Software Question Answering (SQA) community, which facilitates high knowledge dissemination. Current methods mainly focus on the reviewer's perspective, including finding a capable reviewer, predicting comment quality, and recommending/generating review comments. Our intuition is that satisfying review necessity requests can increase their visibility, which in turn is a prerequisite for better review responses. To this end, we propose a unified framework called UniPCR to complete developer-based request quality assurance (i.e., predicting request necessity and recommending tags subtask) under a Masked Language Model (MLM). Specifically, we reformulate both subtasks via 1) text prompt tuning, which converts two subtasks into MLM by constructing prompt templates using hard prompt; 2) code prefix tuning, which optimizes a small segment of generated continuous vectors as the prefix of the code representation using soft prompt. Experimental results on the Public Code Review dataset for the time span 2011-2022 demonstrate that our UniPCR framework adapts to the two subtasks and outperforms comparable accuracy-based results with state-of-the-art methods for request quality assurance. These conclusions highlight the effectiveness of our unified framework from the developer's perspective in public code review.
翻訳日:2024-04-18 12:46:40 公開日:2024-04-17
# LLMエージェントは1日の脆弱性を自律的に発破できる

LLM Agents can Autonomously Exploit One-day Vulnerabilities ( http://arxiv.org/abs/2404.08144v2 )

ライセンス: Link先を確認
Richard Fang, Rohan Bindu, Akul Gupta, Daniel Kang, (参考訳) LLMは、良心と悪意のある使用の両方において、ますます強力になっています。 能力の増大に伴い、研究者はサイバーセキュリティの脆弱性を悪用する能力にますます関心を寄せている。 特に、最近の研究は、LLMエージェントがウェブサイトを自律的にハックする能力について予備的な研究を行っている。 しかし、これらの研究は単純な脆弱性に限定されている。 本研究では,LLMエージェントが実世界のシステムにおいて,1日の脆弱性を自律的に悪用できることを示す。 これを示すために、私たちは、CVE記述の致命的な重大度に分類される脆弱性を含む、1日15の脆弱性のデータセットを収集しました。 CVEの説明を踏まえると、GPT-4は、テスト対象の他のモデル(GPT-3.5、オープンソースLLM)とオープンソースの脆弱性スキャナ(ZAP、Metasploit)の0%と比較して、これらの脆弱性の87%を活用できる。 幸いなことに、当社のGPT-4エージェントは、高性能のためにCVE記述を必要とする。 以上の結果から,高能率LLMエージェントの広範な展開に関する疑問が浮かび上がっている。

LLMs have becoming increasingly powerful, both in their benign and malicious uses. With the increase in capabilities, researchers have been increasingly interested in their ability to exploit cybersecurity vulnerabilities. In particular, recent work has conducted preliminary studies on the ability of LLM agents to autonomously hack websites. However, these studies are limited to simple vulnerabilities. In this work, we show that LLM agents can autonomously exploit one-day vulnerabilities in real-world systems. To show this, we collected a dataset of 15 one-day vulnerabilities that include ones categorized as critical severity in the CVE description. When given the CVE description, GPT-4 is capable of exploiting 87% of these vulnerabilities compared to 0% for every other model we test (GPT-3.5, open-source LLMs) and open-source vulnerability scanners (ZAP and Metasploit). Fortunately, our GPT-4 agent requires the CVE description for high performance: without the description, GPT-4 can exploit only 7% of the vulnerabilities. Our findings raise questions around the widespread deployment of highly capable LLM agents.
翻訳日:2024-04-18 12:46:40 公開日:2024-04-17
# R2インジケータと深層強化学習による適応型多目的進化アルゴリズム

R2 Indicator and Deep Reinforcement Learning Enhanced Adaptive Multi-Objective Evolutionary Algorithm ( http://arxiv.org/abs/2404.08161v2 )

ライセンス: Link先を確認
Farajollah Tahernezhad-Javazm, Debbie Rankin, Naomi Du Bois, Alice E. Smith, Damien Coyle, (参考訳) 最適化アルゴリズムの選択は、最適化課題の成功に不可欠である。 ここでは、これらの問題に対処するための強化学習に基づくエージェントを利用する、新しい進化的アルゴリズム構造を提案する。 エージェントは、最適化中に環境から受けるフィードバックに基づいて、特定の進化演算子を選択するために、二重深度q-ネットワークを使用する。 このアルゴリズムの構造は、5つの単目的進化的アルゴリズム演算子を含む。 この単目的構造は、R2インジケータを用いて多目的構造に変換される。 このインジケータは、まず、アルゴリズムを多目的にレンダリングし、次に、各世代における各アルゴリズムの性能を評価し、強化学習に基づく報酬関数の構築を容易にする手段を提供する。 提案したR2強化学習多目的進化アルゴリズム(R2-RLMOEA)は,R2指標に基づく他の6つの多目的アルゴリズムと比較する。 これら6つのアルゴリズムには、R2-RLMOEAで使用される演算子と、最適化中の演算子をランダムに選択するR2インジケータベースのアルゴリズムが含まれる。 CEC09関数を逆生成距離と間隔で測定し,性能をベンチマークした。 R2-RLMOEAアルゴリズムは他のアルゴリズムよりも高い統計的重要性(p<0.001)を持つ。

Choosing an appropriate optimization algorithm is essential to achieving success in optimization challenges. Here we present a new evolutionary algorithm structure that utilizes a reinforcement learning-based agent aimed at addressing these issues. The agent employs a double deep q-network to choose a specific evolutionary operator based on feedback it receives from the environment during optimization. The algorithm's structure contains five single-objective evolutionary algorithm operators. This single-objective structure is transformed into a multi-objective one using the R2 indicator. This indicator serves two purposes within our structure: first, it renders the algorithm multi-objective, and second, provides a means to evaluate each algorithm's performance in each generation to facilitate constructing the reinforcement learning-based reward function. The proposed R2-reinforcement learning multi-objective evolutionary algorithm (R2-RLMOEA) is compared with six other multi-objective algorithms that are based on R2 indicators. These six algorithms include the operators used in R2-RLMOEA as well as an R2 indicator-based algorithm that randomly selects operators during optimization. We benchmark performance using the CEC09 functions, with performance measured by inverted generational distance and spacing. The R2-RLMOEA algorithm outperforms all other algorithms with strong statistical significance (p<0.001) when compared with the average spacing metric across all ten benchmarks.
翻訳日:2024-04-18 12:46:40 公開日:2024-04-17
# 無線ネットワーク上での協調マルチタスク処理のための意味コミュニケーション

Semantic Communication for Cooperative Multi-Task Processing over Wireless Networks ( http://arxiv.org/abs/2404.08483v2 )

ライセンス: Link先を確認
Ahmad Halimi Razlighi, Carsten Bockelmann, Armin Dekorsy, (参考訳) 本稿では,複数のタスクを同時に処理できるより汎用的なシステムに,ひとつのタスクの処理に限定したセマンティックコミュニケーションの現状を拡張した。 そこで我々はまず「意味源」の定義を導入し、一つの観察に基づく複数の意味論の解釈を可能にした。 次にセマンティックエンコーダの設計を導入し、エンコーダを共通ユニットに分割し、協調マルチタスク処理を可能にする複数の特定ユニットを特徴とする。 シミュレーションの結果,提案するセマンティックソースの有効性とシステム設計の有効性が示された。 当社のアプローチでは,情報最大化(infomax)とエンドツーエンド設計の原則を採用しています。

In this paper, we have expanded the current status of semantic communication limited to processing one task to a more general system that can handle multiple tasks concurrently. In pursuit of this, we first introduced our definition of the "semantic source", enabling the interpretation of multiple semantics based on a single observation. A semantic encoder design is then introduced, featuring the division of the encoder into a common unit and multiple specific units enabling cooperative multi-task processing. Simulation results demonstrate the effectiveness of the proposed semantic source and the system design. Our approach employs information maximization (infomax) and end-to-end design principles.
翻訳日:2024-04-18 12:46:40 公開日:2024-04-17
# 欧州における非差別法--非法律家のためのプライマー

Non-discrimination law in Europe: a primer for non-lawyers ( http://arxiv.org/abs/2404.08519v2 )

ライセンス: Link先を確認
Frederik Zuiderveen Borgesius, Nina Baranowska, Philipp Hacker, Alessandro Fabris, (参考訳) 本報告では、ヨーロッパでの非差別法について紹介する。 欧州における非差別法の主な特徴は何か、そして、異なる法令は互いにどのように関連しているのか? 私たちの主なターゲットは、コンピュータ科学者と、ヨーロッパでの非差別法導入に関心を持つ人工知能(AI)ユーザです。 特に、ヨーロッパの非差別法は、米国など他の国の非差別法と大きく異なる。 我々は、非法律家や非欧州の弁護士が、その内容や課題を容易に把握できるように、この法律を記述することを目指している。 この論文は、人間による非差別の権利が、ある程度は、個人を企業などの民間の俳優から保護していることを示している。 我々は、多くのEU指令に含まれるEU全体の非差別規則を導入し、また、直接差別と間接差別の違いを説明します。 企業やそのAIシステムが事故によって差別されたとしても、組織は間接的な差別に対して罰金を科すことができる。 最後の節では、バイアス関連法とGDPR、EU AI Act、および関連する法令の事例を含むよう、地平を広げている。 最後に、ヨーロッパでの非差別法についてもっと学ぶ傾向にある人々に対して、読書のヒントを与えます。

This brief paper provides an introduction to non-discrimination law in Europe. It answers the questions: What are the key characteristics of non-discrimination law in Europe, and how do the different statutes relate to one another? Our main target group is computer scientists and users of artificial intelligence (AI) interested in an introduction to non-discrimination law in Europe. Notably, non-discrimination law in Europe differs significantly from non-discrimination law in other countries, such as the US. We aim to describe the law in such a way that non-lawyers and non-European lawyers can easily grasp its contents and challenges. The paper shows that the human right to non-discrimination, to some extent, protects individuals against private actors, such as companies. We introduce the EU-wide non-discrimination rules which are included in a number of EU directives, and also explain the difference between direct and indirect discrimination. Significantly, an organization can be fined for indirect discrimination even if the company, or its AI system, discriminated by accident. The last section broadens the horizon to include bias-relevant law and cases from the GDPR, the EU AI Act, and related statutes. Finally, we give reading tips for those inclined to learn more about non-discrimination law in Europe.
翻訳日:2024-04-18 12:46:40 公開日:2024-04-17
# データ駆動モデルによる都市間交通渋滞予測

Predicting Traffic Congestion at Urban Intersections Using Data-Driven Modeling ( http://arxiv.org/abs/2404.08838v3 )

ライセンス: Link先を確認
Tara Kelly, Jessica Gupta, (参考訳) 交差点での交通渋滞は都市部で大きな問題であり、通勤時間の増加、安全上の危険、運用上の不効率につながっている。 本研究では,米国の主要都市における交差点の混雑予測モデルの構築を目的として,4800の交差点にまたがる商用車両の走行記録データを用いて,都市間における混雑予測モデルを構築した。 データセットには、交差点座標、通り名、日時、交通メトリクス(Kashyap et al , 2019)を含む27の機能が含まれている。 降雨/降雪率、中心街と郊外からの距離、道路タイプといった追加の特徴は、モデルの予測力を高めるために組み込まれた。 この手法には、データ探索、特徴変換、低ランクモデルとラベルエンコーディングによる欠落値の処理が含まれる。 提案モデルでは,交通ホットスポットの予測,運用の最適化,インフラの課題の特定などにおいて,都市計画者や政府を支援する可能性を秘めている。

Traffic congestion at intersections is a significant issue in urban areas, leading to increased commute times, safety hazards, and operational inefficiencies. This study aims to develop a predictive model for congestion at intersections in major U.S. cities, utilizing a dataset of trip-logging metrics from commercial vehicles across 4,800 intersections. The dataset encompasses 27 features, including intersection coordinates, street names, time of day, and traffic metrics (Kashyap et al., 2019). Additional features, such as rainfall/snowfall percentage, distance from downtown and outskirts, and road types, were incorporated to enhance the model's predictive power. The methodology involves data exploration, feature transformation, and handling missing values through low-rank models and label encoding. The proposed model has the potential to assist city planners and governments in anticipating traffic hot spots, optimizing operations, and identifying infrastructure challenges.
翻訳日:2024-04-18 12:46:40 公開日:2024-04-17
# リモートセンシングと拡散モデル:原則,方法,展望

Diffusion Models Meet Remote Sensing: Principles, Methods, and Perspectives ( http://arxiv.org/abs/2404.08926v2 )

ライセンス: Link先を確認
Yidan Liu, Jun Yue, Shaobo Xia, Pedram Ghamisi, Weiying Xie, Leyuan Fang, (参考訳) 深層生成モデルの新たな進歩として、拡散モデルはコンピュータビジョン、自然言語処理、分子設計を含む多くの分野において最先端の結果を得た。 リモートセンシングコミュニティはまた、拡散モデルの強力な能力に気づき、画像を処理するための様々なタスクに素早く適用した。 リモートセンシング分野における拡散モデルの研究の急速な増加を踏まえ、既存の拡散モデルに基づくリモートセンシング論文の総合的なレビューを行い、拡散モデルの可能性を認識し、さらなる探究の道筋を提供する必要がある。 具体的には、まず拡散モデルの理論的背景を紹介し、その後、画像生成、強調、解釈を含むリモートセンシングにおける拡散モデルの適用を体系的にレビューする。 最後に、既存のリモートセンシング拡散モデルの限界と、さらなる探査にふさわしい研究の方向性について論じ、要約する。

As a newly emerging advance in deep generative models, diffusion models have achieved state-of-the-art results in many fields, including computer vision, natural language processing, and molecule design. The remote sensing community has also noticed the powerful ability of diffusion models and quickly applied them to a variety of tasks for image processing. Given the rapid increase in research on diffusion models in the field of remote sensing, it is necessary to conduct a comprehensive review of existing diffusion model-based remote sensing papers, to help researchers recognize the potential of diffusion models and provide some directions for further exploration. Specifically, this paper first introduces the theoretical background of diffusion models, and then systematically reviews the applications of diffusion models in remote sensing, including image generation, enhancement, and interpretation. Finally, the limitations of existing remote sensing diffusion models and worthy research directions for further exploration are discussed and summarized.
翻訳日:2024-04-18 12:46:40 公開日:2024-04-17
# MCPNet:マルチレベルコンセプトプロトタイプによる解釈可能な分類器

MCPNet: An Interpretable Classifier via Multi-Level Concept Prototypes ( http://arxiv.org/abs/2404.08968v2 )

ライセンス: Link先を確認
Bor-Shiun Wang, Chien-Yi Wang, Wei-Chen Chiu, (参考訳) ポストホックおよび本質的に解釈可能な手法の最近の進歩はブラックボックス分類器モデルの説明を著しく強化している。 これらの手法は、分析後またはモデルトレーニング中に概念学習を統合することによって機能する。 モデルの潜在空間と人間の解釈の間の意味的ギャップを埋めるのに効果的であるが、これらの説明法はモデルの意思決定過程を部分的にしか明らかにしない。 結果は通常、最後のフィーチャーマップから派生したハイレベルなセマンティクスに制限される。 我々は、下級・中級の機能における意思決定プロセスに関する洞察が欠如している説明は、完全に忠実でも有用でもないと論じる。 このギャップに対処するために、本質的に解釈可能なモデルであるMulti-Level Concept Prototypes Classifier (MCPNet)を導入する。 MCPNetは、CKA(Centered Kernel Alignment)損失とエネルギーベースの重み付きPCA機構を用いて、複数の機能マップレベルにわたる有意義なコンセプトプロトタイプを自律的に学習する。 さらに,クラス認識概念分布(CCD)の損失を通じて,分類目的の多段階概念のプロトタイプ分布を学習・調整する新しい分類手法を提案する。 実験の結果,提案したMPPNetは様々なモデルアーキテクチャに適用可能でありながら,分類精度を維持しつつ総合的なマルチレベル説明を提供することがわかった。 さらに、その概念分布に基づく分類手法は、数ショットの分類シナリオにおける一般化能力の向上を示す。

Recent advancements in post-hoc and inherently interpretable methods have markedly enhanced the explanations of black box classifier models. These methods operate either through post-analysis or by integrating concept learning during model training. Although being effective in bridging the semantic gap between a model's latent space and human interpretation, these explanation methods only partially reveal the model's decision-making process. The outcome is typically limited to high-level semantics derived from the last feature map. We argue that the explanations lacking insights into the decision processes at low and mid-level features are neither fully faithful nor useful. Addressing this gap, we introduce the Multi-Level Concept Prototypes Classifier (MCPNet), an inherently interpretable model. MCPNet autonomously learns meaningful concept prototypes across multiple feature map levels using Centered Kernel Alignment (CKA) loss and an energy-based weighted PCA mechanism, and it does so without reliance on predefined concept labels. Further, we propose a novel classifier paradigm that learns and aligns multi-level concept prototype distributions for classification purposes via Class-aware Concept Distribution (CCD) loss. Our experiments reveal that our proposed MCPNet while being adaptable to various model architectures, offers comprehensive multi-level explanations while maintaining classification accuracy. Additionally, its concept distribution-based classification approach shows improved generalization capabilities in few-shot classification scenarios.
翻訳日:2024-04-18 12:46:40 公開日:2024-04-17
# インクリメンタル残差概念ボトルネックモデル

Incremental Residual Concept Bottleneck Models ( http://arxiv.org/abs/2404.08978v2 )

ライセンス: Link先を確認
Chenming Shang, Shiji Zhou, Hengyuan Zhang, Xinzhe Ni, Yujiu Yang, Yuwang Wang, (参考訳) 概念ボトルネックモデル(CBM)は、ディープニューラルネットワークによって抽出されたブラックボックスの視覚表現を解釈可能な概念のセットにマッピングし、その概念を使用して予測を行い、意思決定プロセスの透明性を高める。 マルチモーダル事前学習モデルは、視覚表現とテキストの概念埋め込みとを一致させることができ、専門的な概念アノテーションを使わずに解釈可能な概念ボトルネックを得ることができる。 近年の研究では、銀行の設立と高品質なコンセプト選択に焦点が当てられている。 しかし、人間や大きな言語モデルを通じて包括的な概念バンクを構築することは困難であり、CBMの性能を著しく制限している。 本稿では,概念完全性の課題を解決するために,インクリメンタル・Residual Concept Bottleneck Model (Res-CBM)を提案する。 具体的には、残差概念ボトルネックモデルでは、不足する概念を完備化するために最適化可能なベクトルの集合を使用し、インクリメンタル概念発見モジュールは、不明確な意味を持つ補足ベクトルを候補概念バンクの潜在的概念に変換する。 提案手法は,任意のCBMの性能向上を目的としたポストホック処理法として,ユーザ定義の概念バンクに適用できる。 さらに, CBMの記述効率を測定するために, 概念利用効率(CUE)尺度を提案する。 実験により、Res-CBMは精度と効率の両方の観点から現在の最先端の手法よりも優れており、複数のデータセットにわたるブラックボックスモデルに匹敵するパフォーマンスを実現している。

Concept Bottleneck Models (CBMs) map the black-box visual representations extracted by deep neural networks onto a set of interpretable concepts and use the concepts to make predictions, enhancing the transparency of the decision-making process. Multimodal pre-trained models can match visual representations with textual concept embeddings, allowing for obtaining the interpretable concept bottleneck without the expertise concept annotations. Recent research has focused on the concept bank establishment and the high-quality concept selection. However, it is challenging to construct a comprehensive concept bank through humans or large language models, which severely limits the performance of CBMs. In this work, we propose the Incremental Residual Concept Bottleneck Model (Res-CBM) to address the challenge of concept completeness. Specifically, the residual concept bottleneck model employs a set of optimizable vectors to complete missing concepts, then the incremental concept discovery module converts the complemented vectors with unclear meanings into potential concepts in the candidate concept bank. Our approach can be applied to any user-defined concept bank, as a post-hoc processing method to enhance the performance of any CBMs. Furthermore, to measure the descriptive efficiency of CBMs, the Concept Utilization Efficiency (CUE) metric is proposed. Experiments show that the Res-CBM outperforms the current state-of-the-art methods in terms of both accuracy and efficiency and achieves comparable performance to black-box models across multiple datasets.
翻訳日:2024-04-18 12:46:40 公開日:2024-04-17
# 視覚変換器のFew-Shot蒸留における軽量コピーと低ランク適応

Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers ( http://arxiv.org/abs/2404.09326v2 )

ライセンス: Link先を確認
Diana-Nicoleta Grigore, Mariana-Iuliana Georgescu, Jon Alvarez Justo, Tor Johansen, Andreea Iuliana Ionescu, Radu Tudor Ionescu, (参考訳) 近年、限られたデータと計算資源を用いて、大規模事前学習モデルの知識を活用するための有効な方法として、知識蒸留が登場した。 本稿では,視覚変換器のための新規な数発的特徴蒸留手法を提案する。 私たちのアプローチは2つの重要なステップに基づいています。 視覚変換器が一貫した深度構造を持つという事実を利用して、私たちはまず既存の学習済み視覚変換器(教師)の断続的な層からより浅いアーキテクチャ(学生)へと重みをコピーします。 次に,Low-Rank Adaptation (LoRA) の強化版を用いて,教師層が行う情報処理の回復を目的とした,数ショットのシナリオで学生に知識を抽出する。 自然画像,医療画像,衛星画像を含む5つの領域のデータセットについて,教師としての教師と教師としての自己指導型トランスフォーマーを用いた総合的な実験を行った。 実験結果から, 競争基準に対するアプローチの優位性が確認された。 さらに, アブレーションの結果から, 提案したパイプラインの各コンポーネントの有用性が示された。

Few-shot knowledge distillation recently emerged as a viable approach to harness the knowledge of large-scale pre-trained models, using limited data and computational resources. In this paper, we propose a novel few-shot feature distillation approach for vision transformers. Our approach is based on two key steps. Leveraging the fact that vision transformers have a consistent depth-wise structure, we first copy the weights from intermittent layers of existing pre-trained vision transformers (teachers) into shallower architectures (students), where the intermittence factor controls the complexity of the student transformer with respect to its teacher. Next, we employ an enhanced version of Low-Rank Adaptation (LoRA) to distill knowledge into the student in a few-shot scenario, aiming to recover the information processing carried out by the skipped teacher layers. We present comprehensive experiments with supervised and self-supervised transformers as teachers, on five data sets from various domains, including natural, medical and satellite images. The empirical results confirm the superiority of our approach over competitive baselines. Moreover, the ablation results demonstrate the usefulness of each component of the proposed pipeline.
翻訳日:2024-04-18 12:46:40 公開日:2024-04-17
# 非階層型変圧器を用いたピアノ自動書き起こしのためのスコーリング間隔

Scoring Intervals using Non-Hierarchical Transformer For Automatic Piano Transcription ( http://arxiv.org/abs/2404.09466v2 )

ライセンス: Link先を確認
Yujia Yan, Zhiyao Duan, (参考訳) 半マルコフ条件ランダムフィールド(semi-CRF)フレームワークは、イベントベースのピアノの書き起こしを約束している。 このフレームワークでは、すべてのイベント(ノートまたはペダル)は特定のイベントタイプに結びついた閉じたインターバルとして表現される。 神経半CRFアプローチでは、各候補区間のスコアを割り当てるインターバルスコア行列が必要となる。 しかし、間隔を測るための効率的で表現力豊かなアーキテクチャを設計するのは簡単ではない。 本稿では,変圧器における注目スコアの仕方に類似したスケール内積演算を用いた簡易なスコアリング手法を提案する。 理論的には、重複しない区間を符号化する特別な構造のため、内部積演算は、正しい転写結果が得られる理想的なスコアリング行列を表現するのに十分である。 次に,低分解能特徴写像のみで動作するエンコーダのみの非階層トランスフォーマーバックボーンが,高精度かつ高精度にピアノ音符やペダルを転写可能であることを示す。 実験により,提案手法は,Maestroデータセット上のF1測度を用いて,すべてのサブタスクにまたがる新しい最先端性能を実現することを示す。

The neural semi-Markov Conditional Random Field (semi-CRF) framework has demonstrated promise for event-based piano transcription. In this framework, all events (notes or pedals) are represented as closed intervals tied to specific event types. The neural semi-CRF approach requires an interval scoring matrix that assigns a score for every candidate interval. However, designing an efficient and expressive architecture for scoring intervals is not trivial. In this paper, we introduce a simple method for scoring intervals using scaled inner product operations that resemble how attention scoring is done in transformers. We show theoretically that, due to the special structure from encoding the non-overlapping intervals, under a mild condition, the inner product operations are expressive enough to represent an ideal scoring matrix that can yield the correct transcription result. We then demonstrate that an encoder-only non-hierarchical transformer backbone, operating only on a low-time-resolution feature map, is capable of transcribing piano notes and pedals with high accuracy and time precision. The experiment shows that our approach achieves the new state-of-the-art performance across all subtasks in terms of the F1 measure on the Maestro dataset.
翻訳日:2024-04-18 12:36:56 公開日:2024-04-17
# 拡散モデルを用いた頑健な深度推定のためのコントラスト学習

Digging into contrastive learning for robust depth estimation with diffusion models ( http://arxiv.org/abs/2404.09831v2 )

ライセンス: Link先を確認
Jiyuan Wang, Chunyu Lin, Lang Nie, Kang Liao, Shuwei Shao, Yao Zhao, (参考訳) 近年, 拡散型深度推定法は, エレガントなデノナイジングパターンと有望な性能により, 広く注目を集めている。 しかし、雨や雪などの現実のシナリオでよく見られる悪条件下では、信頼できないのが普通である。 本稿では,複雑な環境における性能劣化を軽減するために,拡散モデルに適した独自のコントラスト学習モードを備えた,D4RDと呼ばれる新しい頑健な深度推定手法を提案する。 具体的には、知識蒸留の強みを対照的な学習に統合し、「真性」の対照的なスキームを構築する。 このスキームは前方拡散過程のサンプルノイズを自然参照として利用し、様々な場面で予測されたノイズをより安定かつ正確な最適化に向けて導く。 さらに、より汎用的な特徴や画像レベルを包含する雑音レベルトリニティを拡張し、マルチレベルコントラストを確立し、ネットワーク全体にわたって頑健な知覚の重荷を分散する。 複雑なシナリオに対処する前に、3つの単純かつ効果的な改善によりベースライン拡散モデルの安定性を高め、収束を容易にし、奥行きの外れを除去する。 大規模な実験により、D4RDは、合成汚職データセットや現実世界の気象条件に関する既存の最先端のソリューションを超越していることが示された。 D4RDのコードは、さらなる調査と採用のために利用可能になる予定である。

Recently, diffusion-based depth estimation methods have drawn widespread attention due to their elegant denoising patterns and promising performance. However, they are typically unreliable under adverse conditions prevalent in real-world scenarios, such as rainy, snowy, etc. In this paper, we propose a novel robust depth estimation method called D4RD, featuring a custom contrastive learning mode tailored for diffusion models to mitigate performance degradation in complex environments. Concretely, we integrate the strength of knowledge distillation into contrastive learning, building the `trinity' contrastive scheme. This scheme utilizes the sampled noise of the forward diffusion process as a natural reference, guiding the predicted noise in diverse scenes toward a more stable and precise optimum. Moreover, we extend noise-level trinity to encompass more generic feature and image levels, establishing a multi-level contrast to distribute the burden of robust perception across the overall network. Before addressing complex scenarios, we enhance the stability of the baseline diffusion model with three straightforward yet effective improvements, which facilitate convergence and remove depth outliers. Extensive experiments demonstrate that D4RD surpasses existing state-of-the-art solutions on synthetic corruption datasets and real-world weather conditions. The code for D4RD will be made available for further exploration and adoption.
翻訳日:2024-04-18 12:36:56 公開日:2024-04-17
# フォールトトレラント量子コンピュータにおける絡み合い再正規化のコスト

The Cost of Entanglement Renormalization on a Fault-Tolerant Quantum Computer ( http://arxiv.org/abs/2404.10050v2 )

ライセンス: Link先を確認
Joshua Job, Isaac H. Kim, Eric Johnston, Steve Adachi, (参考訳) 我々は,障害耐性量子コンピュータ上でのディープ・エンタングルメント・リノベーション・アンサッツ(DMERA)の利用を前提とした詳細な資源推定を行う。 比較的大きなシステムサイズ(64\times 64$)を求めるため、量子位相推定(QPE)に基づくアプローチと比較して、量子ビット数の桁違いの減少を観測する。 エネルギーを測定するための2つの相補的戦略について議論する。 最初のアプローチは、ハミルトニアンの局所的な項のランダムサンプリングに基づいており、$\mathcal{O}(1/\epsilon^2)$の量子回路の呼び出しを必要とし、それぞれが最大で$\mathcal{O}(\log N)$の深さを持ち、$\epsilon$はエネルギーの相対的精度であり、$N$はシステムサイズである。 第2のアプローチは、空間上で平均された観測可能量の期待値のコヒーレントな推定に基づいており、システムサイズにおいて対数コストのみを発生させながら、ハイゼンベルクのスケーリングを達成する。 サイト毎のエネルギーを$\epsilon$, $\mathcal{O}\left(\frac{\log N}{\epsilon} \right)$T$ gates and $\mathcal{O}\left(\log N \right)$ qubits suffice で推定する。 リードコントリビューションの定数係数は、DMERA回路の深さ、アンザッツで使用されるゲート、回路の周期性によって決定される。 また、ゲートがランダムなパウリ回転であると仮定して、エネルギー勾配の分散に厳密な境界を導出する。

We perform a detailed resource estimate for the prospect of using deep entanglement renormalization ansatz (DMERA) on a fault-tolerant quantum computer, focusing on the regime in which the target system is large. For probing a relatively large system size ($64\times 64$), we observe up to an order of magnitude reduction in the number of qubits, compared to the approaches based on quantum phase estimation (QPE). We discuss two complementary strategies to measure the energy. The first approach is based on a random sampling of the local terms of the Hamiltonian, requiring $\mathcal{O}(1/\epsilon^2)$ invocations of quantum circuits, each of which have depth of at most $\mathcal{O}(\log N)$, where $\epsilon$ is the relative precision in the energy and $N$ is the system size. The second approach is based on a coherent estimation of the expectation value of observables averaged over space, which achieves the Heisenberg scaling while incurring only a logarithmic cost in the system size. For estimating the energy per site of $\epsilon$, $\mathcal{O}\left(\frac{\log N}{\epsilon} \right)$ $T$ gates and $\mathcal{O}\left(\log N \right)$ qubits suffice. The constant factor of the leading contribution is shown to be determined by the depth of the DMERA circuit, the gates used in the ansatz, and the periodicity of the circuit. We also derive tight bounds on the variance of the energy gradient, assuming the gates are random Pauli rotations.
翻訳日:2024-04-18 12:36:56 公開日:2024-04-17
# 注意設計付き視覚拡張予測オートエンコーダ(VAPAAD)

Vision Augmentation Prediction Autoencoder with Attention Design (VAPAAD) ( http://arxiv.org/abs/2404.10096v2 )

ライセンス: Link先を確認
Yiqiao Yin, (参考訳) 近年のシーケンス予測の進歩はビデオデータ解釈の精度を大幅に向上させたが、既存のモデルは、次のフレーム予測のための注意に基づくメカニズムの可能性を見落としていることが多い。 本研究では,視覚強調予測オートエンコーダ(VAPAAD, Vision Augmentation Prediction Autoencoder with Attention Design)を紹介した。 移動MNISTデータセットを利用することで、VAPAADの頑健なパフォーマンスと、従来の手法と比較して複雑な時間データの優れたハンドリングを実証する。 VAPAADはデータ拡張、ConvLSTM2Dレイヤ、およびカスタムビルドのセルフアテンションメカニズムを組み合わせて、シーケンス内の健全な特徴に効果的に集中し、予測精度とコンテキスト認識分析を強化する。 この手法は、ビデオ解釈中に人間の認知過程に固執するだけでなく、従来のモデルにおける制限にも対処する。 実験の結果,VAPAADは既存のモデルよりも優れており,特に注意機構の統合により予測性能が著しく向上することがわかった。

Recent advancements in sequence prediction have significantly improved the accuracy of video data interpretation; however, existing models often overlook the potential of attention-based mechanisms for next-frame prediction. This study introduces the Vision Augmentation Prediction Autoencoder with Attention Design (VAPAAD), an innovative approach that integrates attention mechanisms into sequence prediction, enabling nuanced analysis and understanding of temporal dynamics in video sequences. Utilizing the Moving MNIST dataset, we demonstrate VAPAAD's robust performance and superior handling of complex temporal data compared to traditional methods. VAPAAD combines data augmentation, ConvLSTM2D layers, and a custom-built self-attention mechanism to effectively focus on salient features within a sequence, enhancing predictive accuracy and context-aware analysis. This methodology not only adheres to human cognitive processes during video interpretation but also addresses limitations in conventional models, which often struggle with the variability inherent in video sequences. The experimental results confirm that VAPAAD outperforms existing models, especially in integrating attention mechanisms, which significantly improve predictive performance.
翻訳日:2024-04-18 12:36:56 公開日:2024-04-17
# 現実を形作る - 製作制約による3D生成AIの強化

Shaping Realities: Enhancing 3D Generative AI with Fabrication Constraints ( http://arxiv.org/abs/2404.10142v2 )

ライセンス: Link先を確認
Faraz Faruqi, Yingtao Tian, Vrushank Phadnis, Varun Jampani, Stefanie Mueller, (参考訳) ジェネレーティブAIツールは、ユーザーがテキストやイメージを入力として新しいモデルを操作したり作成したりできる3Dモデリングにおいて、より普及しつつある。 これにより、ユーザーは3Dデザインを素早くカスタマイズし、反復し、新しいクリエイティブなアイデアを探求できる。 これらの手法は, 3Dモデルの美的品質に焦点を合わせ, ユーザが提供するプロンプトに類似するように仕上げる。 しかし、製造を意図した3Dモデルを作成する場合、デザイナーは、3Dモデルの美的特性を意図した物理的特性とトレードオフする必要がある。 機能的なポストファブリケーションのためには、3Dモデルは物理原理から得られる構造的制約を満たす必要がある。 現在、このような要件は生成AIツールによって強制されない。 これは審美的に魅力的な3D幾何学の発展につながるが、現実の世界での使用や製造が困難になる可能性がある。 このワークショップでは、デジタル創造物を物理世界へ翻訳する際の生成AIツールの限界を強調し、物理的に実行可能な3Dモデルを作成するための生成AIツールに新たな拡張を提案する。 審美的外観だけでなく,物理的特性を制約として利用することで,3Dモデルを操作・生成するツールの開発を提唱する。 この調査は、デジタルクリエイティビティと現実世界の応用性の間のギャップを埋め、生成AIの創造的可能性を有形領域に広げようとしている。

Generative AI tools are becoming more prevalent in 3D modeling, enabling users to manipulate or create new models with text or images as inputs. This makes it easier for users to rapidly customize and iterate on their 3D designs and explore new creative ideas. These methods focus on the aesthetic quality of the 3D models, refining them to look similar to the prompts provided by the user. However, when creating 3D models intended for fabrication, designers need to trade-off the aesthetic qualities of a 3D model with their intended physical properties. To be functional post-fabrication, 3D models have to satisfy structural constraints informed by physical principles. Currently, such requirements are not enforced by generative AI tools. This leads to the development of aesthetically appealing, but potentially non-functional 3D geometry, that would be hard to fabricate and use in the real world. This workshop paper highlights the limitations of generative AI tools in translating digital creations into the physical world and proposes new augmentations to generative AI tools for creating physically viable 3D models. We advocate for the development of tools that manipulate or generate 3D models by considering not only the aesthetic appearance but also using physical properties as constraints. This exploration seeks to bridge the gap between digital creativity and real-world applicability, extending the creative potential of generative AI into the tangible domain.
翻訳日:2024-04-18 12:36:56 公開日:2024-04-17
# OmniSSR:安定拡散モデルを用いたゼロショット全方位画像超解像

OmniSSR: Zero-shot Omnidirectional Image Super-Resolution using Stable Diffusion Model ( http://arxiv.org/abs/2404.10312v2 )

ライセンス: Link先を確認
Runyi Li, Xuhan Sheng, Weiqi Li, Jian Zhang, (参考訳) ODI(Omnidirectional Image)は、現実世界の視覚タスクで一般的に使われ、高解像度のODIは関連する視覚タスクのパフォーマンス向上に役立つ。 ODIの既存の超解像法の多くはエンドツーエンドの学習戦略を用いており、結果として生成された画像の劣る現実性と、訓練方法における効果的な領域外一般化能力が欠如している。 拡散モデルで表現された画像生成手法は,視覚的タスクに強い先行性を与え,画像復元タスクに効果的に適用できることが証明されている。 安定拡散(SD)モデルの先行画像を活用することで,OmniSSRと呼ばれる全方位画像の高解像度化を実現した。 まず,等角射影(ERP)画像を接射影(TP)画像に変換し,その分布は平面画像領域に近似する。 次に、SDを用いて初期高分解能な結果を反復的にサンプリングする。 提案手法であるOctadecaplex Tangent Information Interaction (OTII) と Gradient Decomposition (GD) を用いて, より整合性を確保する。 最後に、TP画像を変換して最終高分解能結果を得る。 私たちの方法はゼロショットで、トレーニングや微調整は必要ありません。 提案手法の有効性を2つのベンチマークデータセットで検証した。

Omnidirectional images (ODIs) are commonly used in real-world visual tasks, and high-resolution ODIs help improve the performance of related visual tasks. Most existing super-resolution methods for ODIs use end-to-end learning strategies, resulting in inferior realness of generated images and a lack of effective out-of-domain generalization capabilities in training methods. Image generation methods represented by diffusion model provide strong priors for visual tasks and have been proven to be effectively applied to image restoration tasks. Leveraging the image priors of the Stable Diffusion (SD) model, we achieve omnidirectional image super-resolution with both fidelity and realness, dubbed as OmniSSR. Firstly, we transform the equirectangular projection (ERP) images into tangent projection (TP) images, whose distribution approximates the planar image domain. Then, we use SD to iteratively sample initial high-resolution results. At each denoising iteration, we further correct and update the initial results using the proposed Octadecaplex Tangent Information Interaction (OTII) and Gradient Decomposition (GD) technique to ensure better consistency. Finally, the TP images are transformed back to obtain the final high-resolution results. Our method is zero-shot, requiring no training or fine-tuning. Experiments of our method on two benchmark datasets demonstrate the effectiveness of our proposed method.
翻訳日:2024-04-18 12:36:56 公開日:2024-04-17
# 視覚言語モデルのための多知識表現によるプロンプト学習の最適化

Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models ( http://arxiv.org/abs/2404.10357v2 )

ライセンス: Link先を確認
Enming Zhang, Bingke Zhu, Yingying Chen, Qinghai Miao, Ming Tang, Jinqiao Wang, (参考訳) ビジョンランゲージモデル(VLM)は、CLIPのような様々なクロスモーダルアプリケーションにおいて基礎的な役割を果たす。 下流タスクに適応するVLMのポテンシャルを完全に活用するためには、Prompt Tuningのようなコンテキスト最適化手法が不可欠である。 しかし、1つの重要な制限は、プロンプトテンプレートの多様性の欠如である。 この制限は、事前訓練されたVLMの能力を制限し、下流タスクにおける誤った予測をもたらす可能性がある。 この課題に対処するために,多知識表現を用いたコンテキスト最適化(CoKnow)を提案する。 推論中のCoKnowを容易にするために,入力画像のマルチ知識表現を生成する軽量なセマンティック知識マッパーを,追加の事前処理を必要とせずに訓練した。 実験により,11個の公開データセットに対して大規模な実験を行い,CoKnowが過去の手法より優れていることを示した。 すべてのリソースをオープンソースにします。

Vision-Language Models (VLMs), such as CLIP, play a foundational role in various cross-modal applications. To fully leverage VLMs' potential in adapting to downstream tasks, context optimization methods like Prompt Tuning are essential. However, one key limitation is the lack of diversity in prompt templates, whether they are hand-crafted or learned through additional modules. This limitation restricts the capabilities of pretrained VLMs and can result in incorrect predictions in downstream tasks. To address this challenge, we propose Context Optimization with Multi-Knowledge Representation (CoKnow), a framework that enhances Prompt Learning for VLMs with rich contextual knowledge. To facilitate CoKnow during inference, we trained lightweight semantic knowledge mappers, which are capable of generating Multi-Knowledge Representation for an input image without requiring additional priors. Experimentally, We conducted extensive experiments on 11 publicly available datasets, demonstrating that CoKnow outperforms a series of previous methods. We will make all resources open-source: https://github.com/EMZucas/CoKnow.
翻訳日:2024-04-18 12:36:56 公開日:2024-04-17
# 2段階法による手話のスコア学習

Learning to Score Sign Language with Two-stage Method ( http://arxiv.org/abs/2404.10383v2 )

ライセンス: Link先を確認
Hongli Wen, Yang Xu, (参考訳) 近年,人間の行動認識とパフォーマンス評価が熱い研究課題となっている。 認識問題は手話の分野では成熟した解法となっているが、過去のパフォーマンス分析における研究は、手話教育デジタル化の重要な部分であるスコアアセスメントを見越して、競争力のあるスポーツと医療訓練に焦点を合わせてきた。 本稿では、既存の性能評価技術を分析し、2段階手話性能評価パイプラインを提案する。 分析の結果,第1段階での再構築作業の選択は,より表現力のある機能を提供し,スムースな手法を用いることで,効果的な評価基準を提供することができた。 実験により,本手法は,エンドツーエンド評価と比較して,優れたスコアフィードバック機構とプロフェッショナル評価との整合性を示した。

Human action recognition and performance assessment have been hot research topics in recent years. Recognition problems have mature solutions in the field of sign language, but past research in performance analysis has focused on competitive sports and medical training, overlooking the scoring assessment ,which is an important part of sign language teaching digitalization. In this paper, we analyze the existing technologies for performance assessment and adopt methods that perform well in human pose reconstruction tasks combined with motion rotation embedded expressions, proposing a two-stage sign language performance evaluation pipeline. Our analysis shows that choosing reconstruction tasks in the first stage can provide more expressive features, and using smoothing methods can provide an effective reference for assessment. Experiments show that our method provides good score feedback mechanisms and high consistency with professional assessments compared to end-to-end evaluations.
翻訳日:2024-04-18 12:36:56 公開日:2024-04-17
# Sisu: 完全なEthereumノードのための分散型の信頼性のないブリッジ

Sisu: Decentralized Trustless Bridge For Full Ethereum Node ( http://arxiv.org/abs/2404.10404v2 )

ライセンス: Link先を確認
Billy Pham, Huy Le, (参考訳) 本稿では,再帰的SNARK,分散一般GKR,Groth16を用いてEthereum完全ノードを証明するための詳細なアプローチと実装を提案する。 私たちのプロトコルの名前はSisuで、アーキテクチャはzkBridgeの分散Virgoをベースとしています。 署名集約の証明に加えて、Ethereumフルノードの証明における2つの難しい問題に対する解決策を提供する。 1) 公開鍵は,前のビーコン状態の下で有効である。 2) すべての公開鍵はペアごとに異なる。 我々のソリューションは、労働者間通信を必要としないので、zkBridgeと比較して、労働者間ネットワーク全体のトラフィックをテラバイトのデータからゼロに削減します。 このアプローチは、zkBridgeと比較して、新興の分散証明市場に適合し、より分散化されています。 私たちの設計は並列性が高く、ほとんどの部分でGPU上で実行可能です。

In this paper, we present a detailed approach and implementation to prove Ethereum full node using recursive SNARK, distributed general GKR and Groth16. Our protocol's name is Sisu whose architecture is based on distributed Virgo in zkBridge with some major improvements. Besides proving signature aggregation, we provide solutions to 2 hard problems in proving Ethereum full node: 1) any public key is valid under previous beacon state and 2) all public keys are pairwise distinct. Our solution does not require worker-to-worker communication and therefore reduce total worker-to-worker network traffic from terabyte of data to zero compared to zkBridge. This makes our approach suitable for emerging distributed prover markets and more decentralized compared to zkBridge. Our design is highly parallelable and capable of running on GPU for most parts.
翻訳日:2024-04-18 12:36:56 公開日:2024-04-17
# AAVDiff:拡散発生による組換えアデノ関連ウイルス(AAV)カプシドの生存性と多様性の実験的検証

AAVDiff: Experimental Validation of Enhanced Viability and Diversity in Recombinant Adeno-Associated Virus (AAV) Capsids through Diffusion Generation ( http://arxiv.org/abs/2404.10573v2 )

ライセンス: Link先を確認
Lijun Liu, Jiali Yang, Jianfei Song, Xinglin Yang, Lele Niu, Zeqi Cai, Hui Shi, Tingjun Hou, Chang-yu Hsieh, Weiran Shen, Yafeng Deng, (参考訳) 組換えアデノ関連ウイルス(rAAV)ベクターは遺伝子治療に革命をもたらしたが、その広範なトロピズムと準最適導入効率は臨床応用を制限している。 これらの制限を克服するために、研究者は改良ベクターを特定するためにキャプシドライブラリの設計とスクリーニングに重点を置いてきた。 しかし、大きなシーケンス空間と限られた資源は、実行可能なキャプシド変種を特定する上での課題である。 そこで本研究では,キャプシド列を生成するエンドツーエンド拡散モデルを提案する。 市販のAV2データを用いて,38,000種類のAV2ウイルスタンパク質(VP)配列を生成し,8000個のウイルス選択試験を行った。 その結果,従来の手法と比較して,モデルの優位性が確認された。 さらに, AAV9キャプシドデータがない場合には, 1つの野生型配列とは別に, 最大9個の変異を持つ生存可能な配列を直接生成するために, 同じモデルを用いた。 残りの3万のサンプルをAAV9ドメインに転送しました さらに, AAV9 VP hypervariable region VI と V の変異解析を行い, AAV9 VP 配列の連続的改良に寄与した。 本研究は, rAAVベクターの設計と機能検証において重要な進歩を示し, 遺伝子治療応用における特異性と伝達効率を高める革新的なソリューションを提供する。

Recombinant adeno-associated virus (rAAV) vectors have revolutionized gene therapy, but their broad tropism and suboptimal transduction efficiency limit their clinical applications. To overcome these limitations, researchers have focused on designing and screening capsid libraries to identify improved vectors. However, the large sequence space and limited resources present challenges in identifying viable capsid variants. In this study, we propose an end-to-end diffusion model to generate capsid sequences with enhanced viability. Using publicly available AAV2 data, we generated 38,000 diverse AAV2 viral protein (VP) sequences, and evaluated 8,000 for viral selection. The results attested the superiority of our model compared to traditional methods. Additionally, in the absence of AAV9 capsid data, apart from one wild-type sequence, we used the same model to directly generate a number of viable sequences with up to 9 mutations. we transferred the remaining 30,000 samples to the AAV9 domain. Furthermore, we conducted mutagenesis on AAV9 VP hypervariable regions VI and V, contributing to the continuous improvement of the AAV9 VP sequence. This research represents a significant advancement in the design and functional validation of rAAV vectors, offering innovative solutions to enhance specificity and transduction efficiency in gene therapy applications.
翻訳日:2024-04-18 12:36:56 公開日:2024-04-17
# 対実例は対人訓練を複雑にするか?

Do Counterfactual Examples Complicate Adversarial Training? ( http://arxiv.org/abs/2404.10588v2 )

ライセンス: Link先を確認
Eric Yeats, Cameron Darwin, Eduardo Ortega, Frank Liu, Hai Li, (参考訳) 我々は拡散モデルを利用して、ロバスト分類器の堅牢性と性能のトレードオフを研究する。 提案手法では,低ノルム対実例(CE)を生成するための,単純で事前訓練された拡散法を導入している。 クリーントレーニングデータに対するロバストモデルの信頼性と精度は、CEにデータが近接していることと関連していると報告する。 さらに、ロバストモデルは、CEがもたらす低ノルムな意味的変化にますます不変になるにつれて、CE上で直接評価すると、非常に性能が劣る。 その結果,非破壊的特徴と意味的特徴の重なりが強く,非破壊的特徴が解釈できないという一般的な仮定に反することが明らかとなった。

We leverage diffusion models to study the robustness-performance tradeoff of robust classifiers. Our approach introduces a simple, pretrained diffusion method to generate low-norm counterfactual examples (CEs): semantically altered data which results in different true class membership. We report that the confidence and accuracy of robust models on their clean training data are associated with the proximity of the data to their CEs. Moreover, robust models perform very poorly when evaluated on the CEs directly, as they become increasingly invariant to the low-norm, semantic changes brought by CEs. The results indicate a significant overlap between non-robust and semantic features, countering the common assumption that non-robust features are not interpretable.
翻訳日:2024-04-18 12:36:56 公開日:2024-04-17
# 非マルコフ量子状態拡散による開量子ダイナミクスの量子シミュレーション

Quantum Simulation of Open Quantum Dynamics via Non-Markovian Quantum State Diffusion ( http://arxiv.org/abs/2404.10655v2 )

ライセンス: Link先を確認
Yukai Guo, Xing Gao, (参考訳) 非マルコフ的開量子力学の量子シミュレーションは、非エルミート性のために標準量子コンピュータにとって不可欠であるが、非単位的進化と利用可能な量子資源の限界をもたらす。 本稿では,非マルコフ環境下での散逸ダイナミクスをシミュレーションするためのハイブリッド量子古典アルゴリズムを提案する。 提案手法は,非マルコフ確率Schr\"odinger方程式を複素周波数モード (cNMSSE) で定式化することを含む。 これに続いて、変分量子シミュレーションを用いて、cNMSSEフレームワーク内の非単位進化を捉えることにより、量子ビット要求を大幅に削減する。 本研究では,スピンボソンモデルと動的量子相転移(DQPT)を横場イジングモデル(TFIM)内で検討した。 以上の結果から,非マルコフ行動によるTFIMのDQPTの増強が示唆された。

Quantum simulation of non-Markovian open quantum dynamics is essential but challenging for standard quantum computers due to their non-Hermitian nature, leading to non-unitary evolution, and the limitations of available quantum resources. Here we introduce a hybrid quantum-classical algorithm designed for simulating dissipative dynamics in system with non-Markovian environment. Our approach includes formulating a non-Markovian Stochastic Schr\"odinger equation with complex frequency modes (cNMSSE) where the non-Markovianity is characterized by the mode excitation. Following this, we utilize variational quantum simulation to capture the non-unitary evolution within the cNMSSE framework, leading to a substantial reduction in qubit requirements. To demonstrate our approach, we investigated the spin-boson model and dynamic quantum phase transitions (DQPT) within transverse field Ising model (TFIM). Significantly, our findings reveal the enhanced DQPT in TFIM due to non-Markovian behavior.
翻訳日:2024-04-18 12:36:56 公開日:2024-04-17
# テキストのデュアルモーダル性:ビジュアルおよびテキスト生成事前学習

Dual Modalities of Text: Visual and Textual Generative Pre-training ( http://arxiv.org/abs/2404.10710v2 )

ライセンス: Link先を確認
Yekun Chai, Qingyi Liu, Jingwu Xiao, Shuohuan Wang, Yu Sun, Hua Wu, (参考訳) 視覚テキストのハーネス化は、言語モデリングの進化における華やかなフロンティアを表している。 本稿では,RGB画像としてレンダリングされた4億以上の文書のコーパスを事前学習する,画素ベースの自動回帰言語モデルのための新しい事前学習フレームワークを提案する。 本手法は,次のパッチ予測による視覚データと,次のトークン予測によるテキストデータの両方を分類ヘッドで処理する,二重モードトレーニング方式を特徴とする。 本研究は,言語における視覚的・テキスト的モダリティの相乗的相互作用について検討することに焦点を当てた。 様々なベンチマークを総合的に比較した結果,視覚的およびテキスト的データの合流は,画素ベース言語モデルの有効性を著しく向上させることが明らかとなった。 特に,学習中のテキストデータがない一方向画素ベースモデルでは,様々な言語理解ベンチマークにおいて,高度な双方向画素ベースモデルの性能レベルが一致できることが示唆された。 この研究は、言語モデリングの目的のために視覚情報とテキスト情報を統合するという、未解決の可能性を浮き彫りにしている。 コード、データ、チェックポイントを公開して、さらなる研究の進展を促します。

Harnessing visual texts represents a burgeoning frontier in the evolution of language modeling. In this paper, we introduce a novel pre-training framework for a suite of pixel-based autoregressive language models, pre-training on a corpus of over 400 million documents rendered as RGB images. Our approach is characterized by a dual-modality training regimen, engaging both visual data through next patch prediction with a regression head and textual data via next token prediction with a classification head. This study is particularly focused on investigating the synergistic interplay between visual and textual modalities of language. Our comprehensive evaluation across a diverse array of benchmarks reveals that the confluence of visual and textual data substantially augments the efficacy of pixel-based language models. Notably, our findings show that a unidirectional pixel-based model, devoid of textual data during training, can match the performance levels of advanced bidirectional pixel-based models on various language understanding benchmarks. This work highlights the considerable untapped potential of integrating visual and textual information for language modeling purposes. We will release our code, data, and checkpoints to inspire further research advancement.
翻訳日:2024-04-18 12:36:56 公開日:2024-04-17
# TorchSurv: ディープサバイバル分析のための軽量パッケージ

TorchSurv: A Lightweight Package for Deep Survival Analysis ( http://arxiv.org/abs/2404.10761v2 )

ライセンス: Link先を確認
Mélodie Monod, Peter Krusche, Qian Cao, Berkman Sahiner, Nicholas Petrick, David Ohlssen, Thibaud Coroller, (参考訳) TorchSurvはPythonパッケージで、PyTorch環境内でディープサバイバルモデリングを実行するための補助ツールとして機能する。 特定のパラメトリックフォームを強制する既存のライブラリとは異なり、TorchSurvはカスタムPyTorchベースのディープサバイバルモデルを使用することができる。 軽量な設計、最小限の入力要件、完全なPyTorchバックエンド、制限された生存モデルパラメータ化からの解放により、TorchSurvは効率的な深層モデルの実装を促進し、高次元および複雑な入力データシナリオに特に有用である。

TorchSurv is a Python package that serves as a companion tool to perform deep survival modeling within the PyTorch environment. Unlike existing libraries that impose specific parametric forms, TorchSurv enables the use of custom PyTorch-based deep survival models. With its lightweight design, minimal input requirements, full PyTorch backend, and freedom from restrictive survival model parameterizations, TorchSurv facilitates efficient deep survival model implementation and is particularly beneficial for high-dimensional and complex input data scenarios.
翻訳日:2024-04-18 12:36:56 公開日:2024-04-17