このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240705となっている論文です。

PDF登録状況(公開日: 20240705)

TitleAuthorsAbstract論文公表日・翻訳日
# 自動関数式証明に向けて:ベンチマークデータセットとドメイン特有なインコンテキストエージェント

Towards Automated Functional Equation Proving: A Benchmark Dataset and A Domain-Specific In-Context Agent ( http://arxiv.org/abs/2407.14521v1 )

ライセンス: Link先を確認
Mahdi Buali, Robert Hoehndorf, (参考訳) ATP(Automated Theorem Proving)はその複雑さと計算上の要求のため、課題に直面している。 近年, 大規模言語モデル (LLM) を用いてATPの作用選択を行っているが, これらの手法は資源集約性が高い。 この研究は、リーン内のCOPRAインコンテキスト学習フレームワークを強化するエージェントであるFEASを紹介します。 FEASはプロンプト生成、応答解析を洗練し、機能方程式にドメイン固有のヒューリスティックを組み込む。 FunEqは、様々な困難を伴う関数方程式問題のキュレートされたデータセットである。 FEASはFunEqのベースライン、特にドメイン固有のヒューリスティックを統合することでパフォーマンスを向上する。 その結果、FEASがハイレベルな証明戦略をリーンの証明に組み込んで、特定のATP課題に対する調整されたアプローチの可能性を示した。

Automated Theorem Proving (ATP) faces challenges due to its complexity and computational demands. Recent work has explored using Large Language Models (LLMs) for ATP action selection, but these methods can be resource-intensive. This study introduces FEAS, an agent that enhances the COPRA in-context learning framework within Lean. FEAS refines prompt generation, response parsing, and incorporates domain-specific heuristics for functional equations. It introduces FunEq, a curated dataset of functional equation problems with varying difficulty. FEAS outperforms baselines on FunEq, particularly with the integration of domain-specific heuristics. The results demonstrate FEAS's effectiveness in generating and formalizing high-level proof strategies into Lean proofs, showcasing the potential of tailored approaches for specific ATP challenges.
翻訳日:2024-07-28 18:39:09 公開日:2024-07-05
# クォータ相互作用と量子カオスを持つ高調波発振器の3次誘電性OTOC

Third-order Pertubative OTOC of Harmonic Oscillator with Quartic Interaction and Quantum Chaos ( http://arxiv.org/abs/2407.17500v1 )

ライセンス: Link先を確認
Wung-Hong Huang, (参考訳) 我々は,第2量子化法により,超クォート相互作用を持つ単純な高調波発振器の3次時間外相関器(OTOC)を計算した。 座標のスペクトル, フォック空間状態, 行列要素の解析関係を求め, OTOCを数値計算する。 C_T(\infty)\to 2\langle x^2\rangle_T\langle p^2\rangle_T$ はカオスを示す系における量子カオスの振る舞いと関連付けられる。 我々は,C_T$の早期特性を解析し,カオスを診断する指数的成長が3次摂動で示されることを示す。

We calculate the third order out-of-time-order correlator (OTOC) of a simple harmonic oscillator with extra quartic interaction by the second quantization method. We obtain the analytic relations of spectrum, Fock space states and matrix elements of coordinate which are then used to numerically calculate the OTOC. We see that OTOC saturates to a constant value at later times, i.e. $C_T(\infty)\to 2\langle x^2\rangle_T\langle p^2\rangle_T$, which associates with quantum chaotic behavior in systems that exhibit chaos. We analyze early-time property of $C_T$ and see that the exponential growth, which diagnoses the chaos, is shown in the third-order perturbation.
翻訳日:2024-07-28 17:59:54 公開日:2024-07-05
# PatchEX: パッチベースの並列外挿による高品質リアルタイム時間スーパーサンプリング

PatchEX: High-Quality Real-Time Temporal Supersampling through Patch-based Parallel Extrapolation ( http://arxiv.org/abs/2407.17501v1 )

ライセンス: Link先を確認
Akanksha Dixit, Smruti R. Sarangi, (参考訳) ハイリフレッシュレートディスプレイは、ゲームやプロのディスプレイ、医療画像などの特殊なアプリケーションにおいて、優れた視覚的品質を必要とするため、近年は非常に人気がある。 しかし、ハイリフレッシュレートディスプレイだけでは優れた視覚的エクスペリエンスは保証されない。GPUはフレームを一致するレートでレンダリングする必要がある。 さもなければ、スクリーンの裂け目やぶれ目など、不明瞭な視覚的アーティファクトを観察する。 時間的スーパーサンプリングは、他の描画フレームから新しいフレームを予測することによってフレームレートを向上させる効果的な手法である。 この空間には補間と外挿の2つの方法がある。 補間ベースの手法は、次のレンダリングフレームを必要とするため、レイテンシが高いコストで優れた画質を提供する。 一方、外挿法は品質の面ではるかに高速である。 本稿では,外挿速度における補間品質向上を目的とした新しいフレーム外挿法であるPatchEXを紹介する。 それは、外挿タスクをサブタスクにスマートに分割し、品質とレイテンシの両方を改善するために並列に実行する。 次に、パッチベースの塗装方法とカスタムのシャドウ予測アプローチを使用して、生成されたサブフレームを融合する。 このアプローチは、アウトプットの品質を維持しながら、全体的なレイテンシを大幅に削減します。 以上の結果から,PSNRは最新のExtraNetおよびExtraSSに比べて65.29%,48.46%向上し,それぞれ6倍,2倍高速であった。

High-refresh rate displays have become very popular in recent years due to the need for superior visual quality in gaming, professional displays and specialized applications like medical imaging. However, high-refresh rate displays alone do not guarantee a superior visual experience; the GPU needs to render frames at a matching rate. Otherwise, we observe disconcerting visual artifacts such as screen tearing and stuttering. Temporal supersampling is an effective technique to increase frame rates by predicting new frames from other rendered frames. There are two methods in this space: interpolation and extrapolation. Interpolation-based methods provide good image quality at the cost of a higher latency because they also require the next rendered frame. On the other hand, extrapolation methods are much faster at the cost of quality. This paper introduces PatchEX, a novel frame extrapolation method that aims to provide the quality of interpolation at the speed of extrapolation. It smartly partitions the extrapolation task into sub-tasks and executes them in parallel to improve both quality and latency. It then uses a patch-based inpainting method and a custom shadow prediction approach to fuse the generated sub-frames. This approach significantly reduces the overall latency while maintaining the quality of the output. Our results demonstrate that PatchEX achieves a 65.29% and 48.46% improvement in PSNR over the latest extrapolation methods ExtraNet and ExtraSS, respectively, while being 6x and 2x faster, respectively.
翻訳日:2024-07-28 17:59:54 公開日:2024-07-05
# 法律データの注釈付けにおける課題と考察: 包括的概要

Challenges and Considerations in Annotating Legal Data: A Comprehensive Overview ( http://arxiv.org/abs/2407.17503v1 )

ライセンス: Link先を確認
Harshil Darji, Jelena Mitrović, Michael Granitzer, (参考訳) 法律分野におけるデータの注釈付けのプロセスは、法律言語と文書の固有の複雑さによって、他の分野と異なる別の課題で満たされている。 最初のタスクは通常、法的テキストの複雑な側面をキャプチャする適切な生データセットを選択することを含む。 この後、法的文書には複雑な構造、脚注、参照、ユニークな用語があるため、テキストの抽出は複雑な作業となる。 データクリーニングの重要性はこの文脈で拡大され、重要な法的詳細とコンテキストを維持しながら冗長な情報が排除される。 これらのガイドラインは、統一性を維持し、法用語の微妙なニュアンスに対処するためのロードマップとして機能する。 もう1つの重要な側面は、アノテーションプロセスに法的専門家が関与することである。 彼らの専門知識は、データが文脈的に正確であるだけでなく、一般的な法的基準や解釈に忠実であることを保証する上でも有用である。 本稿は,これらの課題を概観し,法的なデータアノテーションプロジェクトに従事する研究者や専門家に対して,基礎的な理解とガイダンスを提供することを目的とする。 さらに、作成および微調整されたデータセットと言語モデルへのリンクも提供します。 これらのリソースは、議論されたプロジェクトの結果であり、それに取り組んでいるときに直面する課題に対する解決策です。

The process of annotating data within the legal sector is filled with distinct challenges that differ from other fields, primarily due to the inherent complexities of legal language and documentation. The initial task usually involves selecting an appropriate raw dataset that captures the intricate aspects of legal texts. Following this, extracting text becomes a complicated task, as legal documents often have complex structures, footnotes, references, and unique terminology. The importance of data cleaning is magnified in this context, ensuring that redundant information is eliminated while maintaining crucial legal details and context. Creating comprehensive yet straightforward annotation guidelines is imperative, as these guidelines serve as the road map for maintaining uniformity and addressing the subtle nuances of legal terminology. Another critical aspect is the involvement of legal professionals in the annotation process. Their expertise is valuable in ensuring that the data not only remains contextually accurate but also adheres to prevailing legal standards and interpretations. This paper provides an expanded view of these challenges and aims to offer a foundational understanding and guidance for researchers and professionals engaged in legal data annotation projects. In addition, we provide links to our created and fine-tuned datasets and language models. These resources are outcomes of our discussed projects and solutions to challenges faced while working on them.
翻訳日:2024-07-28 17:59:54 公開日:2024-07-05
# 多体シュレーディンガー作用素の特異な連続性とホヘンベルク・コーンの定理 II. パウリ・ハミルトニアン

Unique continuation for many-body Schrödinger operators and the Hohenberg-Kohn theorem. II. The Pauli Hamiltonian ( http://arxiv.org/abs/1901.03207v3 )

ライセンス: Link先を確認
Louis Garrigue, (参考訳) 外部ポテンシャル, 相互作用ポテンシャル, 磁場が$L^p\loc(\R^d)$, 磁気ポテンシャルが${L^{q}\loc(\R^d)}$, ${p > \max(2d/3,2)}$, ${q > 2d}$の多体パウリ作用素に対する強い一意的な連続性を証明する。 この目的のために、分数ラプラシア作用素を含む特異カルマン推定を証明した。

We prove the strong unique continuation property for many-body Pauli operators with external potentials, interaction potentials and magnetic fields in $L^p\loc(\R^d)$, and with magnetic potentials in ${L^{q}\loc(\R^d)}$, where ${p > \max(2d/3,2)}$ and ${q > 2d}$. For this purpose, we prove a singular Carleman estimate involving fractional Laplacian operators.
翻訳日:2024-07-23 02:37:22 公開日:2024-07-05
# 断続微分の最適推定と関数の代理

Optimal estimators of cross-partial derivatives and surrogates of functions ( http://arxiv.org/abs/2407.11035v1 )

ライセンス: Link先を確認
Matieyendou Lamboni, (参考訳) より少ないモデル実行を用いた部分微分の計算は、確率近似、微分に基づくANOVA、複雑なモデル探索、アクティブな部分空間などのモデリングに関係している。 本稿では、これらの関数をランダム化点$N$で評価し、制約セット$L$を用いて、関数のすべての部分微分のサロゲートを導入する。 ランダム化点は独立変数、中心変数、対称変数に依存する。 関連する推定子は、$NL$モデルランに基づいて、収束の最適速度(例えば$\mathcal{O}(N^{-1})$)に達する。 このような結果が使われます 一 感度指標の主及び上界の計算及び 二 派生型ANOVAにより、シミュレータのエミュレータ又は関数のサロゲートを導出すること。 感度指標のエミュレータと推定器の精度を示すためにシミュレーションを行った。 1つのサンプルのU統計を用いた指標のプラグイン推定は、数値的に非常に安定である。

Computing cross-partial derivatives using fewer model runs is relevant in modeling, such as stochastic approximation, derivative-based ANOVA, exploring complex models, and active subspaces. This paper introduces surrogates of all the cross-partial derivatives of functions by evaluating such functions at $N$ randomized points and using a set of $L$ constraints. Randomized points rely on independent, central, and symmetric variables. The associated estimators, based on $NL$ model runs, reach the optimal rates of convergence (i.e., $\mathcal{O}(N^{-1})$), and the biases of our approximations do not suffer from the curse of dimensionality for a wide class of functions. Such results are used for i) computing the main and upper-bounds of sensitivity indices, and ii) deriving emulators of simulators or surrogates of functions thanks to the derivative-based ANOVA. Simulations are presented to show the accuracy of our emulators and estimators of sensitivity indices. The plug-in estimates of indices using the U-statistics of one sample are numerically much stable.
翻訳日:2024-07-22 12:20:02 公開日:2024-07-05
# 垂直流路における攻撃指向双極子移動のためのハイブリッド・ジェネレーション拡散モデル

Hybrid-Generative Diffusion Models for Attack-Oriented Twin Migration in Vehicular Metaverses ( http://arxiv.org/abs/2407.11036v1 )

ライセンス: Link先を確認
Yingkai Kang, Jinbo Wen, Jiawen Kang, Tao Zhang, Hongyang Du, Dusit Niyato, Rong Yu, Shengli Xie, (参考訳) 車両のメタバースは、自動車産業に革命的な変化をもたらすことを約束する統合没入型ドメインとして構想されている。 ビークル・ツイン(VT)は、車両のライフサイクル全体をカバーするデジタル双生児であり、Vehicular Metaverse Users(VMU)のための没入型仮想サービスを提供する。 限られたリソースを持つ車両は、エッジサーバへのVTの構築と更新、これらのサーバ間のVT移行といった計算集約的なタスクをオフロードし、VMUのシームレスで没入的なエクスペリエンスを保証する。 しかしながら、車両の高モビリティ、エッジサーバの不均一な展開、潜在的なセキュリティ脅威は、効率的で信頼性の高いVTマイグレーションを実現する上での課題である。 これらの問題に対処するために、車載メタバースにおけるセキュアで信頼性の高いVTマイグレーションフレームワークを提案する。 具体的には,ネットワーク通信層とインタラクション層におけるエッジサーバの評判評価を包括的に評価する2層信頼評価モデルを設計する。 次に、VTマイグレーション問題を部分的に観測可能なマルコフ決定プロセスとしてモデル化し、深層強化学習に基づくハイブリッド生成拡散モデル(GDM)アルゴリズムを設計し、ハイブリッドアクション(連続アクションと離散アクション)を取り込むことで最適なマイグレーション決定を生成する。 数値計算の結果,ハイブリッドGDMアルゴリズムはベースラインアルゴリズムよりも優れており,様々な設定において高い適応性を示し,車体メタバースにおける様々な最適化問題に対処するためのハイブリッドGDMアルゴリズムの可能性を強調している。

The vehicular metaverse is envisioned as a blended immersive domain that promises to bring revolutionary changes to the automotive industry. As a core component of vehicular metaverses, Vehicle Twins (VTs) are digital twins that cover the entire life cycle of vehicles, providing immersive virtual services for Vehicular Metaverse Users (VMUs). Vehicles with limited resources offload the computationally intensive tasks of constructing and updating VTs to edge servers and migrate VTs between these servers, ensuring seamless and immersive experiences for VMUs. However, the high mobility of vehicles, uneven deployment of edge servers, and potential security threats pose challenges to achieving efficient and reliable VT migrations. To address these issues, we propose a secure and reliable VT migration framework in vehicular metaverses. Specifically, we design a two-layer trust evaluation model to comprehensively evaluate the reputation value of edge servers in the network communication and interaction layers. Then, we model the VT migration problem as a partially observable Markov decision process and design a hybrid-Generative Diffusion Model (GDM) algorithm based on deep reinforcement learning to generate optimal migration decisions by taking hybrid actions (i.e., continuous actions and discrete actions). Numerical results demonstrate that the hybrid-GDM algorithm outperforms the baseline algorithms, showing strong adaptability in various settings and highlighting the potential of the hybrid-GDM algorithm for addressing various optimization issues in vehicular metaverses.
翻訳日:2024-07-22 12:20:02 公開日:2024-07-05
# ISQuant: 実際のデプロイメントにsquantを適用する

ISQuant: apply squant to the real deployment ( http://arxiv.org/abs/2407.11037v1 )

ライセンス: Link先を確認
Dezan Zhao, (参考訳) ディープニューラルネットワークのモデル量子化技術は大きな注目を集めており、モデルサイズを圧縮し、計算コストを削減し、推論を加速するのに非常に有用であることが証明されている。 多くの研究者は、量子化プロセスの分析や訓練に偽の量子化を使用している。 しかし、フェイク量子化はデプロイメントの最終形態ではなく、学術的な設定と実際のデプロイメントの間にはギャップがある。 さらに、スケールとゼロポイントによる計算の追加は、デプロイメントを困難なタスクにする。 本研究では,まず,量子化と復号化の組み合わせを用いてモデルをトレーニングし,重み勾配の消失と偽量子化と実量子化を近似する能力により,偽量子化の研究が妥当であるという結論を導いた。 次に、8ビットモデルをデプロイするためのソリューションとしてISQuantを提案する。 ISQuantは、ほとんどの8ビットモデルで高速で使いやすく、パラメータが少なく、計算量も少ない。 ISQuantはまた、トレーニングデータを必要とせず、最初の量子化レベルで非常に高速であるなど、SQuantの利点を継承している。 最後に、いくつかの実験を行い、その結果が受け入れられることがわかった。私たちのコードはhttps://github.com/で入手できる。

The model quantization technique of deep neural networks has garnered significant attention and has proven to be highly useful in compressing model size, reducing computation costs, and accelerating inference. Many researchers employ fake quantization for analyzing or training the quantization process. However, fake quantization is not the final form for deployment, and there exists a gap between the academic setting and real-world deployment. Additionally, the inclusion of additional computation with scale and zero-point makes deployment a challenging task. In this study, we first analyze why the combination of quantization and dequantization is used to train the model and draw the conclusion that fake quantization research is reasonable due to the disappearance of weight gradients and the ability to approximate between fake and real quantization. Secondly, we propose ISQuant as a solution for deploying 8-bit models. ISQuant is fast and easy to use for most 8-bit models, requiring fewer parameters and less computation. ISQuant also inherits the advantages of SQuant, such as not requiring training data and being very fast at the first level of quantization. Finally We conduct some experiments and found the results is acceptable.our code is available at https://github.com/
翻訳日:2024-07-22 12:20:02 公開日:2024-07-05
# 大規模言語モデルにおける生成源の同定

Identifying the Source of Generation for Large Language Models ( http://arxiv.org/abs/2407.12846v1 )

ライセンス: Link先を確認
Bumjin Park, Jaesik Choi, (参考訳) LLM(Large Language Model)は、複数の文書ソースからのテキストを記憶する言語である。 事前訓練では、LLMはテキストの可能性の最大化を訓練するが、テキストのソースを受信したり、ソースを記憶したりしない。 したがって、LCMは生成されたコンテンツに関する文書情報を提供できず、ユーザは、事実性やプライバシー侵害にとって重要な信頼性のヒントを得られない。 この研究は、トークンレベルのソース識別をデコードステップで導入し、トークン表現を参照ドキュメントにマッピングする。 本稿では,2つの逐次トークン表現を持つ多層パーセプトロンであるバイグラムソース識別子を提案する。 われわれはウィキペディアとPG19データセットに対して、いくつかのLCM、レイヤ位置、識別子サイズで広範な実験を行った。 全体としては, LLM の安全な使用において重要な問題である, 文書をトレースするトークンレベルのソース識別子の可能性を示している。

Large language models (LLMs) memorize text from several sources of documents. In pretraining, LLM trains to maximize the likelihood of text but neither receives the source of the text nor memorizes the source. Accordingly, LLM can not provide document information on the generated content, and users do not obtain any hint of reliability, which is crucial for factuality or privacy infringement. This work introduces token-level source identification in the decoding step, which maps the token representation to the reference document. We propose a bi-gram source identifier, a multi-layer perceptron with two successive token representations as input for better generalization. We conduct extensive experiments on Wikipedia and PG19 datasets with several LLMs, layer locations, and identifier sizes. The overall results show a possibility of token-level source identifiers for tracing the document, a crucial problem for the safe use of LLMs.
翻訳日:2024-07-22 08:28:07 公開日:2024-07-05
# 人間の嗜好を考慮したモデル評価の調整:言語モデルアセスメントにおけるToken Count Biasの緩和

Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments ( http://arxiv.org/abs/2407.12847v1 )

ライセンス: Link先を確認
Roland Daynauth, Jason Mars, (参考訳) SLAMの論文は、SLM(Small Language Models)がAPIベースのLarge Language Models(LLM)の代替として実現可能で費用対効果があることを示した。 しかし、SLAMはまた、人間の嗜好と従来の自己評価との違いも特定した。 本稿では,LLM評価器の選好と人間の評価との整合性について,特に高いトークン数に向けて,バイアスに対処して検討する。 我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。 以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。 例えば、レコメンデーションユースケースにおけるスピアマンのランキング相関スコアは、-27.27から44.55に改善された。 これらの結果は、公正で正確なモデル評価を保証するために、自動評価におけるバイアスの考慮の重要性を強調している。 リカレーションプロセスは、自動評価器の信頼性を高め、人間の価値と期待に合わせたAIモデルを改善する。 この研究は、将来のバイアス補正研究のための堅牢な方法論を提供し、人間と協調したAI評価システムの実現可能性とメリットを強調している。

The SLAM paper demonstrated that on-device Small Language Models (SLMs) are a viable and cost-effective alternative to API-based Large Language Models (LLMs), such as OpenAI's GPT-4, offering comparable performance and stability. However, SLAM also identified discrepancies between human preferences and traditional auto-evaluators. This follow-up paper explores methods to align LLM evaluator preferences with human evaluations by addressing biases, particularly toward higher token counts. We employed Bayesian statistics and a t-test to quantify this bias and developed a recalibration procedure to adjust the GPTScorer. Our findings significantly improve aligning the recalibrated LLM evaluator with human evaluations across multiple use cases. For instance, spearman's ranking correlation score in the Recommendation use case improved from -27.27 to 44.55. These results highlight the importance of accounting for biases in automated evaluations to ensure fair and accurate model assessments. The recalibration process enhances the reliability of automated evaluators, leading to better AI models that align with human values and expectations. This study provides a robust methodology for future research into bias correction and emphasizes the feasibility and benefits of developing human-aligned AI evaluation systems.
翻訳日:2024-07-22 08:28:07 公開日:2024-07-05
# 雷ネットワークデータを用いたGNNのベンチマーク

Benchmarking GNNs Using Lightning Network Data ( http://arxiv.org/abs/2407.07916v1 )

ライセンス: Link先を確認
Rainer Feichtinger, Florian Grötschla, Lioba Heimbach, Roger Wattenhofer, (参考訳) Bitcoin Lightning Networkは、高速で安価なBitcoinトランザクションを容易にするために設計されたレイヤ2プロトコルである。 ユーザは、Bitcoinがロックされ、チャネルがクローズされるまでトランザクションをオフチェーンで実行し、最初のトランザクションと最後のトランザクションのみをブロックチェーンに記録する。 中間ノード経由のトランザクションのルーティングは、直接チャネルを持たないユーザにとって重要であり、これらのルーティングノードは、サービスの料金を徴収することができる。 ノードはチャネルをネットワークに発表し、チャネルをエッジとしてグラフを形成する。 本稿では、Lightning Networkのグラフ構造を分析し、機械学習、特にグラフニューラルネットワーク(GNN)を用いたノード特性間の統計的関係について検討する。 我々は、これらの関係を探索し、GNNアーキテクチャのベンチマークを提供するために一連のタスクを定式化し、トポロジカルな情報と近隣の情報によってパフォーマンスが向上することを示す。 本稿では,これらのタスクにおけるGNNの有効性を明らかにするとともに,アプリケーションから得られる知見を明らかにする。

The Bitcoin Lightning Network is a layer 2 protocol designed to facilitate fast and inexpensive Bitcoin transactions. It operates by establishing channels between users, where Bitcoin is locked and transactions are conducted off-chain until the channels are closed, with only the initial and final transactions recorded on the blockchain. Routing transactions through intermediary nodes is crucial for users without direct channels, allowing these routing nodes to collect fees for their services. Nodes announce their channels to the network, forming a graph with channels as edges. In this paper, we analyze the graph structure of the Lightning Network and investigate the statistical relationships between node properties using machine learning, particularly Graph Neural Networks (GNNs). We formulate a series of tasks to explore these relationships and provide benchmarks for GNN architectures, demonstrating how topological and neighbor information enhances performance. Our evaluation of several models reveals the effectiveness of GNNs in these tasks and highlights the insights gained from their application.
翻訳日:2024-07-12 21:58:43 公開日:2024-07-05
# フェデレーションラーニングにおける非協力的バックドア攻撃 : 新たな脅威景観

Non-Cooperative Backdoor Attacks in Federated Learning: A New Threat Landscape ( http://arxiv.org/abs/2407.07917v1 )

ライセンス: Link先を確認
Tuan Nguyen, Dung Thuy Nguyen, Khoa D Doan, Kok-Seng Wong, (参考訳) 分散データに対するプライバシ保護モデルトレーニングのためのフェデレートラーニング(FL)の約束にもかかわらず、バックドアアタックには影響を受けない。 これらの攻撃は、トレーニングデータにトリガ(特定の入力パターン)を埋め込むことでモデルを操作する。 従来のシングルトリガー攻撃と、クライアントが協力する協調マルチトリガー攻撃に対する最近の取り組みは、調整要求によるアタックリアリズムの制限を強調している。 より危険なシナリオとして,非協調的マルチトリガー攻撃について検討する。 ここでは、独立した敵が独自のクラスをターゲットにした個別のトリガーを導入する。 これらの並列攻撃はFLの分散特性を悪用し、検出を困難にしている。 このような攻撃に対して,本実験では,メインタスクに影響を与えることなく,個々のバックドアの学習を成功させるという,FLの脅威的脆弱性を実証した。 本研究は,発展途上のFL景観におけるバックドア攻撃に対する堅牢な防御の必要性を強調した。 実証分析に焦点が当てられているが、より現実的な設定に向けてバックドア研究を導くことができると信じており、さまざまなバックドア脅威に対する堅牢な防御を構築する上でFLが重要な役割を担っていることを強調している。 コードは \url{https://anonymous.4open.science/r/nba-980F/} で公開されている。

Despite the promise of Federated Learning (FL) for privacy-preserving model training on distributed data, it remains susceptible to backdoor attacks. These attacks manipulate models by embedding triggers (specific input patterns) in the training data, forcing misclassification as predefined classes during deployment. Traditional single-trigger attacks and recent work on cooperative multiple-trigger attacks, where clients collaborate, highlight limitations in attack realism due to coordination requirements. We investigate a more alarming scenario: non-cooperative multiple-trigger attacks. Here, independent adversaries introduce distinct triggers targeting unique classes. These parallel attacks exploit FL's decentralized nature, making detection difficult. Our experiments demonstrate the alarming vulnerability of FL to such attacks, where individual backdoors can be successfully learned without impacting the main task. This research emphasizes the critical need for robust defenses against diverse backdoor attacks in the evolving FL landscape. While our focus is on empirical analysis, we believe it can guide backdoor research toward more realistic settings, highlighting the crucial role of FL in building robust defenses against diverse backdoor threats. The code is available at \url{https://anonymous.4open.science/r/nba-980F/}.
翻訳日:2024-07-12 21:58:43 公開日:2024-07-05
# UAV支援型階層型学習:性能と収束分析

UAV-assisted Unbiased Hierarchical Federated Learning: Performance and Convergence Analysis ( http://arxiv.org/abs/2407.07739v1 )

ライセンス: Link先を確認
Ruslan Zhagypar, Nour Kouzayha, Hesham ElSawy, Hayssam Dahrouj, Tareq Y. Al-Naffouri, (参考訳) 無線ネットワークの第6世代(6G)の開発は、計算の遷移とネットワークのエッジへの学習の合理化に縛られている。 したがって、階層的連合学習(HFL)は、エッジデバイス間で学習を分散させ、グローバルインテリジェンスに到達するための重要なパラダイムとなる。 HFLでは、各エッジデバイスが各データを使用してローカルモデルをトレーニングし、更新されたモデルパラメータをエッジサーバに送信し、ローカルアグリゲーションを行う。 エッジサーバは、局所的に集約されたパラメータを中央サーバに送信し、グローバルモデルアグリゲーションを行う。 しかし、エッジおよびバックホールリンクにおける通信チャネルの信頼性の欠如は、HFL搭載システムの真のメリットを評価する上でのボトルネックとなっている。 そこで本稿では,無人航空機(UAV)による無線ネットワークに対する非バイアスHFLアルゴリズムを提案する。 HFLに関わるチャネルの信頼性を最大限に評価するために,局所的および大域的モデルパラメータ伝達の成功確率を決定するために,確率幾何学のツールを採用する。 提案したHFLアルゴリズムは,UAV支援ネットワークのコンテキストにおいて,より良いチャネル条件を持つデバイスに対するバイアスを除去することを目的としている。 と。 さらに, 提案した無人UAV支援HFLアルゴリズムの逆チャネル条件下での理論収束性保証について検討した。 開発されたアプローチのさらなる利点の1つは、システムのパラメータ、例えば、UAVの数とそれに対応する高さを最適化し、設計することができることである。 提案手法の有効性を従来の FL と HFL のアルゴリズムと比較して明らかにした。

The development of the sixth generation (6G) of wireless networks is bound to streamline the transition of computation and learning towards the edge of the network. Hierarchical federated learning (HFL) becomes, therefore, a key paradigm to distribute learning across edge devices to reach global intelligence. In HFL, each edge device trains a local model using its respective data and transmits the updated model parameters to an edge server for local aggregation. The edge server, then, transmits the locally aggregated parameters to a central server for global model aggregation. The unreliability of communication channels at the edge and backhaul links, however, remains a bottleneck in assessing the true benefit of HFL-empowered systems. To this end, this paper proposes an unbiased HFL algorithm for unmanned aerial vehicle (UAV)-assisted wireless networks that counteracts the impact of unreliable channels by adjusting the update weights during local and global aggregations at UAVs and terrestrial base stations (BS), respectively. To best characterize the unreliability of the channels involved in HFL, we adopt tools from stochastic geometry to determine the success probabilities of the local and global model parameter transmissions. Accounting for such metrics in the proposed HFL algorithm aims at removing the bias towards devices with better channel conditions in the context of the considered UAV-assisted network.. The paper further examines the theoretical convergence guarantee of the proposed unbiased UAV-assisted HFL algorithm under adverse channel conditions. One of the developed approach's additional benefits is that it allows for optimizing and designing the system parameters, e.g., the number of UAVs and their corresponding heights. The paper results particularly highlight the effectiveness of the proposed unbiased HFL scheme as compared to conventional FL and HFL algorithms.
翻訳日:2024-07-11 16:12:31 公開日:2024-07-05
# Som-Rmo と Rbfn を用いたリアルタイム悪性尿路検出のためのハイブリッド機械学習手法

Hybrid Machine Learning Approach For Real-Time Malicious Url Detection Using Som-Rmo And Rbfn With Tabu Search Optimization ( http://arxiv.org/abs/2407.06221v1 )

ライセンス: Link先を確認
Swetha T, Seshaiah M, Hemalatha KL, ManjunathaKumar BH, Murthy SVN, (参考訳) 悪意のあるURLの拡散は、SPAM、フィッシング、マルウェア、偽造攻撃を含むインターネットセキュリティにとって重大な脅威となっている。 従来の検出方法は、これらの脅威の進化する性質とペースを維持するのに苦労する。 悪意のあるURLをリアルタイムで検出するには、大規模なデータセットを処理し、新しい攻撃パターンを識別できる高度な技術が必要である。 課題は、効率的な特徴抽出と正確な分類を組み合わせた堅牢なモデルを開発することである。 特徴抽出にSOM-RMO(Self-Organizing Map based Radial Movement Optimization)と分類にRBFN(Radial Basis Function Network)を組み合わせたハイブリッド機械学習手法を提案する。 SOM-RMOは次元を効果的に減らし、重要な特徴を強調する一方で、Tabu Searchで最適化されたRBFNは、高い精度でURLを分類する。 提案手法は,様々な悪意のあるURL攻撃を検出する上で,優れた性能を示す。 ベンチマークデータセットでは96.5%の精度、95.2%の精度、94.8%のリコール、95.0%のF1スコアを達成し、従来の手法を著しく上回る結果となった。

The proliferation of malicious URLs has become a significant threat to internet security, encompassing SPAM, phishing, malware, and defacement attacks. Traditional detection methods struggle to keep pace with the evolving nature of these threats. Detecting malicious URLs in real-time requires advanced techniques capable of handling large datasets and identifying novel attack patterns. The challenge lies in developing a robust model that combines efficient feature extraction with accurate classification. We propose a hybrid machine learning approach combining Self-Organizing Map based Radial Movement Optimization (SOM-RMO) for feature extraction and Radial Basis Function Network (RBFN) based Tabu Search for classification. SOM-RMO effectively reduces dimensionality and highlights significant features, while RBFN, optimized with Tabu Search, classifies URLs with high precision. The proposed model demonstrates superior performance in detecting various malicious URL attacks. On a benchmark dataset, our approach achieved an accuracy of 96.5%, precision of 95.2%, recall of 94.8%, and an F1-score of 95.0%, outperforming traditional methods significantly.
翻訳日:2024-07-10 22:22:56 公開日:2024-07-05
# Aleatoric Uncertainty Estimation を用いたノイズの多いテレビを回避しながらクレージーを保つ方法

How to Stay Curious while Avoiding Noisy TVs using Aleatoric Uncertainty Estimation ( http://arxiv.org/abs/2102.04399v3 )

ライセンス: Link先を確認
Augustine N. Mavor-Parker, Kimberly A. Young, Caswell Barry, Lewis D. Griffin, (参考訳) 粗末な報酬のある環境での探索は、人工エージェントにとって困難である。 好奇心駆動学習(フィードフォワード予測エラーを本質的な報奨として使用する)はこれらのシナリオでいくつかの成功を収めたが、アクション依存ノイズ源に直面すると失敗する。 哺乳動物の脳のコリン作動性システムをモデルとした神経科学にインスパイアされた解法であるAleatoric mapping agent (AMA) について述べる。 AMAは、エージェントの作用によってそのダイナミクスが誘導されるかどうかに関わらず、環境のどのダイナミクスが予測不可能であるかを明確に確かめることを目的としている。 これは、将来の状態の平均と分散に対する別々の前方予測を生成し、高いアレタリックな分散を伴う遷移に対する固有の報酬を減少させることによって達成される。 AMAは従来の好奇心誘導剤を固定する行動依存確率的トラップを効果的に回避できることを示す。 http://github.com/self-supervisor/Escaping-Stochastic-Traps-With-Aleatoric-Mapping-Agents。

Exploration in environments with sparse rewards is difficult for artificial agents. Curiosity driven learning -- using feed-forward prediction errors as intrinsic rewards -- has achieved some success in these scenarios, but fails when faced with action-dependent noise sources. We present aleatoric mapping agents (AMAs), a neuroscience inspired solution modeled on the cholinergic system of the mammalian brain. AMAs aim to explicitly ascertain which dynamics of the environment are unpredictable, regardless of whether those dynamics are induced by the actions of the agent. This is achieved by generating separate forward predictions for the mean and variance of future states and reducing intrinsic rewards for those transitions with high aleatoric variance. We show AMAs are able to effectively circumvent action-dependent stochastic traps that immobilise conventional curiosity driven agents. The code for all experiments presented in this paper is open sourced: http://github.com/self-supervisor/Escaping-Stochastic-Traps-With-Aleatoric-Mapping-Agents.
翻訳日:2024-07-10 06:10:05 公開日:2024-07-05
# スケーラブルニューラルネットワークを用いた遅延力学系と時空間系における翻訳対称性の爆発

Learn one size to infer all: Exploiting translational symmetries in delay-dynamical and spatio-temporal systems using scalable neural networks ( http://arxiv.org/abs/2111.03706v3 )

ライセンス: Link先を確認
Mirko Goldmann, Claudio R. Mirasso, Ingo Fischer, Miguel C. Soriano, (参考訳) 動的システムにおける翻訳対称性に適応するスケーラブルなニューラルネットワークを設計し、異なるシステムサイズに対してトレーニングされていない高次元力学を推定する。 我々は,遅延力学系と時空間系のダイナミクスを単一サイズで予測するために,これらのネットワークを訓練する。 そして、彼ら自身の予測でネットワークを駆動する。 トレーニングされたネットワークのサイズを拡大することにより、システムサイズが大きくなるか小さいかの複雑なダイナミクスを予測できることを実証する。 したがって、ネットワークは単一の例から学習し、対称性特性を利用して全分岐図を推測する。

We design scalable neural networks adapted to translational symmetries in dynamical systems, capable of inferring untrained high-dimensional dynamics for different system sizes. We train these networks to predict the dynamics of delay-dynamical and spatio-temporal systems for a single size. Then, we drive the networks by their own predictions. We demonstrate that by scaling the size of the trained network, we can predict the complex dynamics for larger or smaller system sizes. Thus, the network learns from a single example and, by exploiting symmetry properties, infers entire bifurcation diagrams.
翻訳日:2024-07-10 06:10:05 公開日:2024-07-05
# ZXダイアグラムの微分積分と量子機械学習への応用

Differentiating and Integrating ZX Diagrams with Applications to Quantum Machine Learning ( http://arxiv.org/abs/2201.13250v5 )

ライセンス: Link先を確認
Quanlong Wang, Richie Yeung, Mark Koch, (参考訳) ZX計算は、幅広い応用が成功した量子技術にとって有用なツールであることが証明されている。 これらの応用のほとんどは代数的性質のものである。 しかし、差別化と統合を含む他のタスクは、現在のZX技術では到達できないままである。 ここでは、ZX-計算の枠組み内での微分と積分を実現することにより、ZXを解析的視点に高める。 本稿では,バレンプラトーの解析に量子機械学習を応用し,ZX計算の新しい解析フレームワークを具体的に解説する。

ZX-calculus has proved to be a useful tool for quantum technology with a wide range of successful applications. Most of these applications are of an algebraic nature. However, other tasks that involve differentiation and integration remain unreachable with current ZX techniques. Here we elevate ZX to an analytical perspective by realising differentiation and integration entirely within the framework of ZX-calculus. We explicitly illustrate the new analytic framework of ZX-calculus by applying it in context of quantum machine learning for the analysis of barren plateaus.
翻訳日:2024-07-10 06:02:09 公開日:2024-07-05
# 正方形の和によるロバストスパース平均推定

Robust Sparse Mean Estimation via Sum of Squares ( http://arxiv.org/abs/2206.03441v2 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Sushrut Karmalkar, Ankit Pensia, Thanasis Pittas, (参考訳) 逆数外乱の$\epsilon$-fractionの存在下での高次元スパース平均推定の問題について検討する。 先行研究は、同一性共分散部分ガウス分布に対するこのタスクのサンプルおよび計算学的に効率的なアルゴリズムを得た。 本研究では,共分散の事前知識を必要とせず,ロバストなスパース平均推定のための最初の効率的なアルゴリズムを開発する。 このアルゴリズムは、$O(\epsilon^{1-1/t})$の誤差をサンプル複雑性$m = (k\log(d))^{O(t)}/\epsilon^{2-2/t}$で達成する。 ガウス分布の特別な場合、我々のアルゴリズムは、サンプル複雑性$m = O(k^4 \mathrm{polylog}(d))/\epsilon^2$で$\tilde O(\epsilon)$に近い最適誤差を達成する。 我々のアルゴリズムは、アルゴリズムアプローチの証明であるSum-of-Squaresに基づいています。 我々は,統計的クエリと低次多項式による下位境界の検証で上位境界を補完し,アルゴリズムが達成したサンプルエラーのトレードオフが質的に最良であることを証明した。

We study the problem of high-dimensional sparse mean estimation in the presence of an $\epsilon$-fraction of adversarial outliers. Prior work obtained sample and computationally efficient algorithms for this task for identity-covariance subgaussian distributions. In this work, we develop the first efficient algorithms for robust sparse mean estimation without a priori knowledge of the covariance. For distributions on $\mathbb R^d$ with "certifiably bounded" $t$-th moments and sufficiently light tails, our algorithm achieves error of $O(\epsilon^{1-1/t})$ with sample complexity $m = (k\log(d))^{O(t)}/\epsilon^{2-2/t}$. For the special case of the Gaussian distribution, our algorithm achieves near-optimal error of $\tilde O(\epsilon)$ with sample complexity $m = O(k^4 \mathrm{polylog}(d))/\epsilon^2$. Our algorithms follow the Sum-of-Squares based, proofs to algorithms approach. We complement our upper bounds with Statistical Query and low-degree polynomial testing lower bounds, providing evidence that the sample-time-error tradeoffs achieved by our algorithms are qualitatively the best possible.
翻訳日:2024-07-10 06:02:09 公開日:2024-07-05
# ペアの差分フィルタリングによるリストデコダブルスパース平均推定

List-Decodable Sparse Mean Estimation via Difference-of-Pairs Filtering ( http://arxiv.org/abs/2206.05245v2 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Sushrut Karmalkar, Ankit Pensia, Thanasis Pittas, (参考訳) リスト化可能なスパース平均推定問題について検討する。 具体的には、パラメータ $\alpha \in (0, 1/2)$ に対して、$m$ points in $\mathbb{R}^n$, $\lfloor \alpha m \rfloor$ が与えられる。 残りの点について仮定は行われず、データセットの大部分を形成する。 目標は、$\| \widehat \mu - \mu \|_2$ が小さいようなベクトル $\widehat \mu$ を含む候補の小さなリストを返すことである。 先行研究は、密接な環境におけるリストデコタブル平均推定の問題を研究していた。 本研究では,リストデコタブル平均推定のための新しい,概念的にシンプルな手法を開発する。 提案手法の主な応用として,リストデコタブルなスパース平均推定のための最初のサンプルと計算効率のよいアルゴリズムを提案する。 特に、1/\alpha)^{O(1/t)}$の誤差をサンプル複雑性$m = (k\log(n))^{O(t)}/\alpha$とランニングタイム$\mathrm{poly}(mn^t)$で達成している。 ガウス不変量の特別な場合、このアルゴリズムは準多項式サンプルと計算複雑性を持つ$\Theta (\sqrt{\log(1/\alpha)})$の最適誤差を保証する。 上界をほぼ一致する統計的クエリと低次多項式で補い、下界を検査する。

We study the problem of list-decodable sparse mean estimation. Specifically, for a parameter $\alpha \in (0, 1/2)$, we are given $m$ points in $\mathbb{R}^n$, $\lfloor \alpha m \rfloor$ of which are i.i.d. samples from a distribution $D$ with unknown $k$-sparse mean $\mu$. No assumptions are made on the remaining points, which form the majority of the dataset. The goal is to return a small list of candidates containing a vector $\widehat \mu$ such that $\| \widehat \mu - \mu \|_2$ is small. Prior work had studied the problem of list-decodable mean estimation in the dense setting. In this work, we develop a novel, conceptually simpler technique for list-decodable mean estimation. As the main application of our approach, we provide the first sample and computationally efficient algorithm for list-decodable sparse mean estimation. In particular, for distributions with "certifiably bounded" $t$-th moments in $k$-sparse directions and sufficiently light tails, our algorithm achieves error of $(1/\alpha)^{O(1/t)}$ with sample complexity $m = (k\log(n))^{O(t)}/\alpha$ and running time $\mathrm{poly}(mn^t)$. For the special case of Gaussian inliers, our algorithm achieves the optimal error guarantee of $\Theta (\sqrt{\log(1/\alpha)})$ with quasi-polynomial sample and computational complexity. We complement our upper bounds with nearly-matching statistical query and low-degree polynomial testing lower bounds.
翻訳日:2024-07-10 06:02:09 公開日:2024-07-05
# 制約付き非凸非凸Min-Max最適化とコモノトン包摂の高速化アルゴリズム

Accelerated Algorithms for Constrained Nonconvex-Nonconcave Min-Max Optimization and Comonotone Inclusion ( http://arxiv.org/abs/2206.05248v5 )

ライセンス: Link先を確認
Yang Cai, Argyris Oikonomou, Weiqiang Zheng, (参考訳) 制約付きコモノトン min-max 最適化,非凸非凹 min-max 最適化問題の構造化クラス,およびコモノトン包摂への一般化について検討した。 最初のコントリビューションでは、制約付きコモノトン min-max 最適化とコモノトン包摂に対して、Yoon と Ryu (2021) によって提案された Extra Anchored Gradient (EAG) アルゴリズムを拡張し、すべての一階法で最適収束率$O\left(\frac{1}{T}\right)$を達成した。 さらに、アルゴリズムの反復が解集合の点に収束することを証明する。 第2のコントリビューションでは、Lee と Kim が2021年に開発したFast Extra Gradient (FEG) アルゴリズムを、制約付きコモノトン min-max 最適化とコモノトン包摂に拡張し、同じ$O\left(\frac{1}{T}\right)$収束率を達成する。 この値は、文献で研究されていない最も広いコモノトン包摂問題に適用できる。 我々の分析は単純なポテンシャル関数の引数に基づいており、これは他の加速されたアルゴリズムを解析するのに有用かもしれない。

We study constrained comonotone min-max optimization, a structured class of nonconvex-nonconcave min-max optimization problems, and their generalization to comonotone inclusion. In our first contribution, we extend the Extra Anchored Gradient (EAG) algorithm, originally proposed by Yoon and Ryu (2021) for unconstrained min-max optimization, to constrained comonotone min-max optimization and comonotone inclusion, achieving an optimal convergence rate of $O\left(\frac{1}{T}\right)$ among all first-order methods. Additionally, we prove that the algorithm's iterations converge to a point in the solution set. In our second contribution, we extend the Fast Extra Gradient (FEG) algorithm, as developed by Lee and Kim (2021), to constrained comonotone min-max optimization and comonotone inclusion, achieving the same $O\left(\frac{1}{T}\right)$ convergence rate. This rate is applicable to the broadest set of comonotone inclusion problems yet studied in the literature. Our analyses are based on simple potential function arguments, which might be useful for analyzing other accelerated algorithms.
翻訳日:2024-07-10 06:02:09 公開日:2024-07-05
# Redistributor: 経験的データ分散の変換

Redistributor: Transforming Empirical Data Distributions ( http://arxiv.org/abs/2210.14219v2 )

ライセンス: Link先を確認
Pavol Harar, Dennis Elbrächter, Monika Dörfler, Kory D. Johnson, (参考訳) 提案するアルゴリズムとパッケージであるRedistributorは,スカラーサンプルの集合を所望の分布に従うように強制する。 ある確率変数 $S$ の独立かつ同一に分布するサンプルと所望の目標 $T$ の連続累積分布関数を与えられたとき、その分布において$R(S)=T$ を満たす変換の一貫した推定器を確実に生成する。 S$ あるいは $T$ の分布は未知であるため、これらの分布をサンプルから効率的に推定するアルゴリズムも含んでいる。 これにより、Redistributorは驚くほどシンプルで使いやすいツールとして機能し、視覚的に魅力的な結果を生み出すことができる。 色補正は、他のモデルベースの手法よりも優れ、コンテンツ保存における深層学習手法を超越して、フォトリアリスティックなスタイル転送を実現する。 パッケージはPythonで実装されており、大きなデータセットを効率的に扱うように最適化されている。 ソースコードはhttps://github.com/paloha/redistributor.comで入手できる。

We present an algorithm and package, Redistributor, which forces a collection of scalar samples to follow a desired distribution. When given independent and identically distributed samples of some random variable $S$ and the continuous cumulative distribution function of some desired target $T$, it provably produces a consistent estimator of the transformation $R$ which satisfies $R(S)=T$ in distribution. As the distribution of $S$ or $T$ may be unknown, we also include algorithms for efficiently estimating these distributions from samples. This allows for various interesting use cases in image processing, where Redistributor serves as a remarkably simple and easy-to-use tool that is capable of producing visually appealing results. For color correction it outperforms other model-based methods and excels in achieving photorealistic style transfer, surpassing deep learning methods in content preservation. The package is implemented in Python and is optimized to efficiently handle large datasets, making it also suitable as a preprocessing step in machine learning. The source code is available at https://github.com/paloha/redistributor.
翻訳日:2024-07-10 05:52:24 公開日:2024-07-05
# 2つの同一粒子の絡み合う状態に対する一般化不確かさ原理

Generalized Uncertainty Principle for Entangled States of Two Identical Particles ( http://arxiv.org/abs/2301.11966v4 )

ライセンス: Link先を確認
K. C. Lemos Filho, B. B. Dilem, R. O. Francisco, J. C. Fabris, J. A. Nogueira, (参考訳) 本研究では、一般化不確実性原理(GUP)を考慮すると、2つの同一粒子系の量子絡み合いの結果を決定する。 GUPは通常、最小長の存在と関連付けられている。 我々は、主要なGUP(KMM、ADV、Pedram、Nouicer)に焦点を当て、修正GUPによって誘導される位置の最小不確実性を決定する。 以上の結果から,この最小不確実性はGUPとは無関係に通常の値の半分に減少することが示唆された。 これは、最小長も半減することを意味する。 一方、最小長は物理系に依存してはならないと一般に期待されている。 我々は,この特異なパラドックスを,絡み合った系が2つの粒子で構成されていることに気付き,最小長に関する有効パラメータを使わなければならない。

In this work we determine the consequences of the quantum entanglement of a system of two identical particles when a generalized uncertainty principle (GUP) is considered. GUP's are usually associated with the existence of a minimal length. We focus on the main GUP's (KMM, ADV, Pedram and Nouicer) and then we determine the minimal uncertainties in position induced by those modified GUP's. Our results point out that the minimal uncertainty is reduced by half of its usual value independently of the GUP employed. This implies that the minimal length is also reduced by half. On the other hand, it is generally expected that the minimal length must not depend on physical system. We overcome this apparent paradox by realizing that the entangled system is composed by two particles so that an effective parameter related to the minimal length must be employed.
翻訳日:2024-07-10 05:42:28 公開日:2024-07-05
# CosPGD : ピクセルワイド予測タスクのための効率的なホワイトボックス対向攻撃

CosPGD: an efficient white-box adversarial attack for pixel-wise prediction tasks ( http://arxiv.org/abs/2302.02213v3 )

ライセンス: Link先を確認
Shashank Agnihotri, Steffen Jung, Margret Keuper, (参考訳) ニューラルネットワークは、多くのタスクにおいて非常に正確な予測を可能にするが、わずかな入力摂動に対する堅牢性の欠如は、しばしばデプロイメントを妨げている。 セマンティックセグメンテーション(英語版)や光フロー推定(英語版)に対する攻撃に対して、セマンティック・セグメンテーション(英語版)(英語版) (PGD) のような敵対的攻撃はモデルの堅牢性を評価する効果的な手段となり、専用解が提案されている。 攻撃の効率を向上しようとする一方で、さらなる目的は、その効果のバランスを保ち、孤立したポイントワイズ予測ではなく、画像領域全体に作用するようにすることである。 これはしばしば最適化の安定性と効率性の犠牲になる。 本稿では,攻撃の全体的な効率を向上しつつ,画像領域全体に対するよりバランスのとれたエラーを促す攻撃であるCosPGDを提案する。 この目的のために、CosPGDは、任意のピクセルワイド予測とそのターゲットから計算された単純なアライメントスコアを利用して、損失を滑らかで完全に微分可能な方法でスケールする。 これは、セマンティックセグメンテーションに対するモデルの堅牢性や回帰モデル(光学フロー、不均一性推定、画像復元など)を効率的に評価し、セマンティックセグメンテーションに対する以前のSotA攻撃よりも優れている。 我々はCosPGDアルゴリズムのコードをhttps://github.com/shashankskagnihotri/cospgdで提供します。

While neural networks allow highly accurate predictions in many tasks, their lack of robustness towards even slight input perturbations often hampers their deployment. Adversarial attacks such as the seminal projected gradient descent (PGD) offer an effective means to evaluate a model's robustness and dedicated solutions have been proposed for attacks on semantic segmentation or optical flow estimation. While they attempt to increase the attack's efficiency, a further objective is to balance its effect, so that it acts on the entire image domain instead of isolated point-wise predictions. This often comes at the cost of optimization stability and thus efficiency. Here, we propose CosPGD, an attack that encourages more balanced errors over the entire image domain while increasing the attack's overall efficiency. To this end, CosPGD leverages a simple alignment score computed from any pixel-wise prediction and its target to scale the loss in a smooth and fully differentiable way. It leads to efficient evaluations of a model's robustness for semantic segmentation as well as regression models (such as optical flow, disparity estimation, or image restoration), and it allows it to outperform the previous SotA attack on semantic segmentation. We provide code for the CosPGD algorithm and example usage at https://github.com/shashankskagnihotri/cospgd.
翻訳日:2024-07-10 05:42:28 公開日:2024-07-05
# $s$-spinコヒーレント状態の重ね合わせによる量子力学性能と正確なハイゼンベルク極限精度の実現

Achieving quantum metrological performance and exact Heisenberg limit precision through superposition of $s$-spin coherent states ( http://arxiv.org/abs/2308.09833v3 )

ライセンス: Link先を確認
Hanan Saidi, Hanane El Hadfi, Abdallah Slaoui, Rachid Ahl Laamara, (参考訳) 量子位相推定において、ハイゼンベルク極限は準古典的推定手順の最終的な精度を提供する。 しかし、この制限を実現するには、出力測定に使用される検出戦略と入力状態の特性の両方に依存する。 この研究は、$s$-spinコヒーレント状態重畳を用いた量子位相推定に発展する。 最初はスピン$s=3/2$に対してスピンコヒーレント状態の明示的な定式化を探索する。 量子フィッシャー情報と量子クレーマー・ラオ境界の両方を精査する。 我々はスピン猫状態の最終的な測定精度がハイゼンベルク限界に近づき、不確実性は全粒子数と逆向きに減少することを示した。 さらに、演算子 $e^{i\zeta{S}_{z}}$, $e^{i\zeta{S}_{x}}$ および $e^{i\zeta{S}_{y}}$ によって導入された位相感度について検討し、その結果を比較した。 閉じる際には、一般的な$s$-spinコヒーレント状態を利用して、これらの3つのパラメータ生成作用素に適用される量子クレーマー-ラオ境界に対する一般的な解析式を提供する。 ハイゼンベルク極限精度を達成するには、ブロッホ球面上の$s$スピン猫状態の幾何学に関する洞察力のある情報を慎重に調整する必要がある。 さらに、$s$-spinの数が増加するにつれて、ハイゼンベルクの極限は減少し、この減少は$s$-spin数に逆比例する。

In quantum phase estimation, the Heisenberg limit provides the ultimate accuracy over quasi-classical estimation procedures. However, realizing this limit hinges upon both the detection strategy employed for output measurements and the characteristics of the input states. This study delves into quantum phase estimation using $s$-spin coherent states superposition. Initially, we delve into the explicit formulation of spin coherent states for a spin $s=3/2$. Both the quantum Fisher information and the quantum Cramer-Rao bound are meticulously examined. We analytically show that the ultimate measurement precision of spin cat states approaches the Heisenberg limit, where uncertainty decreases inversely with the total particle number. Moreover, we investigate the phase sensitivity introduced through operators $e^{i\zeta{S}_{z}}$, $e^{i\zeta{S}_{x}}$ and $e^{i\zeta{S}_{y}}$, subsequently comparing the resultants findings. In closing, we provide a general analytical expression for the quantum Cramer-Rao boundary applied to these three parameter-generating operators, utilizing general $s$-spin coherent states. We remarked that attaining Heisenberg-limit precision requires the careful adjustment of insightful information about the geometry of $s$-spin cat states on the Bloch sphere. Additionally, as the number of $s$-spin increases, the Heisenberg limit decreases, and this reduction is inversely proportional to the $s$-spin number.
翻訳日:2024-07-10 03:38:37 公開日:2024-07-05
# グループ間およびグループ内フェアネスを達成するための標準データ変換

A Canonical Data Transformation for Achieving Inter- and Within-group Fairness ( http://arxiv.org/abs/2310.15097v2 )

ライセンス: Link先を確認
Zachary McBride Lazri, Ivan Brugere, Xin Tian, Dana Dachman-Soled, Antigoni Polychroniadou, Danial Dervovic, Min Wu, (参考訳) 機密データを扱うアプリケーションに対する機械学習アルゴリズムの展開の増加は、機械学習の公平性の問題に注意を向けている。 多くの研究は、異なる人口集団を公平に扱うように要求するアプリケーションに注がれている。 しかし、グループ間の公平性(グループフェアネスとも呼ばれる)を満たすことを目的としたアルゴリズムは、同じ人口集団内の個人を不当に扱うことがある。 この問題に対処するため,同グループ内の個人間の公平性を維持するグループ内公正性の形式的定義を導入する。 本稿では,グループ間の公正度基準とグループ内公正度基準の両方を満たすための事前処理フレームワークを提案する。 このフレームワークは、異なるグループのメンバーの特徴ベクトルをグループ間標準領域にマッピングし、それらをスコアリング関数に入力する。 マッピングは、同一人口群に属する個人の未処理特徴ベクトルから得られるスコア間の相対関係を保ち、グループ内の公平性を保証するために構成される。 この枠組みをCompASリスクアセスメントとLaw Schoolのデータセットに適用し、グループ間およびグループ内フェアネスの達成における性能を2つの正規化に基づく手法と比較する。

Increases in the deployment of machine learning algorithms for applications that deal with sensitive data have brought attention to the issue of fairness in machine learning. Many works have been devoted to applications that require different demographic groups to be treated fairly. However, algorithms that aim to satisfy inter-group fairness (also called group fairness) may inadvertently treat individuals within the same demographic group unfairly. To address this issue, we introduce a formal definition of within-group fairness that maintains fairness among individuals from within the same group. We propose a pre-processing framework to meet both inter- and within-group fairness criteria with little compromise in accuracy. The framework maps the feature vectors of members from different groups to an inter-group-fair canonical domain before feeding them into a scoring function. The mapping is constructed to preserve the relative relationship between the scores obtained from the unprocessed feature vectors of individuals from the same demographic group, guaranteeing within-group fairness. We apply this framework to the COMPAS risk assessment and Law School datasets and compare its performance in achieving inter-group and within-group fairness to two regularization-based methods.
翻訳日:2024-07-10 03:18:28 公開日:2024-07-05
# どこにいたのか?ポイント・オブ・インテンシブ勧告のプライバシーリスクに関する研究

Where have you been? A Study of Privacy Risk for Point-of-Interest Recommendation ( http://arxiv.org/abs/2310.18606v2 )

ライセンス: Link先を確認
Kunlin Cai, Jinghuai Zhang, Zhiqing Hong, Will Shand, Guang Wang, Desheng Zhang, Jianfeng Chi, Yuan Tian, (参考訳) 位置情報ベースのサービス(LBS)の人気が高まっているため、より人間の移動データが収集されている。 収集されたデータは、LBSのための機械学習(ML)モデルの構築に使用することができ、パフォーマンスを高め、ユーザ全体のエクスペリエンスを改善することができる。 しかし、この種のデータには、自宅や職場など、ユーザの身元に関する機密情報が含まれている可能性があるため、プライバシー漏洩のリスクが伴う。 以前の作業では、トランスミッションやリリース前におけるモビリティデータプライバシ保護に重点を置いており、モビリティデータベースのMLモデルのプライバシリスク評価が欠如している。 移動データに基づくMLモデルにおけるプライバシー漏洩をよりよく理解し、定量化するために、最も広く使われている移動データベースのMLモデルの一つであるPOI(point-of-interest)レコメンデーションモデルに適した、データ抽出とメンバーシップ推論攻撃を含むプライバシ攻撃スイートを設計する。 攻撃スイートにおけるこれらの攻撃は、異なる敵の知識を前提として、モビリティデータから異なる種類の機密情報を抽出することを目的としており、POI勧告モデルに対する全体的なプライバシーリスク評価を提供する。 2つの実世界のモビリティデータセットを用いた実験により、現在のPOIレコメンデーションモデルが攻撃に対して脆弱であることを実証した。 また、プライバシー攻撃の影響を受けやすいモビリティデータの種類を理解するために、ユニークな知見も提示する。 最後に,これらの攻撃に対する防御効果を評価し,今後の方向性と課題を明らかにする。 私たちの攻撃スイートはhttps://github.com/KunlinChoi/POIPrivacy.comでリリースされています。

As location-based services (LBS) have grown in popularity, more human mobility data has been collected. The collected data can be used to build machine learning (ML) models for LBS to enhance their performance and improve overall experience for users. However, the convenience comes with the risk of privacy leakage since this type of data might contain sensitive information related to user identities, such as home/work locations. Prior work focuses on protecting mobility data privacy during transmission or prior to release, lacking the privacy risk evaluation of mobility data-based ML models. To better understand and quantify the privacy leakage in mobility data-based ML models, we design a privacy attack suite containing data extraction and membership inference attacks tailored for point-of-interest (POI) recommendation models, one of the most widely used mobility data-based ML models. These attacks in our attack suite assume different adversary knowledge and aim to extract different types of sensitive information from mobility data, providing a holistic privacy risk assessment for POI recommendation models. Our experimental evaluation using two real-world mobility datasets demonstrates that current POI recommendation models are vulnerable to our attacks. We also present unique findings to understand what types of mobility data are more susceptible to privacy attacks. Finally, we evaluate defenses against these attacks and highlight future directions and challenges. Our attack suite is released at https://github.com/KunlinChoi/POIPrivacy.
翻訳日:2024-07-10 03:18:28 公開日:2024-07-05
# ニューラルネットワークのアンサンブル

Neural Subnetwork Ensembles ( http://arxiv.org/abs/2311.14101v2 )

ライセンス: Link先を確認
Tim Whitaker, (参考訳) ニューラルネットワークアンサンブルは、独立に訓練された複数のモデルの予測を組み合わせることで、一般化を改善するために効果的に使用されている。 しかし、ディープニューラルネットワークの規模と複雑さの増大により、これらの手法は違法に高価になり、実装に時間がかかる。 安価なアンサンブル法は、従来のアンサンブル学習法が持つ一般化の利点を維持しつつ、スクラッチから複数のモデルを訓練する必要を軽減できるため、ますます重要になっている。 この論文は、トレーニングされた親モデルからサブネットをサンプリング、摂動、最適化することにより、子ネットワークの集合を形成する、サブネットワーク・アンサンブルを構築するための低コストのフレームワークを導入し、形式化する。 児童ネットワーク生成のための異なる手法を探索し、様々なアブレーション研究と確立されたベンチマークを通じてその有効性を評価する。 提案手法は, 計算コストを最小化しつつ, トレーニング効率, パラメトリック利用, 一般化性能を大幅に向上させることができることを示す。 Subnetwork Ensemblesは、ディープニューラルネットワークの非現実的なポテンシャルを活用することによって、よりよいシステムを構築する方法を探るための魅力的なフレームワークを提供する。

Neural network ensembles have been effectively used to improve generalization by combining the predictions of multiple independently trained models. However, the growing scale and complexity of deep neural networks have led to these methods becoming prohibitively expensive and time consuming to implement. Low-cost ensemble methods have become increasingly important as they can alleviate the need to train multiple models from scratch while retaining the generalization benefits that traditional ensemble learning methods afford. This dissertation introduces and formalizes a low-cost framework for constructing Subnetwork Ensembles, where a collection of child networks are formed by sampling, perturbing, and optimizing subnetworks from a trained parent model. We explore several distinct methodologies for generating child networks and we evaluate their efficacy through a variety of ablation studies and established benchmarks. Our findings reveal that this approach can greatly improve training efficiency, parametric utilization, and generalization performance while minimizing computational cost. Subnetwork Ensembles offer a compelling framework for exploring how we can build better systems by leveraging the unrealized potential of deep neural networks.
翻訳日:2024-07-10 03:18:28 公開日:2024-07-05
# 損失フォトニック核融合ネットワークの効率的なパーコレーションシミュレーション

Efficient percolation simulations for lossy photonic fusion networks ( http://arxiv.org/abs/2312.04639v2 )

ライセンス: Link先を確認
Matthias C. Löbl, Stefano Paesani, Anders S. Sørensen, (参考訳) パーコレーション現象の研究は、ソーシャルネットワークや材料科学から量子情報まで様々な応用がある。 最も一般的なパーコレーションモデルは、Newman-Ziffアルゴリズムが効率的なシミュレーションを可能にするボンドまたはサイトパーコレーションである。 本稿では,いわゆるグラフ状態と融合ネットワークを用いた計測に基づくフォトニック量子コンピューティングの文脈に現れるいくつかの非標準パーコレーションモデルについて考察する。 関連するパーコレーション閾値は、これらのシステムにおける光子損失に対する耐性を判定し、ニューマン・ジフアルゴリズムの修正を開発し、対応するパーコレーションシミュレーションを効率的に行う。 我々は,これらのアルゴリズムを用いて,模範核融合ネットワークやグラフ状態を特徴付けることで,我々のアルゴリズムを実証する。 使用済みのソースコードはオープンソースリポジトリとして提供される。

The study of percolation phenomena has various applications ranging from social networks or materials science to quantum information. The most common percolation models are bond- or site-percolation for which the Newman-Ziff algorithm enables an efficient simulation. Here, we consider several non-standard percolation models that appear in the context of measurement-based photonic quantum computing with so-called graph states and fusion networks. The associated percolation thresholds determine the tolerance to photon loss in such systems and we develop modifications of the Newman-Ziff algorithm to perform the corresponding percolation simulation efficiently. We demonstrate our algorithms by using them to characterize exemplary fusion networks and graph states. The used source code is provided as an open-source repository.
翻訳日:2024-07-10 03:08:43 公開日:2024-07-05
# 崩壊・絡み合った世界における広告勧告

Ads Recommendation in a Collapsed and Entangled World ( http://arxiv.org/abs/2403.00793v2 )

ライセンス: Link先を確認
Junwei Pan, Wei Xue, Ximei Wang, Haibin Yu, Xun Liu, Shijie Quan, Xueming Qiu, Dapeng Liu, Lei Xiao, Jie Jiang, (参考訳) Tencentの広告レコメンデーションシステムを紹介し,適切なレコメンデーション表現を学習する上での課題と実践について検討する。 我々の研究は、様々な種類の特徴を埋め込み表現にエンコードする際の事前知識の保存に対する我々のアプローチを示すことから始まる。 具体的には、シーケンス機能、数値機能、事前訓練された埋め込み機能に対処する。 その後、私たちは特徴表現に関連する2つの重要な課題、埋め込みの次元的崩壊と異なるタスクやシナリオ間の関心の絡み合いについて調べる。 本稿では,これらの課題に対処し,頑健かつ不整合なレコメンデーション表現を実現するための実践的アプローチを提案する。 次に、モデルの最適化を促進し、バイアスを減らし、探索を強化するために、いくつかのトレーニングテクニックを検討します。 さらに,特徴相関,次元崩壊,興味の絡み合いを研究できる分析ツールを3つ導入した。 この作業は、Tencentの広告レコメンデーションチームの過去10年間の継続的な取り組みに基づいている。 一般的な設計原則を要約し、利用可能なソリューションと分析ツールのシリーズを提示する。 報告されたパフォーマンスは、当社のオンライン広告プラットフォームに基づいており、毎日何十億ものリクエストを処理し、何十億ものユーザーに対して何百万もの広告を配信している。

We present Tencent's ads recommendation system and examine the challenges and practices of learning appropriate recommendation representations. Our study begins by showcasing our approaches to preserving prior knowledge when encoding features of diverse types into embedding representations. We specifically address sequence features, numeric features, and pre-trained embedding features. Subsequently, we delve into two crucial challenges related to feature representation: the dimensional collapse of embeddings and the interest entanglement across different tasks or scenarios. We propose several practical approaches to address these challenges that result in robust and disentangled recommendation representations. We then explore several training techniques to facilitate model optimization, reduce bias, and enhance exploration. Additionally, we introduce three analysis tools that enable us to study feature correlation, dimensional collapse, and interest entanglement. This work builds upon the continuous efforts of Tencent's ads recommendation team over the past decade. It summarizes general design principles and presents a series of readily applicable solutions and analysis tools. The reported performance is based on our online advertising platform, which handles hundreds of billions of requests daily and serves millions of ads to billions of users.
翻訳日:2024-07-10 02:29:06 公開日:2024-07-05
# インフラストラクチャとコミュニティレジリエンスのためのオンデマンドモビリティサービス:相乗的災害対応システムへのレビュー

On-Demand Mobility Services for Infrastructure and Community Resilience: A Review toward Synergistic Disaster Response Systems ( http://arxiv.org/abs/2403.03107v2 )

ライセンス: Link先を確認
Jiangbo Yu, (参考訳) モビリティ・オン・デマンド(MOD)サービスは、ディスラプティブイベントの結果として、都市システムの適応性と回復を著しく改善する可能性がある。 しかし、定期的な旅行需要に加えて、MODサービスの利用に関する包括的なレビューが欠如している。 本論では, レジリエントなMODサービス, インフラとコミュニティのレジリエンス向上のための新しいMODサービスの利用, 経験的影響評価, テクノロジーの実現, 拡張という4つの分野において, ここ数年で顕著な増加が示唆されている。 レビューでは、MODサービスは異常検出、本質的な供給提供、避難・救助、現場医療、電力グリッド安定化、ダウンタイム中の交通サービス置換、インフラと機器の修理をサポートするために利用されている。 このような汎用性は、異なる目的のために同時に機能するシステム設計代替品を評価するための包括的なアセスメントフレームワークとモデリング方法論を提案する。 レビューはまた、適切な技術、ビジネスモデル、長期計画の取り組みを統合することは、大きな相乗効果をもたらすことを明らかにしている。

Mobility-on-demand (MOD) services have the potential to significantly improve the adaptiveness and recovery of urban systems, in the wake of disruptive events. But there lacks a comprehensive review on using MOD services for such purposes in addition to serving regular travel demand. This paper presents a review that suggests a noticeable increase within recent years on this topic across four main areas: resilient MOD services, novel usage of MOD services for improving infrastructure and community resilience, empirical impact evaluation, and enabling and augmenting technologies. The review shows that MOD services have been utilized to support anomaly detection, essential supply delivery, evacuation and rescue, on-site medical care, power grid stabilization, transit service substitution during downtime, and infrastructure and equipment repair. Such a versatility suggests a comprehensive assessment framework and modeling methodologies for evaluating system design alternatives that simultaneously serve different purposes. The review also reveals that integrating suitable technologies, business models, and long-term planning efforts offers significant synergistic benefits.
翻訳日:2024-07-10 02:29:06 公開日:2024-07-05
# 次世代予測の落とし穴

The pitfalls of next-token prediction ( http://arxiv.org/abs/2403.06963v2 )

ライセンス: Link先を確認
Gregor Bachmann, Vaishnavh Nagarajan, (参考訳) 人間の知性を忠実にモデル化できるのか? 我々は、この新たな懸念を結晶化し、それを取り巻く一般的な誤解を正し、シンプルなマルチトークンの目的を提唱する。 出発点として, 自己回帰的推論と教師強制訓練という, しばしば融合する次の予測の2つの段階を, 明確に扱う必要があると論じる。 自己回帰推論においてエラーが複雑になるという一般的な批判は、教師の強制が正確な次段階の予測を学習したことを決定的に仮定している。 この仮定は、私たちがより深く根ざした問題を後押しします。あるタスクのクラスでは、教師の強制は、まず最初に、正確に次の学習者を学ぶのに失敗するのです。 教師の強制がいかに失敗するかという一般的なメカニズムを説明し、TransformerとMambaアーキテクチャの両方がその方法で実証的に失敗する最小限の計画タスクを設計する。 最後に、前もって複数のトークンを予測する単純な修正によって、この障害が解決できるという予備的な証拠を提供する。 この発見が将来の議論の基礎となり、次世代の予測パラダイムを超えて探究を促すことを願っている。 コードをhttps://github.com/gregorbachmann/Next-Token-Failuresで公開しています。

Can a mere next-token predictor faithfully model human intelligence? We crystallize this emerging concern and correct popular misconceptions surrounding it, and advocate a simple multi-token objective. As a starting point, we argue that the two often-conflated phases of next-token prediction -- autoregressive inference and teacher-forced training -- must be treated distinctly. The popular criticism that errors can compound during autoregressive inference, crucially assumes that teacher-forcing has learned an accurate next-token predictor. This assumption sidesteps a more deep-rooted problem we expose: in certain classes of tasks, teacher-forcing can simply fail to learn an accurate next-token predictor in the first place. We describe a general mechanism of how teacher-forcing can fail, and design a minimal planning task where both the Transformer and the Mamba architecture empirically fail in that manner -- remarkably, despite the task being straightforward to learn. Finally, we provide preliminary evidence that this failure can be resolved using a simple modification that predicts multiple tokens in advance. We hope this finding can ground future debates and inspire explorations beyond the next-token prediction paradigm. We make our code available under https://github.com/gregorbachmann/Next-Token-Failures
翻訳日:2024-07-10 02:19:20 公開日:2024-07-05
# YNetr:Plain Scan Liver tumors (PSLT)上のデュアルエンコーダアーキテクチャ

YNetr: Dual-Encoder architecture on Plain Scan Liver Tumors (PSLT) ( http://arxiv.org/abs/2404.00327v2 )

ライセンス: Link先を確認
Wen Sheng, Zhong Zheng, Jiajun Liu, Han Lu, Hanyuan Zhang, Zhengyong Jiang, Zhihong Zhang, Daoping Zhu, (参考訳) 背景:肝腫瘍は良性または悪性の可能性がある肝臓の異常な増殖であり、肝がんは世界中で重要な健康上の問題となっている。 しかし、肝腫瘍の平滑なスキャンセグメンテーションのためのデータセットは存在せず、関連するアルゴリズムも存在しない。 このギャップを埋めるために,Plain Scan Liver tumors (PSLT) と YNetr を提案する。 方法:40個の肝腫瘍平板スキャンセグメンテーションデータセットを収集し,注釈を付した。 同時に,YNetrが生成したセグメント化結果を評価する指標としてDice係数を用いた。 結果: YNetrモデルはPSLTデータセット上で62.63%のDice係数を達成した。 UNet 3+, XNet, UNetr, Swin UNetr, Trans-BTS, COTr, nnUNetv2 (2D), nnUNetv2 (3D fullres), MedNext (2D), MedNext (3D fullres) など,様々なモデルに対して比較評価を行った。 結論:我々はPSLT(Plain Scan Liver tumors)というデータセットを提案するだけでなく,ウェーブレット変換を用いてPSLTにSOTAを持つ異なる周波数情報を抽出するYNetrという構造も検討した。

Background: Liver tumors are abnormal growths in the liver that can be either benign or malignant, with liver cancer being a significant health concern worldwide. However, there is no dataset for plain scan segmentation of liver tumors, nor any related algorithms. To fill this gap, we propose Plain Scan Liver Tumors(PSLT) and YNetr. Methods: A collection of 40 liver tumor plain scan segmentation datasets was assembled and annotated. Concurrently, we utilized Dice coefficient as the metric for assessing the segmentation outcomes produced by YNetr, having advantage of capturing different frequency information. Results: The YNetr model achieved a Dice coefficient of 62.63% on the PSLT dataset, surpassing the other publicly available model by an accuracy margin of 1.22%. Comparative evaluations were conducted against a range of models including UNet 3+, XNet, UNetr, Swin UNetr, Trans-BTS, COTr, nnUNetv2 (2D), nnUNetv2 (3D fullres), MedNext (2D) and MedNext(3D fullres). Conclusions: We not only proposed a dataset named PSLT(Plain Scan Liver Tumors), but also explored a structure called YNetr that utilizes wavelet transform to extract different frequency information, which having the SOTA in PSLT by experiments.
翻訳日:2024-07-10 02:09:29 公開日:2024-07-05
# ボソニック量子デバイスにおける化学シミュレーション

Simulating Chemistry on Bosonic Quantum Devices ( http://arxiv.org/abs/2404.10214v3 )

ライセンス: Link先を確認
Rishab Dutta, Delmar G. A. Cabral, Ningyi Lyu, Nam P. Vu, Yuchen Wang, Brandon Allen, Xiaohan Dan, Rodrigo G. Cortiñas, Pouya Khazaei, Max Schäfer, Alejandro C. C. d. Albornoz, Scott E. Smart, Scott Nie, Michel H. Devoret, David A. Mazziotti, Prineha Narang, Chen Wang, James D. Whitfield, Angela K. Wilson, Heidi P. Hendrickson, Daniel A. Lidar, Francisco Pérez-Bernal, Lea F. Santos, Sabre Kais, Eitan Geva, Victor S. Batista, (参考訳) ボソニック量子デバイスは量子計算を実現するための新しいアプローチを提供し、量子二レベル系(量子ビット)は量子シミュレータの基本構成ブロックとして量子(アン)調和振動子(量子モード)に置き換えられる。 化学構造と力学のシミュレーションは、ボソニック作用素の観点でハミルトニアン系を表現またはマッピングすることで達成できる。 本稿では, 分子ビブロニックスペクトルの計算, 気相, 気相, 気相および非気相のシミュレーション, 分子グラフ理論問題の効率的な解法, 電子構造の計算など, 幅広い化学問題にボソニック量子デバイスを応用した最近の進歩と将来の可能性について述べる。

Bosonic quantum devices offer a novel approach to realize quantum computations, where the quantum two-level system (qubit) is replaced with the quantum (an)harmonic oscillator (qumode) as the fundamental building block of the quantum simulator. The simulation of chemical structure and dynamics can then be achieved by representing or mapping the system Hamiltonians in terms of bosonic operators. In this perspective, we review recent progress and future potential of using bosonic quantum devices for addressing a wide range of challenging chemical problems, including the calculation of molecular vibronic spectra, the simulation of gas-phase and solution-phase adiabatic and nonadiabatic chemical dynamics, the efficient solution of molecular graph theory problems, and the calculations of electronic structure.
翻訳日:2024-07-10 01:59:35 公開日:2024-07-05
# オンライン原始双対法による動的イメージングの予測手法

Prediction techniques for dynamic imaging with online primal-dual methods ( http://arxiv.org/abs/2405.02497v2 )

ライセンス: Link先を確認
Neil Dizon, Jyrki Jauhiainen, Tuomo Valkonen, (参考訳) オンライン最適化は、画像安定化、流動モニタリング、ダイナミック医療画像などの動的逆問題の解決を容易にする。 本稿では,2つの面での予測的オンライン原始双対手法に関するこれまでの研究を改良する。 まず、それまでの非対称な後悔境界をシンメライズするより簡潔な解析を行い、二重予測器の以前の制限条件を緩和する。 第2に、後者に基づいて、いくつかの改良された二重予測器を開発する。 画像安定化と動的ポジトロン放射トモグラフィーにおける効果を数値的に示す。

Online optimisation facilitates the solution of dynamic inverse problems, such as image stabilisation, fluid flow monitoring, and dynamic medical imaging. In this paper, we improve upon previous work on predictive online primal-dual methods on two fronts. Firstly, we provide a more concise analysis that symmetrises previously unsymmetric regret bounds, and relaxes previous restrictive conditions on the dual predictor. Secondly, based on the latter, we develop several improved dual predictors. We numerically demonstrate their efficacy in image stabilisation and dynamic positron emission tomography.
翻訳日:2024-07-10 01:49:35 公開日:2024-07-05
# 患者の健康記録における臨床ノートとICD符号の連続予測モデル

Continuous Predictive Modeling of Clinical Notes and ICD Codes in Patient Health Records ( http://arxiv.org/abs/2405.11622v2 )

ライセンス: Link先を確認
Mireia Hernandez Caralt, Clarence Boon Liang Ng, Marek Rei, (参考訳) 電子健康記録 (Electronic Health Records, EHR) は、患者の情報の貴重な情報源であり、医療史、治療、結果に関する洞察を提供する。 従来の研究では、病院滞在の終わりに書かれた放電サマリーを中心に、所定の EHR 文書を書きながら割り当てられるべきICD コードを検出するシステムを開発した。 本研究は, 臨床医に正式に割り当てられる前であっても, 患者全員の在院時間帯を予測できる可能性について検討する。 早期に診断や治療を予測する手法の開発は、病気のリスクの早期発見、治療の提案、資源配分の最適化など、予測医療の機会を開く可能性がある。 本実験では,入試後2日で最終ICD符号の予測が可能であることを示し,この早期予測タスクの性能を向上させるカスタムモデルを提案する。

Electronic Health Records (EHR) serve as a valuable source of patient information, offering insights into medical histories, treatments, and outcomes. Previous research has developed systems for detecting applicable ICD codes that should be assigned while writing a given EHR document, mainly focusing on discharge summaries written at the end of a hospital stay. In this work, we investigate the potential of predicting these codes for the whole patient stay at different time points during their stay, even before they are officially assigned by clinicians. The development of methods to predict diagnoses and treatments earlier in advance could open opportunities for predictive medicine, such as identifying disease risks sooner, suggesting treatments, and optimizing resource allocation. Our experiments show that predictions regarding final ICD codes can be made already two days after admission and we propose a custom model that improves performance on this early prediction task.
翻訳日:2024-07-10 01:39:50 公開日:2024-07-05
# C++、Fortran、Go、Java、Julia、Matlab、Python、R、Rust用のAI生成コードの評価

Evaluating AI-generated code for C++, Fortran, Go, Java, Julia, Matlab, Python, R, and Rust ( http://arxiv.org/abs/2405.13101v2 )

ライセンス: Link先を確認
Patrick Diehl, Noujoud Nader, Steve Brandt, Hartmut Kaiser, (参考訳) 本研究では,ChatGPTバージョン3.5と4の多種多様なプログラミング言語におけるコード生成能力を評価する。 我々の目標は、これらのAIモデルが科学プログラムを生成するための有効性を評価することである。 そこで我々はChatGPTに,単純な数値積分,共役勾配解法,並列1次元ステンシル式熱方程式解法という3つの異なる符号を生成するよう依頼した。 分析の焦点は、コードのコンパイル、実行時のパフォーマンス、正確性でした。 どちらのバージョンのChatGPTも(多少の助けを借りて)コンパイルと実行に成功しているが、いくつかの言語はAIが他の言語よりも使いやすくなった(おそらくはトレーニングセットのサイズのため)。 並列コードは、私たちがここで研究した単純な例でさえも、AIが正しく生成することが難しい。

This study evaluates the capabilities of ChatGPT versions 3.5 and 4 in generating code across a diverse range of programming languages. Our objective is to assess the effectiveness of these AI models for generating scientific programs. To this end, we asked ChatGPT to generate three distinct codes: a simple numerical integration, a conjugate gradient solver, and a parallel 1D stencil-based heat equation solver. The focus of our analysis was on the compilation, runtime performance, and accuracy of the codes. While both versions of ChatGPT successfully created codes that compiled and ran (with some help), some languages were easier for the AI to use than others (possibly because of the size of the training sets used). Parallel codes -- even the simple example we chose to study here -- also difficult for the AI to generate correctly.
翻訳日:2024-07-10 01:29:45 公開日:2024-07-05
# 全変動距離を用いたブラックボックスの識別プライバシー監査

Black Box Differential Privacy Auditing Using Total Variation Distance ( http://arxiv.org/abs/2406.04827v2 )

ライセンス: Link先を確認
Antti Koskela, Jafar Mohammadi, (参考訳) 本稿では、トレーニング中にモデルに露出しない小さなホールドアウトデータセットを用いて、機械学習モデルの差分プライバシー(DP)保証を監査する実践的手法を提案する。 トレーニング中に発生する損失関数などのスコア関数を用いて,トレーニングデータのサブセットから得られたスコア間の総変動(TV)距離を推定する。 基礎となるDPトレーニングアルゴリズムに関するメタ情報により、これらのテレビ距離値は任意の$\delta$に対して$(\varepsilon,\delta)$-guaranteesに変換することができる。 本研究は,これらのスコア分布が,基礎となるトレーニングアルゴリズムのDP保証に対して,漸近的に低い限界を与えることを示すが,実際的な理由から,単発評価を行う。 DP保証の低い境界につながる条件を高い確率で指定する。 スコア分布間のテレビ距離を推定するために,ヒストグラムに基づく簡易密度推定法を用いる。 テレビの距離が最適に頑健な推定器に非常に近いことを示し、誤差レートが$\mathcal{O}(k^{-1/3})$であり、$k$はサンプルの総数であることを示す。 ベンチマークデータセットの数値実験は,提案手法の有効性を示し,ブラックボックス監査におけるベースライン手法の改善を示す。

We present a practical method to audit the differential privacy (DP) guarantees of a machine learning model using a small hold-out dataset that is not exposed to the model during the training. Having a score function such as the loss function employed during the training, our method estimates the total variation (TV) distance between scores obtained with a subset of the training data and the hold-out dataset. With some meta information about the underlying DP training algorithm, these TV distance values can be converted to $(\varepsilon,\delta)$-guarantees for any $\delta$. We show that these score distributions asymptotically give lower bounds for the DP guarantees of the underlying training algorithm, however, we perform a one-shot estimation for practicality reasons. We specify conditions that lead to lower bounds for the DP guarantees with high probability. To estimate the TV distance between the score distributions, we use a simple density estimation method based on histograms. We show that the TV distance gives a very close to optimally robust estimator and has an error rate $\mathcal{O}(k^{-1/3})$, where $k$ is the total number of samples. Numerical experiments on benchmark datasets illustrate the effectiveness of our approach and show improvements over baseline methods for black-box auditing.
翻訳日:2024-07-10 01:20:00 公開日:2024-07-05
# 言語モデルにおけるトークン化バイアスの理解と緩和

Understanding and Mitigating Tokenization Bias in Language Models ( http://arxiv.org/abs/2406.16829v2 )

ライセンス: Link先を確認
Buu Phan, Marton Havasi, Matthew Muckley, Karen Ullrich, (参考訳) State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。 具体的には、次のトークン予測のために言語モデルに渡す前に、条件付き文字列をトークンのリストにエンコードする必要がある。 最大プレフィックス符号化 (MPE) やバイトペア符号化 (BPE) のような一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを誘導する。 この普遍的な問題に対処するため、上記の各符号化方式に対して、トークン化されたデータに基づいて訓練された任意の言語モデルからバイアスのない推定値を得る新しいアルゴリズムを提案する。 提案手法では,モデルの微調整は不要であり,モデル数として定義される複雑性は,MPEの場合のシーケンス長と線形にスケールする。 その結果,トークン化言語モデルからトークンフリーな振る舞いをシミュレートできることがわかった。 従来の言語モデルへのトークンの直接的プロンプト法とは対照的に,マルコフチェーン機構を用いて,遷移確率を正確に回復する手法の正しさを実証的に検証する。

State-of-the-art language models are autoregressive and operate on subword units known as tokens. Specifically, one must encode the conditioning string into a list of tokens before passing to the language models for next-token prediction. We show that popular encoding schemes, such as maximum prefix encoding (MPE) and byte-pair-encoding (BPE), induce a sampling bias that cannot be mitigated with more training or data. To counter this universal problem, for each encoding scheme above, we propose a novel algorithm to obtain unbiased estimates from any language model trained on tokenized data. Our methods do not require finetuning the model, and the complexity, defined as the number of model runs, scales linearly with the sequence length in the case of MPE. As a result, we show that one can simulate token-free behavior from a tokenized language model. We empirically verify the correctness of our method through a Markov-chain setup, where it accurately recovers the transition probabilities, as opposed to the conventional method of directly prompting tokens into the language model.
翻訳日:2024-07-10 01:00:13 公開日:2024-07-05
# 影の中のシルバーライニング:機械学習におけるメンバーシップ推論を損なう

Silver Linings in the Shadows: Harnessing Membership Inference for Machine Unlearning ( http://arxiv.org/abs/2407.00866v2 )

ライセンス: Link先を確認
Nexhi Sula, Abhinav Kumar, Jie Hou, Han Wang, Reza Tourani, (参考訳) 機械学習(ML)モデルの進歩と、さまざまな領域で広く採用されているため、ユーザのプライバシとデータセキュリティが最重要課題となっている。 GDPRのようなデータプライバシ規制に従えば、セキュアな機械学習フレームワークは、モデルトレーニングに使用するコントリビューションデータの削除を要求する権利をユーザに与えるだけでなく、マシンラーニングモデル内の機密データ指紋の除去を促進して、潜在的な攻撃を緩和する — マシンラーニングと呼ばれるプロセスだ。 本研究では、ニューラルネットワークから特定のデータサンプルの影響を効果的に除去し、未学習モデルの性能を第一課題に配慮した新しい学習メカニズムを提案する。 この目的を達成するために、ターゲット分類損失とメンバーシップ推論損失を組み合わせることで、ターゲットモデルの重みとアクティベーション値からプライバシーに敏感な情報を排除できる新しい損失関数を構築した。 適応可能なフレームワークは、さまざまなプライバシー漏洩近似機構を組み込んで、未学習プロセスを導出することができる。 本研究では,概念実証として会員推論機構を用いた理論上界解析を用いて,未学習アプローチの有効性の実証的証拠を提供する。 本研究の結果は,4つのデータセットと4つのディープラーニングアーキテクチャにまたがって,未学習の有効性とレイテンシ,およびメインタスクの忠実度の観点から,我々のアプローチの優れたパフォーマンスを示すものである。

With the continued advancement and widespread adoption of machine learning (ML) models across various domains, ensuring user privacy and data security has become a paramount concern. In compliance with data privacy regulations, such as GDPR, a secure machine learning framework should not only grant users the right to request the removal of their contributed data used for model training but also facilitates the elimination of sensitive data fingerprints within machine learning models to mitigate potential attack - a process referred to as machine unlearning. In this study, we present a novel unlearning mechanism designed to effectively remove the impact of specific data samples from a neural network while considering the performance of the unlearned model on the primary task. In achieving this goal, we crafted a novel loss function tailored to eliminate privacy-sensitive information from weights and activation values of the target model by combining target classification loss and membership inference loss. Our adaptable framework can easily incorporate various privacy leakage approximation mechanisms to guide the unlearning process. We provide empirical evidence of the effectiveness of our unlearning approach with a theoretical upper-bound analysis through a membership inference mechanism as a proof of concept. Our results showcase the superior performance of our approach in terms of unlearning efficacy and latency as well as the fidelity of the primary task, across four datasets and four deep learning architectures.
翻訳日:2024-07-10 00:40:30 公開日:2024-07-05
# 信頼に足るフェデレーション学習におけるプライバシとユーティリティのトレードオフのための統一学習データフレームワーク

A Unified Learn-to-Distort-Data Framework for Privacy-Utility Trade-off in Trustworthy Federated Learning ( http://arxiv.org/abs/2407.04751v1 )

ライセンス: Link先を確認
Xiaojin Zhang, Mingcong Xu, Wei Chen, (参考訳) 本稿では,ベイズ的プライバシー定義と全変動距離プライバシー定義に基づくフェデレーション学習におけるプライバシー利用均衡の理論的基礎について紹介する。 次に、プライバシ保存機構がもたらす歪みを学習可能な変数として明示的にモデル化し、モデルパラメータと協調して最適化することで、プライバシユーティリティ均衡をナビゲートする原則的なアプローチを提供する。 本稿では,データ歪みに基づくさまざまなプライバシ保護機構へのフレームワークの適用性を実証し,敵のトレーニングや入力の堅牢性,学習不可能な例など,関連分野との関係を明らかにする。 これらの接続により、これらの領域からのテクニックを活用して、‘textit{Learn-to-Distort-Data}フレームワーク下でのフェデレーション学習におけるプライバシー利用均衡のための効果的なアルゴリズムを設計することができる。

In this paper, we first give an introduction to the theoretical basis of the privacy-utility equilibrium in federated learning based on Bayesian privacy definitions and total variation distance privacy definitions. We then present the \textit{Learn-to-Distort-Data} framework, which provides a principled approach to navigate the privacy-utility equilibrium by explicitly modeling the distortion introduced by the privacy-preserving mechanism as a learnable variable and optimizing it jointly with the model parameters. We demonstrate the applicability of our framework to a variety of privacy-preserving mechanisms on the basis of data distortion and highlight its connections to related areas such as adversarial training, input robustness, and unlearnable examples. These connections enable leveraging techniques from these areas to design effective algorithms for privacy-utility equilibrium in federated learning under the \textit{Learn-to-Distort-Data} framework.
翻訳日:2024-07-09 22:46:24 公開日:2024-07-05
# SpikeLLM: サイリエンシベースのスパイクにより、ニューラルネットワークを大規模言語モデルにスケールアップする

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking ( http://arxiv.org/abs/2407.04752v1 )

ライセンス: Link先を確認
Xingrun Xing, Boyan Gao, Zheng Zhang, David A. Clifton, Shitao Xiao, Li Du, Guoqi Li, Jiajun Zhang, (参考訳) 数十億のパラメータを持つ大規模言語モデル(LLM)の最近の進歩は、様々な現実世界のアプリケーションでその性能を大幅に向上させた。 しかしながら、これらのモデルの推論プロセスは、かなりのエネルギーと計算資源を必要とし、相当な展開課題を提示する。 対照的に、約86億の生物学的ニューロンを含むヒトの脳は、同様の数のパラメータを持つLSMに比べて、エネルギー効率が著しく高い。 そこで本研究では,ヒト脳の効率的な動作をエミュレートするバイオプレースブルスパイキング機構を用いて,700億から700億のパラメータLSMを再設計した。 本稿では,SpykeLLM と呼ばれる最近の LLM として,最初のスパイク大言語モデルを提案する。 提案モデルと組み合わせたスパイク駆動量子化フレームワークであるOptimal Brain Spikingを導入し、エネルギーコストを削減し、第1(第2)次微分に基づくサルエントチャネル検出と、一般積分およびファイアニューロンを用いたチャネルごとサルエントアウトリー展開という2つの基本的なアプローチにより推論速度を加速する。 提案するスパイク駆動量子化は,量子化学習法の主要なストリームをプラグインすることができる。 OmniQuantパイプラインでは、SpikeLLMは25.51%のWikiText2パープレキシティを著しく削減し、LLAMA2-7B 4A4Wモデルで6つのゼロショットデータセットの平均精度を3.08%改善した。 GPTQパイプラインでは、SpikeLLMはスパース3次量子化を実現し、すべての線形層において付加性を達成する。 PB-LLMと同じような操作で比較すると、SpikeLLMは大幅に上回っている。 コードをGitHubでリリースします。

The recent advancements in large language models (LLMs) with billions of parameters have significantly boosted their performance across various real-world applications. However, the inference processes for these models require substantial energy and computational resources, presenting considerable deployment challenges. In contrast, human brains, which contain approximately 86 billion biological neurons, exhibit significantly greater energy efficiency compared to LLMs with a similar number of parameters. Inspired by this, we redesign 7 to 70 billion parameter LLMs using bio-plausible spiking mechanisms, emulating the efficient behavior of the human brain. We propose the first spiking large language model as recent LLMs termed SpikeLLM. Coupled with the proposed model, a novel spike-driven quantization framework named Optimal Brain Spiking is introduced to reduce the energy cost and accelerate inference speed via two essential approaches: first (second)-order differentiation-based salient channel detection, and per-channel salient outlier expansion with Generalized Integrate-and-Fire neurons. Our proposed spike-driven quantization can plug in main streams of quantization training methods. In the OmniQuant pipeline, SpikeLLM significantly reduces 25.51% WikiText2 perplexity and improves 3.08% average accuracy of 6 zero-shot datasets on a LLAMA2-7B 4A4W model. In the GPTQ pipeline, SpikeLLM realizes a sparse ternary quantization, which achieves additive in all linear layers. Compared with PB-LLM with similar operations, SpikeLLM also exceeds significantly. We will release our code on GitHub.
翻訳日:2024-07-09 22:46:24 公開日:2024-07-05
# 拡張型深層学習収量を用いた睡眠深度指標の注釈付け : 睡眠健康のための新しいデジタルバイオマーカー

Annotation of Sleep Depth Index with Scalable Deep Learning Yields Novel Digital Biomarkers for Sleep Health ( http://arxiv.org/abs/2407.04753v1 )

ライセンス: Link先を確認
Songchi Zhou, Ge Song, Haoqi Sun, Yue Leng, M. Brandon Westover, Shenda Hong, (参考訳) 伝統的な睡眠ステージは、睡眠と覚醒を5つの粗いクラスに分類し、各ステージの微妙な変化を見越す。 覚醒の確率についての限られた情報を提供し、不眠症などの睡眠障害の診断を妨げる可能性がある。 そこで本研究では,既存の睡眠ステージリングラベルを用いた睡眠深度指標の自動的かつスケーラブルなアノテーションのディープラーニング手法を提案する。 本手法は4つの大規模コホートにまたがる1万以上の録音からポリソムノグラフィーを用いて検証した。 その結果,睡眠深度指数の低下と覚醒可能性の増加との間には強い相関が認められた。 いくつかのケーススタディでは、睡眠深度指数が従来の睡眠ステージよりもニュアンスな睡眠構造を捉えることが示されている。 睡眠深度指数から抽出した睡眠バイオマーカーは、主観的睡眠品質と不眠症症状の異なる群間で、中~大規模効果の大きさと統計的に有意な差を示した。 これらの睡眠バイオマーカーは、特に重篤なケースにおいて、閉塞性睡眠時無呼吸の重症度を予測するためにも有効である。 本研究は, 睡眠中の詳細な構造や動態を明らかにし, 睡眠に有用な新しいバイオマーカーを提示する継続的睡眠深度アノテーションの有用性を実証する。

Traditional sleep staging categorizes sleep and wakefulness into five coarse-grained classes, overlooking subtle variations within each stage. It provides limited information about the probability of arousal and may hinder the diagnosis of sleep disorders, such as insomnia. To address this issue, we propose a deep-learning method for automatic and scalable annotation of sleep depth index using existing sleep staging labels. Our approach is validated using polysomnography from over ten thousand recordings across four large-scale cohorts. The results show a strong correlation between the decrease in sleep depth index and the increase in arousal likelihood. Several case studies indicate that the sleep depth index captures more nuanced sleep structures than conventional sleep staging. Sleep biomarkers extracted from the whole-night sleep depth index exhibit statistically significant differences with medium-to-large effect sizes across groups of varied subjective sleep quality and insomnia symptoms. These sleep biomarkers also promise utility in predicting the severity of obstructive sleep apnea, particularly in severe cases. Our study underscores the utility of the proposed method for continuous sleep depth annotation, which could reveal more detailed structures and dynamics within whole-night sleep and yield novel digital biomarkers beneficial for sleep health.
翻訳日:2024-07-09 22:46:24 公開日:2024-07-05
# デチューニング制御によるロバストダブルブラッグ回折

Robust double Bragg diffraction via detuning control ( http://arxiv.org/abs/2407.04754v1 )

ライセンス: Link先を確認
Rui Li, V. J. Martínez-Lahuerta, S. Seckmeyer, Klemens Hammerer, Naceur Gaaloul, (参考訳) 原子間干渉法において広く用いられている2重ブラッグ回折(DBD)の新たな理論モデルと数値最適化について述べる。 我々は、ほとんどのブラッグパルス原子干渉計が動作するいわゆる「準ブラッグ系」におけるマグナス展開に基づく効果的な2レベルハミルトニアンを導出する。 さらに,ドップラーの変形を考慮した5段階の記述に拡張する。 これらの導出された実効ハミルトニアンを用いて、二重ブラッグビームスプリッターにおける交流スタークシフトと偏光誤差の影響と、デチューニング制御による緩和について検討する。 特に、偏極誤差に対して99.5%を超える堅牢な効率を最大8.5%まで示す線形デチューニングスイープを設計する。 さらに,偏極誤差とドップラー効果の両方に対して強靭性を示す人工知能支援型最適デチューニング制御プロトコルを開発した。 このプロトコルは、有限運動量幅0.05$\hbar k_L$のサンプルに対して、最大10%まで拡張偏光誤差範囲で99.92%の平均効率を達成する。

We present a new theoretical model and numerical optimization of double Bragg diffraction (DBD), a widely used technique in atom interferometry. We derive an effective two-level-system Hamiltonian based on the Magnus expansion in the so-called "quasi-Bragg regime", where most Bragg-pulse atom interferometers operate. Furthermore, we extend the theory to a five-level description to account for Doppler detuning. Using these derived effective Hamiltonians, we investigate the impacts of AC-Stark shift and polarization errors on the double Bragg beam-splitter, along with their mitigations through detuning control. Notably, we design a linear detuning sweep that demonstrates robust efficiency exceeding 99.5% against polarization errors up to 8.5%. Moreover, we develop an artificial intelligence-aided optimal detuning control protocol, showcasing enhanced robustness against both polarization errors and Doppler effects. This protocol achieves an average efficiency of 99.92% for samples with a finite momentum width of 0.05$\hbar k_L$ within an extended polarization error range of up to 10%.
翻訳日:2024-07-09 22:46:24 公開日:2024-07-05
# 高調波発生の量子光学的側面

Quantum Optical Aspects of High-Harmonic Generation ( http://arxiv.org/abs/2407.04755v1 )

ライセンス: Link先を確認
Sándor Varró, (参考訳) 強いレーザー場と電子の相互作用は通常、レーザーが外部磁場で表される半古典理論で扱われる。 レーザー場との相互作用を正確に組み込んだ自由電子波動関数の解析解があるが、原子結合電位の結合効果は解析の障害となる。 さらに、放射線は力学系であり、相互作用中に光子の数が変化する。 したがって、電子-原子相互作用と放射の量子化された性質を同時に考慮して、高次過程を非摂動的に扱うことができるのかを問うことは合法である。 非相対論的量子電磁力学の枠組みにおいて、この問題に答える分析法が提案されている。 応用として、強磁場クラマース・ハイゼンベルクの公式の量子光学的一般化は、高調波発生を記述するために導かれる。 我々の定式化は、様々な量子効果の中で、入射場の任意の光子統計学の役割を解析するのに適している。 この論文は、何十年にもわたって強磁場現象の理論に大きく貢献してきたフリッツ・エロツキー博士の記憶に捧げられている。

The interaction of electrons with strong laser fields is usually treated with semiclassical theory, where the laser is represented by an external field. There are analytic solutions for the free electron wave functions, which incorporate the interaction with the laser field exactly, but the joint effect of the atomic binding potential presents an obstacle for the analysis. Moreover, the radiation is a dynamical system, the number of photons changes during the interactions. Thus, it is legitimate to ask how can one treat the high order processes nonperturbatively, in such a way that the electron-atom interaction and the quantized nature of radiation be simultaneously taken into account? An analytic method is proposed to answer this question in the framework of nonrelativistic quantum electrodynamics. As an application, a quantum optical generalization of the strong-field Kramers-Heisenberg formula is derived for describing high-harmonic generation. Our formalism is suitable to analyse, among various quantal effects, the possible role of arbitrary photon statistics of the incoming field. The present paper is dedicated to the memory of Prof. Dr. Fritz Ehlotzky, who had significantly contributed to the theory of strong-field phenomena over many decades.
翻訳日:2024-07-09 22:46:24 公開日:2024-07-05
# ディラック系のハミルトン的定式化について

On Hamiltonian formulations of the Dirac system ( http://arxiv.org/abs/2407.04756v1 )

ライセンス: Link先を確認
Bence Juhász, László Árpád Gergely, (参考訳) まず、古典的ディラック場をスピノリアル変数として論じ、適切に定義されたモータと適切に修正された係数順序のポアソンブラケットを導入する。ディラック・ベルグマンアルゴリズムによれば、2つの第二級ハミルトニアン制約が出現し、全位相空間上でディラックブラケットを順序付ける。 これは、シェルに適応した正準チャートの位相空間の縮小されたポアソンブラケットとなる。 ディラック方程式は全位相空間上の整合条件と縮小位相空間上の正準方程式の両方として回収される。 あるいは、ディラック場を奇グラスマン変数として考えると、ディラック・ベルグマンアルゴリズムの詳細(グラスマンに作用する左導関数とリー導関数のどちらかが超函数であり、異なる種類の一般化されたポアソンとディラックブラケットを含む)を示す。 一般化されたディラックブラケットの3つのバージョンすべてに対する正準第二量子化法を提案する。

We extend a previously successful discussion of the constrained Schr\"{o}dinger system through the Dirac--Bergmann algorithm to the case of the Dirac field. In order to follow the analogy, first we discuss the classical Dirac field as a spinorial variable, by introducing properly defined momenta and a suitably modified, factor ordered Poisson bracket. According to the Dirac--Bergmann algorithm two second class Hamiltonian constraints emerge, leading to a factor ordered Dirac bracket on the full phase space. This becomes the Poisson bracket on the reduced phase space in the canonical chart adapted to the shell. The Dirac equation is recovered both as consistency condition on the full phase space and as canonical equation on the reduced phase space. Alternatively, considering the Dirac field as odd Grassmann variable, we present the details of the Dirac--Bergmann algorithm (with either left and righ derivatives acting on Grassmann valued superfunctions and involving a different type of generalized Poisson and Dirac brackets). We propose a recipe for the canonical second quantization of all three versions of the generalized Dirac brackets, yielding the correct fundamental anticommutator.
翻訳日:2024-07-09 22:46:24 公開日:2024-07-05
# ARM Morelloのセキュアな巻き戻しとディスク

Secure Rewind and Discard on ARM Morello ( http://arxiv.org/abs/2407.04757v1 )

ライセンス: Link先を確認
Sacha Ruchlejmer, (参考訳) CやC++のようなメモリアンセーフなプログラミング言語は、システムプログラミング、組み込みシステム、パフォーマンスクリティカルなアプリケーションにとって好まれる言語である。 これらの言語が広く使われているため、メモリ関連の攻撃のリスクは非常に高い。 よく知られている検出メカニズムがありますが、ソフトウェアのレジリエンスには対処していません。 以前のアプローチでは、ハードウェア強化メモリ保護キー(MPK)に基づいて、x86アーキテクチャのランタイムアタックをターゲットとしたソフトウェアのレジリエンスを高める方法として、分離ドメインのセキュアドメイン再巻き戻し(SDRaD)が提案されていた。 この研究でSDRaDは、より軽量で高性能なCapability Hardware Enhanced RISC Instructions (CHERI)アーキテクチャで動作するように適応された。 この論文で得られた結果は、CHERIアーキテクチャ固有のメモリ安全性特性を活用するプロトタイプであるCHERI-SDRaDが、Intelベースのアーキテクチャ上での最初のSDRaDプロトタイプで得られた結果と比較して、パフォーマンス劣化の少ない(Nginxベンチマークの2.2%)ソリューションであることを示している。 CHERIへの適応により、MPKベースのアプローチに固有の制限が解決された。

Memory-unsafe programming languages such as C and C++ are the preferred languages for systems programming, embedded systems, and performance-critical applications. The widespread use of these languages makes the risk of memory-related attacks very high. There are well-known detection mechanisms, but they do not address software resilience. An earlier approach proposes the Secure Domain Rewind and Discard (SDRaD) of isolated domains as a method to enhance the resilience of software targeted by runtime attacks on x86 architecture, based on hardware-enforced Memory Protection Key (MPK). In this work, SDRaD has been adapted to work with the Capability Hardware Enhanced RISC Instructions (CHERI) architecture to be more lightweight and performant. The results obtained in this thesis show that CHERI-SDRaD, the prototype adaption that leverages the memory-safety properties inherent to the CHERI architecture, results in a solution with less performance degradation (2.2% in Nginx benchmarks) compared to earlier results obtained with the original SDRaD prototype on an Intel-based architecture. The adaption to CHERI additionally allowed limitations inherent to the MPK-based approach to be resolved.
翻訳日:2024-07-09 22:46:24 公開日:2024-07-05
# SPINEX:異常・異常検出のための説明可能な近傍探索と類似性に基づく予測

SPINEX: Similarity-based Predictions with Explainable Neighbors Exploration for Anomaly and Outlier Detection ( http://arxiv.org/abs/2407.04760v1 )

ライセンス: Link先を確認
MZ Naser, Ahmed Z Naser, (参考訳) 本稿では,SPINEX(Similarity-based Predictions with Explainable Neighbors Exploration)ファミリーの異常・異常検出アルゴリズムを提案する。 このアルゴリズムは、複数の部分空間にまたがる類似性と高次相互作用の概念を活用して、外れ値の同定を行う。 SPINEXの性能を評価するための総合的な実験を行った。 このアルゴリズムは、一般的な21種類の異常検出アルゴリズム、すなわち、アングルベース外乱検出(ABOD)、接続性ベース外乱検出(COF)、コプラベース外乱検出(COPOD)、ECOD、楕円エンベロープ(EE)、KNN、ガウス混合モデル(GMM)、ヒストグラムベース外乱スコア(HBOS)、アイソレーションフォレスト(IF)、孤立ニューラルネットワークアンサンブル(INNE)、カーネル密度推定(KDE)、K-Nearest Neighbors(KNN)、軽量オンライン異常検出(LODA)、線形モデル偏差検出(LMLMDD)、局所的外乱検出(LODA)、最小共分散(LODA)、最小共分散(MCD)、SVM(SVM)、SCD(SCD)、SCD(SCD)、SCD(SCD)、SPSOS(S)、SSO(S)、SSO(SSO)、SSO(S)などについて検討した。 さらに,提案アルゴリズムの複雑性を調べるために,複雑性解析を行った。 以上の結果から,SPINEXは性能が優れ,異常検出アルゴリズムに優れ,やや複雑である(例: O(n log n d))。 より具体的には、SPINEXは、合成データセットのアルゴリズムのトップと、実際のデータセットの7番目にランクされている。 最後に,SPINEXにおける説明可能性の実証と今後の研究ニーズについて述べる。

This paper presents a novel anomaly and outlier detection algorithm from the SPINEX (Similarity-based Predictions with Explainable Neighbors Exploration) family. This algorithm leverages the concept of similarity and higher-order interactions across multiple subspaces to identify outliers. A comprehensive set of experiments was conducted to evaluate the performance of SPINEX. This algorithm was examined against 21 commonly used anomaly detection algorithms, namely, namely, Angle-Based Outlier Detection (ABOD), Connectivity-Based Outlier Factor (COF), Copula-Based Outlier Detection (COPOD), ECOD, Elliptic Envelope (EE), Feature Bagging with KNN, Gaussian Mixture Models (GMM), Histogram-based Outlier Score (HBOS), Isolation Forest (IF), Isolation Neural Network Ensemble (INNE), Kernel Density Estimation (KDE), K-Nearest Neighbors (KNN), Lightweight Online Detector of Anomalies (LODA), Linear Model Deviation-based Detector (LMDD), Local Outlier Factor (LOF), Minimum Covariance Determinant (MCD), One-Class SVM (OCSVM), Quadratic MCD (QMCD), Robust Covariance (RC), Stochastic Outlier Selection (SOS), and Subspace Outlier Detection (SOD), and across 39 synthetic and real datasets from various domains and of a variety of dimensions and complexities. Furthermore, a complexity analysis was carried out to examine the complexity of the proposed algorithm. Our results demonstrate that SPINEX achieves superior performance, outperforms commonly used anomaly detection algorithms, and has moderate complexity (e.g., O(n log n d)). More specifically, SPINEX was found to rank at the top of algorithms on the synthetic datasets and the 7th on the real datasets. Finally, a demonstration of the explainability capabilities of SPINEX, along with future research needs, is presented.
翻訳日:2024-07-09 22:46:24 公開日:2024-07-05
# 時間的相関非古典雑音による動的エラー抑制とゲートエラー仮想化の限界

Limitations to Dynamical Error Suppression and Gate-Error Virtualization from Temporally Correlated Nonclassical Noise ( http://arxiv.org/abs/2407.04766v1 )

ライセンス: Link先を確認
Michiel Burgelman, Nattaphong Wonglakhon, Diego N. Bernal-García, Gerardo A. Paz-Silva, Lorenza Viola, (参考訳) 現実的なマルチキュービットノイズプロセスは、確率論的、マルコフ的誤差モデルが量子フォールトトレランスの回路レベル解析によく用いられるようなエラー機構をもたらす。 オープン量子系ハミルトニアンの定式化の中で作業することにより、時間的相関と非古典的相関の両方を持つノイズの存在下での定ゲート誤差の概念の妥当性を再検討し、その影響は有限タイミング制約を受ける完全な瞬間的動的疎結合によって緩和される。 ガウス量子復号化雑音下では, システム側誤差伝搬が完全リセット操作によって完全に除去された場合でも, 動的に保護されたアイドリングゲートの忠実度は回路内の位置と適用制御履歴に強く依存することを示した。 ディジタル周期制御では,非古典的雑音スペクトルの低周波挙動の緩やかな条件下では,制御履歴がない場合に達成できるものよりも厳密に小さい値でゲート忠実度が飽和し,制御誘起共鳴効果の出現により,高周波雑音ピークの存在も特に有害であることが示された。 これらの特徴は,既存の処理では十分に考慮されていない浴槽統計の進化と明確に関連している。 ノイズの相関時間よりも大きな時間スケールでキュービットを高純度に保つことができれば,浴槽は元の統計値にほぼ収束し,安定時間制御性能が回復する。 層状量子フォールトトレラントアーキテクチャにおける量子バス統計の高コスト再平衡の意義について論じる。

Realistic multi-qubit noise processes often result in error mechanisms that are not captured by the probabilistic, Markovian error models commonly employed in circuit-level analyses of quantum fault-tolerance. By working within an open-quantum system Hamiltonian formulation, we revisit the validity of the notion of a constant gate error in the presence of noise that is both {\em temporally correlated and nonclassical}, and whose impact is mitigated through perfect instantaneous dynamical decoupling subject to finite timing constraints. We study a minimal exactly solvable single-qubit model under Gaussian quantum dephasing noise, showing that the fidelity of a dynamically protected idling gate can depend strongly on its {\em location in the circuit and the history of applied control}, even when the system-side error propagation is fully removed through perfect reset operations. For digital periodic control, we prove that, under mild conditions on the low-frequency behavior of the nonclassical noise spectrum, the gate fidelity saturates at a value that is strictly smaller than the one attainable in the absence of control history; the presence of high-frequency noise peaks is also found as especially harmful, due to the possible onset of control-induced resonance effects. We explicitly relate these features to the evolution of the bath statistics during the computation, which has not been fully accounted for in existing treatments. We find that only if decoupling can keep the qubit highly pure over a timescale larger than the correlation time of the noise, the bath approximately converges to its original statistics and a stable-in-time control performance is recovered. Implications of this costly re-equilibration of the quantum bath statistics for layered quantum fault-tolerant architectures are discussed.
翻訳日:2024-07-09 22:36:40 公開日:2024-07-05
# ノイズ量子ハードウェアの動的熱化

Dynamic thermalization on noisy quantum hardware ( http://arxiv.org/abs/2407.04770v1 )

ライセンス: Link先を確認
H. Perrin, T. Scoquart, A. I. Pavlov, N. V. Gnezdilov, (参考訳) 大域的クエンチ後の緩和は、閉じた量子系の熱化を探索する自然な方法である。 クエンチ後にシステムがリラックスすると、熱可観測物は制約のない状態で現われる。 本研究では,システムのサイズや長期進化に依存しないグローバルなクエンチプロトコルを実現する上で,観測可能量の平均化に基づく熱化機構を実証する。 クエンチは、数体系のランダム強度の全て対全結合を突然確立し、ダイナミクスを初期化する。 クエンチの直後に、ランダムカップリングの実現よりも平均的な観測値が定常となる。 多体エネルギー状態の平均的な占有確率は、ギブス分布に対して、初期状態のエネルギーに依存する有限の正または負の絶対温度と、系の閉じ込められたスペクトルによって生じる負の温度とに等しくなる。 4量子ビットのIBM量子コンピュータ(IBMQ)で実験を行い、熱観測可能温度の予測と正あるいは負の絶対温度の変動に対するディジタル量子コンピュータの有用性を報告する。 IBMQにおける熱化の実装により、この結果は熱平衡の動的出現と、ノイズの多い中間スケール量子ハードウェア上での有限温度における物質の平衡特性の証明を促進する。

Relaxation after a global quench is a natural way to probe thermalization in closed quantum systems. When a system relaxes after the quench, thermal observables emerge in the absence of constraints, provided long-time averaging or a large system. We demonstrate a thermalization mechanism based on averaging the observables over realizations of a global quench protocol that does not rely on a system's size or long-time evolution. The quench abruptly establishes all-to-all couplings of random strength in a few-body system and initializes the dynamics. Shortly after the quench, the observables averaged over realizations of random couplings become stationary. The average occupation probabilities of many-body energy states equilibrate toward the Gibbs distribution with a finite positive or negative absolute temperature that depends on the initial state's energy, with the negative temperatures occurring due to the confined spectrum of the system. Running an experiment on an IBM Quantum computer (IBMQ) for four qubits, we report the utility of the digital quantum computer for predicting thermal observables and their fluctuations for positive or negative absolute temperatures. Implementing thermalization on IBMQ, this result facilitates probing the dynamical emergence of thermal equilibrium and, consequently, equilibrium properties of matter at finite temperatures on noisy intermediate-scale quantum hardware.
翻訳日:2024-07-09 22:36:40 公開日:2024-07-05
# 量子ロングランジモデルに対する変圧器波動関数

Transformer Wave Function for Quantum Long-Range models ( http://arxiv.org/abs/2407.04773v1 )

ライセンス: Link先を確認
Sebastián Roca-Jerat, Manuel Gallego, Fernando Luis, Jesús Carrete, David Zueco, (参考訳) 我々は、視覚変換器(ViT)アーキテクチャに基づくニューラルネットワークアーキテクチャを用いて、量子長範囲モデルの基底状態、特に異なる相互作用状態におけるスピン-1/2鎖の逆場イジングモデルを見つける。 長距離相関を捕捉する変換器の容量を考慮し、強磁性および反強磁性の両方の場合において、モデルの全位相図と臨界特性を計算する。 以上の結果から,ViTは全位相図全体にわたって高い精度を維持していることが明らかとなった。 これらの結果と文献における過去の数値研究を比較し、特に、VTが制限ボルツマン機械的なアンサッツよりも優れた性能を示すことを示す。

We employ a neural-network architecture based on the Vision Transformer (ViT) architecture to find the ground states of quantum long-range models, specifically the transverse-field Ising model for spin-1/2 chains across different interaction regimes. Harnessing the transformer's capacity to capture long-range correlations, we compute the full phase diagram and critical properties of the model, in both the ferromagnetic and antiferromagnetic cases. Our findings show that the ViT maintains high accuracy across the full phase diagram. We compare these results with previous numerical studies in the literature and, in particular, show that the ViT has a superior performance than a restricted-Boltzmann-machine-like ansatz.
翻訳日:2024-07-09 22:36:40 公開日:2024-07-05
# 補助住宅居住者に対する公共統計のプライバシーリスクの定量化

Quantifying Privacy Risks of Public Statistics to Residents of Subsidized Housing ( http://arxiv.org/abs/2407.04776v1 )

ライセンス: Link先を確認
Ryan Steed, Diana Qing, Zhiwei Steven Wu, (参考訳) アメリカ合衆国国勢調査局が新たな情報開示回避システムを実装しているため、研究者や政策立案者は、公共統計のために新しいプライバシー保護の必要性について議論している。 補助住宅の回答者は、故意に無許可の子供や、追放されることを恐れて他の世帯メンバーに言及しないかもしれない。 2010年12月の国勢調査と住宅都市開発省の公的統計を組み合わせることで、2010年に居住ガイドラインに違反している補助世帯を識別できる簡易で安価な復興攻撃を実演する。 合成データに関する実験では、Census Bureauの2010年の開示回避対策に類似したランダムスワップ機構は、この攻撃の精度を著しく低下させるものではないことが示唆されている。 我々の結果は、信頼できる正確な国勢調査を求める政策立案者にとって貴重な例である。

As the U.S. Census Bureau implements its controversial new disclosure avoidance system, researchers and policymakers debate the necessity of new privacy protections for public statistics. With experiments on both published statistics and synthetic data, we explore a particular privacy concern: respondents in subsidized housing may deliberately not mention unauthorized children and other household members for fear of being evicted. By combining public statistics from the Decennial Census and the Department of Housing and Urban Development, we demonstrate a simple, inexpensive reconstruction attack that could identify subsidized households living in violation of occupancy guidelines in 2010. Experiments on synthetic data suggest that a random swapping mechanism similar to the Census Bureau's 2010 disclosure avoidance measures does not significantly reduce the precision of this attack, while a differentially private mechanism similar to the 2020 disclosure avoidance system does. Our results provide a valuable example for policymakers seeking a trustworthy, accurate census.
翻訳日:2024-07-09 22:36:40 公開日:2024-07-05
# 量子信号処理の複雑化とラミフィケーション

Complexification of Quantum Signal Processing and its Ramifications ( http://arxiv.org/abs/2407.04780v1 )

ライセンス: Link先を確認
V. M. Bastidas, K. J. Joven, (参考訳) 近年、時空二重量子回路の理論的および実験的研究への関心が高まっている。 それらはユニークな性質を示し、多様な分野に応用できる。 周期時空双対量子回路は、フロケ作用素によって定義される反復構造のために特に興味深い。 量子信号処理(Quantum Signal Processing, QSP)は、既知の全ての量子アルゴリズムを具現化するフレームワークである。 しかし、これらの2つの明らかに異なる概念の間に深い関係があるかどうかは不明である。 本研究では、単一周期でフロケ作用素を定義する回路とリー代数 sl$(2,\mathbb{C})$ に対する時空双対定義 QSP 列の関係を定め、これは su$(2)$ の複素化である。 まず、複素化QSP系列は密度行列上のローレンツ群の作用の観点から解釈でき、ユニタリと測定を含むハイブリッド回路として解釈できることを示す。 また、このQSP列のユニタリ表現は無限次元であり、ハイゼンベルク図形のボゾン作用素に対して定義される。 最後に、複素化 QSP と sl$(2,\mathbb{C})$ の非線形フーリエ変換の関係を示す。

In recent years there has been an increasing interest on the theoretical and experimental investigation of space-time dual quantum circuits. They exhibit unique properties and have applications to diverse fields. Periodic space-time dual quantum circuits are of special interest, due to their iterative structure defined by the Floquet operator. A very similar iterative structure naturally appears in Quantum Signal processing (QSP), which has emerged as a framework that embodies all the known quantum algorithms. However, it is yet unclear whether there is deeper relation between these two apparently different concepts. In this work, we establish a relation between a circuit defining a Floquet operator in a single period and its space-time dual defining QSP sequences for the Lie algebra sl$(2,\mathbb{C})$, which is the complexification of su$(2)$. First, we show that our complexified QSP sequences can be interpreted in terms of action of the Lorentz group on density matrices and that they can be interpreted as hybrid circuits involving unitaries and measurements. We also show that unitary representations of our QSP sequences exist, although they are infinite-dimensional and are defined for bosonic operators in the Heisenberg picture. Finally, we also show the relation between our complexified QSP and the nonlinear Fourier transform for sl$(2,\mathbb{C})$, which is a generalization of the previous results on su$(2)$ QSP.
翻訳日:2024-07-09 22:36:40 公開日:2024-07-05
# 安定リストデコーディングによる非依存的個人密度推定

Agnostic Private Density Estimation via Stable List Decoding ( http://arxiv.org/abs/2407.04783v1 )

ライセンス: Link先を確認
Mohammad Afzali, Hassan Ashtiani, Christopher Liaw, (参考訳) 安定リストデコーディング(stable list decoding)と呼ばれる新しい安定性の概念を導入し、微分プライベート密度推定器の設計への適用性を実証する。 この定義は、大域的安定性 [ABLMM22] よりも弱く、複製性 [ILPS22] とリスト複製性 [CMY23] の概念と関連している。 分布のクラスが安定なリストデオード可能であれば、非依存的な設定でプライベートに学習できることが示される。 筆者らのフレームワークの主な応用として,ガウス混合モデル(Gaussian Mixture Models, Afzali et al [AAL24])における個人密度推定のサンプル複雑性に関する最初の上限を証明し,Afzaliらによる実現可能な結果を拡張した。

We introduce a new notion of stability--which we call stable list decoding--and demonstrate its applicability in designing differentially private density estimators. This definition is weaker than global stability [ABLMM22] and is related to the notions of replicability [ILPS22] and list replicability [CMY23]. We show that if a class of distributions is stable list decodable, then it can be learned privately in the agnostic setting. As the main application of our framework, we prove the first upper bound on the sample complexity of private density estimation for Gaussian Mixture Models in the agnostic setting, extending the realizable result of Afzali et al. [AAL24].
翻訳日:2024-07-09 22:36:40 公開日:2024-07-05
# 高NA共振器におけるキャビティQED

Cavity QED in a High NA Resonator ( http://arxiv.org/abs/2407.04784v1 )

ライセンス: Link先を確認
Danial Shadmany, Aishwarya Kumar, Anna Soper, Lukas Palm, Chuan Yin, Henry Ando, Bowen Li, Lavanya Taneja, Matt Jaffe, David Schuster, Jon Simon, (参考訳) 光-物質相互作用の基礎研究から量子ネットワークとセンシングへの応用に至るまで、空洞量子電磁力学(QED)は、原子と光子の相互作用を制御するためのプラットフォーム交差ツールボックスを提供する。 このような相互作用のコヒーレンスは、単一パス原子吸光と光子ラウンドトリップの数によって決定される。 キャビティ損失の低減により、非常に限られた光学材料選択とアライメント感度の向上を犠牲にして、100万近い光ラウンドトリップをサポートする共振器が実現された。 シングルパス吸収確率は、近心性、繊維またはナノフォトニックキャビティを使用することで増大し、光アクセスの制約と表面場への露出を犠牲にしてモードウエストを低減することができる。 ここでは, 単一原子-単光子吸収確率を基本限界に近づけ, 原子のモードサイズをマイクロン以下に減らし, 原子-単光子吸収率を全光学系から1-cm遠ざかる新しい高開口型レンズ型共振器を提案する。 この共振器は、光が10回程度しか循環しないキャビティにおいて強い光と物質を結合させる。 このようなキャビティに1つの87Rb原子をロードし、強い結合を観察し、キャビティ強化原子検出を99.55(6)パーセント、生存確率99.89(4)%の130マイクロ秒で実証し、この新しいプラットフォームを利用してキャビティ冷却を時間分解した探索を行う。 共振器の損失抵抗性は、原子を非線形で適応的な光学素子に結合する方法を舗装し、欠陥中心の読み出しに最小限の侵襲的な経路を提供する。 キャビティ内イメージングシステムの導入により、Rydberg原子配列計算技術と互換性のあるキャビティアレイの作成が可能になり、キャビティQEDツールボックスの適用性を大幅に拡大する。

From fundamental studies of light-matter interaction to applications in quantum networking and sensing, cavity quantum electrodynamics (QED) provides a platform-crossing toolbox to control interactions between atoms and photons. The coherence of such interactions is determined by the product of the single-pass atomic absorption and the number of photon round-trips. Reducing the cavity loss has enabled resonators supporting nearly 1-million optical roundtrips at the expense of severely limited optical material choices and increased alignment sensitivity. The single-pass absorption probability can be increased through the use of near-concentric, fiber or nanophotonic cavities, which reduce the mode waists at the expense of constrained optical access and exposure to surface fields. Here we present a new high numerical-aperture, lens-based resonator that pushes the single-atom-single-photon absorption probability per round trip close to its fundamental limit by reducing the mode size at the atom below a micron while keeping the atom mm-to-cm away from all optics. This resonator provides strong light-matter coupling in a cavity where the light circulates only ~ 10 times. We load a single 87Rb atom into such a cavity, observe strong coupling, demonstrate cavity-enhanced atom detection with imaging fidelity of 99.55(6) percent and survival probability of 99.89(4) percent in 130 microseconds, and leverage this new platform for a time-resolved exploration of cavity cooling. The resonator's loss-resilience paves the way to coupling of atoms to nonlinear and adaptive optical elements and provides a minimally invasive route to readout of defect centers. Introduction of intra-cavity imaging systems will enable the creation of cavity arrays compatible with Rydberg atom array computing technologies, vastly expanding the applicability of the cavity QED toolbox.
翻訳日:2024-07-09 22:36:40 公開日:2024-07-05
# 光キャビティにおけるイオン鎖のスライドピン遷移における絡み合い

Entanglement across sliding-pinned transition of ion chains in optical cavities ( http://arxiv.org/abs/2407.04785v1 )

ライセンス: Link先を確認
Alan Kahan, Cecilia Cormick, (参考訳) 散逸量子系は、適切な条件下では、定常状態においてバイパーティあるいはマルチパーティントの絡み合いを示すことができる。 これらの量子相関の存在と性質は関連するモデルパラメータに依存する。 ここでは, 励起光キャビティと分散結合した3つのイオンの小さな鎖の空間構造に関連して, 定常的な絡み合いを特徴づける。 半古典的近似の中では、イオン鎖の絡み合い、空間的構造、振動モードの関係について述べる。 励起強度を増大させると、光電位の最大値からイオンが放出されるスライディングからピン配置へ遷移する。 定常的絡み合いの特徴は、到達したピン配置の種類に強く依存する。 定常状態の絡み合いにつながるシナリオを特定し、異なる系分割間の絡み合いに対する欠陥形成の影響を分析し、多部量子相関の存在を観察する。

Dissipative quantum systems can under appropriate conditions exhibit bi- or multi-partite entanglement at the steady state. The presence and properties of these quantum correlations depend on the relevant model parameters. Here, we characterize the steady-state entanglement in connection with the spatial structure of a small chain of three ions dispersively coupled with a pumped optical cavity. Within a semiclassical approximation, we describe the relation between entanglement, spatial organization, and vibrational modes of the ion chain. Upon increasing the pumping strength, our system undergoes a transition from a sliding to a pinned configuration, in which ions are expelled from the maxima of the optical potential. The features of the steady-state entanglement strongly depend on the kind of pinned configuration reached. We identify scenarios leading to entangled steady states, analyze the effect of defect formation upon entanglement between different system partitions, and observe the presence of multipartite quantum correlations.
翻訳日:2024-07-09 22:36:40 公開日:2024-07-05
# 再チューニング:再帰的チューニングによる大規模言語モデルの構成限界を克服する

Re-Tuning: Overcoming the Compositionality Limits of Large Language Models with Recursive Tuning ( http://arxiv.org/abs/2407.04787v1 )

ライセンス: Link先を確認
Eric Pasewark, Kyle Montgomery, Kefei Duan, Dawn Song, Chenguang Wang, (参考訳) 本稿では,大規模言語モデルを用いた合成課題の解法を提案する。 従来の言語理解タスクでは高いパフォーマンスを示してきたが、大きな言語モデルは構成タスクの解決に苦慮している。 構成課題を再帰的に解くための自然な手法を提案する。 我々の手法であるRe-Tuningは、問題をサブプロブレムに分解し、それらのサブプロブレムを解き、結果を組み合わせるためにモデルを調整する。 提案手法は,整数加算,動的プログラミング,パリティという3つの代表的構成タスクにおいて,モデル性能を著しく向上することを示す。 問題を解くための中間ステップを維持する最先端の手法と比較すると、Re-Tuningは精度が大幅に向上し、GPUメモリの効率が向上する。

We present a new method for large language models to solve compositional tasks. Although they have shown strong performance on traditional language understanding tasks, large language models struggle to solve compositional tasks, where the solution depends on solving smaller instances of the same problem. We propose a natural approach to solve compositional tasks recursively. Our method, Re-Tuning, tunes models to break down a problem into subproblems, solve those subproblems, and combine the results. We show that our method significantly improves model performance on three representative compositional tasks: integer addition, dynamic programming, and parity. Compared to state-of-the-art methods that keep intermediate steps towards solving the problems, Re-Tuning achieves significantly higher accuracy and is more GPU memory efficient.
翻訳日:2024-07-09 22:36:40 公開日:2024-07-05
# 集積フォトニクスを用いた広帯域アンタングル光子ペア生成:ガイドラインと材料比較

Broadband Entangled-Photon Pair Generation with Integrated Photonics: Guidelines and A Materials Comparison ( http://arxiv.org/abs/2407.04792v1 )

ライセンス: Link先を確認
Liao Duan, Trevor J. Steiner, Paolo Pintus, Lillian Thiel, Joshua E. Castro, John E. Bowers, Galan Moody, (参考訳) 関連する光子対光源は、量子コンピューティング、ネットワーク、およびセンシングアプリケーションの主要なコンポーネントである。 集積フォトニクスは非線形プロセスを用いてチップスケールの光源を可能にし、テレコム波長で100マイクロワット以下の電力で高速な絡み合いを発生させた。 多くの量子系は可視または近赤外域で動作し、絡み替えやテレポーテーションを通じてリモートシステムと接続するために、ブロードバンド可視テレコムの絡み合ったペアソースを必要とする。 本研究では, 窒化ケイ素, ニオブ酸リチウム, ヒ化ガリウム, ホスフィン化ガリウム, 窒化ガリウムなど, 様々な非線形集積フォトニック材料において, 自発的な4波混合によるブロードバンドの絡み合い発生について検討した。 本研究では,各プラットフォームにおける位相整合が幾何的分散工学によって促進されることを示すとともに,加工のばらつきに対するロバストな設計や,操作帯域を広げるIII-V材料に対するType-1クロスポーラライズ相整合条件など,予期せぬ結果を示す。 実験的に達成可能なパラメータにより、最適化された設計のフォトニックマイクロ共振器は ~1 THz/mW$^2$ 以上のペア生成率を達成することができる。

Correlated photon-pair sources are key components for quantum computing, networking, and sensing applications. Integrated photonics has enabled chip-scale sources using nonlinear processes, producing high-rate entanglement with sub-100 microwatt power at telecom wavelengths. Many quantum systems operate in the visible or near-infrared ranges, necessitating broadband visible-telecom entangled-pair sources for connecting remote systems via entanglement swapping and teleportation. This study evaluates broadband entanglement generation through spontaneous four-wave mixing in various nonlinear integrated photonic materials, including silicon nitride, lithium niobate, aluminum gallium arsenide, indium gallium phosphide, and gallium nitride. We demonstrate how geometric dispersion engineering facilitates phase-matching for each platform and reveals unexpected results, such as robust designs to fabrication variations and a Type-1 cross-polarized phase-matching condition for III-V materials that expands the operational bandwidth. With experimentally attainable parameters, integrated photonic microresonators with optimized designs can achieve pair generation rates greater than ~1 THz/mW$^2$.
翻訳日:2024-07-09 22:36:40 公開日:2024-07-05
# 敵対的攻撃下における透かし付き機械生成テキストの性能評価について

On Evaluating The Performance of Watermarked Machine-Generated Texts Under Adversarial Attacks ( http://arxiv.org/abs/2407.04794v1 )

ライセンス: Link先を確認
Zesen Liu, Tianshuo Cong, Xinlei He, Qi Li, (参考訳) 大規模言語モデル(LLM)は、テキスト生成や複雑なタスクなど、様々なアプリケーションで優れている。 しかし、LLMの誤用は、ディープフェイクニュース、学術的詐欺、著作権侵害など、彼らが生み出すコンテンツの真正性と倫理的意味に関する懸念を引き起こす。 機械生成テキストに識別可能なマーカーを埋め込むウォーターマーキング技術は、コンテンツ検証と起点追跡を可能にすることで、これらの問題に対する有望な解決策を提供する。 残念なことに、透かし除去攻撃による現在のLLM透かし方式の堅牢性は、包括的に調査されていない。 本稿では,このギャップを埋めるために,まず,機械が生成したテキストに対して,主流の透かし方式と除去攻撃を体系的に組み込んだ上で,それらをプリテキスト(テキスト生成前)とポストテキスト(テキスト生成後)に分類し,多種多様な分析を行う。 実験では,87のシナリオで8つの透かし(5つのプレテキスト,3つのポストテキスト)と12のアタック(2つのプレテキスト,10のポストテキスト)を評価した。 評価結果は,(1)KGWとExponentialの透かしは高い品質と透かしの保持を提供するが,ほとんどの攻撃に対して脆弱であること,(2)ポストテキスト攻撃はプレテキスト攻撃よりも効率的で実用的であること,(3)プレテキストの透かしは,ポストテキストの透かしと異なりテキストの流布を変更せず,一般的には認識できないこと,(4)組み合わせた攻撃手法は,より堅牢な透かし解の必要性を強調すること,などが示唆された。 本研究は、現在の手法の脆弱性と、より弾力性のあるスキームを開発する必要性を明らかにするものである。

Large Language Models (LLMs) excel in various applications, including text generation and complex tasks. However, the misuse of LLMs raises concerns about the authenticity and ethical implications of the content they produce, such as deepfake news, academic fraud, and copyright infringement. Watermarking techniques, which embed identifiable markers in machine-generated text, offer a promising solution to these issues by allowing for content verification and origin tracing. Unfortunately, the robustness of current LLM watermarking schemes under potential watermark removal attacks has not been comprehensively explored. In this paper, to fill this gap, we first systematically comb the mainstream watermarking schemes and removal attacks on machine-generated texts, and then we categorize them into pre-text (before text generation) and post-text (after text generation) classes so that we can conduct diversified analyses. In our experiments, we evaluate eight watermarks (five pre-text, three post-text) and twelve attacks (two pre-text, ten post-text) across 87 scenarios. Evaluation results indicate that (1) KGW and Exponential watermarks offer high text quality and watermark retention but remain vulnerable to most attacks; (2) Post-text attacks are found to be more efficient and practical than pre-text attacks; (3) Pre-text watermarks are generally more imperceptible, as they do not alter text fluency, unlike post-text watermarks; (4) Additionally, combined attack methods can significantly increase effectiveness, highlighting the need for more robust watermarking solutions. Our study underscores the vulnerabilities of current techniques and the necessity for developing more resilient schemes.
翻訳日:2024-07-09 22:36:40 公開日:2024-07-05
# Toucan: 150のアフリカ語ペアの多言語翻訳

Toucan: Many-to-Many Translation for 150 African Language Pairs ( http://arxiv.org/abs/2407.04796v1 )

ライセンス: Link先を確認
AbdelRahim Elmadany, Ife Adebara, Muhammad Abdul-Mageed, (参考訳) 我々は、低リソース言語のための機械翻訳(MT)を改善するために設計されたリソースのコレクションを導入することで、自然言語処理(NLP)の顕著なギャップに対処する。 まず、12億と370億のパラメータを持つ2つの言語モデル、Cheetah-1.2BとCheetah-3.7Bを紹介する。 次に、前述のモデルを微調整して、アフリカ語ペア156をサポートするように設計された、アフロセントリックな機械翻訳モデルであるToucanを作成します。 Toucanを評価するため、我々はAfroLingu-MTと呼ばれる機械翻訳評価のための広範囲な機械翻訳ベンチマークを慎重に開発した。 トウカンは他のモデルよりも大幅に優れており、アフリカの言語におけるMTでの顕著なパフォーマンスを示している。 最後に、新しいモデルspBLEU-1Kをトレーニングし、614のアフリカ語を含む1K言語をカバーする翻訳評価指標を強化する。 この研究は、特にアフリカなどの限られた言語資源を持つ地域で、異文化間の理解と知識交換を促進することを目的としている。 ToucanプロジェクトのGitHubリポジトリはhttps://github.com/UBC-NLP/Toucanで公開されている。

We address a notable gap in Natural Language Processing (NLP) by introducing a collection of resources designed to improve Machine Translation (MT) for low-resource languages, with a specific focus on African languages. First, We introduce two language models (LMs), Cheetah-1.2B and Cheetah-3.7B, with 1.2 billion and 3.7 billion parameters respectively. Next, we finetune the aforementioned models to create toucan, an Afrocentric machine translation model designed to support 156 African language pairs. To evaluate Toucan, we carefully develop an extensive machine translation benchmark, dubbed AfroLingu-MT, tailored for evaluating machine translation. Toucan significantly outperforms other models, showcasing its remarkable performance on MT for African languages. Finally, we train a new model, spBLEU-1K, to enhance translation evaluation metrics, covering 1K languages, including 614 African languages. This work aims to advance the field of NLP, fostering cross-cultural understanding and knowledge exchange, particularly in regions with limited language resources such as Africa. The GitHub repository for the Toucan project is available at https://github.com/UBC-NLP/Toucan.
翻訳日:2024-07-09 22:36:40 公開日:2024-07-05
# ニューラルネットワークにおける学習のサブスペース利用ランクの探索

Revealing the Utilized Rank of Subspaces of Learning in Neural Networks ( http://arxiv.org/abs/2407.04797v1 )

ライセンス: Link先を確認
Isha Garg, Christian Koguchi, Eshan Verma, Daniel Ulbricht, (参考訳) 本研究では、ニューラルネットワークの学習重量が、利用可能な空間をどのように活用するかを研究する。 この概念はキャパシティに関連しているが、ネットワークアーキテクチャとデータセットの相互作用も含んでいる。 ほとんどの学習された重みはフルランクのように見えるため、低ランクの分解には耐えられない。 これは、重みが利用可能な空間全体を活用していることを暗示している。 データと重みが相互作用する部分空間に重みを投影する単純なデータ駆動変換を提案する。 これは層の関数写像を保存し、その低階構造を明らかにする。 以上の結果から,ほとんどのモデルでは利用可能な空間のごく一部を利用できると結論付けている。 例えば、ImageNetでトレーニングされたViTB-16とViTL-16では、平均層利用率は35%と20%である。 その結果,パラメータは50%,25%に減少し,微調整後の精度は0.2%以下に低下した。 また、自己指導型事前学習が、この利用率を最大70%まで押し上げ、下流タスクへの適合性を正当化することを示した。

In this work, we study how well the learned weights of a neural network utilize the space available to them. This notion is related to capacity, but additionally incorporates the interaction of the network architecture with the dataset. Most learned weights appear to be full rank, and are therefore not amenable to low rank decomposition. This deceptively implies that the weights are utilizing the entire space available to them. We propose a simple data-driven transformation that projects the weights onto the subspace where the data and the weight interact. This preserves the functional mapping of the layer and reveals its low rank structure. In our findings, we conclude that most models utilize a fraction of the available space. For instance, for ViTB-16 and ViTL-16 trained on ImageNet, the mean layer utilization is 35% and 20% respectively. Our transformation results in reducing the parameters to 50% and 25% respectively, while resulting in less than 0.2% accuracy drop after fine-tuning. We also show that self-supervised pre-training drives this utilization up to 70%, justifying its suitability for downstream tasks.
翻訳日:2024-07-09 22:36:40 公開日:2024-07-05
# 潜在依存グラフ解析としての構造化感性分析の再検討

Revisiting Structured Sentiment Analysis as Latent Dependency Graph Parsing ( http://arxiv.org/abs/2407.04801v1 )

ライセンス: Link先を確認
Chengjie Zhou, Bobo Li, Hao Fei, Fei Li, Chong Teng, Donghong Ji, (参考訳) SSA(Structured Sentiment Analysis)は,先行研究による2語彙依存グラフ解析の課題として挙げられた。 1) スパンの内部構造は無視されるので、スパンの境界トークンは関係予測やスパン認識にのみ使用されるため、モデルの表現性を阻害する。 本稿では,SSAタスクを部分観測された依存ツリーの依存関係解析タスクとして扱う。 本稿では,2段階解析手法を提案し,木CRFを内部に制約のある新しい制約付きアルゴリズムを用いて遅延構造を明示的にモデル化し,共同スコアリンググラフアークの利点と,大域的最適化と推論のための方向スパンの利点を生かした。 5つのベンチマークデータセットの広範な実験結果から,本手法は従来の両語彙法よりも優れた性能を示し,新しい最先端技術を実現している。

Structured Sentiment Analysis (SSA) was cast as a problem of bi-lexical dependency graph parsing by prior studies. Multiple formulations have been proposed to construct the graph, which share several intrinsic drawbacks: (1) The internal structures of spans are neglected, thus only the boundary tokens of spans are used for relation prediction and span recognition, thus hindering the model's expressiveness; (2) Long spans occupy a significant proportion in the SSA datasets, which further exacerbates the problem of internal structure neglect. In this paper, we treat the SSA task as a dependency parsing task on partially-observed dependency trees, regarding flat spans without determined tree annotations as latent subtrees to consider internal structures of spans. We propose a two-stage parsing method and leverage TreeCRFs with a novel constrained inside algorithm to model latent structures explicitly, which also takes advantages of joint scoring graph arcs and headed spans for global optimization and inference. Results of extensive experiments on five benchmark datasets reveal that our method performs significantly better than all previous bi-lexical methods, achieving new state-of-the-art.
翻訳日:2024-07-09 22:36:40 公開日:2024-07-05
# 深部強化学習モデルにおける量子化とプルーニングの影響

The Impact of Quantization and Pruning on Deep Reinforcement Learning Models ( http://arxiv.org/abs/2407.04803v1 )

ライセンス: Link先を確認
Heng Lu, Mehdi Alemi, Reza Rawassizadeh, (参考訳) 深層強化学習(DRL)は、ビデオゲーム、ロボティクス、近年の大規模言語モデルなど、様々な領域で顕著な成功を収めている。 しかし、DRLモデルの計算コストとメモリ要求はリソース制約された環境への展開を制限することが多い。 この課題は、RDLモデルをより実用的で広く適用するために、ニューラルネットワーク圧縮方法を検討する緊急の必要性を浮き彫りにしている。 本研究では,DRLモデルに対する量子化とプルーニングという2つの顕著な圧縮手法の影響について検討した。 これらの手法が,各DRLアルゴリズムおよび環境における平均戻り値,メモリ,推論時間,バッテリ利用の4つの性能要因に与える影響について検討した。 モデルサイズの減少にもかかわらず、これらの圧縮技術は一般的にDRLモデルのエネルギー効率を向上しないが、モデルサイズは減少する。 我々は、モデル圧縮とDRL性能のトレードオフに関する洞察を提供し、リソース制約のある環境で効率的なDRLモデルをデプロイするためのガイドラインを提供する。

Deep reinforcement learning (DRL) has achieved remarkable success across various domains, such as video games, robotics, and, recently, large language models. However, the computational costs and memory requirements of DRL models often limit their deployment in resource-constrained environments. The challenge underscores the urgent need to explore neural network compression methods to make RDL models more practical and broadly applicable. Our study investigates the impact of two prominent compression methods, quantization and pruning on DRL models. We examine how these techniques influence four performance factors: average return, memory, inference time, and battery utilization across various DRL algorithms and environments. Despite the decrease in model size, we identify that these compression techniques generally do not improve the energy efficiency of DRL models, but the model size decreases. We provide insights into the trade-offs between model compression and DRL performance, offering guidelines for deploying efficient DRL models in resource-constrained settings.
翻訳日:2024-07-09 22:36:40 公開日:2024-07-05
# フェアサブモジュールカバー

Fair Submodular Cover ( http://arxiv.org/abs/2407.04804v1 )

ライセンス: Link先を確認
Wenjing Chen, Shuo Xing, Samson Zhou, Victoria G. Crawford, (参考訳) サブモジュール最適化は、機械学習における多くのアプリケーションにおいて基本的な問題であり、しばしば性別や年齢などのセンシティブな属性を持つデータセットよりも意思決定が関与する。 このような設定では、これらの属性に対してかなり分散した多様なソリューションセットを作成することが望ましいことが多い。 このことから、FSC (Fair Submodular Cover) の研究が始められ、そこでは単調部分モジュラ函数 $f:2^U\to\mathbb{R}_{\ge 0}$、しきい値 $\tau$ が与えられたとき、$f(S)\ge\tau$ のような最小濃度の S$ の平衡部分集合を見つけることが目的である。 まず、二項近似比を$(\frac{1}{\epsilon}, 1-O(\epsilon))$とするFSCの離散アルゴリズムを導入する。 次に, フェアネス制約のない部分モジュラ被覆の最適近似保証と一致する, $(\ln\frac{1}{\epsilon}, 1-O(\epsilon))$-bicriteria近似比を得る連続アルゴリズムを提案する。 最後に,我々の理論結果を,最大カバレッジの事例におけるアルゴリズムの有効性を示す実験的な評価で補完する。

Submodular optimization is a fundamental problem with many applications in machine learning, often involving decision-making over datasets with sensitive attributes such as gender or age. In such settings, it is often desirable to produce a diverse solution set that is fairly distributed with respect to these attributes. Motivated by this, we initiate the study of Fair Submodular Cover (FSC), where given a ground set $U$, a monotone submodular function $f:2^U\to\mathbb{R}_{\ge 0}$, a threshold $\tau$, the goal is to find a balanced subset of $S$ with minimum cardinality such that $f(S)\ge\tau$. We first introduce discrete algorithms for FSC that achieve a bicriteria approximation ratio of $(\frac{1}{\epsilon}, 1-O(\epsilon))$. We then present a continuous algorithm that achieves a $(\ln\frac{1}{\epsilon}, 1-O(\epsilon))$-bicriteria approximation ratio, which matches the best approximation guarantee of submodular cover without a fairness constraint. Finally, we complement our theoretical results with a number of empirical evaluations that demonstrate the effectiveness of our algorithms on instances of maximum coverage.
翻訳日:2024-07-09 22:26:54 公開日:2024-07-05
# カーネル解析によるニューラルネットワーク分類2サンプル試験の指導要領

Training Guarantees of Neural Network Classification Two-Sample Tests by Kernel Analysis ( http://arxiv.org/abs/2407.04806v1 )

ライセンス: Link先を確認
Varun Khurana, Xiuyuan Cheng, Alexander Cloninger, (参考訳) 2つのデータセットが同じ分布(null仮説)から来たかどうか(代替仮説)を決定するために、ニューラルネットワークの2サンプルテストを構築し、分析する。 ニューラルタンジェントカーネル(NTK)の2サンプルテストで時間解析を行う。 特に、NTK2サンプルテストがデータセット間の偏差レベルを検出するのに必要となる、理論的に最小限のトレーニング時間を導出する。 同様に、NTK2サンプルテストが偏差レベルを検出する前に、理論的な最大トレーニング時間を導出する。 NTKダイナミックスとニューラルネットワークのダイナミクスを近似することにより、この時間解析を、時間変化のトレーニングダイナミクスと有限トレーニングサンプルから生成された現実的なニューラルネットワーク2サンプルテストに拡張する。 同様の拡張は、時間変化のトレーニングダイナミクスから生成されるニューラルネットワークの2サンプルテストに対して行われ、人口に基づいてトレーニングされる。 統計的保証を得るために、ニューラルネットワークのトレーニングサンプルとテスト評価サンプルが無限に近づくにつれて、ニューラルネットワークの2サンプルテストに関連する統計的パワーが1になることを示す。 さらに、nullと代替仮説のシナリオにおいて、同じ偏差レベルを検出するのに必要なトレーニング時間が十分に分離されていることを証明した。 最後に、ハードな2サンプルテスト問題に対する2層ニューラルネットワークの2サンプルテストを示し、トレーニング時間とネットワーク複雑性に関連する2サンプルテストの統計的パワーのヒートマップをプロットする実験を行った。

We construct and analyze a neural network two-sample test to determine whether two datasets came from the same distribution (null hypothesis) or not (alternative hypothesis). We perform time-analysis on a neural tangent kernel (NTK) two-sample test. In particular, we derive the theoretical minimum training time needed to ensure the NTK two-sample test detects a deviation-level between the datasets. Similarly, we derive the theoretical maximum training time before the NTK two-sample test detects a deviation-level. By approximating the neural network dynamics with the NTK dynamics, we extend this time-analysis to the realistic neural network two-sample test generated from time-varying training dynamics and finite training samples. A similar extension is done for the neural network two-sample test generated from time-varying training dynamics but trained on the population. To give statistical guarantees, we show that the statistical power associated with the neural network two-sample test goes to 1 as the neural network training samples and test evaluation samples go to infinity. Additionally, we prove that the training times needed to detect the same deviation-level in the null and alternative hypothesis scenarios are well-separated. Finally, we run some experiments showcasing a two-layer neural network two-sample test on a hard two-sample test problem and plot a heatmap of the statistical power of the two-sample test in relation to training time and network complexity.
翻訳日:2024-07-09 22:26:54 公開日:2024-07-05
# 限られたデータセットに対するグレディデュアルストリームモデルによる脳年齢推定

Brain Age Estimation with a Greedy Dual-Stream Model for Limited Datasets ( http://arxiv.org/abs/2407.04808v1 )

ライセンス: Link先を確認
Iman Kianian, Hedieh Sajedi, (参考訳) 脳年齢推定は、脳画像から個人の生物学的年齢を予測することを含み、老化過程と神経変性疾患の進行に関する貴重な洞察を提供する。 医療画像分析のために大規模なデータセットを実行することは、困難で時間を要する作業である。 既存のアプローチは主に大規模なデータセットに依存しています。 これらのアプローチはまた、大量のパラメータを持つ洗練されたリソース集約モデルを必要とし、かなりの量の処理能力を必要とする。 その結果、限られたデータセットで堅牢な性能を実現し、計算資源を効率的に活用できる革新的な手法を開発する必要がある。 本稿では,脳年齢推定のためのGDSM(Greedy Dual-Stream Model)と呼ばれる,スライスに基づく新しいデュアルストリーム手法を提案する。 本手法は,大規模データセット要求と計算資源集約性の限界に対処する。 提案手法は脳の局所的および大域的側面を取り入れ,特定の標的領域に焦点を絞り込む。 このアプローチでは、4つのバックボーンを使用して、局所的特徴とグローバルな特徴に基づいて年齢を予測する。 IBIDは, 被験者289名のみで, 平均絶対誤差(MAE)は3.25年である。 提案手法をIXIデータセットを用いて解析し, IXIテストセット上で4.18年間のMAEを達成した。 デュアルストリームとグリード戦略を活用することで、このアプローチは効率性とロバストなパフォーマンスを実現し、他の最先端の手法に匹敵する。 GDSMモデルのコードはhttps://github.com/iman2693/GDSMで公開されている。

Brain age estimation involves predicting the biological age of individuals from their brain images, which offers valuable insights into the aging process and the progression of neurodegenerative diseases. Conducting large-scale datasets for medical image analysis is a challenging and time-consuming task. Existing approaches mostly depend on large datasets, which are hard to come by and expensive. These approaches also require sophisticated, resource-intensive models with a large number of parameters, necessitating a considerable amount of processing power. As a result, there is a vital need to develop innovative methods that can achieve robust performance with limited datasets and efficient use of computational resources. This paper proposes a novel slice-based dual-stream method called GDSM (Greedy Dual-Stream Model) for brain age estimation. This method addresses the limitations of large dataset requirements and computational resource intensiveness. The proposed method incorporates local and global aspects of the brain, thereby refining the focus on specific target regions. The approach employs four backbones to predict ages based on local and global features, complemented by a final model for age correction. Our method demonstrates a Mean Absolute Error (MAE) of 3.25 years on the test set of IBID, which only contains 289 subjects. To demonstrate the robustness of our approach for any small dataset, we analyzed the proposed method with the IXI dataset and achieved an MAE of 4.18 years on the test set of IXI. By leveraging dual-stream and greedy strategies, this approach achieves efficiency and robust performance, making it comparable with other state-of-the-art methods. The code for the GDSM model is available at https://github.com/iman2693/GDSM.
翻訳日:2024-07-09 22:26:54 公開日:2024-07-05
# 時間差学習の簡易化

Simplifying Deep Temporal Difference Learning ( http://arxiv.org/abs/2407.04811v1 )

ライセンス: Link先を確認
Matteo Gallici, Mattie Fellows, Benjamin Ellis, Bartomeu Pou, Ivan Masmitja, Jakob Nicolaus Foerster, Mario Martin, (参考訳) Q-ラーニングは、フィールド強化学習(RL)において基礎的な役割を担った。 しかし、Qラーニングやディープニューラルネットワークのような非線形関数近似のような非政治データを持つTDアルゴリズムは、主にリプレイバッファとターゲットネットワークのトレーニングを安定化するために、いくつかの追加のトリックを必要とする。 残念なことに、ターゲットネットワークにおける凍結ネットワークパラメータの更新が遅れてサンプル効率が損なわれ、同様にリプレイバッファもメモリと実装のオーバーヘッドを発生させる。 本稿では,安定性を維持しつつ,TDトレーニングの高速化と簡易化が可能であるかを検討する。 我々の重要な理論的結果は、LayerNormのような正規化手法が、目的のネットワークを必要とせずに、たとえ政治外のデータであっても、確実に収束したTDアルゴリズムが得られることを初めて示している。 実験的に、ベクトル化された環境によって可能とされたオンライン並列サンプリングは、リプレイバッファを必要とせずにトレーニングを安定化させる。 これらの結果に触発され,より簡易なオンラインQ-LearningアルゴリズムであるPQNを提案する。 意外なことに、この単純なアルゴリズムは、AtariのRainbow、HanabiのR2D2、SmaxのQMix、CraftaxのPPO-RNNといった複雑な手法と競合する。 PPOがゴーツーRLアルゴリズムになった時代に、PQNはQラーニングを実行可能な代替手段として再確立する。 コードはhttps://github.com/mttga/purejaxql.comで公開しています。

Q-learning played a foundational role in the field reinforcement learning (RL). However, TD algorithms with off-policy data, such as Q-learning, or nonlinear function approximation like deep neural networks require several additional tricks to stabilise training, primarily a replay buffer and target networks. Unfortunately, the delayed updating of frozen network parameters in the target network harms the sample efficiency and, similarly, the replay buffer introduces memory and implementation overheads. In this paper, we investigate whether it is possible to accelerate and simplify TD training while maintaining its stability. Our key theoretical result demonstrates for the first time that regularisation techniques such as LayerNorm can yield provably convergent TD algorithms without the need for a target network, even with off-policy data. Empirically, we find that online, parallelised sampling enabled by vectorised environments stabilises training without the need of a replay buffer. Motivated by these findings, we propose PQN, our simplified deep online Q-Learning algorithm. Surprisingly, this simple algorithm is competitive with more complex methods like: Rainbow in Atari, R2D2 in Hanabi, QMix in Smax, PPO-RNN in Craftax, and can be up to 50x faster than traditional DQN without sacrificing sample efficiency. In an era where PPO has become the go-to RL algorithm, PQN reestablishes Q-learning as a viable alternative. We make our code available at: https://github.com/mttga/purejaxql.
翻訳日:2024-07-09 22:26:54 公開日:2024-07-05
# NSD-DIL:Deep Identity Learningを用いたNull-Shot Deblurring

NSD-DIL: Null-Shot Deblurring Using Deep Identity Learning ( http://arxiv.org/abs/2407.04815v1 )

ライセンス: Link先を確認
Sree Rama Vamsidhar S, Rama Krishna Gorthi, (参考訳) 本稿では,深い線形ネットワークを用いた劣化モデルの逆数を直接学習するために,ブラインド画像のデブロアリングタスクの修正を提案する。 本稿では, 線形システムの特性に基づく専用正規化項を含む新しい学習戦略であるDeep Identity Learning (DIL)を導入し, 劣化モデルと逆劣化モデルとの同一性を利用した。 提案するフレームワークの健全な側面は、遅延データセットや単一の入力ぼやけた画像(Polyblurのような自己教師型手法)に依存しない点です。 画像データに依存しないため、我々はこのモデルをDeep Identity Learning (NSD-DIL)を用いてNull-Shot Deblurringと呼ぶ。 また,Deep Restoration Kernel (DRK) と呼ばれる,学習した深層線形ネットワークを行列形式で明示的に表現する。 提案したフレームワークは、Random Kernel Gallery(RKG)データセットの提案により、既存のブラインドデブロワーリングソリューションの大部分に関わる典型的な劣化カーネル推定ステップをデトラウトする。 本研究では、小さな焦点、レンズのぼかし、あるいは実際の画像でしばしば発生する小さなカメラの動きによって生成される、穏やかなぼかし画像の復元に焦点を当てる。 実験の結果,提案手法は従来の学習法と深層学習法の両方より優れており,少なくとも100の少ない計算資源が得られた。 提案したNSD-DIL法は,画像超解法(ISR)タスクに精力的に拡張することができ,解像度の低い画像を細部まで復元することができる。 NSD-DILモデルとそのカーネルフォーム表現(DRK)は軽量だが堅牢であり、軽度のぼやけた入力を1秒で復元する。 したがって、より広いリアルタイムアプリケーションに適している。

In this paper, we propose to reformulate the blind image deblurring task to directly learn an inverse of the degradation model using a deep linear network. We introduce Deep Identity Learning (DIL), a novel learning strategy that includes a dedicated regularization term based on the properties of linear systems, to exploit the identity relation between the degradation and inverse degradation models. The salient aspect of our proposed framework is it neither relies on a deblurring dataset nor a single input blurred image (like Polyblur, a self-supervised method). Since it is purely image-data-independent, we term our model as Null-Shot deblurring Using Deep Identity Learning (NSD-DIL). We also provide an explicit representation of the learned deep linear network in a matrix form, called Deep Restoration Kernel (DRK) for deblurring task. The proposed framework detours the typical degradation kernel estimation step involved in most of the existing blind deblurring solutions by the proposition of our Random Kernel Gallery (RKG) dataset. In this work, we focus on the restoration of mild blur images, generated by small out-of-focus, lens blur, or slight camera motion, which often occurs in real images. Our experiments show that the proposed method outperforms both traditional and deep learning based deblurring methods, with at least an order of 100 lesser computational resources. The proposed NSD-DIL method can be effortlessly extended to the Image Super-Resolution (ISR) task as well to restore the low-resolution images with fine details. The NSD-DIL model and its kernel form representation (DRK) are lightweight yet robust and restore the mild blur input in a fraction of a second. Hence, more suitable for wide real-time applications.
翻訳日:2024-07-09 22:26:54 公開日:2024-07-05
# 霊長類における物体認識:初期視覚領域は何に寄与するか?

Object recognition in primates: What can early visual areas contribute? ( http://arxiv.org/abs/2407.04816v1 )

ライセンス: Link先を確認
Christian Quaia, Richard J Krauzlis, (参考訳) 神経科学者が霊長類の物体認識にどの脳領域が関与しているかを尋ねられた場合、ほとんどの場合、非時間的(IT)大脳皮質に答えるでしょう。 ITは細分化の責任を負う可能性があり、それ故に葉の視覚入力に支配されているが、細分化よりも物体認識の方が重要である。 重要なことに、利害対象のファベーションは通常、合理的な信頼を持って、その周辺に存在することを認識する必要がある。 おそらく、このような周辺認識においてITは二次的な役割を担い、他の視覚領域はより重要かもしれない。 初期視覚処理領域(LGNやV1)で運ばれる信号が周囲の物体認識にどのように利用されるかを調べるため,顔と非顔の区別に焦点をあてた。 画像のスケールや向きの変化や背景のタイプなど,様々なモデルがニュアンスパラメータにどれほど敏感であるかを検証した。 V1の単純なセルや複雑なセルのモデルは信頼性の高い情報を提供することができ、現実的なシナリオでは80%以上の性能が向上することがわかった。 LGNモデルは大幅に悪化した。 周辺認識は微妙な認識を可能にするために重要であり、また、日常的な認識誘導行動のかなりの部分を占めるのに十分であると考えられるため、現在の領域ITと胎児処理の焦点は狭すぎると考えている。 そこで本稿では,IT的な特性を主目的とする階層型システムではなく,オブジェクト認識を並列プロセスとして,低精度で高速なモジュールと並列に動作し,視野をまたいで動作可能であることを提案する。

If neuroscientists were asked which brain area is responsible for object recognition in primates, most would probably answer infero-temporal (IT) cortex. While IT is likely responsible for fine discriminations, and it is accordingly dominated by foveal visual inputs, there is more to object recognition than fine discrimination. Importantly, foveation of an object of interest usually requires recognizing, with reasonable confidence, its presence in the periphery. Arguably, IT plays a secondary role in such peripheral recognition, and other visual areas might instead be more critical. To investigate how signals carried by early visual processing areas (such as LGN and V1) could be used for object recognition in the periphery, we focused here on the task of distinguishing faces from non-faces. We tested how sensitive various models were to nuisance parameters, such as changes in scale and orientation of the image, and the type of image background. We found that a model of V1 simple or complex cells could provide quite reliable information, resulting in performance better than 80% in realistic scenarios. An LGN model performed considerably worse. Because peripheral recognition is both crucial to enable fine recognition (by bringing an object of interest on the fovea), and probably sufficient to account for a considerable fraction of our daily recognition-guided behavior, we think that the current focus on area IT and foveal processing is too narrow. We propose that rather than a hierarchical system with IT-like properties as its primary aim, object recognition should be seen as a parallel process, with high-accuracy foveal modules operating in parallel with lower-accuracy and faster modules that can operate across the visual field.
翻訳日:2024-07-09 22:26:54 公開日:2024-07-05
# 障害のあるトラッピングボソニック系の熱化

Thermalization in Trapped Bosonic Systems With Disorder ( http://arxiv.org/abs/2407.04818v1 )

ライセンス: Link先を確認
Javier de la Cruz, Carlos Diaz-Mejia, Sergio Lerma-Hernandez, Jorge G. Hirsch, (参考訳) 障害のある開線型鎖に閉じ込められたボゾン原子の系において、実験的にアクセス可能な状態について、熱化の詳細な研究を行う。 障害パラメータが大きくなると、システムは規則性と局所性を示す。 対照的に、弱い障害はカオスを導入し、固有状態熱化仮説(ETH)の妥当性についての疑問を提起する。 ETHの妥当性は, 粒子密度を一定に保ちながら, 絡み合いエントロピーの分散と第1部位のボソン数を調べることによって評価される。 平均エネルギーと線形に相関する群集パラメータを用いて, 職業ベースで実験的にアクセス可能な状態に分類する。 時間的進化をシミュレートするために、完全な対角化を用いて、エンタングルメントエントロピーの平衡、ボソンの数、占領地における全ての状態に対する第1の部位の密度行列について検討する。 これらの観測対象の平衡値とマイクロカノニカルアンサンブルの予測値を比較すると、ある種の許容範囲内では、カオス領域のほとんどの状態が熱化することがわかった。 しかし、エネルギー固有状態基底における参加比の低い状態は、熱平衡値からの偏差が大きい。

A detailed study of thermalization is conducted on experimentally accessible states in a system of bosonic atoms trapped in an open linear chain with disorder. When the disorder parameter is large, the system exhibits regularity and localization. In contrast, weak disorder introduces chaos and raises questions about the validity of the Eigenstate Thermalization Hypothesis (ETH), especially for states at the extremes of the energy spectrum which remain regular and non-thermalizing. The validity of ETH is assessed by examining the dispersion of entanglement entropy and the number of bosons on the first site across various dimensions, while maintaining a constant particle density of one. Experimentally accessible states in the occupation basis are categorized using a crowding parameter that linearly correlates with their mean energy. Using full exact diagonalization to simulate temporal evolution, we study the equilibration of entanglement entropy, the number of bosons, and the reduced density matrix of the first site for all states in the occupation basis. Comparing equilibrium values of these observables with those predicted by microcanonical ensembles, we find that, within certain tolerances, most states in the chaotic region thermalize. However, states with low participation ratios in the energy eigenstate basis show greater deviations from thermal equilibrium values.
翻訳日:2024-07-09 22:26:54 公開日:2024-07-05
# RPN: PGM, Kernel SVM, MLP, Kanの統一に向けた再統合された多項式ネットワーク

RPN: Reconciled Polynomial Network Towards Unifying PGMs, Kernel SVMs, MLP and KAN ( http://arxiv.org/abs/2407.04819v1 )

ライセンス: Link先を確認
Jiawei Zhang, (参考訳) 本稿では,深層関数学習のためのReconciled Polynomial Network (RPN) という新しいディープモデルを提案する。 RPNは非常に一般的なアーキテクチャを持ち、様々な複雑さ、能力、完全性のレベルを持つモデルを構築するのに使用できる。 サブタイトルで示されるように、RPNは異なるベースモデルを1つの標準表現に統一するバックボーンとしても機能する。 これには、ベイジアンネットワークやマルコフネットワークのような確率的グラフィカルモデル(PGM)やカーネルサポートベクターマシン(カーネルSVM)のような非ディープモデルや、古典的なマルチレイヤーパーセプトロン(MLP)や最近のコルモゴロフ・アルノルドネットワーク(KAN)のようなディープモデルが含まれる。 技術的には、RPNは、データ拡張関数とパラメータ調整関数の内部積に推論される基礎関数をアンタングル化することを提案している。 残りの関数とともに、RPNはデータ分布を管理する基礎関数を正確に近似する。 データ拡張関数は、入力空間から高次元中間空間へのRPNプロジェクトデータベクトルにおいて、定義中の拡張関数によって指定された関数である。 一方、RPNでは、少数のパラメータを高階のパラメータ行列に合成するパラメータ調整関数を導入し、データ展開によって生じる「次元の正確な」問題に対処する。 さらに、残りの関数は、潜在的な近似誤差を低減するために追加の補完情報を提供する。 我々は,連続関数データセット,離散視覚および言語データセット,古典的な表形式のデータセットなど,複数のモードにわたる多数のベンチマークデータセットに対する広範な実験を行い,RPNの有効性について検討した。

In this paper, we will introduce a novel deep model named Reconciled Polynomial Network (RPN) for deep function learning. RPN has a very general architecture and can be used to build models with various complexities, capacities, and levels of completeness, which all contribute to the correctness of these models. As indicated in the subtitle, RPN can also serve as the backbone to unify different base models into one canonical representation. This includes non-deep models, like probabilistic graphical models (PGMs) - such as Bayesian network and Markov network - and kernel support vector machines (kernel SVMs), as well as deep models like the classic multi-layer perceptron (MLP) and the recent Kolmogorov-Arnold network (KAN). Technically, RPN proposes to disentangle the underlying function to be inferred into the inner product of a data expansion function and a parameter reconciliation function. Together with the remainder function, RPN accurately approximates the underlying functions that governs data distributions. The data expansion functions in RPN project data vectors from the input space to a high-dimensional intermediate space, specified by the expansion functions in definition. Meanwhile, RPN also introduces the parameter reconciliation functions to fabricate a small number of parameters into a higher-order parameter matrix to address the ``curse of dimensionality'' problem caused by the data expansions. Moreover, the remainder functions provide RPN with additional complementary information to reduce potential approximation errors. We conducted extensive empirical experiments on numerous benchmark datasets across multiple modalities, including continuous function datasets, discrete vision and language datasets, and classic tabular datasets, to investigate the effectiveness of RPN.
翻訳日:2024-07-09 22:26:54 公開日:2024-07-05
# YourMT3+: 拡張トランスフォーマーアーキテクチャとデータセット間ステム拡張によるマルチインストラクト音楽の書き起こし

YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation ( http://arxiv.org/abs/2407.04822v1 )

ライセンス: Link先を確認
Sungkyun Chang, Emmanouil Benetos, Holger Kirchhoff, Simon Dixon, (参考訳) マルチストラクチャメント音楽の書き起こしは、ポリフォニック音楽の録音を各楽器に割り当てられた楽譜に変換することを目的としている。 このタスクは、複数の楽器を同時に識別し、ピッチと正確なタイミングを記述する必要があるため、モデリングには困難である。 本稿では,MT3の最近の言語トークン復号法に基づくマルチストラクチャ・ミュージック・書き起こしの強化モデルであるYourMT3+を紹介する。 我々は、時間周波数領域における階層型アテンショントランスフォーマーを採用し、専門家の混合(MoE)を統合することでエンコーダを強化した。 データ制限に対処するため、不完全なアノテーションでトレーニングを行うための新しいマルチチャネルデコーディング手法を導入し、データセット混合のためのイントラおよびクロスステム拡張を提案する。 実験では,音声分離前処理装置の不要さを排除し,直接音声書き起こし機能を示す。 10の公開データセットのベンチマークは、既存の転写モデルとの競合性、あるいは優位性を示しています。 ポップミュージック録音のさらなるテストは、現在のモデルの限界を強調している。 完全な再現可能なコードとデータセットは \url{https://github.com/mimbres/YourMT3} で入手できる。

Multi-instrument music transcription aims to convert polyphonic music recordings into musical scores assigned to each instrument. This task is challenging for modeling as it requires simultaneously identifying multiple instruments and transcribing their pitch and precise timing, and the lack of fully annotated data adds to the training difficulties. This paper introduces YourMT3+, a suite of models for enhanced multi-instrument music transcription based on the recent language token decoding approach of MT3. We strengthen its encoder by adopting a hierarchical attention transformer in the time-frequency domain and integrating a mixture of experts (MoE). To address data limitations, we introduce a new multi-channel decoding method for training with incomplete annotations and propose intra- and cross-stem augmentation for dataset mixing. Our experiments demonstrate direct vocal transcription capabilities, eliminating the need for voice separation pre-processors. Benchmarks across ten public datasets show our models' competitiveness with, or superiority to, existing transcription models. Further testing on pop music recordings highlights the limitations of current models. Fully reproducible code and datasets are available at \url{https://github.com/mimbres/YourMT3}
翻訳日:2024-07-09 22:26:54 公開日:2024-07-05
# 量子ブール回路のマルチストラテジーに基づく量子コスト削減

Multi-strategy Based Quantum Cost Reduction of Quantum Boolean Circuits ( http://arxiv.org/abs/2407.04826v1 )

ライセンス: Link先を確認
Taghreed Ahmed, Ahmed Younes, and Islam Elkabani, (参考訳) 量子コンピュータの構築は、低コストの量子回路の合成に基づいている。 正極性 Reed-Muller $PPRM$展開で表されるブール関数の量子回路は、Multiple-Control Toffoli(MCT$)ゲートを用いて合成することができる。 本稿では,正極性リード・ミューラーのPPRM$展開で表されるブール関数の量子回路を構築するための2つのアルゴリズムを提案する。 ブール関数は様々な代数形式で表現できるので、その代数形式に基づいてブール関数に対して異なる量子回路を合成することができる。 提案アルゴリズムは、ブール関数の単純な代数形式を生成することにより、任意の量子回路に対して$MCT$ゲートを$NCV$ゲートにマッピングすることを目的としている。 最初のアルゴリズムは、事前定義された$d_{term}$の項の次数に従ってブール関数の項を並べ替えて、任意のブール関数に対する特別な代数形式を生成し、対応する量子回路を合成する。 2つ目のアルゴリズムは、MCT$回路を基本ゲートに分解するために分解法を適用し、その後、合成された量子回路を単純化し最適化するために一連の単純化規則を適用した。 提案アルゴリズムは、文献における関連する研究と比較して、合成量子回路の量子コストの低減を実現する。 提案アルゴリズムはIBM量子コンピュータに適用可能な量子回路を合成する。

The construction of quantum computers is based on the synthesis of low-cost quantum circuits. The quantum circuit of any Boolean function expressed in a Positive Polarity Reed-Muller $PPRM$ expansion can be synthesized using Multiple-Control Toffoli ($MCT$) gates. This paper proposes two algorithms to construct a quantum circuit for any Boolean function expressed in a Positive Polarity Reed-Muller $PPRM$ expansion. The Boolean function can be expressed with various algebraic forms, so there are different quantum circuits can be synthesized for the Boolean function based on its algebraic form. The proposed algorithms aim to map the $MCT$ gates into the $NCV$ gates for any quantum circuit by generating a simple algebraic form for the Boolean function. The first algorithm generates a special algebraic form for any Boolean function by rearrangement of terms of the Boolean function according to a predefined degree of term $d_{term}$, then synthesizes the corresponding quantum circuit. The second algorithm applies the decomposition methods to decompose $MCT$ circuit into its elementary gates followed by applying a set of simplification rules to simplify and optimize the synthesized quantum circuit. The proposed algorithms achieve a reduction in the quantum cost of synthesized quantum circuits when compared with relevant work in literature. The proposed algorithms synthesize quantum circuits that can applied on IBM quantum computer.
翻訳日:2024-07-09 22:26:54 公開日:2024-07-05
# 法典幻覚

Code Hallucination ( http://arxiv.org/abs/2407.04831v1 )

ライセンス: Link先を確認
Mirza Masfiqur Rahman, Ashish Kundu, (参考訳) 大規模言語モデルのような生成モデルは、コードコパイロやプログラム全体の生成に広く利用されている。 しかしながら、それらが生成するプログラムは、ユーザ要求に従わなかったり、誤りや非感覚的なアウトプットを提供したり、あるいは意味的/症状的エラーを含むような、総合的にLLM幻覚(LLM Hallucination)として知られるような、疑わしい正当性、真正性、信頼性を持つことが多い。 本研究では,いくつかの種類のコード幻覚を提示する。 大規模な言語モデルを用いて手動でこのような幻覚コードを生成する。 任意のコード幻覚を生成する効率的な方法を示すために,HalTriggerというテクニックも提案する。 提案手法は3種類のLCMの動的特性を利用して,モデルアーキテクチャやパラメータにアクセスすることなく,モデルから幻覚を誘発するプロンプトを作成する。 一般的なブラックボックスモデルによる結果から、HalTriggerは確かに有効であり、広範にわたるLLM幻覚がソフトウェア開発に大きな影響を与えていることが示唆されている。

Generative models such as large language models are extensively used as code copilots and for whole program generation. However, the programs they generate often have questionable correctness, authenticity and reliability in terms of integration as they might not follow the user requirements, provide incorrect and/or nonsensical outputs, or even contain semantic/syntactic errors - overall known as LLM hallucination. In this work, we present several types of code hallucination. We have generated such hallucinated code manually using large language models. We also present a technique - HallTrigger, in order to demonstrate efficient ways of generating arbitrary code hallucination. Our method leverages 3 different dynamic attributes of LLMs to craft prompts that can successfully trigger hallucinations from models without the need to access model architecture or parameters. Results from popular blackbox models suggest that HallTrigger is indeed effective and the pervasive LLM hallucination have sheer impact on software development.
翻訳日:2024-07-09 22:26:54 公開日:2024-07-05
# 領域不変点クラウド認識のための3次元適応型構造畳み込みネットワーク

3D Adaptive Structural Convolution Network for Domain-Invariant Point Cloud Recognition ( http://arxiv.org/abs/2407.04833v1 )

ライセンス: Link先を確認
Younggun Kim, Beomsik Cho, Seonghoon Ryoo, Soomok Lee, (参考訳) 自動運転車のポイントクラウドデータ認識にディープラーニングネットワークを適用することは、データセットやセンサー技術の変化による課題に直面し、さまざまな条件で正確性を維持するための適応技術の必要性を強調している。 本稿では,3Dポイントクラウド認識のための最先端フレームワークである3D Adaptive Structure Convolution Network (3D-ASCN)を紹介する。 3次元畳み込みカーネル、構造木構造、および効果的な幾何学的特徴抽出のための適応近傍サンプリングを組み合わせる。 本手法はドメイン不変性を取得し,様々なポイントクラウドデータセット上で堅牢で適応可能な性能を示し,パラメータ調整を必要とせず,多様なセンサ構成間の互換性を確保する。 このことは、自動運転車技術の信頼性と効率を大幅に向上させる可能性を強調している。

Adapting deep learning networks for point cloud data recognition in self-driving vehicles faces challenges due to the variability in datasets and sensor technologies, emphasizing the need for adaptive techniques to maintain accuracy across different conditions. In this paper, we introduce the 3D Adaptive Structural Convolution Network (3D-ASCN), a cutting-edge framework for 3D point cloud recognition. It combines 3D convolution kernels, a structural tree structure, and adaptive neighborhood sampling for effective geometric feature extraction. This method obtains domain-invariant features and demonstrates robust, adaptable performance on a variety of point cloud datasets, ensuring compatibility across diverse sensor configurations without the need for parameter adjustments. This highlights its potential to significantly enhance the reliability and efficiency of self-driving vehicle technology.
翻訳日:2024-07-09 22:26:54 公開日:2024-07-05
# セキュアな暗号関係データを用いたK-Nearest Neighbor分類

K-Nearest Neighbor Classification over Semantically Secure Encrypted Relational Data ( http://arxiv.org/abs/2407.04836v1 )

ライセンス: Link先を確認
Gunjan Mishra, Kalyani Pathak, Yash Mishra, Pragati Jadhav, Vaishali Keshervani, (参考訳) データマイニングは、金融通信、生物学、政府など、様々な分野でリアルタイムに応用されている。 分類はデータマイニングにおける主要な課題である。 クラウドコンピューティングの台頭により、ユーザはどこからでもデータをアウトソースしてアクセスでき、データをオフロードして、それをクラウドに処理できる。 しかし、しばしばデータが暗号化されるパブリッククラウド環境では、クラウドサービスプロバイダは通常、暗号化キーを制御するため、いつでもデータにアクセスすることができる。 この状況は、従来のプライバシー保護分類システムを不適切なものにしている。 この推奨プロトコルはデータのプライバシを確保し、ユーザクエリを保護し、アクセスパターンを隠蔽する。 クラウド上の暗号化されたデータは直接マイニングできないため、暗号化されたアウトソースされたデータに対して、セキュアなk近傍の分類アルゴリズムに焦点を当てる。 このアプローチでは,ユーザクエリとデータアクセスパターンのプライバシを維持しながら,効率的なデータマイニング操作をクラウド上でセキュアに行うことができる。 クラウドコンピューティング、特にパブリッククラウド環境では、データの暗号化は、データマイニングにおけるプライバシと機能を確保するために、近隣のアルゴリズムをセキュアにするための高度な方法を必要とする。 このイノベーションは機密情報とユーザのプライバシを保護し、クラウドプロバイダが暗号化キーを制御する従来のシステムによる課題に対処する。

Data mining has various real-time applications in fields such as finance telecommunications, biology, and government. Classification is a primary task in data mining. With the rise of cloud computing, users can outsource and access their data from anywhere, offloading data and it is processing to the cloud. However, in public cloud environments while data is often encrypted, the cloud service provider typically controls the encryption keys, meaning they can potentially access the data at any time. This situation makes traditional privacy-preserving classification systems inadequate. The recommended protocol ensures data privacy, protects user queries, and conceals access patterns. Given that encrypted data on the cloud cannot be directly mined, we focus on a secure k nearest neighbor classification algorithm for encrypted, outsourced data. This approach maintains the privacy of user queries and data access patterns while allowing effective data mining operations to be conducted securely in the cloud. With cloud computing, particularly in public cloud environments, the encryption of data necessitates advanced methods like secure k nearest neighbor algorithms to ensure privacy and functionality in data mining. This innovation protects sensitive information and user privacy, addressing the challenges posed by traditional systems where cloud providers control encryption keys.
翻訳日:2024-07-09 22:26:54 公開日:2024-07-05
# 連想リカレントメモリ変換器

Associative Recurrent Memory Transformer ( http://arxiv.org/abs/2407.04841v1 )

ライセンス: Link先を確認
Ivan Rodkin, Yuri Kuratov, Aydar Bulatov, Mikhail Burtsev, (参考訳) 本稿では,新しい情報処理に一定時間を要する非常に長いシーケンスに対して,ニューラルアーキテクチャを構築するという課題に対処する。 我々のアプローチであるAssociative Recurrent Memory Transformer (ARMT)は、ローカルコンテキストに対するトランスフォーマーの自己アテンションと、長いコンテキストに分散したタスク固有情報の格納のためのセグメントレベルのリカレンスに基づいている。 近年のBABILong Multi-task long-contextベンチマークでは,5000万以上のトークンに79.9%の精度で回答することで,ARMTが既存のアソシエイト検索タスクを上回り,新たなパフォーマンス記録を樹立した。 トレーニングと評価のソースコードはgithub.comで入手できる。

This paper addresses the challenge of creating a neural architecture for very long sequences that requires constant time for processing new information at each time step. Our approach, Associative Recurrent Memory Transformer (ARMT), is based on transformer self-attention for local context and segment-level recurrence for storage of task specific information distributed over a long context. We demonstrate that ARMT outperfors existing alternatives in associative retrieval tasks and sets a new performance record in the recent BABILong multi-task long-context benchmark by answering single-fact questions over 50 million tokens with an accuracy of 79.9%. The source code for training and evaluation is available on github.
翻訳日:2024-07-09 22:26:54 公開日:2024-07-05
# MJ-Bench: マルチモーダルリワードモデルは、テキストから画像への生成にとって本当に良い判断か?

MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation? ( http://arxiv.org/abs/2407.04842v1 )

ライセンス: Link先を確認
Zhaorun Chen, Yichao Du, Zichen Wen, Yiyang Zhou, Chenhang Cui, Zhenzhen Weng, Haoqin Tu, Chaoqi Wang, Zhengwei Tong, Qinglan Huang, Canyu Chen, Qinghao Ye, Zhihong Zhu, Yuqing Zhang, Jiawei Zhou, Zhuokai Zhao, Rafael Rafailov, Chelsea Finn, Huaxiu Yao, (参考訳) DALLE-3やStable Diffusionのようなテキスト・ツー・イメージのモデルは急速に普及しているが、幻覚、偏見、安全でない低品質のアウトプットの生成といった課題に直面していることが多い。 これらの問題を効果的に解決するためには、これらのモデルをマルチモーダル・ジャッジからのフィードバックに基づいて望ましい行動と整合させることが不可欠である。 その重要性にも拘わらず、現行のマルチモーダル審査員は、能力と限界を不適切に評価し、誤調整や微調整の安全性を損なう可能性がある。 この問題に対処するために、MJ-Benchという新しいベンチマークを導入し、マルチモーダルな判断を総合的に評価し、アライメント、安全性、画質、バイアスの4つの重要な観点で画像生成モデルに対するフィードバックを提供する。 具体的には、より小型のCLIPベースのスコアリングモデル、オープンソースのVLM(e g LLaVA family)、オープンソースのVLM(e g GPT-4o, Claude 3)などを含む様々なマルチモーダル・ジャッジを評価する。 実験の結果、オープンソースのVLMは一般的にフィードバックが良く、GPT-4oは他の審査員を平均上回っていることがわかった。 オープンソースのVLMと比較すると、小型のスコアリングモデルはテキスト画像のアライメントや画質に関するフィードバックをより良く提供し、VLMはより強力な推論能力のために安全性と生成バイアスに関するより正確なフィードバックを提供する。 フィードバックスケールに関するさらなる研究により、VLM審査員は一般に、数値スケールよりも自然言語(例えばrt-scale)においてより正確で安定したフィードバックを提供できることが明らかになった。 特に、これらのマルチモーダル・ジャッジからの別個のフィードバックを用いたエンド・ツー・エンドの微調整モデルに対する人間による評価は、同様の結論を与え、さらにMJ-Benchの有効性を確認する。 すべてのデータ、コード、モデルはhttps://huggingface.co/MJ-Bench.comで入手できる。

While text-to-image models like DALLE-3 and Stable Diffusion are rapidly proliferating, they often encounter challenges such as hallucination, bias, and the production of unsafe, low-quality output. To effectively address these issues, it is crucial to align these models with desired behaviors based on feedback from a multimodal judge. Despite their significance, current multimodal judges frequently undergo inadequate evaluation of their capabilities and limitations, potentially leading to misalignment and unsafe fine-tuning outcomes. To address this issue, we introduce MJ-Bench, a novel benchmark which incorporates a comprehensive preference dataset to evaluate multimodal judges in providing feedback for image generation models across four key perspectives: alignment, safety, image quality, and bias. Specifically, we evaluate a large variety of multimodal judges including smaller-sized CLIP-based scoring models, open-source VLMs (e.g. LLaVA family), and close-source VLMs (e.g. GPT-4o, Claude 3) on each decomposed subcategory of our preference dataset. Experiments reveal that close-source VLMs generally provide better feedback, with GPT-4o outperforming other judges in average. Compared with open-source VLMs, smaller-sized scoring models can provide better feedback regarding text-image alignment and image quality, while VLMs provide more accurate feedback regarding safety and generation bias due to their stronger reasoning capabilities. Further studies in feedback scale reveal that VLM judges can generally provide more accurate and stable feedback in natural language (Likert-scale) than numerical scales. Notably, human evaluations on end-to-end fine-tuned models using separate feedback from these multimodal judges provide similar conclusions, further confirming the effectiveness of MJ-Bench. All data, code, models are available at https://huggingface.co/MJ-Bench.
翻訳日:2024-07-09 22:26:54 公開日:2024-07-05
# ニューラルバリアフォールド:点雲の幾何学を定量化するための集合表現

Neural varifolds: an aggregate representation for quantifying the geometry of point clouds ( http://arxiv.org/abs/2407.04844v1 )

ライセンス: Link先を確認
Juheon Lee, Xiaohao Cai, Carola-Bibian Schönlieb, Simon Masnou, (参考訳) 点雲は、表面形状の詳細なコンパクトな表現のため、現実の物体(LiDARやKinectなど)の3D表現として人気がある。 最近のアプローチでは、最適な輸送コスト(例えば、Chamfer と Wasserstein の計測値)のような幾何学的忠実度指標とともに、ディープラーニングベースのテクニックを導入することで、点雲の幾何学を特徴付けている。 本稿では,この領域における新しい表面幾何学的特徴化,すなわち点雲のニューラルバリアフォールド表現を提案する。 ここでは、表面は点の位置と点雲の接空間の両方に対する測度/分布として表される。 変数表現は、多様体に基づく微分を通じて点雲の表面幾何学だけでなく、積空間の結合による表面上の微妙な幾何学的成分も定量化する。 本研究では、点クラウド上のニューラルネットワークとニューラルネットワークの接するカーネル表現を用いて、2点クラウド間の可変ノルムを計算するためのニューラルバリアフォールドアルゴリズムを提案する。 提案したニューラルバリアフォールドは, 形状マッチング, 少数ショット形状分類, 形状再構成の3つの異なるタスクで評価される。 より詳細な評価と最先端手法との比較により,提案手法は形状整合性および少数ショット形状分類に優れ,形状再構成に競争力があることが示された。

Point clouds are popular 3D representations for real-life objects (such as in LiDAR and Kinect) due to their detailed and compact representation of surface-based geometry. Recent approaches characterise the geometry of point clouds by bringing deep learning based techniques together with geometric fidelity metrics such as optimal transportation costs (e.g., Chamfer and Wasserstein metrics). In this paper, we propose a new surface geometry characterisation within this realm, namely a neural varifold representation of point clouds. Here the surface is represented as a measure/distribution over both point positions and tangent spaces of point clouds. The varifold representation quantifies not only the surface geometry of point clouds through the manifold-based discrimination, but also subtle geometric consistencies on the surface due to the combined product space. This study proposes neural varifold algorithms to compute the varifold norm between two point clouds using neural networks on point clouds and their neural tangent kernel representations. The proposed neural varifold is evaluated on three different sought-after tasks -- shape matching, few-shot shape classification and shape reconstruction. Detailed evaluation and comparison to the state-of-the-art methods demonstrate that the proposed versatile neural varifold is superior in shape matching and few-shot shape classification, and is competitive for shape reconstruction.
翻訳日:2024-07-09 22:16:57 公開日:2024-07-05
# 素晴らしいモデルがたくさんあることによる驚くべきこと

Amazing Things Come From Having Many Good Models ( http://arxiv.org/abs/2407.04846v1 )

ライセンス: Link先を確認
Cynthia Rudin, Chudi Zhong, Lesia Semenova, Margo Seltzer, Ronald Parr, Jiachang Liu, Srikar Katta, Jon Donnelly, Harry Chen, Zachery Boner, (参考訳) レオ・ブレイマン(Leo Breiman)が提唱したラショウモン効果は、同じデータセットに対して同様に良い予測モデルが存在するという現象を記述している。 この現象は多くの実際のデータセットで発生し、その場合マジックとスターネーションの両方を引き起こすが、ほとんどが魔法である。 羅生門効果に着目して、この視点は、特に非決定論的(ノイズの多い)セッティングにおける表型データ問題に対して、機械学習に対する考え方を変えることを提案する。 本稿は,(1)単純かつ高精度なモデルの存在,(2)公正性や単調性といったユーザの好みに対処する柔軟性,(3)予測の不確実性,公平性,説明,(4)信頼性のある変数の重要度,(5)アルゴリズムの選択,特に,与えられた問題に適したアルゴリズムの高度な知識の提供,(6)公共政策について論じる。 また、羅生門効果の発生時期と理由についても論じる。 私たちのゴールは、Rashomon効果が社会の複雑な問題に対する機械学習の利用に大きな影響を与えるかを説明することです。

The Rashomon Effect, coined by Leo Breiman, describes the phenomenon that there exist many equally good predictive models for the same dataset. This phenomenon happens for many real datasets and when it does, it sparks both magic and consternation, but mostly magic. In light of the Rashomon Effect, this perspective piece proposes reshaping the way we think about machine learning, particularly for tabular data problems in the nondeterministic (noisy) setting. We address how the Rashomon Effect impacts (1) the existence of simple-yet-accurate models, (2) flexibility to address user preferences, such as fairness and monotonicity, without losing performance, (3) uncertainty in predictions, fairness, and explanations, (4) reliable variable importance, (5) algorithm choice, specifically, providing advanced knowledge of which algorithms might be suitable for a given problem, and (6) public policy. We also discuss a theory of when the Rashomon Effect occurs and why. Our goal is to illustrate how the Rashomon Effect can have a massive impact on the use of machine learning for complex problems in society.
翻訳日:2024-07-09 22:16:57 公開日:2024-07-05
# ランダムプログラムの幾何学とホモロジーに関する統計的研究

Statistical investigations into the geometry and homology of random programs ( http://arxiv.org/abs/2407.04854v1 )

ライセンス: Link先を確認
Jon Sporring, Ken Friis Larsen, (参考訳) AIをサポートするプログラミングは、MetaのLlamaやopenAIのchatGPTといったツールで大きな飛躍を遂げた。 これらは、プログラムの確率的なソースの例であり、私たちがコードを作成し、プログラミングを教える方法に大きな影響を与えています。 このようなモデルへの入力を確率的情報源として考えると、自然な疑問は、入力と出力分布の関係は、チャットGPTプロンプトと結果プログラムの関係で何になるのか? 本稿では,チャットGPTから生成されたランダムPythonプログラム間の関係を,プログラムの構文木間の木-編集距離を用いて幾何学的・トポロジ的に記述し,基礎となる空間の明示的なモデリングを行なわないことを示す。 計量空間における高次元サンプルの研究における一般的なアプローチは、低次元埋め込み(例えば、多次元スケーリング)を使用することである。 このような手法は、埋め込み空間のデータと次元に依存する誤差を暗示する。 本稿では,そのような投影法を純粋に視覚化する目的に限定し,幾何学的要約統計,空間点統計からの手法,およびトポロジカルデータ解析を用いて,埋め込み近似に依存しないランダムプログラムの構成を特徴付けることを提案する。 その有用性を示すために、画像処理に関する簡単な問題に対して、ChatGPT-4とTinyLlamaの2つの公開モデルを比較した。 アプリケーション領域には、どのように有用なプログラムを得るべきかを問うべきかどうかの理解、与えられた大きな言語モデルがいかに一貫して答えるかを測定すること、プログラムアシスタントとして異なる大きな言語モデルを比較することが含まれる。 最後に、我々のアプローチは将来プログラミング言語の構造に新たな洞察を与えるかもしれないと推測する。

AI-supported programming has taken giant leaps with tools such as Meta's Llama and openAI's chatGPT. These are examples of stochastic sources of programs and have already greatly influenced how we produce code and teach programming. If we consider input to such models as a stochastic source, a natural question is, what is the relation between the input and the output distributions, between the chatGPT prompt and the resulting program? In this paper, we will show how the relation between random Python programs generated from chatGPT can be described geometrically and topologically using Tree-edit distances between the program's syntax trees and without explicit modeling of the underlying space. A popular approach to studying high-dimensional samples in a metric space is to use low-dimensional embedding using, e.g., multidimensional scaling. Such methods imply errors depending on the data and dimension of the embedding space. In this article, we propose to restrict such projection methods to purely visualization purposes and instead use geometric summary statistics, methods from spatial point statistics, and topological data analysis to characterize the configurations of random programs that do not rely on embedding approximations. To demonstrate their usefulness, we compare two publicly available models: ChatGPT-4 and TinyLlama, on a simple problem related to image processing. Application areas include understanding how questions should be asked to obtain useful programs; measuring how consistently a given large language model answers; and comparing the different large language models as a programming assistant. Finally, we speculate that our approach may in the future give new insights into the structure of programming languages.
翻訳日:2024-07-09 22:16:57 公開日:2024-07-05
# 抽出要約におけるコヒーレンス向上に向けて:LLMを用いたデータセットと実験

Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs ( http://arxiv.org/abs/2407.04855v1 )

ライセンス: Link先を確認
Mihir Parmar, Hanieh Deilamsalehy, Franck Dernoncourt, Seunghyun Yoon, Ryan A. Rossi, Trung Bui, (参考訳) 抽出的要約は、多様なコンテンツを効率的に要約する広範囲の応用により、自然言語処理において重要な役割を担っている。 大規模言語モデル (LLM) による抽出要約において, 顕著な進歩があったにもかかわらず, これらの要約は不整合性を示すことが多い。 コヒーレントな要約の重要な側面は、意図されたユーザに対する可読性である。 コヒーレントな抽出要約を作成するために多くのデータセットやベンチマークが提案されているが、そのどれも現在、抽出要約におけるコヒーレンスを改善するためにユーザー意図を取り入れていない。 そこで本研究では,5つの公開データセットのコヒーレント・サマリーと自然言語ユーザフィードバックからなる体系的に作成された人間アノテーションデータセットを提案し,抽出サマリーのコヒーレンスを改善する方法について貴重な知見を提供する。 我々は,このデータセットを自然言語の人間のフィードバックを教師付き微調整することで,LLMの整合性を高めるために利用した。 Falcon-40BとLlama-2-13Bによる予備実験では、コヒーレントなサマリーの生成において、大幅な性能向上(約10%ルージュ-L)が見られた。 さらに、FLAN-T5のような命令調整モデルに対して、人間のフィードバックを用いて結果をベンチマークし、いくつかの興味深い結果を得た。 データとソースコードはhttps://github.com/Mihir3009/Extract-AIで入手できる。

Extractive summarization plays a pivotal role in natural language processing due to its wide-range applications in summarizing diverse content efficiently, while also being faithful to the original content. Despite significant advancement achieved in extractive summarization by Large Language Models (LLMs), these summaries frequently exhibit incoherence. An important aspect of the coherent summary is its readability for intended users. Although there have been many datasets and benchmarks proposed for creating coherent extractive summaries, none of them currently incorporate user intent to improve coherence in extractive summarization. Motivated by this, we propose a systematically created human-annotated dataset consisting of coherent summaries for five publicly available datasets and natural language user feedback, offering valuable insights into how to improve coherence in extractive summaries. We utilize this dataset for aligning LLMs through supervised fine-tuning with natural language human feedback to enhance the coherence of their generated summaries. Preliminary experiments with Falcon-40B and Llama-2-13B show significant performance improvements (~10% Rouge-L) in terms of producing coherent summaries. We further utilize human feedback to benchmark results over instruction-tuned models such as FLAN-T5 which resulted in several interesting findings. Data and source code are available at https://github.com/Mihir3009/Extract-AI.
翻訳日:2024-07-09 22:16:57 公開日:2024-07-05
# 探索的模倣学習:継続的環境に対する経路署名的アプローチ

Explorative Imitation Learning: A Path Signature Approach for Continuous Environments ( http://arxiv.org/abs/2407.04856v1 )

ライセンス: Link先を確認
Nathan Gavenski, Juarez Monteiro, Felipe Meneguzzi, Michael Luck, Odinaldo Rodrigues, (参考訳) いくつかの模倣学習法は、状態ペアからアクションを推論するために行動クローンと自己スーパービジョンを組み合わせる。 しかし、ほとんどの場合、一般化と人間の介入を高めるために多くの専門家の軌道に依存し、ドメイン制約のような問題の重要な側面を捉えている。 本稿では,2つの重要な特徴を持つ模倣学習を改良したCILO(Continuous Imitation Learning from Observation)を提案する。 一 より多様な状態遷移を可能にし、専門家の軌跡を少なくし、訓練の繰り返しを少なくすること。 (ii) エージェントと専門家の軌跡の非パラメトリック表現を作成することにより、制約の自動符号化を可能にするパスシグネチャ。 5つの環境でCILOをベースラインと2つの主要な模倣学習手法と比較した。 すべての環境ですべてのメソッドで最高のパフォーマンスを示し、その中の2つで専門家より優れています。

Some imitation learning methods combine behavioural cloning with self-supervision to infer actions from state pairs. However, most rely on a large number of expert trajectories to increase generalisation and human intervention to capture key aspects of the problem, such as domain constraints. In this paper, we propose Continuous Imitation Learning from Observation (CILO), a new method augmenting imitation learning with two important features: (i) exploration, allowing for more diverse state transitions, requiring less expert trajectories and resulting in fewer training iterations; and (ii) path signatures, allowing for automatic encoding of constraints, through the creation of non-parametric representations of agents and expert trajectories. We compared CILO with a baseline and two leading imitation learning methods in five environments. It had the best overall performance of all methods in all environments, outperforming the expert in two of them.
翻訳日:2024-07-09 22:16:57 公開日:2024-07-05
# 深層強化学習によるテキストとテーブルによる質問応答

Question Answering with Texts and Tables through Deep Reinforcement Learning ( http://arxiv.org/abs/2407.04858v1 )

ライセンス: Link先を確認
Marcos M. José, Flávio N. Cação, Maria F. Ribeiro, Rafael M. Cheang, Paulo Pirozelli, Fabio G. Cozman, (参考訳) 本稿では,オープンテーブル・アンド・テキスト質問回答データセットを用いて,テキストやテーブルからの情報を必要とするオープンドメイン質問に対するマルチホップ回答を生成するアーキテクチャを提案する。 この設定で回答を生成する最も一般的な方法の1つは、選択したデータ片が次の部分の検索に役立ち、逐次情報を取得することである。 このシーケンシャルな情報検索で呼び出すと、異なるモデルが異なる振る舞いを持つ可能性があるため、各ステップでモデルをどのように選択するかが課題である。 我々のアーキテクチャは、最終的に望ましい回答が生成されるまで、それぞれの最先端ツールを逐次選択するために強化学習を採用している。 このシステムは19.03のF1スコアを達成した。

This paper proposes a novel architecture to generate multi-hop answers to open domain questions that require information from texts and tables, using the Open Table-and-Text Question Answering dataset for validation and training. One of the most common ways to generate answers in this setting is to retrieve information sequentially, where a selected piece of data helps searching for the next piece. As different models can have distinct behaviors when called in this sequential information search, a challenge is how to select models at each step. Our architecture employs reinforcement learning to choose between different state-of-the-art tools sequentially until, in the end, a desired answer is generated. This system achieved an F1-score of 19.03, comparable to iterative systems in the literature.
翻訳日:2024-07-09 22:16:57 公開日:2024-07-05
# ハイブリッドプリマルスケッチ:シーン理解のためのアナロジー、質的表現、コンピュータビジョンを組み合わせる

Hybrid Primal Sketch: Combining Analogy, Qualitative Representations, and Computer Vision for Scene Understanding ( http://arxiv.org/abs/2407.04859v1 )

ライセンス: Link先を確認
Kenneth D. Forbus, Kezhen Chen, Wangcheng Xu, Madeline Usher, (参考訳) 知覚の1つの目的は、センサーと概念的理解の間の橋渡しである。 Marr's Primal Sketchは、初期のエッジフィニングと複数の下流プロセスを組み合わせて、グループ化やステレオプシスのような視覚的知覚の側面を捉えた。 このフレームワークは、コンピュータビジョンコンポーネントをアンサンブルに結合してスケッチのようなエンティティを生成し、それを高レベルの人間の視覚モデルであるCogSketchによってさらに処理することで、アナログの一般化によるデータ効率の学習に使用できる、より詳細な形状表現とシーン表現の両方を生成する。 本稿では,我々の理論的枠組みを概説し,いくつかの実験を要約し,図理解に関する新たな実験を概説する。

One of the purposes of perception is to bridge between sensors and conceptual understanding. Marr's Primal Sketch combined initial edge-finding with multiple downstream processes to capture aspects of visual perception such as grouping and stereopsis. Given the progress made in multiple areas of AI since then, we have developed a new framework inspired by Marr's work, the Hybrid Primal Sketch, which combines computer vision components into an ensemble to produce sketch-like entities which are then further processed by CogSketch, our model of high-level human vision, to produce both more detailed shape representations and scene representations which can be used for data-efficient learning via analogical generalization. This paper describes our theoretical framework, summarizes several previous experiments, and outlines a new experiment in progress on diagram understanding.
翻訳日:2024-07-09 22:16:57 公開日:2024-07-05
# Kullback-Leibler Barycentreによる確率過程の研究

Kullback-Leibler Barycentre of Stochastic Processes ( http://arxiv.org/abs/2407.04860v1 )

ライセンス: Link先を確認
Sebastian Jaimungal, Silvana M. Pesenti, (参考訳) エージェントが様々な専門家のモデルに対する見解と洞察を組み合わせることを目的とした問題を考える。 具体的には、各専門家は有限時間地平線上の拡散過程を提案する。 エージェントは、各専門家のモデルに重み付けされたクルバック・リーブラーの発散を最小限にすることで、専門家のモデルを組み合わせる。 バリセントモデルの存在と特異性を示し、平均ドリフトモデルに対するラドン-ニコディム微分の明示的な表現を証明した。 さらに、エージェントが自身の制約を含めることを許可し、その結果、エージェントの制約を組み込むために専門家のバリセントモデルの歪みと見なされる最適なモデルが得られる。 2つのディープラーニングアルゴリズムが提案され、組み合わせモデルの最適ドリフトを見つけ、効率的なシミュレーションを可能にした。 第1のアルゴリズムは測度の変化を一致させることで最適なドリフトを学習することを目的としており、第2のアルゴリズムは帰納可能性の概念を利用して値関数を直接推定する。 この論文は、異なるデータセットで推定されたインプリッド・ボラティリティ・スマイルモデルを組み合わせるための拡張された応用で締めくくっている。

We consider the problem where an agent aims to combine the views and insights of different experts' models. Specifically, each expert proposes a diffusion process over a finite time horizon. The agent then combines the experts' models by minimising the weighted Kullback-Leibler divergence to each of the experts' models. We show existence and uniqueness of the barycentre model and proof an explicit representation of the Radon-Nikodym derivative relative to the average drift model. We further allow the agent to include their own constraints, which results in an optimal model that can be seen as a distortion of the experts' barycentre model to incorporate the agent's constraints. Two deep learning algorithms are proposed to find the optimal drift of the combined model, allowing for efficient simulations. The first algorithm aims at learning the optimal drift by matching the change of measure, whereas the second algorithm leverages the notion of elicitability to directly estimate the value function. The paper concludes with a extended application to combine implied volatility smiles models that were estimated on different datasets.
翻訳日:2024-07-09 22:16:57 公開日:2024-07-05
# ニューラルネットワークの強化:確率コンピューティングによる敵攻撃に対する防御

Late Breaking Results: Fortifying Neural Networks: Safeguarding Against Adversarial Attacks with Stochastic Computing ( http://arxiv.org/abs/2407.04861v1 )

ライセンス: Link先を確認
Faeze S. Banitaba, Sercan Aygun, M. Hassan Najafi, (参考訳) ニューラルネットワーク(NN)セキュリティでは、モデル整合性と敵攻撃に対するレジリエンスの保護が最重要になっている。 本研究では,NNモデル構築のための新しいメカニズムとして,確率計算(SC)の適用について検討する。 主な目的は、NN結果に対する攻撃の有害な影響を軽減するため、SCの有効性を評価することである。 一連の厳密な実験と評価を通じて、敵の攻撃を受ける際にSCを用いたNNのレジリエンスについて検討する。 以上の結果から,SCは堅牢な防御層を導入し,ネットワークの攻撃による影響を著しく低減することが明らかとなった。 本研究は,データ完全性が最も懸念される機密領域のアプリケーションに不可欠な,よりセキュアで信頼性の高いNNシステムの開発に関する新たな知見を提供する。

In neural network (NN) security, safeguarding model integrity and resilience against adversarial attacks has become paramount. This study investigates the application of stochastic computing (SC) as a novel mechanism to fortify NN models. The primary objective is to assess the efficacy of SC to mitigate the deleterious impact of attacks on NN results. Through a series of rigorous experiments and evaluations, we explore the resilience of NNs employing SC when subjected to adversarial attacks. Our findings reveal that SC introduces a robust layer of defense, significantly reducing the susceptibility of networks to attack-induced alterations in their outcomes. This research contributes novel insights into the development of more secure and reliable NN systems, essential for applications in sensitive domains where data integrity is of utmost concern.
翻訳日:2024-07-09 22:16:57 公開日:2024-07-05
# Augmented Bayesian Policy Search

Augmented Bayesian Policy Search ( http://arxiv.org/abs/2407.04864v1 )

ライセンス: Link先を確認
Mahdi Kallel, Debabrota Basu, Riad Akrour, Carlo D'Eramo, (参考訳) 決定論的なポリシーは、物理システムに実装される場合、確率的なポリシーよりも好まれる。 それらは、実装や解釈が容易でありながら、不規則で有害な行動を防ぐことができる。 しかし実際には、探索は主に確率的な政策によって行われる。 第一次ベイズ最適化(BO)法は、決定論的ポリシーを用いた探索の原則的な方法を提供する。 これは、目的関数とその勾配の学習された確率モデルを通して行われる。 それにもかかわらず、このようなアプローチは、政策探索をブラックボックス問題として扱い、そのため、問題の強化学習の性質を無視する。 本研究では,確率モデルに新たな平均関数を導入するために,性能差補題を利用する。 これにより、アクション値関数を持つBOメソッドが増大する。 したがって、この手法をAugmented Bayesian Search~ (ABS)と呼ぶ。 興味深いことに、この新しい平均関数は、決定論的政策勾配による後勾配を高め、BOと政策勾配のギャップを効果的に埋める。 得られたアルゴリズムは、直接ポリシー探索の利便性と強化学習のスケーラビリティを組み合わせたものである。 我々は,高次元移動問題に対するABSの有効性を検証し,既存の直接ポリシー探索方式と比較して競争性能を実証する。

Deterministic policies are often preferred over stochastic ones when implemented on physical systems. They can prevent erratic and harmful behaviors while being easier to implement and interpret. However, in practice, exploration is largely performed by stochastic policies. First-order Bayesian Optimization (BO) methods offer a principled way of performing exploration using deterministic policies. This is done through a learned probabilistic model of the objective function and its gradient. Nonetheless, such approaches treat policy search as a black-box problem, and thus, neglect the reinforcement learning nature of the problem. In this work, we leverage the performance difference lemma to introduce a novel mean function for the probabilistic model. This results in augmenting BO methods with the action-value function. Hence, we call our method Augmented Bayesian Search~(ABS). Interestingly, this new mean function enhances the posterior gradient with the deterministic policy gradient, effectively bridging the gap between BO and policy gradient methods. The resulting algorithm combines the convenience of the direct policy search with the scalability of reinforcement learning. We validate ABS on high-dimensional locomotion problems and demonstrate competitive performance compared to existing direct policy search schemes.
翻訳日:2024-07-09 22:16:57 公開日:2024-07-05
# データバイアスの低減のための説明可能なメトリクス学習

Explainable Metric Learning for Deflating Data Bias ( http://arxiv.org/abs/2407.04866v1 )

ライセンス: Link先を確認
Emma Andrews, Prabhat Mishra, (参考訳) 画像分類は、与えられた基準内での類似性評価に基づいて、与えられた入力画像を特定のカテゴリに割り当てるコンピュータビジョンの不可欠な部分である。 有望な分類器は深層学習モデルによって得ることができるが、これらの手法には説明可能性がない。 本稿では,画像の階層的なセマンティックセマンティックセマンティックス(セマンティックス,セマンティックス,セマンティックス,セマンティックス,セマンティックス)を構成する,説明可能なメトリクス学習フレームワークを提案する。 主要な方法論はボトムアップの学習戦略で、まず個々のセグメントの局所的なメトリック学習モデルをトレーニングし、次にセグメントを組み合わせてツリーに包括的なメトリクスを構成する。 具体的には、トレーニングデータセットのバイアスを低減するために新しいサンプルを生成するために、内部のセマンティックセグメントに基づいて、2つの画像間のより人間的に理解可能な類似度測定を可能にする。 大規模実験により,提案手法は最先端手法と比較してモデル精度を大幅に向上できることが示された。

Image classification is an essential part of computer vision which assigns a given input image to a specific category based on the similarity evaluation within given criteria. While promising classifiers can be obtained through deep learning models, these approaches lack explainability, where the classification results are hard to interpret in a human-understandable way. In this paper, we present an explainable metric learning framework, which constructs hierarchical levels of semantic segments of an image for better interpretability. The key methodology involves a bottom-up learning strategy, starting by training the local metric learning model for the individual segments and then combining segments to compose comprehensive metrics in a tree. Specifically, our approach enables a more human-understandable similarity measurement between two images based on the semantic segments within it, which can be utilized to generate new samples to reduce bias in a training dataset. Extensive experimental evaluation demonstrates that the proposed approach can drastically improve model accuracy compared with state-of-the-art methods.
翻訳日:2024-07-09 22:16:57 公開日:2024-07-05
# Black Boxのコード言語モデル

Looking into Black Box Code Language Models ( http://arxiv.org/abs/2407.04868v1 )

ライセンス: Link先を確認
Muhammad Umair Haider, Umar Farooq, A. B. Siddique, Mark Marron, (参考訳) 言語モデル(LM)は、コードに関連するタスクのアプリケーションを示しており、最近いくつかのコード〜LMが提案されている。 この方向のほとんどの研究は、異なるベンチマーク上でのLMの性能改善にのみ焦点をあてているが、LMはブラックボックスと見なされている。 これに加えて、コード~LMにおける注意層の役割を理解しようとする研究もいくつかある。 それにもかかわらず、フィードフォワード層は、典型的なトランスフォーマーモデルのパラメータの3分の2からなる未探索層のままである。 本研究では、フィードフォワード層を調べることで、コード言語モデルの内部動作に関する洞察を得ようと試みる。 調査には、最先端のコード~LM、Codegen-Mono、Ploycoderの2つと、広く使われているJava、Go、Pythonの3つのプログラミング言語を使用します。 本稿では,記憶された概念の整理,それらの概念の編集可能性,異なるレイヤの役割,および出力生成のための入力コンテキストサイズの変化について検討する。 実験により,下位層が構文パターンをキャプチャし,上位層が抽象概念と意味論をエンコードしていることが判明した。 我々は、コード〜LM性能を損なうことなく、フィードフォワード層内で興味ある概念を編集できることを示す。 さらに、最初のレイヤが‘考え’レイヤとして機能するのに対して、後続のレイヤはその後のコードトークンを予測する上で不可欠であることも観察しています。 さらに、初期のレイヤは、より小さなコンテキストを正確に予測できるが、より大きなコンテキストは、後のレイヤの重要なコントリビューションを必要としている。 これらの発見が,コード~LMの理解,デバッグ,テストを容易にすることを期待する。

Language Models (LMs) have shown their application for tasks pertinent to code and several code~LMs have been proposed recently. The majority of the studies in this direction only focus on the improvements in performance of the LMs on different benchmarks, whereas LMs are considered black boxes. Besides this, a handful of works attempt to understand the role of attention layers in the code~LMs. Nonetheless, feed-forward layers remain under-explored which consist of two-thirds of a typical transformer model's parameters. In this work, we attempt to gain insights into the inner workings of code language models by examining the feed-forward layers. To conduct our investigations, we use two state-of-the-art code~LMs, Codegen-Mono and Ploycoder, and three widely used programming languages, Java, Go, and Python. We focus on examining the organization of stored concepts, the editability of these concepts, and the roles of different layers and input context size variations for output generation. Our empirical findings demonstrate that lower layers capture syntactic patterns while higher layers encode abstract concepts and semantics. We show concepts of interest can be edited within feed-forward layers without compromising code~LM performance. Additionally, we observe initial layers serve as ``thinking'' layers, while later layers are crucial for predicting subsequent code tokens. Furthermore, we discover earlier layers can accurately predict smaller contexts, but larger contexts need critical later layers' contributions. We anticipate these findings will facilitate better understanding, debugging, and testing of code~LMs.
翻訳日:2024-07-09 22:16:57 公開日:2024-07-05
# ノーム競合解消のための決定可能なデオン計算法

A Defeasible Deontic Calculus for Resolving Norm Conflicts ( http://arxiv.org/abs/2407.04869v1 )

ライセンス: Link先を確認
Taylor Olson, Roberto Salas-Damian, Kenneth D. Forbus, (参考訳) 行動の仕方を決める際には、他のエージェントの規範や価値観を考慮しなければなりません。 しかし、私たちの規範は常に進化している。 私たちはしばしば例外を追加したり、心を変えたりします。 したがって、他人の規範の正確な精神モデルを維持し、社会的摩擦を避けるためには、そのような対立を迅速に検出・解決する必要がある。 このプロセスの形式化は、様々なデオン論理と規範的マルチエージェントシステムの焦点となっている。 この2つの分野のギャップを埋めることを目指しています。 我々は,非実現可能なデオン計算の継承に寄与し,通常の矛盾を解決することを証明した。 この分析により、レッドハーリングとして共通の解決戦略を明らかにした。 そこで本論文は,標準衝突検出と分解の理論的に正当化された公理化に寄与する。

When deciding how to act, we must consider other agents' norms and values. However, our norms are ever-evolving. We often add exceptions or change our minds, and thus norms can conflict over time. Therefore, to maintain an accurate mental model of other's norms, and thus to avoid social friction, such conflicts must be detected and resolved quickly. Formalizing this process has been the focus of various deontic logics and normative multi-agent systems. We aim to bridge the gap between these two fields here. We contribute a defeasible deontic calculus with inheritance and prove that it resolves norm conflicts. Through this analysis, we also reveal a common resolution strategy as a red herring. This paper thus contributes a theoretically justified axiomatization of norm conflict detection and resolution.
翻訳日:2024-07-09 22:16:57 公開日:2024-07-05
# 階層的学習率による伝達学習における知識蒸留の改善

Improving Knowledge Distillation in Transfer Learning with Layer-wise Learning Rates ( http://arxiv.org/abs/2407.04871v1 )

ライセンス: Link先を確認
Shirley Kokane, Mostofa Rafid Uddin, Min Xu, (参考訳) 伝達学習手法は、学習タスクの複雑さが増大すると、性能が低下し始める。 これらの手法のほとんどは、一致した全ての特徴の累積差を計算し、すべての層を通して損失をバックプロパゲートするためにそれらを使用する。 これらの手法とは対照的に,ネットワークパラメータの出力アクティベーションのJacobian/Attention/Hessianの違いの関数として,階層ごとの学習パラメータを調整する新しい階層学習方式を提案する。 本研究では,この新しい手法を注目マップベースおよび導関数ベース(第1および第2次)転送学習法に適用した。 幅広いデータセットに対する学習性能と安定性が改善されました。 実験結果から,学習課題の難易度が増大するにつれて,本手法により達成される性能向上がより重要になることが明らかとなった。

Transfer learning methods start performing poorly when the complexity of the learning task is increased. Most of these methods calculate the cumulative differences of all the matched features and then use them to back-propagate that loss through all the layers. Contrary to these methods, in this work, we propose a novel layer-wise learning scheme that adjusts learning parameters per layer as a function of the differences in the Jacobian/Attention/Hessian of the output activations w.r.t. the network parameters. We applied this novel scheme for attention map-based and derivative-based (first and second order) transfer learning methods. We received improved learning performance and stability against a wide range of datasets. From extensive experimental evaluation, we observed that the performance boost achieved by our method becomes more significant with the increasing difficulty of the learning task.
翻訳日:2024-07-09 22:16:57 公開日:2024-07-05
# プログラミングフィードバックの生成と判断のための言語モデルの評価

Evaluating Language Models for Generating and Judging Programming Feedback ( http://arxiv.org/abs/2407.04873v1 )

ライセンス: Link先を確認
Charles Koutcheme, Nicola Dainese, Arto Hellas, Sami Sarsa, Juho Leinonen, Syed Ashraf, Paul Denny, (参考訳) 大規模言語モデル(LLM)の出現は、幅広い分野の研究と実践に変化をもたらした。 コンピュータ教育研究(CER)分野において、LLMは特にプログラミング学習の文脈において多くの注目を集めている。 しかし、CERにおけるLLMの研究の多くは、プロプライエタリなモデルの適用と評価に重点を置いている。 本稿では,プログラミングの課題に対する高品質なフィードバックを生成するためのオープンソースのLLMの効率を評価し,プログラミングのフィードバックの質を判断し,プロプライエタリなモデルと対比する。 学生によるPython導入プログラミング演習のデータセットに対する評価は、現状のオープンソースLLM(MetaのLlama3)は、プログラミングフィードバックの生成と評価の両方において、プロプライエタリなモデル(GPT-4o)とほぼ同等であることを示している。 さらに, タスクにおけるLLMの効率性を実証し, 教育者や実践者が自由に利用できる広い範囲のLLMがあることを強調した。

The emergence of large language models (LLMs) has transformed research and practice in a wide range of domains. Within the computing education research (CER) domain, LLMs have received plenty of attention especially in the context of learning programming. Much of the work on LLMs in CER has however focused on applying and evaluating proprietary models. In this article, we evaluate the efficiency of open-source LLMs in generating high-quality feedback for programming assignments, and in judging the quality of the programming feedback, contrasting the results against proprietary models. Our evaluations on a dataset of students' submissions to Python introductory programming exercises suggest that the state-of-the-art open-source LLMs (Meta's Llama3) are almost on-par with proprietary models (GPT-4o) in both the generation and assessment of programming feedback. We further demonstrate the efficiency of smaller LLMs in the tasks, and highlight that there are a wide range of LLMs that are accessible even for free for educators and practitioners.
翻訳日:2024-07-09 22:16:57 公開日:2024-07-05
# 光格子におけるベクトル原子加速度計

Vector Atom Accelerometry in an Optical Lattice ( http://arxiv.org/abs/2407.04874v1 )

ライセンス: Link先を確認
Catie LeDesma, Kendall Mehling, Murray Holland, (参考訳) 印加慣性力の大きさと方向を計測できる2つの多次元原子干渉計を実験的に実証した。 これらの干渉計は従来の原子センサーのユビキタス光パルスに依存しないが、代わりにレーザービームを干渉して形成された光学格子のブロッホバンド内で完全に動作する革新的な設計から作られている。 格子の三次元空間における位置の時間依存制御により、2次元の同時ブロッホ振動とベクトル原子マイケルソン干渉計を実現する。 観測されたブロッホ振動に対する差は、2つの軸に沿って2g$の印加加速度が測定され、そこでは地球表面における平均重力加速度が$g$であることを示している。 ミッチェルソン干渉計では、2軸加速度の選択例に対する実験を繰り返し、49チャネルの出力からベイズ的推論を行う。 本稿では,ベクトルパラメータ推定の精度と感度について述べる。 我々の加速は単一の実験走行から測定でき、フランジを構成するために繰り返しショットを必要としない。 デバイスの性能は、原子の干渉計サイズと量子検出効率の量子限界に近くなる。 本稿では,ベクトル加速度計の再構成可能性と,さらなる感度向上に向けた経路について論じる。

We experimentally demonstrate two multidimensional atom interferometers capable of measuring both the magnitude and direction of applied inertial forces. These interferometers do not rely on the ubiquitous light-pulses of traditional atom sensors, but are instead built from an innovative design that operates entirely within the Bloch bands of an optical lattice formed by interfering laser beams. Through time-dependent control of the position of the lattice in three-dimensional space, we realize simultaneous Bloch oscillations in two dimensions, and a vector atomic Michelson interferometer. Fits to the observed Bloch oscillations demonstrate the measurement of an applied acceleration of $2g$ along two axes, where $g$ is the average gravitational acceleration at the Earth's surface. For the Michelson interferometer, we perform Bayesian inferencing from a 49-channel output by repeating experiments for selected examples of two-axis accelerations. We demonstrate the resulting accuracy and sensitivity for vector parameter estimation. Our acceleration can be measured from a single experimental run and does not require repeated shots to construct a fringe. We find the performance of our device to be near the quantum limit for the interferometer size and quantum detection efficiency of the atoms. We discuss the reconfigurability of the vector accelerometer and the pathway toward further sensitivity.
翻訳日:2024-07-09 22:07:12 公開日:2024-07-05
# 高度酸性酸素進化電気触媒の効率的な発見のための多段階機械学習駆動アプローチにおけるデータマイニング、アクティブラーニング、ドメイン適応の活用

Leveraging Data Mining, Active Learning, and Domain Adaptation in a Multi-Stage, Machine Learning-Driven Approach for the Efficient Discovery of Advanced Acidic Oxygen Evolution Electrocatalysts ( http://arxiv.org/abs/2407.04877v1 )

ライセンス: Link先を確認
Rui Ding, Jianguo Liu, Kang Hua, Xuebin Wang, Xiaoben Zhang, Minhua Shao, Yuxin Chen, Junhong Chen, (参考訳) 酸性酸素進化反応(OER)のための高度触媒の開発は、持続可能な水素製造に不可欠である。 本研究では, 複雑な多金属触媒の発見と最適化を効率化する, 新たな多段階機械学習手法を提案する。 本手法は,材料発見プロセスを通じて,データマイニング,アクティブラーニング,ドメイン適応を統合している。 従来の試行錯誤法とは異なり、このアプローチは主観的直観への依存を最小限に抑えてドメイン知識を用いて探索空間を体系的に狭める。 そして、能動学習モジュールは、反復的な実験フィードバックにより、元素組成および合成条件を効率よく洗練する。 このプロセスは、有望なRu-Mn-Ca-Pr酸化物触媒の発見に繋がった。 我々のワークフローは、ドメイン適応戦略による理論シミュレーションを強化し、実験結果に沿ったより深い力学的な洞察を提供する。 多様なデータソースと複数のML戦略を活用することにより、電気触媒の発見と最適化のための効率的な経路を確立する。 この包括的でデータ駆動のアプローチは、電気触媒研究におけるパラダイムシフトと潜在的に新しいベンチマークを表している。

Developing advanced catalysts for acidic oxygen evolution reaction (OER) is crucial for sustainable hydrogen production. This study introduces a novel, multi-stage machine learning (ML) approach to streamline the discovery and optimization of complex multi-metallic catalysts. Our method integrates data mining, active learning, and domain adaptation throughout the materials discovery process. Unlike traditional trial-and-error methods, this approach systematically narrows the exploration space using domain knowledge with minimized reliance on subjective intuition. Then the active learning module efficiently refines element composition and synthesis conditions through iterative experimental feedback. The process culminated in the discovery of a promising Ru-Mn-Ca-Pr oxide catalyst. Our workflow also enhances theoretical simulations with domain adaptation strategy, providing deeper mechanistic insights aligned with experimental findings. By leveraging diverse data sources and multiple ML strategies, we establish an efficient pathway for electrocatalyst discovery and optimization. This comprehensive, data-driven approach represents a paradigm shift and potentially new benchmark in electrocatalysts research.
翻訳日:2024-07-09 22:07:12 公開日:2024-07-05
# KESIC: スマート,IoT,CPSデバイス用のKerberosエクステンション

KESIC: Kerberos Extensions for Smart, IoT and CPS Devices ( http://arxiv.org/abs/2407.04880v1 )

ライセンス: Link先を確認
Renascence Tarafder Prapty, Sashidhar Jakkamsetti, Gene Tsudik, (参考訳) セキュアで効率的なマルチユーザアクセスメカニズムは、今日のIoT(Internet of Things)デバイスの増加にとってますます重要になっている。 Kerberosは、分散システムのセキュリティ認証とアクセス制御システムとしてよく知られており、多くのユーザが様々な分散サービスに安全にアクセスしている。 伝統的に、これらのサービスはプリンタのようなソフトウェアアプリケーションやデバイスである。 しかし、Kerberosは比較的重いプロトコルとリソース制約のあるデバイスの性質のため、IoTデバイスに直接適していない。 本稿では,IoTデバイスのマルチユーザアクセスを効率的かつセキュアにするためのシステムであるKESICを提案する。 KESICは、Kerberosを通じてIoTデバイスとユーザの相互認証を容易にすることを目的としており、後者のプロトコルを変更することはない。 これを容易にするため、KESICにはIoTデバイスへのアクセスを管理するIoT Serverと呼ばれる特別なKerberizedサービスが含まれている。 KESICは2種類のIoTデバイスに対して、セキュアで包括的なマルチユーザアクセスシステムのための2つのプロトコルを提供する。 パフォーマンス面では、KESICは、$\approx~47$のメモリを仮定し、$\approx~135$のランタイムオーバーヘッドをKerberosより低くする。

Secure and efficient multi-user access mechanisms are increasingly important for the growing number of Internet of Things (IoT) devices being used today. Kerberos is a well-known and time-tried security authentication and access control system for distributed systems wherein many users securely access various distributed services. Traditionally, these services are software applications or devices, such as printers. However, Kerberos is not directly suitable for IoT devices due to its relatively heavy-weight protocols and the resource-constrained nature of the devices. This paper presents KESIC, a system that enables efficient and secure multi-user access for IoT devices. KESIC aims to facilitate mutual authentication of IoT devices and users via Kerberos without modifying the latter's protocols. To facilitate that, KESIC includes a special Kerberized service, called IoT Server, that manages access to IoT devices. KESIC presents two protocols for secure and comprehensive multi-user access system for two types of IoT devices: general and severely power constrained. In terms of performance, KESIC onsumes $\approx~47$ times less memory, and incurs $\approx~135$ times lower run-time overhead than Kerberos.
翻訳日:2024-07-09 22:07:12 公開日:2024-07-05
# 生成人工知能を用いたアンサンブル極端降水予測の改善

Improving ensemble extreme precipitation forecasts using generative artificial intelligence ( http://arxiv.org/abs/2407.04882v1 )

ライセンス: Link先を確認
Yingkai Sha, Ryan A. Sobash, David John Gagne II, (参考訳) 大陸間(CONUS)における極端降水現象の確率的予測を改善するために,アンサンブル後処理法を開発した。 この方法は、バイアス補正のための3次元視覚変換器(ViT)と、生成人工知能(AI)法である潜在拡散モデル(LDM)とを組み合わせて、6時間の降水アンサンブル予測を後処理し、時空間的に一貫した降水軌跡を含む拡大した生成アンサンブルを生成する。 これらの軌道は, 極端降水現象のキャラクタリゼーションを改善し, 熟練した多日降水誘導と6時間降水誘導を提供することが期待されている。 本手法は,地球環境予報システム (GEFS) による6日目の降水予測を用いて検証し,気候キャリブレーション降水分析 (CCPA) データと比較した。 その結果,実運用GEFSおよび多変量統計後処理ベースライン上で,CRPSS(Continuous Ranked Probabilistic Skill Scores)とBridge Skill Scores(Brier Skill Scores)を改良した巧妙なアンサンブル構成体を生成した。 極度の降水閾値のイベントに対して、巧妙で信頼性の高い確率を示した。 さらに説明可能性調査を行い, 方法の決定過程を明らかにし, アンサンブルメンバー生成における有効性を確認した。 この研究は、小さな数値アンサンブルの制限に対処し、極端な降水イベントを特定するためにより大きなアンサンブルを必要とする新しい、生成型AIベースのアプローチを導入する。

An ensemble post-processing method is developed to improve the probabilistic forecasts of extreme precipitation events across the conterminous United States (CONUS). The method combines a 3-D Vision Transformer (ViT) for bias correction with a Latent Diffusion Model (LDM), a generative Artificial Intelligence (AI) method, to post-process 6-hourly precipitation ensemble forecasts and produce an enlarged generative ensemble that contains spatiotemporally consistent precipitation trajectories. These trajectories are expected to improve the characterization of extreme precipitation events and offer skillful multi-day accumulated and 6-hourly precipitation guidance. The method is tested using the Global Ensemble Forecast System (GEFS) precipitation forecasts out to day 6 and is verified against the Climate-Calibrated Precipitation Analysis (CCPA) data. Verification results indicate that the method generated skillful ensemble members with improved Continuous Ranked Probabilistic Skill Scores (CRPSSs) and Brier Skill Scores (BSSs) over the raw operational GEFS and a multivariate statistical post-processing baseline. It showed skillful and reliable probabilities for events at extreme precipitation thresholds. Explainability studies were further conducted, which revealed the decision-making process of the method and confirmed its effectiveness on ensemble member generation. This work introduces a novel, generative-AI-based approach to address the limitation of small numerical ensembles and the need for larger ensembles to identify extreme precipitation events.
翻訳日:2024-07-09 22:07:12 公開日:2024-07-05
# 2層ReLUネットワークの差分プライベート凸近似

Differentially Private Convex Approximation of Two-Layer ReLU Networks ( http://arxiv.org/abs/2407.04884v1 )

ライセンス: Link先を確認
Antti Koskela, (参考訳) 本研究では,DP-SGD を用いて学習した隠蔽層 ReLU ネットワークと同様のプライバシー利用トレードオフを持つモデルを与える凸問題をプライベートに学習することが可能であることを示す。 示すように、これはReLU最小化問題のある種の双対定式化によって可能である。 例えば、勾配に基づくプライベートオプティマイザの反復型解析によるプライバシー増幅を可能とし、特に、不規則な周期的ミニバッチ勾配勾配に対して、固定されたミニバッチによる正確なプライバシー境界を与えることができる。 本稿では,ReLUネットワークに適用したDP-SGDと類似のプライバシー・ユーティリティ・トレーダオフを示す,ノイズの多いミニバッチ勾配降下に対するMNISTとFashionMNISTの問題について述べる。 本稿では,ReLUネットワークのプライベート凸近似の高速化を示す理論的ユーティリティ境界について概説する。

We show that it is possible to privately train convex problems that give models with similar privacy-utility trade-off as one hidden-layer ReLU networks trained with differentially private stochastic gradient descent (DP-SGD). As we show, this is possible via a certain dual formulation of the ReLU minimization problem. We derive a stochastic approximation of the dual problem that leads to a strongly convex problem which allows applying, for example, the privacy amplification by iteration type of analysis for gradient-based private optimizers, and in particular allows giving accurate privacy bounds for the noisy cyclic mini-batch gradient descent with fixed disjoint mini-batches. We obtain on the MNIST and FashionMNIST problems for the noisy cyclic mini-batch gradient descent first empirical results that show similar privacy-utility-trade-offs as DP-SGD applied to a ReLU network. We outline theoretical utility bounds that illustrate the speed-ups of the private convex approximation of ReLU networks.
翻訳日:2024-07-09 22:07:12 公開日:2024-07-05
# Automating Venture Capital: LLMによるセグメンテーション、機能エンジニアリング、自動ラベリング技術を用いた創業者評価

Automating Venture Capital: Founder assessment using LLM-powered segmentation, feature engineering and automated labeling techniques ( http://arxiv.org/abs/2407.04885v1 )

ライセンス: Link先を確認
Ekin Ozince, Yiğit Ihlamur, (参考訳) 本研究では、ベンチャーキャピタリスト(VC)の意思決定における大規模言語モデル(LLM)の適用について検討し、創業者の特徴に基づくスタートアップの成功の予測に焦点を当てた。 我々はLLMプロンプト技術を利用して、限られたデータから特徴を生成し、統計と機械学習を通して洞察を抽出する。 この結果から,特定の創始者特性と成功との関係が明らかとなり,予測におけるこれらの特性の有効性が示された。 ML技術とLLMを統合するこのフレームワークは、スタートアップの成功予測を改善する大きな可能性を秘めている。

This study explores the application of large language models (LLMs) in venture capital (VC) decision-making, focusing on predicting startup success based on founder characteristics. We utilize LLM prompting techniques, like chain-of-thought, to generate features from limited data, then extract insights through statistics and machine learning. Our results reveal potential relationships between certain founder characteristics and success, as well as demonstrate the effectiveness of these characteristics in prediction. This framework for integrating ML techniques and LLMs has vast potential for improving startup success prediction, with important implications for VC firms seeking to optimize their investment strategies.
翻訳日:2024-07-09 22:07:12 公開日:2024-07-05
# 放射能の複雑さを解き明かす:予測モデリングにおける最適単純性のための方策

Unraveling Radiomics Complexity: Strategies for Optimal Simplicity in Predictive Modeling ( http://arxiv.org/abs/2407.04888v1 )

ライセンス: Link先を確認
Mahdi Ait Lhaj Loutfi, Teodora Boblea Podasca, Alex Zwanenburg, Taman Upadhaya, Jorge Barrios, David R. Raleigh, William C. Chen, Dante P. I. Capaldi, Hong Zheng, Olivier Gevaert, Jing Wu, Alvin C. Silva, Paul J. Zhang, Harrison X. Bai, Jan Seuntjens, Steffen Löck, Patrick O. Richard, Olivier Morin, Caroline Reinhold, Martin Lepage, Martin Vallières, (参考訳) 背景: 放射線的特徴セットの高次元性, 放射線的特徴タイプの変動性, および潜在的に高い計算要求は, 与えられた臨床問題に対する最小の予測特徴セットを特定する効果的な方法の必要性を浮き彫りにしている。 目的: 最小限の放射能特徴を識別し、説明するための方法論とツールを開発する。 対象と方法:低悪性度グリオーマ,髄膜腫,非小細胞肺癌(NSCLC),腎細胞癌コホート(n=2104。 特徴は計算複雑性によって形態学、強度、テクスチャ、線形フィルタ、非線形フィルタに分類された。 モデルは、曲線(AUC)の下の領域を用いて、各複雑性レベルで訓練され、評価された。 最も重要な特徴が特定され、その重要性が説明された。 組織的統計的意義分析と偽発見回避法を用いて, 最適な複雑性レベルと関連する最も有意な特徴を同定した。 彼らの予測的重要性は、新しい木に基づく手法を用いて説明された。 結果:新しいオープンソースツールであるMEDimageは放射線研究を促進するために開発された。 MRI-based meningioma (AUC: 0.65) およびlow-grade glioma (AUC: 0.68) では形態学的特徴が最適であった。 CECT-based renal cell carcinoma (AUC: 0.82), CT-based NSCLC (AUC: 0.76。 MRIによる腎細胞癌(AUC: 0.72。 CECTによる腎細胞癌(AUC: 0.86。 結論: 提案手法とソフトウェアは, 特定の医学的結果に対して最適な放射能複雑性レベルを推定し, 様々な文脈における予測モデリングにおける放射能の使用を単純化する可能性がある。

Background: The high dimensionality of radiomic feature sets, the variability in radiomic feature types and potentially high computational requirements all underscore the need for an effective method to identify the smallest set of predictive features for a given clinical problem. Purpose: Develop a methodology and tools to identify and explain the smallest set of predictive radiomic features. Materials and Methods: 89,714 radiomic features were extracted from five cancer datasets: low-grade glioma, meningioma, non-small cell lung cancer (NSCLC), and two renal cell carcinoma cohorts (n=2104). Features were categorized by computational complexity into morphological, intensity, texture, linear filters, and nonlinear filters. Models were trained and evaluated on each complexity level using the area under the curve (AUC). The most informative features were identified, and their importance was explained. The optimal complexity level and associated most informative features were identified using systematic statistical significance analyses and a false discovery avoidance procedure, respectively. Their predictive importance was explained using a novel tree-based method. Results: MEDimage, a new open-source tool, was developed to facilitate radiomic studies. Morphological features were optimal for MRI-based meningioma (AUC: 0.65) and low-grade glioma (AUC: 0.68). Intensity features were optimal for CECT-based renal cell carcinoma (AUC: 0.82) and CT-based NSCLC (AUC: 0.76). Texture features were optimal for MRI-based renal cell carcinoma (AUC: 0.72). Tuning the Hounsfield unit range improved results for CECT-based renal cell carcinoma (AUC: 0.86). Conclusion: Our proposed methodology and software can estimate the optimal radiomics complexity level for specific medical outcomes, potentially simplifying the use of radiomics in predictive modeling across various contexts.
翻訳日:2024-07-09 22:07:12 公開日:2024-07-05
# 学習者の行動予測によるマルチエージェント環境におけるユーティリティの最大化

Maximizing utility in multi-agent environments by anticipating the behavior of other learners ( http://arxiv.org/abs/2407.04889v1 )

ライセンス: Link先を確認
Angelos Assos, Yuval Dagan, Constantinos Daskalakis, (参考訳) 学習アルゴリズムはしばしば、シーケンシャルな意思決定環境で意思決定に使用される。 マルチエージェント設定では、各エージェントの判断は他のエージェントのユーティリティ/ロスに影響を与える可能性がある。 したがって、エージェントが他のエージェントの行動、特にその経験の関数として各ラウンドでどのように決定を行うかを予測するのに長けているなら、相互作用のラウンドに対して司法的に独自の決定をし、他のエージェントに影響を与え、最終的に自身の効用に恩恵を与えるようにすることができる。 本稿では,オンライン学習アルゴリズムを用いて各ラウンドの戦略を選択する学習者と,学習者のユーティリティ機能と学習者のオンライン学習アルゴリズムを知る最適化者という,2種類のエージェントを含む2種類の繰り返しゲームについて検討する。 最適化者は、学習者の振る舞いを考慮しつつ、自身のユーティリティを最大化する計画を立てている。 繰り返しゼロサムゲームに対する正の結果と、繰り返し一般サムゲームに対する負の結果の2つの結果を提供する。 我々の肯定的な結果はオプティマイザのアルゴリズムであり、マルチプライケーションウェイト更新(MWU)の連続的なアナログであるReplicator Dynamicsを再生する学習者に対して、その効用を正確に最大化する。 さらに、この結果を用いて、MWUに対する最適化アルゴリズム、すなわち離散時間設定に対して、ワンショットゲームよりも高いオプティマイザに対する平均効用を保証するアルゴリズムを提供する。 我々の否定的な結果は、P=NPがなければ、各ラウンドの履歴に対応する学習者に対して最適化器の効用を最大化する完全多項式時間近似スキーム(FPTAS)が存在しないことを示している。 しかし、このことは、ユーティリティを最大$o(T)$まで最適化する多項式時間アルゴリズムが存在するかどうかという疑問を残している。

Learning algorithms are often used to make decisions in sequential decision-making environments. In multi-agent settings, the decisions of each agent can affect the utilities/losses of the other agents. Therefore, if an agent is good at anticipating the behavior of the other agents, in particular how they will make decisions in each round as a function of their experience that far, it could try to judiciously make its own decisions over the rounds of the interaction so as to influence the other agents to behave in a way that ultimately benefits its own utility. In this paper, we study repeated two-player games involving two types of agents: a learner, which employs an online learning algorithm to choose its strategy in each round; and an optimizer, which knows the learner's utility function and the learner's online learning algorithm. The optimizer wants to plan ahead to maximize its own utility, while taking into account the learner's behavior. We provide two results: a positive result for repeated zero-sum games and a negative result for repeated general-sum games. Our positive result is an algorithm for the optimizer, which exactly maximizes its utility against a learner that plays the Replicator Dynamics -- the continuous-time analogue of Multiplicative Weights Update (MWU). Additionally, we use this result to provide an algorithm for the optimizer against MWU, i.e.~for the discrete-time setting, which guarantees an average utility for the optimizer that is higher than the value of the one-shot game. Our negative result shows that, unless P=NP, there is no Fully Polynomial Time Approximation Scheme (FPTAS) for maximizing the utility of an optimizer against a learner that best-responds to the history in each round. Yet, this still leaves open the question of whether there exists a polynomial-time algorithm that optimizes the utility up to $o(T)$.
翻訳日:2024-07-09 22:07:12 公開日:2024-07-05
# 超伝導量子プロセッサ上の量子力学的デカップリング

Qudit Dynamical Decoupling on a Superconducting Quantum Processor ( http://arxiv.org/abs/2407.04893v1 )

ライセンス: Link先を確認
Vinay Tripathi, Noah Goss, Arian Vezvaee, Long B. Nguyen, Irfan Siddiqi, Daniel A. Lidar, (参考訳) より密集した情報ストレージと処理能力のため、従来のキュービットシステムに代わるものとして、マルチレベルキューディットシステムが研究されている。 しかし、クォーディットは損失チャネルの増加、ノイズ感度、クロストークにより、キュービットよりもデコヒーレンスの影響を受けやすい。 これらの課題に対処するため,ハイゼンベルク・ワイル群に基づくqudit系の動的疎結合(DD)プロトコルを開発した。 我々は、これらのDDプロトコルを、qutrits$(d=3)$とququarts$(d=4)$に基づいてqudit演算をサポートする超伝導トランスモンプロセッサ上で実装し、実験的に検証する。 具体的には,システムバスによるデコヒーレンスからキュートリットとクォートを分離するシングルキューディットDD配列を実証する。 また、結合されたキューディット間の有害な相互Kerr結合を抑制するために、2量子DDシーケンスを導入する。 これにより、時間進化したクォートレットベル状態の忠実度が大幅に向上することを示すことができる。 本結果は,スケーラブルなquditベースの量子コンピューティングを実現するためにDDを利用することの有用性を強調した。

Multi-level qudit systems are increasingly being explored as alternatives to traditional qubit systems due to their denser information storage and processing potential. However, qudits are more susceptible to decoherence than qubits due to increased loss channels, noise sensitivity, and crosstalk. To address these challenges, we develop protocols for dynamical decoupling (DD) of qudit systems based on the Heisenberg-Weyl group. We implement and experimentally verify these DD protocols on a superconducting transmon processor that supports qudit operation based on qutrits $(d=3)$ and ququarts $(d=4)$. Specifically, we demonstrate single-qudit DD sequences to decouple qutrits and ququarts from system-bath-induced decoherence. We also introduce two-qudit DD sequences designed to suppress the detrimental cross-Kerr couplings between coupled qudits. This allows us to demonstrate a significant improvement in the fidelity of time-evolved qutrit Bell states. Our results highlight the utility of leveraging DD to enable scalable qudit-based quantum computing.
翻訳日:2024-07-09 22:07:12 公開日:2024-07-05
# 学習率カリキュラム

Learning Rate Curriculum ( http://arxiv.org/abs/2205.09180v3 )

ライセンス: Link先を確認
Florinel-Alin Croitoru, Nicolae-Catalin Ristea, Radu Tudor Ionescu, Nicu Sebe, (参考訳) ほとんどのカリキュラム学習手法は、データサンプルを困難にソートするアプローチを必要とする。 本研究では,ニューラルネットワークの各層に異なる学習率を用いることで,初等訓練期間中にデータに依存しないカリキュラムを作成する,LeRaC(Learning Rate Curriculum)と呼ばれる新しいカリキュラム学習手法を提案する。 より具体的には、LeRaCは入力に近いニューラルネットワーク層に高い学習率を割り当て、層が入力から遠くに配置されているため、学習率が徐々に低下する。 学習率は、最初のトレーニングイテレーションで、すべて同じ値に達するまで、さまざまなペースで増加する。 この点から、ニューラルモデルは通常のように訓練される。 これにより、モデルレベルのカリキュラム学習戦略が作成され、難易度でサンプルをソートする必要がなく、どのニューラルネットワークとも互換性があり、アーキテクチャに関係なく高いパフォーマンスレベルが生成される。 コンピュータビジョン (CIFAR-10, CIFAR-100, Tiny ImageNet, ImageNet-200, Food-101, UTKFace, PASCAL VOC), Language (BoolQ, QNLI, RTE) および Audio (ESC-50, CREMA-D) ドメインから,様々な畳み込み (ResNet-18, Wide-ResNet-50, DenseNet-121, YOLOv5), recurrent (LSTM) およびtransformer (CvT, BERT, SepTr) アーキテクチャを考慮し, コンピュータビジョンから12つのデータセットを総合的に実験した。 我々は,従来の研修制度と,最新のデータに依存しないカリキュラム学習手法であるSmoothing(CBS)によるカリキュラムとの比較を行った。 CBSとは違って、標準的なトレーニングシステムに対するパフォーマンス改善は、すべてのデータセットとモデルで一貫しています。 さらに、トレーニング時間という点ではCBSをはるかに上回りました(LeRaCの標準トレーニング体制には追加費用はありません)。 私たちのコードは、https://github.com/CroitoruAlin/LeRaC.comで無料で利用可能です。

Most curriculum learning methods require an approach to sort the data samples by difficulty, which is often cumbersome to perform. In this work, we propose a novel curriculum learning approach termed Learning Rate Curriculum (LeRaC), which leverages the use of a different learning rate for each layer of a neural network to create a data-agnostic curriculum during the initial training epochs. More specifically, LeRaC assigns higher learning rates to neural layers closer to the input, gradually decreasing the learning rates as the layers are placed farther away from the input. The learning rates increase at various paces during the first training iterations, until they all reach the same value. From this point on, the neural model is trained as usual. This creates a model-level curriculum learning strategy that does not require sorting the examples by difficulty and is compatible with any neural network, generating higher performance levels regardless of the architecture. We conduct comprehensive experiments on 12 data sets from the computer vision (CIFAR-10, CIFAR-100, Tiny ImageNet, ImageNet-200, Food-101, UTKFace, PASCAL VOC), language (BoolQ, QNLI, RTE) and audio (ESC-50, CREMA-D) domains, considering various convolutional (ResNet-18, Wide-ResNet-50, DenseNet-121, YOLOv5), recurrent (LSTM) and transformer (CvT, BERT, SepTr) architectures. We compare our approach with the conventional training regime, as well as with Curriculum by Smoothing (CBS), a state-of-the-art data-agnostic curriculum learning approach. Unlike CBS, our performance improvements over the standard training regime are consistent across all data sets and models. Furthermore, we significantly surpass CBS in terms of training time (there is no additional cost over the standard training regime for LeRaC). Our code is freely available at: https://github.com/CroitoruAlin/LeRaC.
翻訳日:2024-07-09 03:30:47 公開日:2024-07-05
# 確率的ランクとリワード: Slate Recommendationのスケーラブルモデル

Probabilistic Rank and Reward: A Scalable Model for Slate Recommendation ( http://arxiv.org/abs/2208.06263v3 )

ライセンス: Link先を確認
Imad Aouali, Achraf Ait Sidi Hammou, Otmane Sakhi, David Rohde, Flavian Vasile, (参考訳) 本稿では,パーソナライズされたスレートレコメンデーションのためのスケーラブルな確率的モデルである確率的ランクアンドリワード(PRR)を紹介する。 提案手法は,K項目のスレートから,ユーザが少なくとも1項目のアイテムと対話するシナリオにおいて,報酬を非政治的に推定することを可能にする。 その結果,スレートが成功する確率は,ユーザがスレートとうまく対話したかどうか,スレート内で選択された項目のランクを組み合わせて効率よく学習できることが示唆された。 PRRは、既存の非政治報酬最適化手法よりも優れており、大規模なアクション空間に対してはるかにスケーラブルである。 さらに、PRRは、最大内部製品探索(MIPS)を利用したレコメンデーションの迅速な配信を可能にし、計算広告のような低レイテンシ領域に適合する。

We introduce Probabilistic Rank and Reward (PRR), a scalable probabilistic model for personalized slate recommendation. Our approach allows off-policy estimation of the reward in the scenario where the user interacts with at most one item from a slate of K items. We show that the probability of a slate being successful can be learned efficiently by combining the reward, whether the user successfully interacted with the slate, and the rank, the item that was selected within the slate. PRR outperforms existing off-policy reward optimizing methods and is far more scalable to large action spaces. Moreover, PRR allows fast delivery of recommendations powered by maximum inner product search (MIPS), making it suitable in low latency domains such as computational advertising.
翻訳日:2024-07-09 03:30:47 公開日:2024-07-05
# 分散ブラックボックス攻撃:ブラックボックス攻撃を過大評価しない

Distributed Black-box Attack: Do Not Overestimate Black-box Attacks ( http://arxiv.org/abs/2210.16371v4 )

ライセンス: Link先を確認
Han Wu, Sareh Rowlands, Johan Wahlstrom, (参考訳) ブラックボックスの敵攻撃は、モデル構造や重みへのアクセスを必要とせずに、画像分類器を誤分類する可能性がある。 最近の研究によると、攻撃の成功率は95%以上で、クエリは1000未満である。 その疑問は、ブラックボックス攻撃が、画像分類を達成するためにクラウドAPIに依存するIoTデバイスに対する真の脅威になったかどうかである。 これについては、これまでの研究は成功率の向上とクエリ数の削減に重点を置いていた点に注意が必要だ。 しかし、クラウドAPIに対するブラックボックス攻撃のもうひとつの重要な要因は、攻撃の実行に必要な時間だ。 本稿では、ローカルモデルではなく、クラウドAPIに直接ブラックボックス攻撃を適用し、画像エンコーディングや前処理に先立って摂動を適用した先行研究で犯された誤りを回避する。 さらに、負荷分散を利用して分散ブラックボックス攻撃を可能にし、局所探索と勾配推定の両方で約5倍の時間で攻撃時間を削減できる。

Black-box adversarial attacks can fool image classifiers into misclassifying images without requiring access to model structure and weights. Recent studies have reported attack success rates of over 95% with less than 1,000 queries. The question then arises of whether black-box attacks have become a real threat against IoT devices that rely on cloud APIs to achieve image classification. To shed some light on this, note that prior research has primarily focused on increasing the success rate and reducing the number of queries. However, another crucial factor for black-box attacks against cloud APIs is the time required to perform the attack. This paper applies black-box attacks directly to cloud APIs rather than to local models, thereby avoiding mistakes made in prior research that applied the perturbation before image encoding and pre-processing. Further, we exploit load balancing to enable distributed black-box attacks that can reduce the attack time by a factor of about five for both local search and gradient estimation methods.
翻訳日:2024-07-09 03:22:23 公開日:2024-07-05
# PyPop7: 人口ベースのブラックボックス最適化のためのピュアPythonライブラリ

PyPop7: A Pure-Python Library for Population-Based Black-Box Optimization ( http://arxiv.org/abs/2212.05652v4 )

ライセンス: Link先を確認
Qiqi Duan, Guochen Zhou, Chang Shao, Zhuowei Wang, Mingyang Feng, Yuwei Huang, Yajing Tan, Yijun Yang, Qi Zhao, Yuhui Shi, (参考訳) 本稿では、ブラックボックス最適化(BBO)のためのPyPop7と呼ばれるオープンソースの純Pythonライブラリを提案する。 人口ベースの手法(進化アルゴリズム、群知性、パターン探索など)がBBOでますます普及するにつれて、PyPop7の設計目標は、特に高次元シナリオにおいて、統一されたAPIとエレガントな実装を提供することである。 これらの集団に基づく手法は, 主に探索分布や空間の分解, 低メモリ近似, 低ランクメートル法学習, 分散縮小, ランダム部分空間のアンサンブル, モデル自己適応, フィットネススムーシングといった問題構造を利用して, この問題を緩和する様々な改良と改善が提案されている。 これらの新しいサンプリング戦略は、高次元探索空間における異なる問題構造をよりうまく活用できるため、大規模なBBOの収束率や解の質が向上する。 PyPop7は、確立されたBBOアルゴリズムファミリのセットにおいて、これらの重要な進歩の多くをカバーし、また、機能拡張のために最新のまたは欠落したブラックボックスオプティマイザを追加するためのオープンアクセスインターフェースも提供した。 そのよく設計されたソースコード(GPL-3.0ライセンス下で)と本格的なオンライン文書(CC-BY 4.0ライセンス下で)は、それぞれ \url{https://github.com/Evolutionary-Intelligence/pypop} と \url{https://pypop.readthedocs.io} で自由に入手できる。

In this paper, we present an open-source pure-Python library called PyPop7 for black-box optimization (BBO). As population-based methods (e.g., evolutionary algorithms, swarm intelligence, and pattern search) become increasingly popular for BBO, the design goal of PyPop7 is to provide a unified API and elegant implementations for them, particularly in challenging high-dimensional scenarios. Since these population-based methods easily suffer from the notorious curse of dimensionality owing to random sampling as one of core operations for most of them, recently various improvements and enhancements have been proposed to alleviate this issue more or less mainly via exploiting possible problem structures: such as, decomposition of search distribution or space, low-memory approximation, low-rank metric learning, variance reduction, ensemble of random subspaces, model self-adaptation, and fitness smoothing. These novel sampling strategies could better exploit different problem structures in high-dimensional search space and therefore they often result in faster rates of convergence and/or better qualities of solution for large-scale BBO. Now PyPop7 has covered many of these important advances on a set of well-established BBO algorithm families and also provided an open-access interface to adding the latest or missed black-box optimizers for further functionality extensions. Its well-designed source code (under GPL-3.0 license) and full-fledged online documents (under CC-BY 4.0 license) have been freely available at \url{https://github.com/Evolutionary-Intelligence/pypop} and \url{https://pypop.readthedocs.io}, respectively.
翻訳日:2024-07-09 03:22:23 公開日:2024-07-05
# 磁気共鳴画像における教師なし運動アーチファクト低減のための明示的異常抽出

Explicit Abnormality Extraction for Unsupervised Motion Artifact Reduction in Magnetic Resonance Imaging ( http://arxiv.org/abs/2301.01732v5 )

ライセンス: Link先を確認
Yusheng Zhou, Hao Li, Jianan Liu, Zhengmin Kong, Tao Huang, Euijoon Ahn, Zhihan Lv, Jinman Kim, David Dagan Feng, (参考訳) 運動アーティファクトはMRI(MRI)の品質を妥協し、診断結果と画像誘導療法の達成に挑戦する。 近年,モーションアーティファクトリダクション(MAR)のソリューションとして,教師付きディープラーニングアプローチが登場している。 これらの手法の欠点の1つは、トレーニング目的のために2組のモーションアーティファクト崩壊(MA崩壊)とモーションアーティファクトフリー(MA無し)MR画像を取得することにある。 このようなイメージペアの取得は難しいため、教師付きトレーニングの適用が制限される。 本稿では,この問題を緩和するためのunsupervised Abnormality extract Network (UNAEN)を提案する。 我々のネットワークは、未ペアMA故障画像やMAフリー画像を扱うことができる。 提案したアーティファクト抽出器を用いて、MA補正された画像から異常を抽出し、MA補正された画像から残留アーティファクトマップを明示的にインターセプトし、MA補正された画像から元の入力を復元する再構成器を用いて、MA補正された画像からMA補正された画像に変換する。 UNAENの性能は、様々な公開MRIデータセットを実験し、最先端の手法と比較することによって評価された。 定量的評価は、代替のMAR法よりもUNAENの方が優れていることを示し、視覚的に残存する遺物が少ないことを示している。 本研究は, 診断精度の向上と画像誘導療法の促進を図り, 現実の臨床環境に適用可能な有望なソリューションとして, UNAENの可能性を裏付けるものである。 私たちのコードはhttps://github.com/YuSheng-Zhou/UNAEN.comで公開されています。

Motion artifacts compromise the quality of magnetic resonance imaging (MRI) and pose challenges to achieving diagnostic outcomes and image-guided therapies. In recent years, supervised deep learning approaches have emerged as successful solutions for motion artifact reduction (MAR). One disadvantage of these methods is their dependency on acquiring paired sets of motion artifact-corrupted (MA-corrupted) and motion artifact-free (MA-free) MR images for training purposes. Obtaining such image pairs is difficult and therefore limits the application of supervised training. In this paper, we propose a novel UNsupervised Abnormality Extraction Network (UNAEN) to alleviate this problem. Our network is capable of working with unpaired MA-corrupted and MA-free images. It converts the MA-corrupted images to MA-reduced images by extracting abnormalities from the MA-corrupted images using a proposed artifact extractor, which intercepts the residual artifact maps from the MA-corrupted MR images explicitly, and a reconstructor to restore the original input from the MA-reduced images. The performance of UNAEN was assessed by experimenting with various publicly available MRI datasets and comparing them with state-of-the-art methods. The quantitative evaluation demonstrates the superiority of UNAEN over alternative MAR methods and visually exhibits fewer residual artifacts. Our results substantiate the potential of UNAEN as a promising solution applicable in real-world clinical environments, with the capability to enhance diagnostic accuracy and facilitate image-guided therapies. Our codes are publicly available at https://github.com/YuSheng-Zhou/UNAEN.
翻訳日:2024-07-09 03:22:23 公開日:2024-07-05
# すべての実行可能なアクションを生成するための学習

Learning to Generate All Feasible Actions ( http://arxiv.org/abs/2301.11461v2 )

ライセンス: Link先を確認
Mirco Theile, Daniele Bernardini, Raphael Trumpp, Cristina Piazza, Marco Caccamo, Alberto L. Sangiovanni-Vincentelli, (参考訳) 現代のサイバー物理システムは、モデリングの複雑さが増し、強化学習(RL)のようなデータ駆動技術による適切な制御エージェントの発見を動機付けている。 しかし、ほとんどのシステムは安全性や運用上の制約のような厳しい制約を受ける。 通常、これらの制約を満たすために、エージェントはそれらを体系的に違反しなければならない。 近年の取り組みは,提案した行動が実行可能かどうかを評価する実現可能性モデルを活用して,エージェントの実施不可能な行動提案をシステムに適用することを避けることを目的としている。 しかし、これらの取り組みは、エージェントの学習効率よりも制約満足度を保証することに重点を置いている。 学習プロセスを改善するために、我々は、学習プロセスを2つのステップに分割する新しいアプローチであるアクションマッピングを導入し、まず、実行可能性を学び、次に、アクションを実行可能なアクションのセットにマッピングすることで目的を定めます。 本稿では、実現可能性モデルの自己教師型クエリにより、実現可能なすべてのアクションを生成することを学ぶことにより、実現可能性部分に焦点を当てる。 分布マッチング問題として問題を定式化してエージェントを訓練し、異なる発散に対する勾配推定器を導出する。 実証的な例、ロボット経路計画シナリオ、ロボット把握シミュレーションを通じて、非接続可能な動作セット間でのアクション生成におけるエージェントの習熟度を実証する。 実現可能性のステップに対処することで、安全かつ効率的なRLフレームワークを実現するために、アクションマッピングの目的部分に将来の作業に集中することが可能となる。

Modern cyber-physical systems are becoming increasingly complex to model, thus motivating data-driven techniques such as reinforcement learning (RL) to find appropriate control agents. However, most systems are subject to hard constraints such as safety or operational bounds. Typically, to learn to satisfy these constraints, the agent must violate them systematically, which is computationally prohibitive in most systems. Recent efforts aim to utilize feasibility models that assess whether a proposed action is feasible to avoid applying the agent's infeasible action proposals to the system. However, these efforts focus on guaranteeing constraint satisfaction rather than the agent's learning efficiency. To improve the learning process, we introduce action mapping, a novel approach that divides the learning process into two steps: first learn feasibility and subsequently, the objective by mapping actions into the sets of feasible actions. This paper focuses on the feasibility part by learning to generate all feasible actions through self-supervised querying of the feasibility model. We train the agent by formulating the problem as a distribution matching problem and deriving gradient estimators for different divergences. Through an illustrative example, a robotic path planning scenario, and a robotic grasping simulation, we demonstrate the agent's proficiency in generating actions across disconnected feasible action sets. By addressing the feasibility step, this paper makes it possible to focus future work on the objective part of action mapping, paving the way for an RL framework that is both safe and efficient.
翻訳日:2024-07-09 03:22:23 公開日:2024-07-05
# 修正オットーサイクルによる量子熱機関の性能向上

Improving Performance of Quantum Heat Engines using modified Otto cycle ( http://arxiv.org/abs/2302.07003v2 )

ライセンス: Link先を確認
Revathy B. S, Harsh Sharma, Uma Divakaran, (参考訳) 量子熱エンジンの効率は、ユニタリストロークが断熱的であるときに最大となる。 一方、システム内のエネルギーギャップが小さいため、特にギャップが消える臨界点において、これは常に可能であるとは限らない。 この断熱性を達成するために、サイクルのユニタリストロークの1つを、システムがより興奮の少ない状態に達するまで特定のハミルトニアンと自由に進化させることで修正する。 これにより、熱湯から吸収される熱の大きさを増大させ、エンジンの出力と効率を高めることができる。 本手法は,作業媒体として可積分モデルと非可積分モデルを用いて実証する。 2つのスピン系の場合、系が自由に進化するまでの時間に対する最適値は、断熱極限で解析的に計算される。 その結果、この改良されたストロークを実装することにより、特に臨界点を越えた場合、エンジンの作業出力と効率が大幅に向上することがわかった。

The efficiency of a quantum heat engine is maximum when the unitary strokes are adiabatic. On the other hand, this may not be always possible due to small energy gaps in the system, especially at the critical point where the gap vanishes. With the aim to achieve this adiabaticity, we modify one of the unitary strokes of the cycle by allowing the system to evolve freely with a particular Hamiltonian till a time so that the system reaches a less excited state. This will help in increasing the magnitude of the heat absorbed from the hot bath so that the work output and efficiency of the engine can be increased. We demonstrate this method using an integrable model and a non-integrable model as the working medium. In the case of a two spin system, the optimal value for the time till which the system needs to be freely evolved is calculated analytically in the adiabatic limit. The results show that implementing this modified stroke significantly improves the work output and efficiency of the engine, especially when it crosses the critical point.
翻訳日:2024-07-09 03:22:23 公開日:2024-07-05
# スケーラブルCMOSアーキテクチャのための電子スピン量子ビット可変性へのバウンド

Bounds to electron spin qubit variability for scalable CMOS architectures ( http://arxiv.org/abs/2303.14864v3 )

ライセンス: Link先を確認
Jesús D. Cifuentes, Tuomo Tanttu, Will Gilbert, Jonathan Y. Huang, Ensar Vahapoglu, Ross C. C. Leon, Santiago Serrano, Dennis Otter, Daniel Dunmore, Philip Y. Mai, Frédéric Schlattner, MengKe Feng, Kohei Itoh, Nikolay Abrosimov, Hans-Joachim Pohl, Michael Thewalt, Arne Laucht, Chih Hwan Yang, Christopher C. Escott, Wee Han Lim, Fay E. Hudson, Rajib Rahman, Andrew S. Dzurak, Andre Saraiva, (参考訳) CMOS量子ドット中の電子のスピンは、精巧な量子特性とスケーラブルな製造を組み合わせる。 しかし、量子技術の時代には、Si/SiO2をマイクロエレクトロニクス標準として冠したメトリクスは、量子ビット性能への影響について再評価する必要がある。 我々は、Si/SiO$_2$インタフェースの不可避な原子スケール粗さによるスピン量子ビットの変動をグラフ化し、12デバイスで実験をコンパイルし、これらの結果を分析する理論的ツールを開発した。 モンテカルロ法は、エネルギースペクトルの代わりに波動関数と電子経路を直接解析することにより、数百万個の原子を持つ装置のゆらぎを記述するために適応される。 我々は, 粗さがクビット位置, 変形, 谷分割, 谷相, スピン軌道結合, 交換結合における変動性と相関することを示した。 これらの変数は、堅牢な制御方法が組み込まれている限り、量子コンピューティングのスケーラブルなアーキテクチャの許容範囲内にあることが判明した。

Spins of electrons in CMOS quantum dots combine exquisite quantum properties and scalable fabrication. In the age of quantum technology, however, the metrics that crowned Si/SiO2 as the microelectronics standard need to be reassessed with respect to their impact upon qubit performance. We chart the spin qubit variability due to the unavoidable atomic-scale roughness of the Si/SiO$_2$ interface, compiling experiments in 12 devices, and developing theoretical tools to analyse these results. Atomistic tight binding and path integral Monte Carlo methods are adapted for describing fluctuations in devices with millions of atoms by directly analysing their wavefunctions and electron paths instead of their energy spectra. We correlate the effect of roughness with the variability in qubit position, deformation, valley splitting, valley phase, spin-orbit coupling and exchange coupling. These variabilities are found to be bounded and lie within the tolerances for scalable architectures for quantum computing as long as robust control methods are incorporated.
翻訳日:2024-07-09 03:12:39 公開日:2024-07-05
# FakET:ニューラルスタイル転送によるクライオ・エレクトロン・トモグラフィのシミュレーション

FakET: Simulating Cryo-Electron Tomograms with Neural Style Transfer ( http://arxiv.org/abs/2304.02011v3 )

ライセンス: Link先を確認
Pavol Harar, Lukas Herrmann, Philipp Grohs, David Haselbach, (参考訳) 低温電子顕微鏡では、正確な粒子の局在と分類が必須である。 最近のディープラーニングソリューションは成功したが、広範なトレーニングデータセットを必要とする。 これらのデータセットを生成するためにしばしば使用される物理モデルの生成時間は、その適用範囲を制限している。 本稿では,任意の低温透過電子顕微鏡のフォワード演算子をシミュレート可能なニューラルスタイル転送法であるFakETを紹介する。 高品質なシミュレートされたマイクログラフや傾きシリーズを生成する基準データに従って、合成トレーニングデータセットを適応するために使用できる。 生成したデータの品質を評価するために、最先端のローカライゼーションと分類アーキテクチャをトレーニングし、その性能をベンチマークデータで訓練されたものと比較した。 特筆すべきは、我々の技術は性能にマッチし、データ生成速度を750倍にし、メモリを33倍削減し、典型的な透過型電子顕微鏡検出器サイズによくスケールすることです。 GPUアクセラレーションと並列処理を利用する。 ソースコードはhttps://github.com/paloha/faket.comで入手できる。

In cryo-electron microscopy, accurate particle localization and classification are imperative. Recent deep learning solutions, though successful, require extensive training data sets. The protracted generation time of physics-based models, often employed to produce these data sets, limits their broad applicability. We introduce FakET, a method based on Neural Style Transfer, capable of simulating the forward operator of any cryo transmission electron microscope. It can be used to adapt a synthetic training data set according to reference data producing high-quality simulated micrographs or tilt-series. To assess the quality of our generated data, we used it to train a state-of-the-art localization and classification architecture and compared its performance with a counterpart trained on benchmark data. Remarkably, our technique matches the performance, boosts data generation speed 750 times, uses 33 times less memory, and scales well to typical transmission electron microscope detector sizes. It leverages GPU acceleration and parallel processing. The source code is available at https://github.com/paloha/faket.
翻訳日:2024-07-09 03:12:39 公開日:2024-07-05
# ランダムな敵の例で証明可能なブラックボックス攻撃:確率的信頼で防御を破る

Certifiable Black-Box Attacks with Randomized Adversarial Examples: Breaking Defenses with Provable Confidence ( http://arxiv.org/abs/2304.04343v2 )

ライセンス: Link先を確認
Hanbin Hong, Xinyu Zhang, Binghui Wang, Zhongjie Ba, Yuan Hong, (参考訳) ブラックボックスの敵攻撃は、機械学習モデルを逆転させる強い可能性を示している。 既存のブラックボックス攻撃は、ターゲットモデルを反復的にクエリし、またはローカルサロゲートモデルの転送可能性を活用することで、敵の例を作成する。 近年、このような攻撃は、例えば、シーケンシャルクエリのパターンによる検出、モデルへのノイズ注入など、最先端のSOTA(State-of-the-art)ディフェンスによって効果的に軽減できる。 我々の知る限り、我々は、証明可能な保証を備えたブラックボックス攻撃の新しいパラダイム、すなわち、ターゲットモデルに問い合わせる前に、敵のサンプルの攻撃成功確率(ASP)を保証する認証されたブラックボックス攻撃を研究するための第一歩を踏み出します。 この新たなブラックボックス攻撃は、従来の経験的ブラックボックス攻撃と比較して、マシンラーニングモデルの重大な脆弱性を明らかにしている。例えば、強力なSOTA防御を証明可能な信頼性で破り、高いASPで(無限の)敵例の空間を構築し、生成された敵例のASPは、ターゲットモデルに対する検証/クエリなしで理論的に保証される。 具体的には,無作為な敵対例 (AE) によるブラックボックス攻撃の ASP を確保するための新たな理論基盤を確立する。 そこで本研究では,乱れサイズの低減を図りつつ,ランダム化されたAEを製作する新しい手法を提案する。 最後に,CIFAR10/100, ImageNet, LibriSpeechデータセットに対する認証ブラックボックス攻撃を,コンピュータビジョンと音声認識の領域における様々なSOTA防御に対する16のSOTA実験ブラックボックス攻撃とベンチマークで総合的に評価した。 理論的および実験的な結果により、提案された攻撃の重要性が検証された。

Black-box adversarial attacks have shown strong potential to subvert machine learning models. Existing black-box attacks craft adversarial examples by iteratively querying the target model and/or leveraging the transferability of a local surrogate model. Recently, such attacks can be effectively mitigated by state-of-the-art (SOTA) defenses, e.g., detection via the pattern of sequential queries, or injecting noise into the model. To our best knowledge, we take the first step to study a new paradigm of black-box attacks with provable guarantees -- certifiable black-box attacks that can guarantee the attack success probability (ASP) of adversarial examples before querying over the target model. This new black-box attack unveils significant vulnerabilities of machine learning models, compared to traditional empirical black-box attacks, e.g., breaking strong SOTA defenses with provable confidence, constructing a space of (infinite) adversarial examples with high ASP, and the ASP of the generated adversarial examples is theoretically guaranteed without verification/queries over the target model. Specifically, we establish a novel theoretical foundation for ensuring the ASP of the black-box attack with randomized adversarial examples (AEs). Then, we propose several novel techniques to craft the randomized AEs while reducing the perturbation size for better imperceptibility. Finally, we have comprehensively evaluated the certifiable black-box attacks on the CIFAR10/100, ImageNet, and LibriSpeech datasets, while benchmarking with 16 SOTA empirical black-box attacks, against various SOTA defenses in the domains of computer vision and speech recognition. Both theoretical and experimental results have validated the significance of the proposed attack.
翻訳日:2024-07-09 03:12:39 公開日:2024-07-05
# 逐次決定のためのシンボリック, サブシンボリック, ハイブリッド手法の検討

A Review of Symbolic, Subsymbolic and Hybrid Methods for Sequential Decision Making ( http://arxiv.org/abs/2304.10590v2 )

ライセンス: Link先を確認
Carlos Núñez-Molina, Pablo Mesejo, Juan Fernández-Olivares, (参考訳) SDM(Sequential Decision Making)の分野では、自動計画(AP)と強化学習(RL)という2つのパラダイムが歴史的に優位を保っている。 和解の精神において、本論文は、記号、サブシンボリック、または組み合わせという知識表現に焦点をあて、逐次決定プロセス(SDP)を解決するためのAP、RLおよびハイブリッド手法(例えば、新しいプランニング手法)をレビューする。 さらに、SDP構造を学習する手法についても触れている。 最後に、既存の手法の利点と欠点を比較し、ニューロシンボリックAIはAPとRLをハイブリッドな知識表現と組み合わせることで、SDMに有望なアプローチをもたらすと結論付ける。

In the field of Sequential Decision Making (SDM), two paradigms have historically vied for supremacy: Automated Planning (AP) and Reinforcement Learning (RL). In the spirit of reconciliation, this article reviews AP, RL and hybrid methods (e.g., novel learn to plan techniques) for solving Sequential Decision Processes (SDPs), focusing on their knowledge representation: symbolic, subsymbolic, or a combination. Additionally, it also covers methods for learning the SDP structure. Finally, we compare the advantages and drawbacks of the existing methods and conclude that neurosymbolic AI poses a promising approach for SDM, since it combines AP and RL with a hybrid knowledge representation.
翻訳日:2024-07-09 03:12:39 公開日:2024-07-05
# テキスト分類のためのグラフニューラルネットワーク:サーベイ

Graph Neural Networks for Text Classification: A Survey ( http://arxiv.org/abs/2304.11534v3 )

ライセンス: Link先を確認
Kunze Wang, Yihao Ding, Soyeon Caren Han, (参考訳) テキスト分類は自然言語処理において最も不可欠で基本的な問題である。 多くの最近のテキスト分類モデルはシーケンシャルなディープラーニング技術を適用しているが、グラフニューラルネットワークベースのモデルは複雑な構造化されたテキストデータを直接処理し、グローバルな情報を利用することができる。 多くの実際のテキスト分類アプリケーションは自然にグラフにキャストされ、単語、文書、コーパスのグローバルな特徴をキャプチャする。 本調査では,コーパスレベルおよび文書レベルグラフニューラルネットワークを含む,メソッドのカバレッジを2023年までに向上させる。 グラフ構築機構とグラフベース学習プロセスについて,これらの手法について詳細に検討する。 技術調査に加えて,グラフニューラルネットワークを用いたテキスト分類における課題と今後の方向性について検討する。 また、データセット、評価指標、実験設計についても取り上げ、公開されたベンチマークのパフォーマンスの概要を提示する。 本調査では,異なる手法の総合的な比較を行い,様々な評価指標の長所と短所を同定する。

Text Classification is the most essential and fundamental problem in Natural Language Processing. While numerous recent text classification models applied the sequential deep learning technique, graph neural network-based models can directly deal with complex structured text data and exploit global information. Many real text classification applications can be naturally cast into a graph, which captures words, documents, and corpus global features. In this survey, we bring the coverage of methods up to 2023, including corpus-level and document-level graph neural networks. We discuss each of these methods in detail, dealing with the graph construction mechanisms and the graph-based learning process. As well as the technological survey, we look at issues behind and future directions addressed in text classification using graph neural networks. We also cover datasets, evaluation metrics, and experiment design and present a summary of published performance on the publicly available benchmarks. Note that we present a comprehensive comparison between different techniques and identify the pros and cons of various evaluation metrics in this survey.
翻訳日:2024-07-09 03:12:39 公開日:2024-07-05
# マシンがベルをキープするとき:$t\bar{t}$を値上げしたエンタングルメントとベルの不等式

When the Machine Chimes the Bell: Entanglement and Bell Inequalities with Boosted $t\bar{t}$ ( http://arxiv.org/abs/2305.07075v3 )

ライセンス: Link先を確認
Zhongtian Dong, Dorival Gonçalves, Kyoungchul Kong, Alberto Navarro, (参考訳) 大型ハドロン衝突型加速器は、今日利用可能な最高エネルギーでベルの不平等の量子絡み合いと違反を研究するユニークな機会を提供する。 本稿では、2量子ビットの系を表すトップクォーク対生成とこれらの量子相関について検討する。 2つの因果的に切断されたトップクォークの空間的な分離要件は、相対論的に互いに離れて飛行することであり、これは半レプトニックのトップペアチャネルで強化されたトップタグの使用を動機付けている。 ハドロントップクォークのスピン偏光測定は困難であることが知られているが、最適ハドロン偏光度計を用いて2量子系のスピン密度行列を再構成することは可能である。 これは、サブジェットとクォークのマッピングを改善するため、ジェットサブ構造技術とNNインスパイアされた再構成手法によって達成される。 既存のデータで既に5\sigma$以上でエンタングルメントが観測されており、HL-LHCの4$\sigma$以上で3ab$^{-1}以上のデータでベルの不等式が調査される可能性がある。

The Large Hadron Collider provides a unique opportunity to study quantum entanglement and violation of Bell inequalities at the highest energy available today. In this paper, we will investigate these quantum correlations with top quark pair production, which represents a system of two-qubits. The spacelike separation requirement for the two causally disconnected top quarks requires they fly relativistically away from each other, which motivates the use of the boosted top-tagging with the semi-leptonic top pair channel. Although measuring the spin polarization of the hadronic top quark is known to be challenging, our study indicates that it is feasible to reconstruct the spin density matrix of the two-qubit system using an optimal hadronic polarimeter. This is achieved with the aid of jet substructure techniques and NN-inspired reconstruction methods, which improve the mapping between subjets and quarks. We find that entanglement can already be observed at more than $5\sigma$ level with existing data, and violation of Bell inequalities may be probed above 4$\sigma$ level at the HL-LHC with 3 ab$^{-1}$ of data.
翻訳日:2024-07-09 03:12:39 公開日:2024-07-05
# ハイパースペクトル画像の比スペクトル圧縮のための生成逆ネットワーク

Generative Adversarial Networks for Spatio-Spectral Compression of Hyperspectral Images ( http://arxiv.org/abs/2305.08514v3 )

ライセンス: Link先を確認
Martin Hermann Paul Fuchs, Akshara Preethy Byju, Alisa Walda, Behnood Rasti, Begüm Demir, (参考訳) ハイパースペクトル画像圧縮のための深層学習モデル(HSI)の開発は,近年,ハイパースペクトルデータアーカイブの急激な増加により,リモートセンシングにおいて大きな注目を集めている。 既存のモデルのほとんどはスペクトル圧縮または空間圧縮を達成しており、HSIに存在する時空間冗長性も考慮していない。 本稿では,高忠実圧縮(HiFiC)モデル(空間圧縮問題に有効であることが証明された)に着目し,HSIの時空間圧縮に適応する。 詳しくは2つの新しいモデルを紹介します。 i) HiFiC using Squeeze and Excitation (SE) block (denoted as HiFiC$_{SE}$); そして ii)HSIの圧縮の枠組みにおける3D畳み込みによるHiFiC(HiFiC$_{3D}$) 本研究では,比例スペクトル冗長性圧縮におけるHiFiC$_{SE}$とHiFiC$_{3D}$の有効性を,チャネルアテンションと依存性間解析により解析する。 実験結果から,高画質のビットレートで画像の再構成を行いながら,空間スペクトル圧縮を行う上でのモデルの有効性が示された。 提案されたモデルのコードはhttps://git.tu-berlin.de/rsim/HSI-SSC で公開されている。

The development of deep learning-based models for the compression of hyperspectral images (HSIs) has recently attracted great attention in remote sensing due to the sharp growing of hyperspectral data archives. Most of the existing models achieve either spectral or spatial compression, and do not jointly consider the spatio-spectral redundancies present in HSIs. To address this problem, in this paper we focus our attention on the High Fidelity Compression (HiFiC) model (which is proven to be highly effective for spatial compression problems) and adapt it to perform spatio-spectral compression of HSIs. In detail, we introduce two new models: i) HiFiC using Squeeze and Excitation (SE) blocks (denoted as HiFiC$_{SE}$); and ii) HiFiC with 3D convolutions (denoted as HiFiC$_{3D}$) in the framework of compression of HSIs. We analyze the effectiveness of HiFiC$_{SE}$ and HiFiC$_{3D}$ in compressing the spatio-spectral redundancies with channel attention and inter-dependency analysis. Experimental results show the efficacy of the proposed models in performing spatio-spectral compression, while reconstructing images at reduced bitrates with higher reconstruction quality. The code of the proposed models is publicly available at https://git.tu-berlin.de/rsim/HSI-SSC .
翻訳日:2024-07-09 03:12:39 公開日:2024-07-05
# mPLM-Sim:多言語事前学習言語モデルにおける言語間類似性と移動性の改善

mPLM-Sim: Better Cross-Lingual Similarity and Transfer in Multilingual Pretrained Language Models ( http://arxiv.org/abs/2305.13684v3 )

ライセンス: Link先を確認
Peiqin Lin, Chengzhi Hu, Zheyu Zhang, André F. T. Martins, Hinrich Schütze, (参考訳) 近年の多言語事前訓練言語モデル (mPLM) は、事前訓練中に明示的に提供されない強い言語固有の信号を符号化することが示されている。 言語類似度を測定するためにmPLMを使うことが可能であるか、そしてその後、類似性を用いてソース言語を選択して言語間移動を促進することが可能であるかは、未解決の問題である。 そこで本研究では,マルチ並列コーパスを用いたmPLMから言語間の類似性を誘導する言語類似度尺度mPLMSimを提案する。 本研究は,mPLM-Simが,レキシコ統計学,系譜系,地理的スプラックバンドなどの言語類似性尺度と適度に高い相関を示すことを示す。 また、相関が低い言語についてもケーススタディを行い、mPLM-Simがより正確な類似性結果をもたらすことを観察する。 さらに,mPLM内の異なる層と異なる層に類似性が認められた。 さらに,mPLMSimが低レベル構文タスクと高レベル意味タスクの両方で実験を行うことで,ゼロショットの言語間移動に有効であるかどうかについても検討する。 実験の結果,mPLM-Simは言語指標よりも優れたソース言語を選択することができ,ゼロショット言語間転送性能は1%-2%向上した。

Recent multilingual pretrained language models (mPLMs) have been shown to encode strong language-specific signals, which are not explicitly provided during pretraining. It remains an open question whether it is feasible to employ mPLMs to measure language similarity, and subsequently use the similarity results to select source languages for boosting cross-lingual transfer. To investigate this, we propose mPLMSim, a language similarity measure that induces the similarities across languages from mPLMs using multi-parallel corpora. Our study shows that mPLM-Sim exhibits moderately high correlations with linguistic similarity measures, such as lexicostatistics, genealogical language family, and geographical sprachbund. We also conduct a case study on languages with low correlation and observe that mPLM-Sim yields more accurate similarity results. Additionally, we find that similarity results vary across different mPLMs and different layers within an mPLM. We further investigate whether mPLMSim is effective for zero-shot cross-lingual transfer by conducting experiments on both low-level syntactic tasks and high-level semantic tasks. The experimental results demonstrate that mPLM-Sim is capable of selecting better source languages than linguistic measures, resulting in a 1%-2% improvement in zero-shot cross-lingual transfer performance.
翻訳日:2024-07-09 01:21:29 公開日:2024-07-05
# 優先型強化学習におけるクエリ・ポリティクスのミスアライメント

Query-Policy Misalignment in Preference-Based Reinforcement Learning ( http://arxiv.org/abs/2305.17400v3 )

ライセンス: Link先を確認
Xiao Hu, Jianxiong Li, Xianyuan Zhan, Qing-Shan Jia, Ya-Qin Zhang, (参考訳) 嗜好に基づく強化学習(PbRL)は、RLエージェントの行動と人間の望ましい結果とを協調させる自然な方法を提供するが、コストのかかる人間のフィードバックによって抑制されることが多い。 フィードバック効率を向上させるため,既存のPbRL手法の多くは,報酬モデル全体の品質を最大化するためにクエリの選択に重点を置いている。 この謎を解くために、既存のPbRL研究のクエリ選択スキームにおいて、長年無視されてきた問題を特定する: Query-Policy Misalignment. Query-Policy Misalignment. 報酬モデル全体の品質を改善するために選択された一見有意義なクエリは、実際にはRLエージェントの関心と一致せず、政策学習にはほとんど役立ちず、結果としてフィードバック効率が低下することを示します。 この問題は, 双方向クエリとポリシのアライメントを併用した, オンラインに近いクエリと, 特別に設計されたハイブリッドエクスペリエンスのリプレイを通じて, 効果的に対処できることが示される。 単純でエレガントな方法では、数行のコードだけを変更することで、既存のアプローチに簡単に組み込むことができます。 提案手法は,PbRLタスクにおけるクエリ・ポリティクスのミスアライメントに対処することの重要性を実証し,人間のフィードバックとRLサンプルの効率の両面で大幅に向上することを示す。

Preference-based reinforcement learning (PbRL) provides a natural way to align RL agents' behavior with human desired outcomes, but is often restrained by costly human feedback. To improve feedback efficiency, most existing PbRL methods focus on selecting queries to maximally improve the overall quality of the reward model, but counter-intuitively, we find that this may not necessarily lead to improved performance. To unravel this mystery, we identify a long-neglected issue in the query selection schemes of existing PbRL studies: Query-Policy Misalignment. We show that the seemingly informative queries selected to improve the overall quality of reward model actually may not align with RL agents' interests, thus offering little help on policy learning and eventually resulting in poor feedback efficiency. We show that this issue can be effectively addressed via near on-policy query and a specially designed hybrid experience replay, which together enforce the bidirectional query-policy alignment. Simple yet elegant, our method can be easily incorporated into existing approaches by changing only a few lines of code. We showcase in comprehensive experiments that our method achieves substantial gains in both human feedback and RL sample efficiency, demonstrating the importance of addressing query-policy misalignment in PbRL tasks.
翻訳日:2024-07-09 01:21:29 公開日:2024-07-05
# 図形モデルに基づくノイズレート推定を用いたインスタンス依存型雑音ラベル学習

Instance-dependent Noisy-label Learning with Graphical Model Based Noise-rate Estimation ( http://arxiv.org/abs/2305.19486v3 )

ライセンス: Link先を確認
Arpit Garg, Cuong Nguyen, Rafael Felix, Thanh-Toan Do, Gustavo Carneiro, (参考訳) ディープ・ラーニング(Deep Learning)は、ノイズの多いラベルを扱う際に深刻な課題に直面している。 この課題は、不明瞭なサンプル情報から生じるラベルノイズの現実的な形態である、インスタンス依存ノイズ(IDN)の存在によってさらに複雑になる。 IDNに対処するために、ラベルノイズ学習(LNL)は、クリーンでノイズの多いラベルサンプルを区別するためにサンプル選択ステージを組み込んでいる。 このステージは任意の基準と事前定義されたカリキュラムを使用しており、当初はほとんどのサンプルをノイズとして選択し、トレーニング中にこの選択率を徐々に減少させる。 このようなカリキュラムは、トレーニングセットの実際のラベルノイズ率を考慮していないため、準最適である。 本稿では,より効果的なカリキュラムを作成するために,ほとんどのSOTA (State-of-the-art) LNL法と容易に統合できる新しいノイズレート推定手法を用いて,この問題に対処する。 合成および実世界のベンチマークの結果、SOTA LNL法と我々のアプローチを統合することで、ほとんどの場合精度が向上することが示された。

Deep learning faces a formidable challenge when handling noisy labels, as models tend to overfit samples affected by label noise. This challenge is further compounded by the presence of instance-dependent noise (IDN), a realistic form of label noise arising from ambiguous sample information. To address IDN, Label Noise Learning (LNL) incorporates a sample selection stage to differentiate clean and noisy-label samples. This stage uses an arbitrary criterion and a pre-defined curriculum that initially selects most samples as noisy and gradually decreases this selection rate during training. Such curriculum is sub-optimal since it does not consider the actual label noise rate in the training set. This paper addresses this issue with a new noise-rate estimation method that is easily integrated with most state-of-the-art (SOTA) LNL methods to produce a more effective curriculum. Synthetic and real-world benchmark results demonstrate that integrating our approach with SOTA LNL methods improves accuracy in most cases.
翻訳日:2024-07-09 01:21:29 公開日:2024-07-05
# 励起状態量子相転移を利用した精密磁気計測

Precision magnetometry exploiting excited state quantum phase transitions ( http://arxiv.org/abs/2306.01126v5 )

ライセンス: Link先を確認
Qian Wang, Ugo Marzolino, (参考訳) 相転移における臨界挙動は、精密気象学の強化のための資源である。 理由は、フィッシャー情報として知られるこの関数が臨界点において超指数関数であり、同時にメトロジープロトコルのパフォーマンスを定量化するからである。 したがって、位相遷移におけるメロジカルプローブの作成により、遷移制御パラメータの測定精度が向上する。 我々は、異なる磁場で励起状態量子相転移を示すリプキン-メシュコフ-グリックモデルに焦点を当てる。 モデルスペクトル特性に基づき、フィッシャー情報の広いピークを示し、高精度磁力計の効率的なスキームを提案する。 リプキン-メシュコフ-グリックモデルが最初に導入されたのは超伝導と核系であり、近年はいくつかの凝縮物質プラットフォームで実現された。 上記の気象スキームは、リプキン-メシュコフ-グリック模型をシミュレートできるシステムの微視的特性を測定するためにも利用することができる。

Critical behaviour in phase transitions is a resource for enhanced precision metrology. The reason is that the function, known as Fisher information, is superextensive at critical points, and, at the same time, quantifies performances of metrological protocols. Therefore, preparing metrological probes at phase transitions provides enhanced precision in measuring the transition control parameter. We focus on the Lipkin-Meshkov-Glick model that exhibits excited state quantum phase transitions at different magnetic fields. Resting on the model spectral properties, we show broad peaks of the Fisher information, and propose efficient schemes for precision magnetometry. The Lipkin-Meshkov-Glick model was first introduced for superconductivity and for nuclear systems, and recently realised in several condensed matter platforms. The above metrological schemes can be also exploited to measure microscopic properties of systems able to simulate the Lipkin-Meshkov-Glick model.
翻訳日:2024-07-09 01:21:29 公開日:2024-07-05
# 深層学習に基づく遅延線検出器の時空間多重イベント再構成

Deep Learning-Based Spatiotemporal Multi-Event Reconstruction for Delay Line Detectors ( http://arxiv.org/abs/2306.09359v2 )

ライセンス: Link先を確認
Marco Knipfer, Stefan Meier, Jonas Heimerl, Peter Hommelhoff, Sergei Gleyzer, (参考訳) 非常に狭い時間窓の中の2つ以上の粒子の正確な観測は、現代物理学の課題である。 これは、ハンベリー・ブラウン・ツイツの実験のような相関実験の可能性を生み出し、新しい物理的洞察をもたらす。 低エネルギー電子の場合、インシデント粒子ヒットの読み出しに後続の遅延線を持つマイクロチャネルプレートを使用することがあり、これは遅延線検出器と呼ばれる設定である。 複数の粒子の空間的および時間的座標は、死半径と呼ばれる領域の外で完全に再構成することができる。 2つの電子が空間と時間に近接している興味深い事象の場合、電子の個々の位置を決定するには精巧なピーク探索アルゴリズムが必要である。 古典的な手法は単一粒子ヒットとうまく機能するが、近くの複数の粒子によって引き起こされる事象を識別・再構成することができない。 この課題に対処するために、このような多層粒子信号の位置と時刻を同定し、再構成する新しい時空間機械学習モデルを提案する。 このモデルは、古典的なアプローチに比べて、近隣の粒子の衝突に対してはるかに優れた分解能を達成し、一部の人工物を取り除き、死半径を半分に減らした。 本研究では,遅延線検出器の時空間性能向上に機械学習モデルが有効であることを示す。

Accurate observation of two or more particles within a very narrow time window has always been a challenge in modern physics. It creates the possibility of correlation experiments, such as the ground-breaking Hanbury Brown-Twiss experiment, leading to new physical insights. For low-energy electrons, one possibility is to use a microchannel plate with subsequent delay lines for the readout of the incident particle hits, a setup called a Delay Line Detector. The spatial and temporal coordinates of more than one particle can be fully reconstructed outside a region called the dead radius. For interesting events, where two electrons are close in space and time, the determination of the individual positions of the electrons requires elaborate peak finding algorithms. While classical methods work well with single particle hits, they fail to identify and reconstruct events caused by multiple nearby particles. To address this challenge, we present a new spatiotemporal machine learning model to identify and reconstruct the position and time of such multi-hit particle signals. This model achieves a much better resolution for nearby particle hits compared to the classical approach, removing some of the artifacts and reducing the dead radius by half. We show that machine learning models can be effective in improving the spatiotemporal performance of delay line detectors.
翻訳日:2024-07-09 01:21:29 公開日:2024-07-05
# チカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカチカ

The False Dawn: Reevaluating Google's Reinforcement Learning for Chip Macro Placement ( http://arxiv.org/abs/2306.09633v9 )

ライセンス: Link先を確認
Igor L. Markov, (参考訳) Google 2021 Natureの論文で、シリコンチップの物理的設計のための強化学習(RL)が議論を巻き起こした。 論文は、結果の再現に必要な重要な方法論のステップとほとんどのインプットを支持した。 我々のメタ分析は、2つの異なる評価がギャップを埋め、Google RLが遅れていることを示す。 (i)人間デザイナー。 (ii)よく知られたアルゴリズム(Simulated Annealing)、及び また、2023年のオープンな研究コンテストでは、RLメソッドはトップ5には含まれなかった。 クロスチェックデータによると、Nature論文の完全性は、行動、分析、報告の誤りによって著しく損なわれている。 発表前、Googleは内部告発を却下したが、それは今も続いている。 チップ設計におけるポリシーの影響と結論に留意する。

Reinforcement learning (RL) for physical design of silicon chips in a Google 2021 Nature paper stirred controversy due to poorly documented claims that raised eyebrows and drew critical media coverage. The paper withheld critical methodology steps and most inputs needed to reproduce results. Our meta-analysis shows how two separate evaluations filled in the gaps and demonstrated that Google RL lags behind (i) human designers, (ii) a well-known algorithm (Simulated Annealing), and (iii) generally-available commercial software, while being slower; and in a 2023 open research contest, RL methods weren't in top 5. Crosschecked data indicate that the integrity of the Nature paper is substantially undermined owing to errors in conduct, analysis and reporting. Before publishing, Google rebuffed internal allegations of fraud, which still stand. We note policy implications and conclusions for chip design.
翻訳日:2024-07-09 01:21:29 公開日:2024-07-05
# PSF対応変圧器を用いたミニマリスト・高画質パノラマイメージング

Minimalist and High-Quality Panoramic Imaging with PSF-aware Transformers ( http://arxiv.org/abs/2306.12992v2 )

ライセンス: Link先を確認
Qi Jiang, Shaohua Gao, Yao Gao, Kailun Yang, Zhonghua Yi, Hao Shi, Lei Sun, Kaiwei Wang, (参考訳) ファイン・オブ・ビュー(FoV)の360{\deg}の高画質パノラマ画像は、現代のパノラマコンピュータビジョンタスクに不可欠である。 しかし、従来の撮像システムは高度なレンズ設計と重い光学部品を備えている。 これは、薄くポータブルで最小限のイメージングシステムが望まれる多くのモバイルおよびウェアラブルアプリケーションでの使用が不適格である。 本稿では,パノラマ画像の最小化と高画質化を実現するために,パノラマ計算イメージングエンジン(PCIE)を提案する。 球面レンズが3つ未満のミニマリストパノラマイメージングプロトタイプ (MPIP) はパノラマ環状レンズ (PAL) の設計に基づいて構築されているが、収差と画像平面サイズが小さいため、低画質の撮像結果が得られる。 我々は,MPIPの画質問題に対して,小型と大型の画像センサを用いて,収差補正 (AC) と超解差補正 (SR&AC) の2つのパイプラインを提案する。 光学系の先行情報を活用するために,PSFマップを付加モータリティとして生成するポイントスプレッド関数(PSF)表現法を提案する。 PSF対応収差回復変換器 (PART) は2つのパイプラインの普遍的ネットワークとして設計され, 自己注意計算と特徴抽出をPSFマップで導く。 シミュレーションから合成画像対をトレーニングし、PALHQデータセットを作成し、低レベルビジョンのための現実世界の高品質なPALイメージのギャップを埋める。 合成および実世界のベンチマークに関する総合的な実験は、PCIEの印象的な画像結果とPSF表現の有効性を実証している。 また,ミニマリスト,高画質パノラマ画像に対するヒューリスティックな実験結果も報告した。 データセットとコードはhttps://github.com/zju-jiangqi/PCIE-PART.comで公開されます。

High-quality panoramic images with a Field of View (FoV) of 360{\deg} are essential for contemporary panoramic computer vision tasks. However, conventional imaging systems come with sophisticated lens designs and heavy optical components. This disqualifies their usage in many mobile and wearable applications where thin and portable, minimalist imaging systems are desired. In this paper, we propose a Panoramic Computational Imaging Engine (PCIE) to achieve minimalist and high-quality panoramic imaging. With less than three spherical lenses, a Minimalist Panoramic Imaging Prototype (MPIP) is constructed based on the design of the Panoramic Annular Lens (PAL), but with low-quality imaging results due to aberrations and small image plane size. We propose two pipelines, i.e. Aberration Correction (AC) and Super-Resolution and Aberration Correction (SR&AC), to solve the image quality problems of MPIP, with imaging sensors of small and large pixel size, respectively. To leverage the prior information of the optical system, we propose a Point Spread Function (PSF) representation method to produce a PSF map as an additional modality. A PSF-aware Aberration-image Recovery Transformer (PART) is designed as a universal network for the two pipelines, in which the self-attention calculation and feature extraction are guided by the PSF map. We train PART on synthetic image pairs from simulation and put forward the PALHQ dataset to fill the gap of real-world high-quality PAL images for low-level vision. A comprehensive variety of experiments on synthetic and real-world benchmarks demonstrates the impressive imaging results of PCIE and the effectiveness of the PSF representation. We further deliver heuristic experimental findings for minimalist and high-quality panoramic imaging. Our dataset and code will be available at https://github.com/zju-jiangqi/PCIE-PART.
翻訳日:2024-07-09 01:21:29 公開日:2024-07-05
# NISQデバイス上で非アーベル異性体を実演する一提案

A proposal to demonstrate non-abelian anyons on a NISQ device ( http://arxiv.org/abs/2306.13129v4 )

ライセンス: Link先を確認
Jovan Jovanović, Carolin Wille, Daan Timmers, Steven H. Simon, (参考訳) 本研究では,非アベリア異性体をNISQデバイス上で実現するための提案を提案する。 特に、量子二重モデル $D(D_4)$ の実装の可能性について検討する。 そこで本研究では,電子回路の操作と測定を劇的に単純化する手法を提案する。 現実的なノイズモデルを用いた数値シミュレーションでは、現在のNISQ技術は、非アベリア異性体のシグネチャを、ブレイドの非可換性のような要素的性質を超えて探すことができることが示唆されている。 特に、モデルの全モジュラーデータを実験的に測定することは可能であると結論付けている。

In this work we present a proposal for realising non-Abelian anyons on a NISQ device. In particular we explore the feasibility of implementing the quantum double model $D(D_4)$. We propose techniques to drastically simplify the circuits for the manipulation and measurements of anyons. Numerical simulations with realistic noise models suggest that current NISQ technology is capable of probing signatures of non-Abelian anyons far beyond elemental properties such as the non-commutativity of braids. In particular, we conclude that experimentally measuring the full modular data of the model is feasible.
翻訳日:2024-07-09 01:21:29 公開日:2024-07-05
# リアルタイムSUEP検出のためのオートエンコーダ

Autoencoders for Real-Time SUEP Detection ( http://arxiv.org/abs/2306.13595v3 )

ライセンス: Link先を確認
Simranjit Singh Chhibra, Nadezda Chernyavskaya, Benedikt Maier, Maurzio Pierini, Syed Hasan, (参考訳) ダークセクターを疑似コンフォーマルなダイナミクスで閉じ込めることで、大型ハドロン衝突型加速器(Large Hadron Collider)でソフト・アンクラスタド・エナジー・パターン(SUEP: Soft Unclustered Energy Patterns)を生成できる: ダークシャワーとダークハドロンの高多重度生成につながる陽子-陽子衝突におけるダーククォークの生成。 最後の実験的なサインは、O(100) MeVの逆エネルギーを持つ不均一に多くのソフトスタンダードモデル粒子による球対称エネルギー堆積である。 スカラーポータル状態の湯川様結合を仮定すると、主な生成モードはグルーオン融合であり、主な背景はマルチジェットQCDイベントに由来する。 我々は,大型ハドロン衝突型加速器におけるコンパクト・ムーン・ソレノイド実験の高レベルトリガーシステムにおいて,QCDジェットを拒絶し,SUEPを含む異常なシグネチャをリアルタイムに同定する,深層学習に基づく異常検出手法を開発した。 深部畳み込み型ニューラルオートエンコーダネットワークは、内部トラッカー、電磁カロリーメータ、ハドロンカロリーメータサブ検出器を3チャンネル画像データとして、QCDイベントを用いて訓練されている。 データのスパースの性質のため、合計300kの画像ピクセルの0.5%はゼロではない。 この課題に対処するために、いわゆるDice Lossの逆関数である非標準損失関数が利用される。 QCDジェットの空間特性を学習した訓練されたオートエンコーダは、SUEPイベントの40%を検出でき、QCDイベントの誤タグレートは2%以下である。 モデル推論時間はIntel CoreTM i5-9600KFプロセッサを用いて測定され、約20msであることが判明し、これはハイレベルトリガーシステムのO(100)msの遅延を完全に満足している。

Confining dark sectors with pseudo-conformal dynamics can produce Soft Unclustered Energy Patterns (SUEP), at the Large Hadron Collider: the production of dark quarks in proton-proton collisions leading to a dark shower and the high-multiplicity production of dark hadrons. The final experimental signature is spherically-symmetric energy deposits by an anomalously large number of soft Standard Model particles with a transverse energy of O(100) MeV. Assuming Yukawa-like couplings of the scalar portal state, the dominant production mode is gluon fusion, and the dominant background comes from multi-jet QCD events. We have developed a deep learning-based Anomaly Detection technique to reject QCD jets and identify any anomalous signature, including SUEP, in real-time in the High-Level Trigger system of the Compact Muon Solenoid experiment at the Large Hadron Collider. A deep convolutional neural autoencoder network has been trained using QCD events by taking transverse energy deposits in the inner tracker, electromagnetic calorimeter, and hadron calorimeter sub-detectors as 3-channel image data. Due to the sparse nature of the data, only ~0.5% of the total ~300 k image pixels have non-zero values. To tackle this challenge, a non-standard loss function, the inverse of the so-called Dice Loss, is exploited. The trained autoencoder with learned spatial features of QCD jets can detect 40% of the SUEP events, with a QCD event mistagging rate as low as 2%. The model inference time has been measured using the Intel CoreTM i5-9600KF processor and found to be ~20 ms, which perfectly satisfies the High-Level Trigger system's latency of O(100) ms. Given the virtue of the unsupervised learning of the autoencoders, the trained model can be applied to any new physics model that predicts an experimental signature anomalous to QCD jets.
翻訳日:2024-07-09 01:21:29 公開日:2024-07-05
# 非線形シュレーディンガー方程式の共形双対性:理論とパラメータ推定への応用

Conformal duality of the nonlinear Schrödinger equation: Theory and applications to parameter estimation ( http://arxiv.org/abs/2306.17720v3 )

ライセンス: Link先を確認
David B. Reinhardt, Dean Lee, Wolfgang P. Schleich, Matthias Meister, (参考訳) 非線形シュル・オーディンガー方程式(英語版) (NLSE) はリッチで汎用的なモデルであり、1つの空間次元において線形シュル・オーディンガー方程式と同様の定常解を持ち、孤立波や量子滴のようなよりエキゾチックな解を持つ。 ここでは NLSE の統一理論を示し、局所一次元立方晶 NLSE の定常解はすべて、クロス比と呼ばれる単数で分類できることを示す。 同じ交叉比を持つ任意の2つの解は、共形変換を用いて互いに変換することができ、また、移動する波動解にも当てはまる。 さらに,この共形対称性に依拠し,雑音のある経験データからNLSEパラメータ推定を大幅に改善する最適化アフターバーナーを導入する。 したがって、新しい手法は非線形物理系への実用的な応用には至らなかったはずである。

The nonlinear Schr\"odinger equation (NLSE) is a rich and versatile model, which in one spatial dimension has stationary solutions similar to those of the linear Schr\"odinger equation as well as more exotic solutions such as solitary waves and quantum droplets. Here we present the unified theory of the NLSE, showing that all stationary solutions of the local one-dimensional cubic-quintic NLSE can be classified according to a single number called the cross-ratio. Any two solutions with the same cross-ratio can be converted into one another using a conformal transformation, and the same also holds true for traveling wave solutions. Further, we introduce an optimization afterburner that relies on this conformal symmetry to substantially improve NLSE parameter estimation from noisy empirical data. The new method therefore should have far reaching practical applications for nonlinear physical systems.
翻訳日:2024-07-09 01:11:44 公開日:2024-07-05
# マルチフレーム3次元物体検出に向けた空間時間グラフ強化DETR

Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection ( http://arxiv.org/abs/2307.00347v3 )

ライセンス: Link先を確認
Yifan Zhang, Zhiyu Zhu, Junhui Hou, Dapeng Wu, (参考訳) 検出変換器(DETR)はCNNベースのオブジェクト検出システムの設計に革命をもたらし、優れた性能を示している。 しかし、マルチフレーム3Dオブジェクト検出の領域におけるその可能性はほとんど解明されていない。 本稿では,この課題に特化している3つの重要な側面に対処することにより,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを強化する,新しいエンドツーエンドフレームワークであるSTEMDを提案する。 まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、グラフ内のクエリをノードとして表現し、社会的文脈内でのオブジェクト間の相互作用を効果的にモデル化する空間的時間的グラフアテンションネットワークを導入する。 現在のフレームにおけるエンコーダの出力提案におけるハードケースの欠落を解決するため、前フレームの出力を組み込んでデコーダのクエリ入力を初期化する。 最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。 そして、同様のクエリは不十分に抑制され、冗長な予測ボックスに変換される。 この問題に対処するため,提案したIoU正規化項では,改良期間中に類似したクエリを区別することを推奨している。 大規模な実験を通じて,計算オーバーヘッドをわずかに加えるだけで,難解なシナリオに対処する手法の有効性を実証する。 コードはhttps://github.com/Eaphan/STEMD.comで公開されている。

The Detection Transformer (DETR) has revolutionized the design of CNN-based object detection systems, showcasing impressive performance. However, its potential in the domain of multi-frame 3D object detection remains largely unexplored. In this paper, we present STEMD, a novel end-to-end framework that enhances the DETR-like paradigm for multi-frame 3D object detection by addressing three key aspects specifically tailored for this task. First, to model the inter-object spatial interaction and complex temporal dependencies, we introduce the spatial-temporal graph attention network, which represents queries as nodes in a graph and enables effective modeling of object interactions within a social context. To solve the problem of missing hard cases in the proposed output of the encoder in the current frame, we incorporate the output of the previous frame to initialize the query input of the decoder. Finally, it poses a challenge for the network to distinguish between the positive query and other highly similar queries that are not the best match. And similar queries are insufficiently suppressed and turn into redundant prediction boxes. To address this issue, our proposed IoU regularization term encourages similar queries to be distinct during the refinement. Through extensive experiments, we demonstrate the effectiveness of our approach in handling challenging scenarios, while incurring only a minor additional computational overhead. The code is publicly available at https://github.com/Eaphan/STEMD.
翻訳日:2024-07-09 01:11:44 公開日:2024-07-05
# エングレース:分布回帰レンズによる外挿

Engression: Extrapolation through the Lens of Distributional Regression ( http://arxiv.org/abs/2307.00835v3 )

ライセンス: Link先を確認
Xinwei Shen, Nicolai Meinshausen, (参考訳) 分布回帰は、与えられた共変量に対する対象変数の完全な条件分布を推定することを目的としている。 一般的な方法は、線形およびツリーアンサンブルに基づく量子レグレッションである。 本稿では,ニューラルネットワークを用いた分布回帰手法「エングレッション」を提案する。 エングレスモデル(engression model)は、適合した条件分布からサンプリングできるという意味で生成され、高次元結果にも適している。 さらに, トレーニングデータの条件分布をモデル化することで, トレーニング支援外の適合関数を制約し, 非線形回帰の難解な外挿問題に対する新たな視点を提供する。 特に、非線型変換を適用する前に共変量に雑音が付加される「前加法ノイズ」モデルでは、エングレッションは単調性などの仮定の下で外挿を成功させることができるのに対し、最小二乗法や量子レグレッションのような従来の回帰アプローチは同じ仮定では不十分であることを示す。 シミュレーションデータと実データの両方から得られた実験結果から,提案手法の有効性を検証し,多くの実世界のシナリオに適応していることを示す。 engressionのソフトウェア実装は、RとPythonの両方で利用可能である。

Distributional regression aims to estimate the full conditional distribution of a target variable, given covariates. Popular methods include linear and tree-ensemble based quantile regression. We propose a neural network-based distributional regression methodology called `engression'. An engression model is generative in the sense that we can sample from the fitted conditional distribution and is also suitable for high-dimensional outcomes. Furthermore, we find that modelling the conditional distribution on training data can constrain the fitted function outside of the training support, which offers a new perspective to the challenging extrapolation problem in nonlinear regression. In particular, for `pre-additive noise' models, where noise is added to the covariates before applying a nonlinear transformation, we show that engression can successfully perform extrapolation under some assumptions such as monotonicity, whereas traditional regression approaches such as least-squares or quantile regression fall short under the same assumptions. Our empirical results, from both simulated and real data, validate the effectiveness of the engression method and indicate that the pre-additive noise model is typically suitable for many real-world scenarios. The software implementations of engression are available in both R and Python.
翻訳日:2024-07-09 01:11:44 公開日:2024-07-05
# テラヘルツをベースとしたフロー誘導型ナノスケールローカライゼーションのためのグラフニューラルネットワーク

Graph Neural Networks as an Enabler of Terahertz-based Flow-guided Nanoscale Localization over Highly Erroneous Raw Data ( http://arxiv.org/abs/2307.05551v4 )

ライセンス: Link先を確認
Gerard Calvo Bartra, Filip Lemic, Guillem Pascual, Aina Pérez Rodas, Jakob Struye, Carmen Delgado, Xavier Costa Pérez, (参考訳) ナノテクノロジーと材料科学の最近の研究は、センサー、コンピューティング、無線通信、データストレージ、エネルギー収穫を調和させる汎用ツールとしてナノデバイスが出現したことに根ざしている。 これらのデバイスは、疾患の診断、治療、および血流内のモニタリングのための新しい経路を提供する。 フローガイドによる体内ナノスケールの局所化という概念の根底にある、診断的関心事の正確な位置決定は、検出された事象に付加的な診断価値を与える。 ナノデバイスによって生成された生データは、この局在に重要なものであり、事象検出指標と、ナノデバイスが心臓を通過してから経過した時間から構成される。 ナノデバイスのエネルギー制約は断続的な操作と信頼できない通信につながり、本質的にこのデータに影響を与える。 このことは、このデータの特徴を包括的にモデル化する必要性を示唆している。 これらの欠陥は、環境の複雑さに対処するには不十分な、既存のフロー誘導型ローカライゼーションアプローチの生存可能性にも重大な影響を及ぼす。 私たちの最初の貢献は、フロー誘導型ローカライゼーションのための生データの分析モデルであり、通信とエネルギー能力がナノデバイスのデータ出力にどのように影響するかを明らかにすることである。 このモデルは、フロー誘導ローカライゼーションの実践的な課題と理想化された仮定を一致させる、重要なブリッジとして機能する。 これらの課題に対処するために、フロー誘導ローカライゼーションパラダイムへのグラフニューラルネットワーク(GNN)の統合も提案する。 GNNはナノデバイスによって感知される事象の局所化に固有の複雑な動的相互作用を捉えるのに優れている。 以上の結果から,GNNは局所化精度を高めるだけでなく,血流全体を包含する範囲を広げる可能性も浮き彫りにした。

Contemporary research advances in nanotechnology and material science are rooted in the emergence of nanodevices as a versatile tool that harmonizes sensing, computing, wireless communication, data storage, and energy harvesting. These devices offer novel pathways for disease diagnostics, treatment, and monitoring within the bloodstreams. Ensuring precise localization of events of diagnostic interest, which underpins the concept of flow-guided in-body nanoscale localization, would provide an added diagnostic value to the detected events. Raw data generated by the nanodevices is pivotal for this localization and consist of an event detection indicator and the time elapsed since the last passage of a nanodevice through the heart. The energy constraints of the nanodevices lead to intermittent operation and unreliable communication, intrinsically affecting this data. This posits a need for comprehensively modelling the features of this data. These imperfections also have profound implications for the viability of existing flow-guided localization approaches, which are ill-prepared to address the intricacies of the environment. Our first contribution lies in an analytical model of raw data for flow-guided localization, dissecting how communication and energy capabilities influence the nanodevices' data output. This model acts as a vital bridge, reconciling idealized assumptions with practical challenges of flow-guided localization. Toward addressing these practical challenges, we also present an integration of Graph Neural Networks (GNNs) into the flow-guided localization paradigm. GNNs excel in capturing complex dynamic interactions inherent to the localization of events sensed by the nanodevices. Our results highlight the potential of GNNs not only to enhance localization accuracy but also extend coverage to encompass the entire bloodstream.
翻訳日:2024-07-09 01:11:44 公開日:2024-07-05
# 振動量子井戸における傾斜ワイル半金属中のファノ共鳴

Fano resonances in tilted Weyl semimetals in an oscillating quantum well ( http://arxiv.org/abs/2307.15928v2 )

ライセンス: Link先を確認
Souvik Das, Arnab Maity, Rajib Sarkar, Anirudha Menon, Tanay Nag, Banasri Basu, (参考訳) 傾いたワイル半金属の低エネルギーモデルを考えると、傾斜に対して横方向を向いた周期的に駆動された量子井戸を通して電子伝達を研究する。 我々は、フロケ散乱理論の形式主義を採用し、フロケ側バンドと準有界状態のマッチングの結果としてファノ共鳴の出現を考察する。 ファノ共鳴エネルギーは傾き強度と直線的に変化し、準有界状態の傾きを媒介する部分が上記の因子に依存することを示唆する。 傾きに平行な運動量(垂直)の値が与えられると、2つのファノ共鳴間のエネルギーギャップは、傾き方向に対して隣接する2つの横(直線)運動量に現れるが、傾きの強さの変化に敏感である(敏感)。 このような傾きの強さとコリナー運動量の結合(疎結合)挙動は、ポテンシャル井戸内の準有界状態エネルギーの傾きと通常の部分から理解することができる。 我々は、静的分散における傾き項と同じ準有界状態エネルギーの傾き媒介部分の正確な形状を決定的に検証するために、ワイル点の他の傾きパラメータとキラリティを変化させる。 傾きの向きは、傾きの運動量を持つファノ共鳴エネルギーの進化の観点から、輸送を著しく変化させることができる。 計算結果の全てを裏付ける境界状態エネルギーの明示的な形式を解析的に発見する。 我々の研究は、傾きとファノ共鳴の間の複雑な相互作用を理解するために、準バウンド状態エネルギーの傾きを媒介する部分を探索する方法である。

Considering the low-energy model of tilted Weyl semimetal, we study the electronic transmission through a periodically driven quantum well, oriented in the transverse direction with respect to the tilt. We adopt the formalism of Floquet scattering theory and investigate the emergence of Fano resonances as an outcome of matching between the Floquet sidebands and quasi-bound states. The Fano resonance energy changes linearly with the tilt strength suggesting the fact that tilt-mediated part of quasi-bound states energies depends on the above factor. Given a value of momentum parallel (perpendicular) to the tilt, we find that the energy gap between two Fano resonances, appearing for two adjacent values of transverse (collinear) momentum with respect to the tilt direction, is insensitive (sensitive) to the change in the tilt strength. Such a coupled (decoupled) behavior of tilt strength and the collinear (transverse) momentum can be understood from the tilt-mediated and normal parts of the quasi-bound state energies inside the potential well. We vary the other tilt parameters and chirality of the Weyl points to conclusively verify the exact form of the tilt-mediated part of the quasi-bound state energy that is the same as the tilt term in the static dispersion. The tilt orientation can significantly alter the transport in terms of evolution of Fano resoance energy with tilt momentum. We analytically find the explicit form of the bound state energy that further supports all our numerical findings. Our work paves the way to probe the tilt-mediated part of quasi-bound state energy to understand the complex interplay between the tilt and Fano resonance.
翻訳日:2024-07-09 01:11:44 公開日:2024-07-05
# ASY-VRNet:非対称フェアビジョン融合と4Dmm波レーダに基づく水路パノプティクス駆動知覚モデル

ASY-VRNet: Waterway Panoptic Driving Perception Model based on Asymmetric Fair Fusion of Vision and 4D mmWave Radar ( http://arxiv.org/abs/2308.10287v2 )

ライセンス: Link先を確認
Runwei Guan, Shanliang Yao, Xiaohui Zhu, Ka Lok Man, Yong Yue, Jeremy Smith, Eng Gee Lim, Yutao Yue, (参考訳) パノプティカル・ドライビング・パーセプション (PDP) は無人表面車両 (USV) の自律走行に重要である。 PDPモデルは典型的には複数のタスクを統合し、下流の経路計画を容易にするために、様々な知覚タスクの同時実行と堅牢実行を必要とする。 視覚センサーとレーダーセンサーの融合は、現在、堅牢で費用対効果の高いアプローチとして認められている。 しかし、既存のほとんどの研究は、主にオブジェクト検出専用の視覚的特徴とレーダ的特徴の融合や、複数のタスクに共通する特徴空間の利用に焦点を当てており、様々なタスク間の個々の表現の違いを無視している。 このギャップに対処するために,物体検出と意味的セグメンテーションタスクの特定の要件に合わせて,視覚とレーダーの両モードから独立な特徴と効率的に相互作用するように設計された,一対の非対称フェアフュージョン (AFF) モジュールを提案する。 AFFモジュールは画像とレーダーマップを不規則な点集合として扱い、これらの特徴をマルチタスクのためのクロスシェアされた特徴空間に変換し、視覚とレーダーポイントの雲の特徴を公平に扱う。 AFFモジュールを活用することで、不規則な超画素点集合に基づいて画像とレーダの特徴を処理する新しい効率的なPDPモデルASY-VRNetを提案する。 さらに,PDPモデルに特化して設計された効果的なマルチタスク学習手法を提案する。 他の軽量モデルと比較して、ASY-VRNetはWaterScenesベンチマークのオブジェクト検出、セマンティックセグメンテーション、乾燥可能な領域セグメンテーションにおける最先端のパフォーマンスを達成する。 私たちのプロジェクトはhttps://github.com/GuanRunwei/ASY-VRNetで公開されています。

Panoptic Driving Perception (PDP) is critical for the autonomous navigation of Unmanned Surface Vehicles (USVs). A PDP model typically integrates multiple tasks, necessitating the simultaneous and robust execution of various perception tasks to facilitate downstream path planning. The fusion of visual and radar sensors is currently acknowledged as a robust and cost-effective approach. However, most existing research has primarily focused on fusing visual and radar features dedicated to object detection or utilizing a shared feature space for multiple tasks, neglecting the individual representation differences between various tasks. To address this gap, we propose a pair of Asymmetric Fair Fusion (AFF) modules with favorable explainability designed to efficiently interact with independent features from both visual and radar modalities, tailored to the specific requirements of object detection and semantic segmentation tasks. The AFF modules treat image and radar maps as irregular point sets and transform these features into a crossed-shared feature space for multitasking, ensuring equitable treatment of vision and radar point cloud features. Leveraging AFF modules, we propose a novel and efficient PDP model, ASY-VRNet, which processes image and radar features based on irregular super-pixel point sets. Additionally, we propose an effective multitask learning method specifically designed for PDP models. Compared to other lightweight models, ASY-VRNet achieves state-of-the-art performance in object detection, semantic segmentation, and drivable-area segmentation on the WaterScenes benchmark. Our project is publicly available at https://github.com/GuanRunwei/ASY-VRNet.
翻訳日:2024-07-09 01:01:54 公開日:2024-07-05
# Chunk, Align, Select: 変圧器の簡単なロングシーケンス処理方法

Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers ( http://arxiv.org/abs/2308.13191v2 )

ライセンス: Link先を確認
Jiawen Xie, Pengyu Cheng, Xiao Liang, Yong Dai, Nan Du, (参考訳) 自然言語処理では支配的であるが、トランスフォーマーにおける自己アテンション演算の計算コストは入力シーケンス長の2倍に膨らむため、トランスフォーマーベースのモデルは長いシーケンス処理のタスクによって依然として挑戦されている。 長いシーケンス処理の複雑さを軽減するため、オフザシェルの事前学習型トランスフォーマーがずっと長いシーケンスを処理できるようにするための単純なフレームワークを提案し、計算とメモリコストは入力シーケンスの長さとともに線形に増加し続ける。 具体的には、各長文入力をチャンクに分割し、エンコーディングステップ中にインターチャンク情報を整列し、最後にエンコーダから最も代表的な隠蔽状態を選択して復号処理を行う。 チャンク間セマンティック情報を抽出するため,各エンコードトランスブロック内のチャンク間に開始トークンと終了トークンの埋め込みを整列する。 効率的な隠れ選択ポリシーを学習するために,変換器のデコーダを環境とみなす強化学習に着想を得た2つの更新スキームを設計し,下流のパフォーマンス指標を隠れ選択行動を評価する報奨として利用する。 実世界の長文要約と読解タスクに関する実証実験の結果,従来の長文処理ベースラインと比較して,効果的な改善が示された。

Although dominant in natural language processing, transformer-based models remain challenged by the task of long-sequence processing, because the computational cost of self-attention operations in transformers swells quadratically with the input sequence length. To alleviate the complexity of long-sequence processing, we propose a simple framework to enable the offthe-shelf pre-trained transformers to process much longer sequences, while the computation and memory costs remain growing linearly with the input sequence lengths. More specifically, our method divides each long-sequence input into a batch of chunks, then aligns the interchunk information during the encoding steps, and finally selects the most representative hidden states from the encoder for the decoding process. To extract inter-chunk semantic information, we align the start and end token embeddings among chunks in each encoding transformer block. To learn an effective hidden selection policy, we design a dual updating scheme inspired by reinforcement learning, which regards the decoders of transformers as environments, and the downstream performance metrics as the rewards to evaluate the hidden selection actions. Our empirical results on real-world long-text summarization and reading comprehension tasks demonstrate effective improvements compared to prior longsequence processing baselines.
翻訳日:2024-07-09 01:01:54 公開日:2024-07-05
# Gotta Match 'em all: Solution diversification in graph matching matched filters

Gotta match 'em all: Solution diversification in graph matching matched filters ( http://arxiv.org/abs/2308.13451v3 )

ライセンス: Link先を確認
Zhirui Li, Ben Johnson, Daniel L. Sussman, Carey E. Priebe, Vince Lyzinski, (参考訳) 非常に大きな背景グラフに複数のノイズを埋め込んだテンプレートグラフを見つけるための新しい手法を提案する。 提案手法はSussmanらによって提案されたグラフマッチング-マッチング-フィルタ技術に基づいており,マッチングされたフィルタアルゴリズムにおいて適切なノード対類似性行列を反復的にペナル化することにより,多様なマッチングの発見を実現する。 さらに,マッチングフィルタ手法のスケーラビリティを大幅に向上させるアルゴリズム的な高速化を提案する。 相関したエルドス・レーニグラフの設定において,本手法の理論的正当性を示すとともに,軽度モデル条件下で複数のテンプレートを逐次発見する能力を示す。 また、シミュレーションモデルと実世界のデータセットを用いて、人間の脳コネクトームや大きなトランザクション知識ベースを含む広範な実験を通して、我々の方法の有用性を実証する。

We present a novel approach for finding multiple noisily embedded template graphs in a very large background graph. Our method builds upon the graph-matching-matched-filter technique proposed in Sussman et al., with the discovery of multiple diverse matchings being achieved by iteratively penalizing a suitable node-pair similarity matrix in the matched filter algorithm. In addition, we propose algorithmic speed-ups that greatly enhance the scalability of our matched-filter approach. We present theoretical justification of our methodology in the setting of correlated Erdos-Renyi graphs, showing its ability to sequentially discover multiple templates under mild model conditions. We additionally demonstrate our method's utility via extensive experiments both using simulated models and real-world dataset, include human brain connectomes and a large transactional knowledge base.
翻訳日:2024-07-09 01:01:54 公開日:2024-07-05
# 論理グラフに基づく命令生成のための言語モデルによる計画

Planning with Logical Graph-based Language Model for Instruction Generation ( http://arxiv.org/abs/2308.13782v2 )

ライセンス: Link先を確認
Fan Zhang, Kebing Jin, Hankz Hankui Zhuo, (参考訳) 自然言語テキストを生成するための大規模言語モデルの優れた性能にもかかわらず、ニューラルネットワークが自由形式のテキストからインプリートされたルールを捉えるのが困難であるため、与えられたタスクに従って正しい論理を持つテキストを生成することは困難である。 本稿では,より有効なテキスト生成と解釈可能性のために,論理を言語モデルに注入する新しいグラフベース言語モデル,Logical-GLMを提案する。 具体的には、まず自然言語命令から情報を取得し、一般にドメインを記述する論理ベイズグラフを構築する。 次に、言語モデルトレーニングのガイドとして論理スケルトンを生成し、言語モデルにドメイン知識を注入する。 最後に、収束するまでグラフと言語モデルの探索ポリシーを交互に最適化する。 実験結果から,ロジカルGLMはより小規模なトレーニングデータと少ないパラメータを用いながら,従来の言語モデルと比較して効率的かつ効率的であることが示唆された。 我々のアプローチは、内部化されたドメイン知識により、より正確な論理で命令文を生成することができる。 さらに、論理グラフの使用は言語モデルの内部メカニズムを反映し、ブラックボックスモデルの解釈可能性を向上させる。

Despite the superior performance of large language models to generate natural language texts, it is hard to generate texts with correct logic according to a given task, due to the difficulties for neural models to capture implied rules from free-form texts. In this paper, we propose a novel graph-based language model, Logical-GLM, to infuse logic into language models for more valid text generation and interpretability. Specifically, we first capture information from natural language instructions and construct logical bayes graphs that generally describe domains. Next, we generate logical skeletons to guide language model training, infusing domain knowledge into language models. Finally, we alternately optimize the searching policy of graphs and language models until convergence. The experimental results show that Logical-GLM is both effective and efficient compared with traditional language models, despite using smaller-scale training data and fewer parameters. Our approach can generate instructional texts with more correct logic owing to the internalized domain knowledge. Moreover, the usage of logical graphs reflects the inner mechanism of the language models, which improves the interpretability of black-box models.
翻訳日:2024-07-09 01:01:54 公開日:2024-07-05
# 量子畳み込みニューラルネットワークから何が学べるか?

What can we learn from quantum convolutional neural networks? ( http://arxiv.org/abs/2308.16664v2 )

ライセンス: Link先を確認
Chukwudubem Umeano, Annie E. Paine, Vincent E. Elfving, Oleksandr Kyriienko, (参考訳) 量子畳み込みニューラルネットワーク(QCNN)の分析から学ぶことができる。 1) 量子データを扱うことは,隠れた特徴写像を通じて物理系パラメータを埋め込んだものとみなすことができる。 2) 量子位相認識の高性能性は, スピンモデルの量子臨界度が, 急速に変化する特徴を持つ基底関数へと導かれる基底状態の埋め込みにおいて, 非常に適切な基底セットの生成に起因していると考えられる。 3)QCNNのプール層は,高性能な意思決定境界の形成に寄与する基本関数の選択に責任を負い,学習プロセスは,少数のキュービット演算子をフル登録可能な観測値にマッピングするように,測定に適応する。 4) QCNNモデルの一般化は埋め込み型に強く依存しており, フーリエ基底を持つ回転型特徴写像は注意深い特徴工学を必要とする。 5) 有限ショット数に基づく読み出し付きQCNNの精度と一般化は, 基底状態埋め込みと関連する物理インフォームドモデルを好む。 我々はこれらの点をシミュレーションで示し、その結果、センシングの応用に関係した物理過程の分類に光を当てた。 最後に, 適切に選択された基底状態埋め込みを持つQCNNが流体力学問題に利用でき, 優れた一般化と訓練性を有する衝撃波解を表現できることを示す。

We can learn from analyzing quantum convolutional neural networks (QCNNs) that: 1) working with quantum data can be perceived as embedding physical system parameters through a hidden feature map; 2) their high performance for quantum phase recognition can be attributed to generation of a very suitable basis set during the ground state embedding, where quantum criticality of spin models leads to basis functions with rapidly changing features; 3) pooling layers of QCNNs are responsible for picking those basis functions that can contribute to forming a high-performing decision boundary, and the learning process corresponds to adapting the measurement such that few-qubit operators are mapped to full-register observables; 4) generalization of QCNN models strongly depends on the embedding type, and that rotation-based feature maps with the Fourier basis require careful feature engineering; 5) accuracy and generalization of QCNNs with readout based on a limited number of shots favor the ground state embeddings and associated physics-informed models. We demonstrate these points in simulation, where our results shed light on classification for physical processes, relevant for applications in sensing. Finally, we show that QCNNs with properly chosen ground state embeddings can be used for fluid dynamics problems, expressing shock wave solutions with good generalization and proven trainability.
翻訳日:2024-07-09 01:01:54 公開日:2024-07-05
# ニューラル・オードへの深い残留ネットワークの入射正則化

Implicit regularization of deep residual networks towards neural ODEs ( http://arxiv.org/abs/2309.01213v3 )

ライセンス: Link先を確認
Pierre Marion, Yu-Han Wu, Michael E. Sander, Gérard Biau, (参考訳) 残留ニューラルネットワークは最先端のディープラーニングモデルである。 その連続深度アナログであるニューラル常微分方程式(ODE)も広く用いられている。 彼らの成功にもかかわらず、離散モデルと連続モデルの間の関係は依然としてしっかりとした数学的基礎を欠いている。 本稿では、勾配流を学習した非線形ネットワークに対して、ニューラルネットワークに対する深い残留ネットワークの暗黙的な正規化を確立することにより、この方向への一歩を踏み出す。 ネットワークがニューラルなODEの離散化として初期化されている場合、そのような離散化はトレーニングを通して維持されることを示す。 また,ネットワークがPolyak-Lojasiewicz条件を満たす場合,トレーニング時間は無限大となる傾向にある。 重要なことに、この条件は、残差が2層パーセプトロンであり、線形にしかならない幅で過度にパラメータ化されている残差ネットワークの族であり、大域的な最小値への勾配流の収束を意味する。 数値実験は我々の結果を例証する。

Residual neural networks are state-of-the-art deep learning models. Their continuous-depth analog, neural ordinary differential equations (ODEs), are also widely used. Despite their success, the link between the discrete and continuous models still lacks a solid mathematical foundation. In this article, we take a step in this direction by establishing an implicit regularization of deep residual networks towards neural ODEs, for nonlinear networks trained with gradient flow. We prove that if the network is initialized as a discretization of a neural ODE, then such a discretization holds throughout training. Our results are valid for a finite training time, and also as the training time tends to infinity provided that the network satisfies a Polyak-Lojasiewicz condition. Importantly, this condition holds for a family of residual networks where the residuals are two-layer perceptrons with an overparameterization in width that is only linear, and implies the convergence of gradient flow to a global minimum. Numerical experiments illustrate our results.
翻訳日:2024-07-09 01:01:54 公開日:2024-07-05
# スポーツのタイムタイリングでどのアルゴリズムを選択するか?

Which algorithm to select in sports timetabling? ( http://arxiv.org/abs/2309.03229v2 )

ライセンス: Link先を確認
David Van Bulck, Dries Goossens, Jan-Patrick Clarner, Angelos Dimitsas, George H. G. Fonseca, Carlos Lamas-Fernandez, Martin Mariusz Lester, Jaap Pedersen, Antony E. Phillips, Roberto Maria Rosati, (参考訳) あらゆるスポーツ競技にはタイムテーブルが必要で、いつ、どこでチームが出会うかを指定する。 近年のITC2021(International Timetabling Competition)では、一般的なアルゴリズムを開発できるが、各アルゴリズムの性能は問題インスタンスによって大きく異なることが示されている。 本稿では,8つの最先端アルゴリズムの長所と短所に関する強力な洞察を与える。 機械学習技術に基づいて,スポーツ時変問題インスタンスの特徴を考慮し,どのアルゴリズムが最適に動作するかを予測するアルゴリズム選択システムを提案する。 さらに,その予測においてどの特性が重要であるかを特定し,アルゴリズムの性能に関する洞察を与え,さらに改善するための提案を行う。 最後に、事例の実証的硬さを評価する。 この結果は,500以上の新たに生成された問題インスタンス上で約50年間のCPU時間を含む大規模計算実験に基づいている。

Any sports competition needs a timetable, specifying when and where teams meet each other. The recent International Timetabling Competition (ITC2021) on sports timetabling showed that, although it is possible to develop general algorithms, the performance of each algorithm varies considerably over the problem instances. This paper provides an instance space analysis for sports timetabling, resulting in powerful insights into the strengths and weaknesses of eight state-of-the-art algorithms. Based on machine learning techniques, we propose an algorithm selection system that predicts which algorithm is likely to perform best when given the characteristics of a sports timetabling problem instance. Furthermore, we identify which characteristics are important in making that prediction, providing insights in the performance of the algorithms, and suggestions to further improve them. Finally, we assess the empirical hardness of the instances. Our results are based on large computational experiments involving about 50 years of CPU time on more than 500 newly generated problem instances.
翻訳日:2024-07-09 01:01:54 公開日:2024-07-05
# Future-AI:医療における信頼性とデプロイ可能な人工知能のための国際コンセンサスガイドライン

FUTURE-AI: International consensus guideline for trustworthy and deployable artificial intelligence in healthcare ( http://arxiv.org/abs/2309.12325v2 )

ライセンス: Link先を確認
Karim Lekadir, Aasa Feragen, Abdul Joseph Fofanah, Alejandro F Frangi, Alena Buyx, Anais Emelie, Andrea Lara, Antonio R Porras, An-Wen Chan, Arcadi Navarro, Ben Glocker, Benard O Botwe, Bishesh Khanal, Brigit Beger, Carol C Wu, Celia Cintas, Curtis P Langlotz, Daniel Rueckert, Deogratias Mzurikwao, Dimitrios I Fotiadis, Doszhan Zhussupov, Enzo Ferrante, Erik Meijering, Eva Weicken, Fabio A González, Folkert W Asselbergs, Fred Prior, Gabriel P Krestin, Gary Collins, Geletaw S Tegenaw, Georgios Kaissis, Gianluca Misuraca, Gianna Tsakou, Girish Dwivedi, Haridimos Kondylakis, Harsha Jayakody, Henry C Woodruf, Hugo JWL Aerts, Ian Walsh, Ioanna Chouvarda, Irène Buvat, Islem Rekik, James Duncan, Jayashree Kalpathy-Cramer, Jihad Zahir, Jinah Park, John Mongan, Judy W Gichoya, Julia A Schnabel, Kaisar Kushibar, Katrine Riklund, Kensaku Mori, Kostas Marias, Lameck M Amugongo, Lauren A Fromont, Lena Maier-Hein, Leonor Cerdá Alberich, Leticia Rittner, Lighton Phiri, Linda Marrakchi-Kacem, Lluís Donoso-Bach, Luis Martí-Bonmatí, M Jorge Cardoso, Maciej Bobowicz, Mahsa Shabani, Manolis Tsiknakis, Maria A Zuluaga, Maria Bielikova, Marie-Christine Fritzsche, Marius George Linguraru, Markus Wenzel, Marleen De Bruijne, Martin G Tolsgaard, Marzyeh Ghassemi, Md Ashrafuzzaman, Melanie Goisauf, Mohammad Yaqub, Mohammed Ammar, Mónica Cano Abadía, Mukhtar M E Mahmoud, Mustafa Elattar, Nicola Rieke, Nikolaos Papanikolaou, Noussair Lazrak, Oliver Díaz, Olivier Salvado, Oriol Pujol, Ousmane Sall, Pamela Guevara, Peter Gordebeke, Philippe Lambin, Pieta Brown, Purang Abolmaesumi, Qi Dou, Qinghua Lu, Richard Osuala, Rose Nakasi, S Kevin Zhou, Sandy Napel, Sara Colantonio, Shadi Albarqouni, Smriti Joshi, Stacy Carter, Stefan Klein, Steffen E Petersen, Susanna Aussó, Suyash Awate, Tammy Riklin Raviv, Tessa Cook, Tinashe E M Mutsvangwa, Wendy A Rogers, Wiro J Niessen, Xènia Puig-Bosch, Yi Zeng, Yunusa G Mohammed, Yves Saint James Aquino, Zohaib Salahuddin, Martijn P A Starmans, (参考訳) 医療と医療における人工知能(AI)の大きな進歩にもかかわらず、AI技術の展開と採用は、実際の臨床実践において制限されている。 近年、医療AIに関連する技術的、臨床的、倫理的、法的リスクに関する懸念が高まっている。 現実の採用を高めるためには、医療AIツールが患者、臨床医、保健機関、当局によって信頼され、受け入れられることが不可欠である。 この研究は、Future-AIガイドラインを、医療における信頼できるAIツールの開発とデプロイを導くための、最初の国際コンセンサスフレームワークとして説明している。 Future-AIコンソーシアムは2021年に設立され、現在は、AI科学者、臨床医、倫理学者、社会科学者を含む51カ国から118の学際専門家で構成されている。 コンソーシアムは2年間にわたって、詳細な文献レビュー、修正されたDelphi調査、オンラインコンセンサスミーティングを含む反復的なプロセスを通じて、信頼できるAIの指針とベストプラクティスを定義した。 Future-AIフレームワークは、医療における信頼できるAIのための6つの原則、すなわち公正性、普遍性、トレーサビリティ、ユーザビリティ、ロバスト性、説明可能性に基づいて設立された。 コンセンサスを通じて28のベストプラクティスが定義され、技術的、臨床的、法的、社会的倫理的な側面に対処した。 このレコメンデーションは、デザイン、開発、バリデーションから規制、デプロイメント、監視に至るまで、医療AIのライフサイクル全体をカバーする。 FUTURE-AIはリスクインフォームドで仮定なしのガイドラインであり、実際のプラクティスで信頼され、デプロイされ、採用される医療AIツールを構築するための構造化されたアプローチを提供する。 研究者は、この推奨事項を概念実証段階で考慮し、将来の医療AIの臨床実践への翻訳を促進することを奨励されている。

Despite major advances in artificial intelligence (AI) for medicine and healthcare, the deployment and adoption of AI technologies remain limited in real-world clinical practice. In recent years, concerns have been raised about the technical, clinical, ethical and legal risks associated with medical AI. To increase real world adoption, it is essential that medical AI tools are trusted and accepted by patients, clinicians, health organisations and authorities. This work describes the FUTURE-AI guideline as the first international consensus framework for guiding the development and deployment of trustworthy AI tools in healthcare. The FUTURE-AI consortium was founded in 2021 and currently comprises 118 inter-disciplinary experts from 51 countries representing all continents, including AI scientists, clinicians, ethicists, and social scientists. Over a two-year period, the consortium defined guiding principles and best practices for trustworthy AI through an iterative process comprising an in-depth literature review, a modified Delphi survey, and online consensus meetings. The FUTURE-AI framework was established based on 6 guiding principles for trustworthy AI in healthcare, i.e. Fairness, Universality, Traceability, Usability, Robustness and Explainability. Through consensus, a set of 28 best practices were defined, addressing technical, clinical, legal and socio-ethical dimensions. The recommendations cover the entire lifecycle of medical AI, from design, development and validation to regulation, deployment, and monitoring. FUTURE-AI is a risk-informed, assumption-free guideline which provides a structured approach for constructing medical AI tools that will be trusted, deployed and adopted in real-world practice. Researchers are encouraged to take the recommendations into account in proof-of-concept stages to facilitate future translation towards clinical practice of medical AI.
翻訳日:2024-07-09 01:01:54 公開日:2024-07-05
# 弱スーパービジョンと適応インスタンス選択を用いた軽量ビデオ異常検出モデル

A Lightweight Video Anomaly Detection Model with Weak Supervision and Adaptive Instance Selection ( http://arxiv.org/abs/2310.05330v2 )

ライセンス: Link先を確認
Yang Wang, Jiaogen Zhou, Jihong Guan, (参考訳) ビデオ異常検出は、あるビデオに異常な事象、行動、または物体があるかどうかを判断することであり、効果的でインテリジェントな公共安全管理を可能にする。 ビデオの異常ラベル付けは時間と費用の両方がかかるため、既存の作品の多くは教師なしあるいは弱教師なしの学習方法を採用している。 本報告では,ビデオ異常検出の弱さに着目し,トレーニングビデオに異常の有無をラベル付けするが,どのフレームに異常があるかは明らかにされていない。 しかし、弱いラベル付きデータの不確実性と大きなモデルサイズは、既存の手法が実際のシナリオ、特にエッジコンピューティングのようなリソース制限状況に広く展開することを防ぐ。 本稿では,軽量なビデオ異常検出モデルを提案する。 一方,モデルの現状に基づいた適応型インスタンス選択戦略を提案し,信頼性の高いインスタンスを選択することにより,弱いラベル付きデータの不確実性を軽減し,モデルの性能向上を図る。 一方,本モデルを構築するために,軽量なマルチレベル時間相関アテンションモジュールと時間ガラス形状の完全連結層を設計し,既存の手法(例えばRTFM)の0.56倍までモデルパラメータを削減できることを示した。 UCF-CrimeとShanghaiTechの2つの公開データセットに関する広範な実験により、我々のモデルは最先端の手法と比較してAUCスコアに匹敵するか、さらに優れている。

Video anomaly detection is to determine whether there are any abnormal events, behaviors or objects in a given video, which enables effective and intelligent public safety management. As video anomaly labeling is both time-consuming and expensive, most existing works employ unsupervised or weakly supervised learning methods. This paper focuses on weakly supervised video anomaly detection, in which the training videos are labeled whether or not they contain any anomalies, but there is no information about which frames the anomalies are located. However, the uncertainty of weakly labeled data and the large model size prevent existing methods from wide deployment in real scenarios, especially the resource-limit situations such as edge-computing. In this paper, we develop a lightweight video anomaly detection model. On the one hand, we propose an adaptive instance selection strategy, which is based on the model's current status to select confident instances, thereby mitigating the uncertainty of weakly labeled data and subsequently promoting the model's performance. On the other hand, we design a lightweight multi-level temporal correlation attention module and an hourglass-shaped fully connected layer to construct the model, which can reduce the model parameters to only 0.56\% of the existing methods (e.g. RTFM). Our extensive experiments on two public datasets UCF-Crime and ShanghaiTech show that our model can achieve comparable or even superior AUC score compared to the state-of-the-art methods, with a significantly reduced number of model parameters.
翻訳日:2024-07-09 00:52:08 公開日:2024-07-05
# ユニバーサル知識グラフの埋め込み

Universal Knowledge Graph Embeddings ( http://arxiv.org/abs/2310.14899v2 )

ライセンス: Link先を確認
N'Dah Jean Kouagou, Caglar Demir, Hamada M. Zahera, Adrian Wilke, Stefan Heindorf, Jiayi Li, Axel-Cyrille Ngonga Ngomo, (参考訳) 様々な知識グラフの埋め込み手法が開発されている。 それらの多くは、リンク予測設定内で知識グラフの構造を学習することで埋め込みを得る。 結果として、埋め込みは単一の知識グラフの構造のみを反映し、異なる知識グラフに対する埋め込みは整列しない。 しかし、エンティティの曖昧さのような知識グラフを埋め込むアプリケーションには、よりグローバルな表現、すなわち複数のソースにまたがって有効な表現が必要である。 本稿では,大規模リンク型知識ソースからユニバーサル知識グラフの埋め込みを学習することを提案する。 この目的のために、我々はフクロウ:sameAs関係に基づいて大きな知識グラフを融合し、全ての実体が一意のアイデンティティで表されるようにする。 私たちは、DBpediaとWikidataをベースとした普遍的な埋め込みを計算し、約1億5000万のエンティティ、1500のリレーション、120億のトリプルに対して埋め込みを出力することで、私たちのアイデアをインスタンス化します。 計算された埋め込みは、グラフ基盤モデルの新たな分野をサポートすると信じています。 さらに、埋め込みをサービスとして提供するための便利なAPIも開発しています。 リンク予測の実験では、ユニバーサルナレッジグラフの埋め込みは、単一のナレッジグラフ上で計算された埋め込みよりも、より良いセマンティクスをエンコードすることを示唆している。 再現性のために、ソースコードとデータセットをオープンアクセスで提供します。

A variety of knowledge graph embedding approaches have been developed. Most of them obtain embeddings by learning the structure of the knowledge graph within a link prediction setting. As a result, the embeddings reflect only the structure of a single knowledge graph, and embeddings for different knowledge graphs are not aligned, e.g., they cannot be used to find similar entities across knowledge graphs via nearest neighbor search. However, knowledge graph embedding applications such as entity disambiguation require a more global representation, i.e., a representation that is valid across multiple sources. We propose to learn universal knowledge graph embeddings from large-scale interlinked knowledge sources. To this end, we fuse large knowledge graphs based on the owl:sameAs relation such that every entity is represented by a unique identity. We instantiate our idea by computing universal embeddings based on DBpedia and Wikidata yielding embeddings for about 180 million entities, 15 thousand relations, and 1.2 billion triples. We believe our computed embeddings will support the emerging field of graph foundation models. Moreover, we develop a convenient API to provide embeddings as a service. Experiments on link prediction suggest that universal knowledge graph embeddings encode better semantics compared to embeddings computed on a single knowledge graph. For reproducibility purposes, we provide our source code and datasets open access.
翻訳日:2024-07-09 00:52:08 公開日:2024-07-05
# 深部ニューラルネットワークにおける有効故障位置推定のための経路解析

Path Analysis for Effective Fault Localization in Deep Neural Networks ( http://arxiv.org/abs/2310.18987v3 )

ライセンス: Link先を確認
Soroush Hashemifar, Saeed Parsa, Akram Kalaee, (参考訳) ディープラーニングのさまざまな領域への変革的影響にもかかわらず、Deep Neural Networks(DNN)の信頼性は、その複雑さとデータ依存のため、依然として厳しい懸念である。 スペクトルベースのフォールトローカライゼーション(SBFL)のような従来のソフトウェアフォールトローカライゼーション技術は、限られた成功を収めたDNNに適応している。 DeepFaultのような既存の手法では、SBFL対策を使用しているが、神経経路を横断する障害の伝播を考慮できないため、最適下障害検出に繋がる。 このギャップに対処するため,重要な神経経路の同定と検証にLRP(Layer-wise Relevance Propagation)を利用するNP-SBFL法を提案する。 我々の革新的な多段階勾配上昇(MGA)技術は、勾配上昇(GA)の拡張であり、連続的にニューロンを活性化し、故障検出の有効性を高める。 NP-SBFL-MGAは,MNISTとCIFAR-10,DeepFaultとNP-SBFL-GAの2つのベースライン,Taratra,Ochiai,Barinelの3つの疑わしいニューロン測定において有効であった。 実験の結果,NP-SBFL-MGAは疑わしい経路の同定や逆入力の合成において,ベースラインよりも統計的に有効であることが示唆された。 特に、NP-SBFL-MGAのタランチュラの断層検出率は96.75%で、オチアイのDeepFault(89.90%)、オチアイのNP-SBFL-GA(60.61%)を上回った。 また,本手法では,自然度入力のベースラインに匹敵する結果が得られ,臨界経路のカバレッジとDNN断層定位におけるテスト失敗数との間に正の相関が認められた。

Despite deep learning's transformative impact on various domains, the reliability of Deep Neural Networks (DNNs) is still a pressing concern due to their complexity and data dependency. Traditional software fault localization techniques, such as Spectrum-based Fault Localization (SBFL), have been adapted to DNNs with limited success. Existing methods like DeepFault utilize SBFL measures but fail to account for fault propagation across neural pathways, leading to suboptimal fault detection. Addressing this gap, we propose the NP-SBFL method, leveraging Layer-wise Relevance Propagation (LRP) to identify and verify critical neural pathways. Our innovative multi-stage gradient ascent (MGA) technique, an extension of gradient ascent (GA), activates neurons sequentially, enhancing fault detection efficacy. We evaluated the effectiveness of our method, i.e. NP-SBFL-MGA, on two commonly used datasets, MNIST and CIFAR-10, two baselines DeepFault and NP- SBFL-GA, and three suspicious neuron measures, Tarantula, Ochiai, and Barinel. The empirical results showed that NP-SBFL-MGA is statistically more effective than the baselines at identifying suspicious paths and synthesizing adversarial inputs. Particularly, Tarantula on NP-SBFL-MGA had the highest fault detection rate at 96.75%, surpassing DeepFault on Ochiai (89.90%) and NP-SBFL-GA on Ochiai (60.61%). Our approach also yielded results comparable to those of the baselines in synthesizing naturalness inputs, and we found a positive correlation between the coverage of critical paths and the number of failed tests in DNN fault localization.
翻訳日:2024-07-09 00:52:08 公開日:2024-07-05
# テーラー曲線時空における量子場理論シミュレータとしてのポラリトン流体

Polariton Fluids as Quantum Field Theory Simulators on Tailored Curved Spacetimes ( http://arxiv.org/abs/2311.01392v2 )

ライセンス: Link先を確認
Kévin Falque, Adrià Delhom, Quentin Glorieux, Elisabeth Giacobino, Alberto Bramati, Maxime J Jacquet, (参考訳) 湾曲した時空の量子場は、ブラックホールからのホーキング放射のような豊富な効果を示す。 ブラックホールの場の量子論は理論上しか研究できないが、制御された実験実験で試すことができる。 実験では、流体が亜音速から超音速に移動すると、流体の速度が音速と等しい地平線で、音場に対して効果的に湾曲した時空が生じる。 このような系におけるホーキング効果のような予測をテストすることの課題は、時空の曲率の制御とフィールドスペクトルへのアクセスにある。 ここでは、スムーズで急な地平線と様々な超音速流体速度を伴い、無質量または大質量の励起を生成できる光の分極量子流体において、配向された定常有効曲線時空を作成する。 最近開発された分光法を用いて、これらの時空における集合励起のスペクトルを測定し、超音速領域における負のエネルギーモードを重要視し、地平線の形成を示唆する。 地平線曲率の制御と、両面のスペクトルへのアクセスは、曲面時空の場の理論を研究するための光の量子流体の可能性を示している。

Quantum fields in curved spacetime exhibit a wealth of effects like Hawking radiation from black holes. While quantum field theory in black holes can only be studied theoretically, it can be tested in controlled laboratory experiments. In experiments, a fluid going from sub- to supersonic speed creates an effectively curved spacetime for the acoustic field, with a horizon where the speed of the fluid equals the speed of sound. The challenge to test predictions like the Hawking effect in such systems lies in the control of the spacetime curvature and access to the field spectrum thereon. Here, we create tailored stationary effective curved spacetimes in a polaritonic quantum fluid of light in which either massless or massive excitations can be created, with smooth and steep horizons and various supersonic fluid speeds. Using a recently developed spectroscopy method we measure the spectrum of collective excitations on these spacetimes, crucially observing negative energy modes in the supersonic regions, which signals the formation of a horizon. Control over the horizon curvature and access to the spectrum on either side demonstrates the potential of quantum fluids of light for the study of field theories on curved spacetimes, and we discuss the possibility of investigating emission and spectral instabilities with a horizon or in an effective Exotic Compact Object configuration.
翻訳日:2024-07-09 00:52:08 公開日:2024-07-05
# ディープラーニング拡散生成モデルからの乱流スケーリング

Turbulence Scaling from Deep Learning Diffusion Generative Models ( http://arxiv.org/abs/2311.06112v2 )

ライセンス: Link先を確認
Tim Whittaker, Romuald A. Janik, Yaron Oz, (参考訳) 複雑な空間構造と時間構造は乱流の性質であり、それらを解釈することは大きな課題となる。 この積分は乱流流の構造の空間を理解する必要がある。 拡散型生成モデルを用いて乱流渦の分布を学習し,非圧縮性ナビエ・ストークス方程式に対する乱流解のスナップショットを生成する。 逆カスケードを2つの空間次元で検討し、トレーニングデータセットとは異なる多様な乱流解を生成する。 我々は,新しい乱流プロファイルの統計的スケーリング特性を解析し,その構造関数,エネルギーパワースペクトル,速度分布関数,局所エネルギー散逸のモーメントを計算した。 学習したスケーリング指数はすべて、期待されるKolmogorovスケーリングと一致している。 確立された乱流特性とのこの合意は、モデルが現実世界の乱流の本質的な特徴を捉える能力の強い証拠となる。

Complex spatial and temporal structures are inherent characteristics of turbulent fluid flows and comprehending them poses a major challenge. This comprehesion necessitates an understanding of the space of turbulent fluid flow configurations. We employ a diffusion-based generative model to learn the distribution of turbulent vorticity profiles and generate snapshots of turbulent solutions to the incompressible Navier-Stokes equations. We consider the inverse cascade in two spatial dimensions and generate diverse turbulent solutions that differ from those in the training dataset. We analyze the statistical scaling properties of the new turbulent profiles, calculate their structure functions, energy power spectrum, velocity probability distribution function and moments of local energy dissipation. All the learnt scaling exponents are consistent with the expected Kolmogorov scaling. This agreement with established turbulence characteristics provides strong evidence of the model's capability to capture essential features of real-world turbulence.
翻訳日:2024-07-09 00:42:23 公開日:2024-07-05
# 全スライド画像分類のための意識変化型複数インスタンス学習

Attention-Challenging Multiple Instance Learning for Whole Slide Image Classification ( http://arxiv.org/abs/2311.07125v4 )

ライセンス: Link先を確認
Yunlong Zhang, Honglin Li, Yuxuan Sun, Sunyi Zheng, Chenglu Zhu, Lin Yang, (参考訳) 全体スライド画像(WSI)分類のためのMIL(Multiple Instance Learning)手法の適用において、注意機構は、オーバーフィッティングと密接に結びついている差別的なインスタンスのサブセットに焦点を当てることが多い。 過度な適合を緩和するため,ACMIL (Atention-Challenging MIL) を提案する。 ACMILは、注意値集中のための別個の分析に基づく2つの手法を組み合わせる。 第一に、UMAPのインスタンス機能は差別的なインスタンスの様々なパターンを明らかにし、既存の注意機構はそれらの一部のみをキャプチャする。 これを改善するために、複数の注意枝を用いてより識別性の高いインスタンスをキャプチャするために、MBA(Multiple Branch Attention)を導入する。 第2に,Top-Kアテンションスコアの累積値の検証は,少数の事例が注目の過半数を占めていることを示している。 これに対し,Stochastic Top-K Instance Masking (STKIM) を提案する。 2つの事前訓練されたバックボーンを持つ3つのWSIデータセットの広範な実験結果から、ACMILは最先端の手法よりも優れていることが判明した。 さらに、熱マップの可視化とUMAPの可視化を通じて、注意値の集中を抑え、過度に適合する課題を克服するACMILの有効性を広く説明する。 ソースコードは \url{https://github.com/dazhangyu123/ACMIL} で公開されている。

In the application of Multiple Instance Learning (MIL) methods for Whole Slide Image (WSI) classification, attention mechanisms often focus on a subset of discriminative instances, which are closely linked to overfitting. To mitigate overfitting, we present Attention-Challenging MIL (ACMIL). ACMIL combines two techniques based on separate analyses for attention value concentration. Firstly, UMAP of instance features reveals various patterns among discriminative instances, with existing attention mechanisms capturing only some of them. To remedy this, we introduce Multiple Branch Attention (MBA) to capture more discriminative instances using multiple attention branches. Secondly, the examination of the cumulative value of Top-K attention scores indicates that a tiny number of instances dominate the majority of attention. In response, we present Stochastic Top-K Instance Masking (STKIM), which masks out a portion of instances with Top-K attention values and allocates their attention values to the remaining instances. The extensive experimental results on three WSI datasets with two pre-trained backbones reveal that our ACMIL outperforms state-of-the-art methods. Additionally, through heatmap visualization and UMAP visualization, this paper extensively illustrates ACMIL's effectiveness in suppressing attention value concentration and overcoming the overfitting challenge. The source code is available at \url{https://github.com/dazhangyu123/ACMIL}.
翻訳日:2024-07-09 00:42:23 公開日:2024-07-05
# 医師はプロンプトの仕方を知っているか? : 臨床ノート作成における自動プロンプト最適化支援の必要性

Do Physicians Know How to Prompt? The Need for Automatic Prompt Optimization Help in Clinical Note Generation ( http://arxiv.org/abs/2311.09684v3 )

ライセンス: Link先を確認
Zonghai Yao, Ahmed Jaafar, Beining Wang, Zhichao Yang, Hong Yu, (参考訳) 本研究は,臨床ノート作成における言語モデル(LLM)の性能に及ぼすプロンプトエンジニアリングの影響について検討する。 本稿では,医療専門家,非医療専門家,APPO強化GPT3.5およびGPT4のアウトプットを比較し,初期プロンプトを洗練するための自動プロンプト最適化(APO)フレームワークを提案する。 その結果, GPT4 APO は, 臨床検査項目間での即時品質の標準化に優れていた。 Human-in-the-loopアプローチは、専門家が自身の修正を好んでAPO以降のコンテンツ品質を維持することを示し、専門家のカスタマイズの価値を示唆している。 整合性にはAPO-GPT4、パーソナライズにはエキスパートインプットを利用する2相最適化プロセスを提案する。

This study examines the effect of prompt engineering on the performance of Large Language Models (LLMs) in clinical note generation. We introduce an Automatic Prompt Optimization (APO) framework to refine initial prompts and compare the outputs of medical experts, non-medical experts, and APO-enhanced GPT3.5 and GPT4. Results highlight GPT4 APO's superior performance in standardizing prompt quality across clinical note sections. A human-in-the-loop approach shows that experts maintain content quality post-APO, with a preference for their own modifications, suggesting the value of expert customization. We recommend a two-phase optimization process, leveraging APO-GPT4 for consistency and expert input for personalization.
翻訳日:2024-07-09 00:42:23 公開日:2024-07-05
# 人工貯水池における断熱量子軌道

Adiabatic quantum trajectories in engineered reservoirs ( http://arxiv.org/abs/2311.11937v2 )

ライセンス: Link先を確認
Emma C. King, Luigi Giannelli, Raphaël Menu, Johannes N. Kriel, Giovanna Morigi, (参考訳) 人工貯水池で補助される断熱型量子状態伝達プロトコルの効率を解析する。 対象力学はヒルベルト空間の量子軌道であり、断熱力学の極限における時間依存マスター方程式の固定点である。 我々は、量子ビットにおける量子状態移動を専門とし、時間依存のリンドブラッド方程式のクラスに対する最適スケジュールを決定する。 状態移動の速度制限は、貯水池に結合されたキュービットの物理モデルから抽出され、リンドブラッド方程式はボルン・マルコフ極限から導かれる。 分析の結果,結果の効率は最適ユニタリダイナミクスの効率に匹敵することがわかった。 数値的研究により、貯水池工学的なプロトコルは、ボルン・マルコフのマスター方程式の規則以外のユニタリプロトコル、すなわち、量子ビットと貯水池の相関関係が関係すると、より優れていることが示されている。 本研究は,オープン量子システムにおけるショートカットの理論と,NISQ時代のプロトコルのツールボックスに寄与する。

We analyze the efficiency of protocols for adiabatic quantum state transfer assisted by an engineered reservoir. The target dynamics is a quantum trajectory in the Hilbert space and is a fixed point of a time-dependent master equation in the limit of adiabatic dynamics. We specialize to quantum state transfer in a qubit and determine the optimal schedule for a class of time-dependent Lindblad equations. The speed limit on state transfer is extracted from a physical model of a qubit coupled to a reservoir, from which the Lindblad equation is derived in the Born-Markov limit. Our analysis shows that the resulting efficiency is comparable to the efficiency of the optimal unitary dynamics. Numerical studies indicate that reservoir-engineered protocols could outperform unitary protocols outside the regime of the Born-Markov master equation, namely, when correlations between the qubit and reservoir become relevant. Our study contributes to the theory of shortcuts to adiabaticity for open quantum systems and to the toolbox of protocols of the NISQ era.
翻訳日:2024-07-09 00:42:23 公開日:2024-07-05
# ビットの殻:FPGA上のミニフロートによる量子化の境界を押し上げる

Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAs ( http://arxiv.org/abs/2311.12359v3 )

ライセンス: Link先を確認
Shivam Aggarwal, Hans Jakob Damsgaard, Alessandro Pappalardo, Giuseppe Franco, Thomas B. Preußer, Michaela Blott, Tulika Mitra, (参考訳) 後トレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの数値精度を低下させる。 近年,モデル推論におけるPTQの文脈における8ビット浮動小数点形式(FP8)の適用について検討している。 しかし、8ビット未満の浮動小数点フォーマットと、整数に対する精度ハードウェアコストの相対比較はFPGAでは未定である。 そこで本研究では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに低減し,精度の高い浮動小数点形状のミニフロートを提案する。 FPGAベースのマルチプライ累積演算子ライブラリを実装し,重みとアクティベーションの両面で,ミニフロートと整数表現を3ビットから8ビットで比較し,膨大な設計空間を探索する。 また,様々な整数ベースの量子化手法のミニフロートへの適用性についても検討した。 我々の実験によると、ミニフロートはビジョントランスフォーマーのような新しいワークロードに対して有望な代替手段を提供する。

Post-training quantization (PTQ) is a powerful technique for model compression, reducing the numerical precision in neural networks without additional training overhead. Recent works have investigated adopting 8-bit floating-point formats(FP8) in the context of PTQ for model inference. However, floating-point formats smaller than 8 bits and their relative comparison in terms of accuracy-hardware cost with integers remains unexplored on FPGAs. In this work, we present minifloats, which are reduced-precision floating-point formats capable of further reducing the memory footprint, latency, and energy cost of a model while approaching full-precision model accuracy. We implement a custom FPGA-based multiply-accumulate operator library and explore the vast design space, comparing minifloat and integer representations across 3 to 8 bits for both weights and activations. We also examine the applicability of various integerbased quantization techniques to minifloats. Our experiments show that minifloats offer a promising alternative for emerging workloads such as vision transformers.
翻訳日:2024-07-09 00:42:23 公開日:2024-07-05
# BenchMARL: マルチエージェント強化学習のベンチマーク

BenchMARL: Benchmarking Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2312.01472v2 )

ライセンス: Link先を確認
Matteo Bettini, Amanda Prorok, Vincent Moens, (参考訳) マルチエージェント強化学習(MARL)の分野は現在再現性危機に直面している。 標準化されたレポートのソリューションはこの問題に対処するために提案されているが、最先端の強化学習(RL)実装を活用しながら、標準化と再現性を実現するベンチマークツールがまだ存在しない。 本稿では,異なるアルゴリズム,モデル,環境をまたいだ標準化ベンチマークを可能にするため,最初のMARLトレーニングライブラリであるBenchMARLを紹介する。 BenchMARLはTorchRLをバックエンドとして使用しており、MARL PyTorchユーザの幅広いコミュニティに対処しながら、高いパフォーマンスと最先端の実装を維持できる。 その設計により、システマティックな構成とレポートが可能になり、ユーザーは単純なワンライン入力から複雑なベンチマークを作成し、実行することができる。 BenchMARLがGitHubでオープンソース化:https://github.com/facebookresearch/BenchMARL

The field of Multi-Agent Reinforcement Learning (MARL) is currently facing a reproducibility crisis. While solutions for standardized reporting have been proposed to address the issue, we still lack a benchmarking tool that enables standardization and reproducibility, while leveraging cutting-edge Reinforcement Learning (RL) implementations. In this paper, we introduce BenchMARL, the first MARL training library created to enable standardized benchmarking across different algorithms, models, and environments. BenchMARL uses TorchRL as its backend, granting it high performance and maintained state-of-the-art implementations while addressing the broad community of MARL PyTorch users. Its design enables systematic configuration and reporting, thus allowing users to create and run complex benchmarks from simple one-line inputs. BenchMARL is open-sourced on GitHub: https://github.com/facebookresearch/BenchMARL
翻訳日:2024-07-09 00:32:39 公開日:2024-07-05
# 強い視覚表現学習者としてのイメージGPTの再生

Rejuvenating image-GPT as Strong Visual Representation Learners ( http://arxiv.org/abs/2312.02147v2 )

ライセンス: Link先を確認
Sucheng Ren, Zeyu Wang, Hongru Zhu, Junfei Xiao, Alan Yuille, Cihang Xie, (参考訳) 本稿では,視覚表現学習の次のピクセルを予測するために,自己回帰事前学習を導入した先駆的な研究である画像GPT(iGPT)を強化する。 単純だが重要な変更が2つある。 まず、予測対象を生のピクセルからセマンティックトークンにシフトし、視覚的内容の高レベルな理解を可能にする。 次に、次のトークンだけでなく可視トークンも予測するようにモデルに指示することで、自己回帰モデリングを補完する。 このパイプラインは、CLIPのような差別的に訓練されたモデルによってセマンティックトークンが符号化される場合、特に効果的である。 本手法をD-iGPTとして紹介する。 注目すべき成果は、ImageNet-1Kデータセット上での魅力的なパフォーマンス -- 公開データセットのトレーニング -- によって、D-iGPTは前例のないことなく、バニラVT-Hで \textbf{90.0\%} のトップ1の精度を達成しています。 さらに、D-iGPTは下流タスクに強い一般化を示す。 コードはhttps://github.com/OliverRensu/D-iGPTで入手できる。

This paper enhances image-GPT (iGPT), one of the pioneering works that introduce autoregressive pretraining to predict the next pixels for visual representation learning. Two simple yet essential changes are made. First, we shift the prediction target from raw pixels to semantic tokens, enabling a higher-level understanding of visual content. Second, we supplement the autoregressive modeling by instructing the model to predict not only the next tokens but also the visible tokens. This pipeline is particularly effective when semantic tokens are encoded by discriminatively trained models, such as CLIP. We introduce this novel approach as D-iGPT. Extensive experiments showcase that D-iGPT excels as a strong learner of visual representations: A notable achievement is its compelling performance on the ImageNet-1K dataset -- by training on publicly available datasets, D-iGPT unprecedentedly achieves \textbf{90.0\%} top-1 accuracy with a vanilla ViT-H. Additionally, D-iGPT shows strong generalization on the downstream task. Code is available at https://github.com/OliverRensu/D-iGPT.
翻訳日:2024-07-09 00:32:39 公開日:2024-07-05
# p-進量子力学, ディラック方程式, アインシュタイン因果性違反

p-Adic Quantum Mechanics, the Dirac Equation, and the violation of Einstein causality ( http://arxiv.org/abs/2312.02744v4 )

ライセンス: Link先を確認
W. A. Zúñiga-Galindo, (参考訳) 本稿では、量子力学におけるプランク長におけるローレンツ対称性の破れについて研究する。 位置変数として3次元の p-進ベクトルを用いるが、時間は実数のままである。 この設定では、プランク長は 1/p であり、p は素数であり、ローレンツ対称性は自然に破られる。 量子力学のディラック・ヴォン・ノイマン形式論の枠組みでは、粒子や反粒子の存在を予測し、標準粒子のように電荷共役を予測できる新しいp進ディラック方程式を導入する。 p-進空間の離散性は、新しい方程式の解にかなりの制限を与える。 この方程式は、標準の場合では不可能な局所解を許容する。 p-進ディラック方程式によって進化が制御される孤立量子系がアインシュタイン因果性を満たすことが示され、これは光の速度が従来の物質やエネルギーが空間を移動する速度の上限ではないことを意味する。 新しい p-進ディラック方程式は標準方程式を置き換えることを意図していないが、プランク長スケールにおける古典方程式の新しいバージョン(または極限)として理解すべきである。

This article studies the breaking of the Lorentz symmetry at the Planck length in quantum mechanics. We use three-dimensional p-adic vectors as position variables, while the time remains a real number. In this setting, the Planck length is 1/p, where p is a prime number, and the Lorentz symmetry is naturally broken. In the framework of the Dirac-von Neumann formalism for quantum mechanics, we introduce a new p-adic Dirac equation that predicts the existence of particles and antiparticles and charge conjugation like the standard one. The discreteness of the p-adic space imposes substantial restrictions on the solutions of the new equation. This equation admits localized solutions, which is impossible in the standard case. We show that an isolated quantum system whose evolution is controlled by the p-adic Dirac equation does not satisfy the Einstein causality, which means that the speed of light is not the upper limit for the speed at which conventional matter or energy can travel through space. The new p-adic Dirac equation is not intended to replace the standard one; it should be understood as a new version (or a limit) of the classical equation at the Planck length scale.
翻訳日:2024-07-09 00:32:39 公開日:2024-07-05
# 対照的な活性化付加反応によるLlama 2のステアリング

Steering Llama 2 via Contrastive Activation Addition ( http://arxiv.org/abs/2312.06681v4 )

ライセンス: Link先を確認
Nina Panickssery, Nick Gabrieli, Julian Schulz, Meg Tong, Evan Hubinger, Alexander Matt Turner, (参考訳) 本稿では,前方通過時のアクティベーションを変更することで,言語モデルをステアリングする革新的な手法であるContrastive Activation Addition (CAA)を紹介する。 CAAは「ステアリングベクター」を計算し、事実と幻覚反応のような特定の行動の肯定的と否定的な事例のペア間の残ストリームアクティベーションの差を平均化する。 推論中、これらのステアリングベクトルは、ユーザのプロンプト後のすべてのトークン位置に正あるいは負の係数で加算され、ターゲットの行動の度合いを正確に制御できる。 Llama 2 ChatにおけるCAAの有効性を,複数選択行動質問データセットとオープン・エンド・ジェネレーション・タスクを用いて評価した。 私たちはCAAがモデル動作を著しく変更し、微調整やシステムプロンプト設計といった従来の手法を駆使し、機能を最小限に抑えることを実証した。 さらに,様々なアクティベーション空間解釈手法を用いて,CAAのメカニズムについて深い知見を得る。 CAAはモデル出力を正確に制御し、Large Language Models (LLMs) でどのようにハイレベルな概念が表現されるかを明らかにします。

We introduce Contrastive Activation Addition (CAA), an innovative method for steering language models by modifying their activations during forward passes. CAA computes "steering vectors" by averaging the difference in residual stream activations between pairs of positive and negative examples of a particular behavior, such as factual versus hallucinatory responses. During inference, these steering vectors are added at all token positions after the user's prompt with either a positive or negative coefficient, allowing precise control over the degree of the targeted behavior. We evaluate CAA's effectiveness on Llama 2 Chat using multiple-choice behavioral question datasets and open-ended generation tasks. We demonstrate that CAA significantly alters model behavior, is effective over and on top of traditional methods like finetuning and system prompt design, and minimally reduces capabilities. Moreover, we gain deeper insights into CAA's mechanisms by employing various activation space interpretation methods. CAA accurately steers model outputs and sheds light on how high-level concepts are represented in Large Language Models (LLMs).
翻訳日:2024-07-09 00:32:39 公開日:2024-07-05
# MaTe3D: マスクガイド付きテキストベースの3D画像編集

MaTe3D: Mask-guided Text-based 3D-aware Portrait Editing ( http://arxiv.org/abs/2312.06947v4 )

ライセンス: Link先を確認
Kangneng Zhou, Daiheng Gao, Xuan Wang, Jie Zhang, Peng Zhang, Xusen Sun, Longhao Zhang, Shiqi Yang, Bang Zhang, Liefeng Bo, Yaxing Wang, Ming-Ming Cheng, (参考訳) 3D対応の肖像画編集は、複数の分野に幅広い応用がある。 しかし、マスクガイドやテキストベースの編集しかできないため、現在のアプローチは限られている。 2つのプロシージャをモデルに融合させることによっても、編集品質と安定性を確保することはできない。 この制限に対処するため,マスク誘導型テキストベースの3D画像編集法である \textbf{MaTe3D} を提案する。 まず,SDFに基づく新しい3Dジェネレータを導入し,SDFと密度の整合性による局所的およびグローバルな表現を学習する。 第2に、新しい蒸留戦略として、幾何とテクスチャの条件蒸留(CDGT)を提案する。 蒸留を終了する戦略と比較して、視覚的曖昧さを軽減し、テクスチャと幾何学のミスマッチを回避し、編集中に安定したテクスチャと精巧な幾何学を生成する。 さらに、モデル一般化と拡張の探索のための大規模高解像度猫顔アノテーションであるCatMask-HQデータセットを作成する。 FFHQとCatMask-HQの両方のデータセットで高価な実験を行い、提案手法の編集品質と安定性を実証する。 本手法は,修正マスクとテキストプロンプトに基づく3次元顔画像の編集を忠実に行う。 私たちのコードとモデルは公開されます。

3D-aware portrait editing has a wide range of applications in multiple fields. However, current approaches are limited due that they can only perform mask-guided or text-based editing. Even by fusing the two procedures into a model, the editing quality and stability cannot be ensured. To address this limitation, we propose \textbf{MaTe3D}: mask-guided text-based 3D-aware portrait editing. In this framework, first, we introduce a new SDF-based 3D generator which learns local and global representations with proposed SDF and density consistency losses. This enhances masked-based editing in local areas; second, we present a novel distillation strategy: Conditional Distillation on Geometry and Texture (CDGT). Compared to exiting distillation strategies, it mitigates visual ambiguity and avoids mismatch between texture and geometry, thereby producing stable texture and convincing geometry while editing. Additionally, we create the CatMask-HQ dataset, a large-scale high-resolution cat face annotation for exploration of model generalization and expansion. We perform expensive experiments on both the FFHQ and CatMask-HQ datasets to demonstrate the editing quality and stability of the proposed method. Our method faithfully generates a 3D-aware edited face image based on a modified mask and a text prompt. Our code and models will be publicly released.
翻訳日:2024-07-09 00:32:39 公開日:2024-07-05
# 層間読み出し:事前学習モデルによるリハーサルなし連続学習のための多層表現の活用

Read Between the Layers: Leveraging Multi-Layer Representations for Rehearsal-Free Continual Learning with Pre-Trained Models ( http://arxiv.org/abs/2312.08888v3 )

ライセンス: Link先を確認
Kyra Ahrens, Hans Hergen Lehmann, Jae Hee Lee, Stefan Wermter, (参考訳) 連続学習(CL)問題に対処するためには,モデルが非定常分布からタスク列を学習し,新しい経験に遭遇する際の事前知識を保持する必要がある。 基礎モデルの進歩に伴い、CL研究は、スクラッチからの学習パラダイムから大規模事前学習からの一般的な特徴の活用へと転換した。 しかし、事前訓練されたモデルによるCLへの既存のアプローチは、主に最終表現層からクラス固有の特徴を分離することに焦点を当て、中間表現の可能性を無視して、ドメインシフトにより不変な低レベルと中レベルの特徴をキャプチャする。 本研究では,プレトレーニングネットワークの複数の中間層からの2次特徴統計量を活用する,CLに対する新しいプロトタイプベースのアプローチであるLayUPを提案する。 提案手法は概念的には単純で,事前データへのアクセスを必要としない。 LayUPは7つのクラスインクリメンタルラーニングベンチマークのうち4つ、ドメインインクリメンタルラーニングベンチマーク3つ、オンライン連続ラーニングベンチマーク7つのうち6つで最先端の4つを上回っている。 その結果、CLにおける事前学習モデルの表現能力を完全に消耗させることは、最終的な埋め込みをはるかに超えることを示した。

We address the Continual Learning (CL) problem, wherein a model must learn a sequence of tasks from non-stationary distributions while preserving prior knowledge upon encountering new experiences. With the advancement of foundation models, CL research has pivoted from the initial learning-from-scratch paradigm towards utilizing generic features from large-scale pre-training. However, existing approaches to CL with pre-trained models primarily focus on separating class-specific features from the final representation layer and neglect the potential of intermediate representations to capture low- and mid-level features, which are more invariant to domain shifts. In this work, we propose LayUP, a new prototype-based approach to CL that leverages second-order feature statistics from multiple intermediate layers of a pre-trained network. Our method is conceptually simple, does not require access to prior data, and works out of the box with any foundation model. LayUP surpasses the state of the art in four of the seven class-incremental learning benchmarks, all three domain-incremental learning benchmarks and in six of the seven online continual learning benchmarks, while significantly reducing memory and computational requirements compared to existing baselines. Our results demonstrate that fully exhausting the representational capacities of pre-trained models in CL goes well beyond their final embeddings.
翻訳日:2024-07-09 00:32:39 公開日:2024-07-05
# FlowMur: 限られた知識を持つステルスで実用的なオーディオバックドアアタック

FlowMur: A Stealthy and Practical Audio Backdoor Attack with Limited Knowledge ( http://arxiv.org/abs/2312.09665v2 )

ライセンス: Link先を確認
Jiahe Lan, Jie Wang, Baochen Yan, Zheng Yan, Elisa Bertino, (参考訳) DNNによって駆動される音声認識システムは、音声インタフェースを通じて人間とコンピュータのインタラクションに革命をもたらした。 しかし、これらのシステムの人気が高まり、特にバックドア攻撃に対するセキュリティに対する懸念も高まっている。 バックドア攻撃は、トレーニングプロセス中に1つ以上の隠れたバックドアをDNNモデルに挿入し、良性入力に対するモデルの性能に影響を与えないようにするが、特定のトリガがモデル入力に存在する場合、モデルに敵意の出力を生成するように強制する。 現在のオーディオバックドア攻撃が最初に成功したにもかかわらず、以下の制限が課せられている。 (i)そのほとんどは十分な知識を必要とし、それが広く普及することを制限する。 (ii)十分にステルス性がないため、人間によって容易に検出できる。 第三に、多くは生の言論を攻撃できず、実用性を低下させる。 本稿では,これらの問題に対処するために,限られた知識で起動可能なステルスで実用的な音声バックドア攻撃であるFlowMurを提案する。 FlowMurは、補助的なデータセットと代理モデルを構築し、敵の知識を拡張する。 動的性を達成するため、最適化問題としてトリガ生成を定式化し、異なるアタッチメント位置に対してトリガを最適化する。 ステルス性を高めるため,Signal-to-Noise Ratio (SNR) に基づく適応データ中毒法を提案する。 さらに、環境騒音をトリガ生成とデータ中毒のプロセスに組み込んで、FlowMurを環境騒音に頑健にし、その実用性を向上させる。 2つのデータセットで実施された大規模な実験により、FlowMurは、最先端の防御にレジリエンスを維持しながら、デジタルおよび物理的設定の両方で高い攻撃性能を達成することが示された。 特に、人間の研究では、FlowMurによって生成されたトリガーが参加者によって容易に検出されないことが確認されている。

Speech recognition systems driven by DNNs have revolutionized human-computer interaction through voice interfaces, which significantly facilitate our daily lives. However, the growing popularity of these systems also raises special concerns on their security, particularly regarding backdoor attacks. A backdoor attack inserts one or more hidden backdoors into a DNN model during its training process, such that it does not affect the model's performance on benign inputs, but forces the model to produce an adversary-desired output if a specific trigger is present in the model input. Despite the initial success of current audio backdoor attacks, they suffer from the following limitations: (i) Most of them require sufficient knowledge, which limits their widespread adoption. (ii) They are not stealthy enough, thus easy to be detected by humans. (iii) Most of them cannot attack live speech, reducing their practicality. To address these problems, in this paper, we propose FlowMur, a stealthy and practical audio backdoor attack that can be launched with limited knowledge. FlowMur constructs an auxiliary dataset and a surrogate model to augment adversary knowledge. To achieve dynamicity, it formulates trigger generation as an optimization problem and optimizes the trigger over different attachment positions. To enhance stealthiness, we propose an adaptive data poisoning method according to Signal-to-Noise Ratio (SNR). Furthermore, ambient noise is incorporated into the process of trigger generation and data poisoning to make FlowMur robust to ambient noise and improve its practicality. Extensive experiments conducted on two datasets demonstrate that FlowMur achieves high attack performance in both digital and physical settings while remaining resilient to state-of-the-art defenses. In particular, a human study confirms that triggers generated by FlowMur are not easily detected by participants.
翻訳日:2024-07-09 00:32:39 公開日:2024-07-05
# FuXi-S2S:従来のグローバルサブシーズン予測モデルを上回る機械学習モデル

FuXi-S2S: A machine learning model that outperforms conventional global subseasonal forecast models ( http://arxiv.org/abs/2312.09926v2 )

ライセンス: Link先を確認
Lei Chen, Xiaohui Zhong, Hao Li, Jie Wu, Bo Lu, Deliang Chen, Shangping Xie, Qingchen Chao, Chensen Lin, Zixin Hu, Yuan Qi, (参考訳) 熟練したサブシーズン予測は社会の様々な分野に不可欠であるが、大きな科学的課題を生じさせる。 近年、機械学習に基づく天気予報モデルは、欧州中レージ気象予報センター(ECMWF)が生み出した最も成功した数値的な天気予報モデルよりも優れているが、日中時間帯では従来のモデルを超えていない。 本稿では, 最大42日間の日平均予測を行う機械学習モデルFuXi Subseasonal-to-Seasonal (FuXi-S2S) について述べる。 ECMWF ERA5リアナリシスデータから72年間の日次統計をトレーニングしたFuXi-S2Sは、ECMWFの最先端のサブシーズン・ツー・シーソンモデルよりも、合計降水量および長波放射量に対するアンサンブル平均およびアンサンブル予測で優れており、特に世界的な降水量の予測が向上している。 FuXi-S2Sの性能改善は、予測の不確実性を捕捉し、MJO(Madden-Julian Oscillation)を正確に予測し、熟練したMJO予測を30日から36日延長する能力に起因している。 さらに、FuXi-S2Sは、MJOに関連する現実的な遠隔通信をキャプチャするだけでなく、先駆的な信号を発見し、研究者の洞察を提供し、地球システム科学研究の新しいパラダイムを確立するための貴重なツールとして出現する。

Skillful subseasonal forecasts are crucial for various sectors of society but pose a grand scientific challenge. Recently, machine learning based weather forecasting models outperform the most successful numerical weather predictions generated by the European Centre for Medium-Range Weather Forecasts (ECMWF), but have not yet surpassed conventional models at subseasonal timescales. This paper introduces FuXi Subseasonal-to-Seasonal (FuXi-S2S), a machine learning model that provides global daily mean forecasts up to 42 days, encompassing five upper-air atmospheric variables at 13 pressure levels and 11 surface variables. FuXi-S2S, trained on 72 years of daily statistics from ECMWF ERA5 reanalysis data, outperforms the ECMWF's state-of-the-art Subseasonal-to-Seasonal model in ensemble mean and ensemble forecasts for total precipitation and outgoing longwave radiation, notably enhancing global precipitation forecast. The improved performance of FuXi-S2S can be primarily attributed to its superior capability to capture forecast uncertainty and accurately predict the Madden-Julian Oscillation (MJO), extending the skillful MJO prediction from 30 days to 36 days. Moreover, FuXi-S2S not only captures realistic teleconnections associated with the MJO, but also emerges as a valuable tool for discovering precursor signals, offering researchers insights and potentially establishing a new paradigm in Earth system science research.
翻訳日:2024-07-09 00:32:39 公開日:2024-07-05
# 視点誘導球面マップによる意味対応の改善

Improving Semantic Correspondence with Viewpoint-Guided Spherical Maps ( http://arxiv.org/abs/2312.13216v2 )

ライセンス: Link先を確認
Octave Mariotti, Oisin Mac Aodha, Hakan Bilen, (参考訳) 近年の自己教師付き表現学習の進歩により、画像レベルの符号化だけでなく、ピクセルレベルのセマンティクスにも有効である画像特徴を抽出できるモデルが生まれている。 これらの特徴は、濃密な視覚的意味的対応推定や、完全な教師付き手法よりも優れていることが示されている。 それでも、現在の自己監督的アプローチは、対称性や繰り返し部分のような困難なイメージ特性の存在下では失敗している。 これらの制約に対処するために,弱い幾何学的球面を経由した3次元理解により,識別的自己監督的特徴を補足する意味対応推定手法を提案する。 より複雑な3Dパイプラインと比較して、我々のモデルは弱い視点情報しか必要とせず、球面表現の単純さにより、トレーニング中に情報的幾何学的先行情報をモデルに注入することができる。 繰り返し部分と対称性に起因した誤りを考慮に入れた新しい評価指標を提案する。 本研究では,SPair-71kデータセットの課題として,複数のオブジェクトカテゴリにまたがる対称ビューと繰り返し部分の区別が可能であることを示すとともに,AwAデータセット上の未確認クラスに一般化できることを実証する。

Recent progress in self-supervised representation learning has resulted in models that are capable of extracting image features that are not only effective at encoding image level, but also pixel-level, semantics. These features have been shown to be effective for dense visual semantic correspondence estimation, even outperforming fully-supervised methods. Nevertheless, current self-supervised approaches still fail in the presence of challenging image characteristics such as symmetries and repeated parts. To address these limitations, we propose a new approach for semantic correspondence estimation that supplements discriminative self-supervised features with 3D understanding via a weak geometric spherical prior. Compared to more involved 3D pipelines, our model only requires weak viewpoint information, and the simplicity of our spherical representation enables us to inject informative geometric priors into the model during training. We propose a new evaluation metric that better accounts for repeated part and symmetry-induced mistakes. We present results on the challenging SPair-71k dataset, where we show that our approach demonstrates is capable of distinguishing between symmetric views and repeated parts across many object categories, and also demonstrate that we can generalize to unseen classes on the AwA dataset.
翻訳日:2024-07-09 00:22:48 公開日:2024-07-05
# Identifiability Guaranteeによる依存度測定のための深部コピュラに基づく生存分析

Deep Copula-Based Survival Analysis for Dependent Censoring with Identifiability Guarantees ( http://arxiv.org/abs/2312.15566v3 )

ライセンス: Link先を確認
Weijia Zhang, Chun Kai Ling, Xuanhui Zhang, (参考訳) センシングは生存分析における中心的な問題であり、各サンプルに対して時間と時間(例えば、死亡)または時間と時間(例えば、フォローアップの喪失)が観察される。 既存の機械学習ベースの生存分析手法の大多数は、生存は一組の共変量からなる検閲とは条件的に独立していると仮定している。 依存検閲の存在と、現在の推定器の固有のバイアスは、様々なアプリケーションで実証され、よりニュアンスなアプローチの必要性が強調されている。 しかし、既存の検閲の調整方法では、実践者が真理のコプラを指定する必要がある。 この要件は、モデルの不特定が実質的なバイアスをもたらすため、実用的なアプリケーションにとって重大な課題となる。 そこで本研究では,依存検閲に対応可能なフレキシブル・ディープ・ラーニング・ベース・サバイバル分析手法を提案する。 理論的には,コプラと生存分布の広い系統の下でのモデルの有効性を実証する。 幅広いデータセットから得られた実験結果から,本手法が基盤となる依存関係構造を識別し,既存手法と比較して生存推定バイアスを著しく低減することを示した。

Censoring is the central problem in survival analysis where either the time-to-event (for instance, death), or the time-tocensoring (such as loss of follow-up) is observed for each sample. The majority of existing machine learning-based survival analysis methods assume that survival is conditionally independent of censoring given a set of covariates; an assumption that cannot be verified since only marginal distributions is available from the data. The existence of dependent censoring, along with the inherent bias in current estimators has been demonstrated in a variety of applications, accentuating the need for a more nuanced approach. However, existing methods that adjust for dependent censoring require practitioners to specify the ground truth copula. This requirement poses a significant challenge for practical applications, as model misspecification can lead to substantial bias. In this work, we propose a flexible deep learning-based survival analysis method that simultaneously accommodate for dependent censoring and eliminates the requirement for specifying the ground truth copula. We theoretically prove the identifiability of our model under a broad family of copulas and survival distributions. Experiments results from a wide range of datasets demonstrate that our approach successfully discerns the underlying dependency structure and significantly reduces survival estimation bias when compared to existing methods.
翻訳日:2024-07-09 00:22:48 公開日:2024-07-05
# 誤りから学ぶ:テキストから画像への拡散モデルトレーニングのための反復的プロンプトリラベル

Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training ( http://arxiv.org/abs/2312.16204v2 )

ライセンス: Link先を確認
Xinyan Chen, Jiaxin Ge, Tianjun Zhang, Jiaming Liu, Shanghang Zhang, (参考訳) 拡散モデルは、画像生成、時系列予測、強化学習など、多くの領域で顕著な性能を示している。 このアルゴリズムは従来のGAN法やトランスフォーマー法よりも優れた性能を示す。 しかし、モデルが自然言語の指示に従う能力(例えば、オブジェクト間の空間的関係、複雑なシーンを生成するなど)はまだ不十分である。 このような能力を高めるための重要な研究分野である。 以前の研究では、強化学習を用いることで、拡散モデルを効果的に訓練し、特定の目的に対する忠実性を高めることが示されている。 しかし、既存のRL手法では、効果的な報酬モデルをトレーニングするために大量のデータを集める必要がある。 また、生成したイメージが正しくない場合には、フィードバックを受け取らない。 本稿では,反復的画像サンプリングとプロンプト・レバベリングにより,画像とテキストを協調する新しいアルゴリズムであるIterative Prompt Relabeling (IPR)を提案する。 IPRはまず、テキストに条件付き画像のバッチをサンプリングし、未マッチングのテキストイメージペアのテキストプロンプトに分類器のフィードバックをラベル付けする。 我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。 IPRでは、挑戦的空間関係VISORベンチマークで15.22%(絶対改善)の改善を行い、従来のRL法と比較して優れた性能を示した。

Diffusion models have shown impressive performance in many domains, including image generation, time series prediction, and reinforcement learning. The algorithm demonstrates superior performance over the traditional GAN and transformer-based methods. However, the model's capability to follow natural language instructions (e.g., spatial relationships between objects, generating complex scenes) is still unsatisfactory. It has been an important research area to enhance such capability. Prior works have shown that using Reinforcement Learning can effectively train diffusion models to enhance fidelity on specific objectives. However, existing RL methods require collecting a large amount of data to train an effective reward model. They also don't receive feedback when the generated image is incorrect. In this work, we propose Iterative Prompt Relabeling (IPR), a novel algorithm that aligns images to text through iterative image sampling and prompt relabeling. IPR first samples a batch of images conditioned on the text then relabels the text prompts of unmatched text-image pairs with classifier feedback. We conduct thorough experiments on SDv2 and SDXL, testing their capability to follow instructions on spatial relations. With IPR, we improved up to 15.22% (absolute improvement) on the challenging spatial relation VISOR benchmark, demonstrating superior performance compared to previous RL methods.
翻訳日:2024-07-09 00:22:48 公開日:2024-07-05
# 局所適応型カラーアタックを用いたニューラルスタイル伝達に対するアートワークの保護

Artwork Protection Against Neural Style Transfer Using Locally Adaptive Adversarial Color Attack ( http://arxiv.org/abs/2401.09673v3 )

ライセンス: Link先を確認
Zhongliang Guo, Junhao Dong, Yifei Qian, Kaixuan Wang, Weiye Li, Ziheng Guo, Yuheng Wang, Yanli Li, Ognjen Arandjelović, Lei Fang, (参考訳) ニューラルスタイル転送(NST)は、ある画像のスタイルと他の画像の内容を組み合わせることで、新しい画像を生成する。 しかし、公認されていないNSTは、アートワークを活用でき、アーティストの権利に対する懸念を高め、積極的な保護方法の開発を動機付けることができる。 本研究では,LAACA(Locally Adaptive Adversarial Color Attack)を提案する。 人間の視覚知覚の複雑さと異なる周波数成分の役割を掘り下げることで、画像に周波数適応的摂動を戦略的に導入する。 これらの摂動は、元の画像に許容される視覚的変化を維持しながら、NSTの生成品質を著しく低下させ、NST生成品質が悪いため、潜在的な侵害者が保護されたアートの使用を阻害されることを確実にする。 さらに、既存のメトリクスは、芸術作品の文脈において重要なNST生成画像の品質など、色付けされたタスクを評価することの重要性を、しばしば見落としている。 カラーマタータスクを包括的に評価するために,画像の前処理と後処理の色の差を定量化するためのACDM(Adversarial Color Distance Metric)を提案する。 実験結果から,LAAACAを用いたNST攻撃が視覚的に劣る傾向を示し,ACDMは発色タスクを効率的に測定できることがわかった。 アーティストに知的財産を保護するためのツールを提供することで、アートコミュニティにおけるNSTの誤用によって引き起こされる社会技術的課題を緩和する。

Neural style transfer (NST) generates new images by combining the style of one image with the content of another. However, unauthorized NST can exploit artwork, raising concerns about artists' rights and motivating the development of proactive protection methods. We propose Locally Adaptive Adversarial Color Attack (LAACA), empowering artists to protect their artwork from unauthorized style transfer by processing before public release. By delving into the intricacies of human visual perception and the role of different frequency components, our method strategically introduces frequency-adaptive perturbations in the image. These perturbations significantly degrade the generation quality of NST while maintaining an acceptable level of visual change in the original image, ensuring that potential infringers are discouraged from using the protected artworks, because of its bad NST generation quality. Additionally, existing metrics often overlook the importance of color fidelity in evaluating color-mattered tasks, such as the quality of NST-generated images, which is crucial in the context of artistic works. To comprehensively assess the color-mattered tasks, we propose the Adversarial Color Distance Metric (ACDM), designed to quantify the color difference of images pre- and post-manipulations. Experimental results confirm that attacking NST using LAACA results in visually inferior style transfer, and the ACDM can efficiently measure color-mattered tasks. By providing artists with a tool to safeguard their intellectual property, our work relieves the socio-technical challenges posed by the misuse of NST in the art community.
翻訳日:2024-07-09 00:22:48 公開日:2024-07-05
# RMSEとMAEを超えて: ダイアドレグレッションモデルにおける隠れバイアスと不公平を解き放つためのEAUCの導入

Beyond RMSE and MAE: Introducing EAUC to unmask hidden bias and unfairness in dyadic regression models ( http://arxiv.org/abs/2401.10690v2 )

ライセンス: Link先を確認
Jorge Paz-Ruza, Amparo Alonso-Betanzos, Bertha Guijarro-Berdiñas, Brais Cancela, Carlos Eiras-Franco, (参考訳) 例えば、Recommender Systemsの製品に対するユーザの評価を予測)や、他の多くの領域(例えば、パーソナライズされた薬理学の患者に対する薬物の適切な服用を近似する)において、多くの領域において基本的な回帰モデルである。 本研究では、個々の実体の観測値分布の非均一性は、最先端モデルにおける極めて偏りのある予測を導き、観測された過去の実体の観測値の平均に向かって予測し、偏心的かつ等しく重要な場合において、より悪いランダムな予測力を与えることを示した。 我々は、この現象を捉えるには、Root Mean Squared Error(RMSE)やMean Absolute Error(MAE)のようなグローバルエラーメトリクスの使用が不十分であることを示す。 また,非バイアス補正によるEAUCの妥当性を実証し,低次モデルバイアスが低次EAUCと逆逆の関係に相関していることを示す。 この研究は、これらのシステムの重要な実世界の応用における潜在的な不公平さやリスクを避けるために、偏見を考慮した回帰モデルの評価に寄与する。

Dyadic regression models, which predict real-valued outcomes for pairs of entities, are fundamental in many domains (e.g. predicting the rating of a user to a product in Recommender Systems) and promising and under exploration in many others (e.g. approximating the adequate dosage of a drug for a patient in personalized pharmacology). In this work, we demonstrate that non-uniformity in the observed value distributions of individual entities leads to severely biased predictions in state-of-the-art models, skewing predictions towards the average of observed past values for the entity and providing worse-than-random predictive power in eccentric yet equally important cases. We show that the usage of global error metrics like Root Mean Squared Error (RMSE) and Mean Absolute Error (MAE) is insufficient to capture this phenomenon, which we name eccentricity bias, and we introduce Eccentricity-Area Under the Curve (EAUC) as a new complementary metric that can quantify it in all studied models and datasets. We also prove the adequateness of EAUC by using naive de-biasing corrections to demonstrate that a lower model bias correlates with a lower EAUC and vice-versa. This work contributes a bias-aware evaluation of dyadic regression models to avoid potential unfairness and risks in critical real-world applications of such systems.
翻訳日:2024-07-09 00:13:02 公開日:2024-07-05
# MUSES:不確実性下での運転のためのマルチセンサセマンティック知覚データセット

MUSES: The Multi-Sensor Semantic Perception Dataset for Driving under Uncertainty ( http://arxiv.org/abs/2401.12761v2 )

ライセンス: Link先を確認
Tim Brödermann, David Bruggemann, Christos Sakaridis, Kevin Ta, Odysseas Liagouris, Jason Corkill, Luc Van Gool, (参考訳) 自動運転車におけるレベル5の運転自動化を実現するには、さまざまなセンサーからさまざまな状況でデータを解析できる堅牢なセマンティックな視覚認識システムが必要である。 しかし、既存の意味認識データセットは、通常自動運転車で使用される重要な非カメラモダリティを欠いている場合が多い。 そこで本稿では,MUSES(MUlti-Sensor Semantic 知覚データセット)を導入する。 MUSESには、様々な天候と照明下で撮影された2500枚の画像のための2Dパノプティクスアノテーションと同期したマルチモーダル記録が含まれている。 データセットはフレームカメラ、ライダー、レーダー、イベントカメラ、IMU/GNSSセンサーを統合する。 新しい2段階の汎視アノテーションプロトコルは、クラスレベルとインスタンスレベルの両方の不確かさを基盤として、標準的なセマンティクスと汎視セマンティクスとともに導入する不確実性対応の汎視セマンティクスの新たなタスクを可能にする。 MUSESは、様々な視覚的条件下でモデルを評価するためのトレーニングと挑戦の両方に有効であることを証明し、マルチモーダルおよび不確実性を考慮した密接なセマンティック知覚の研究のための新たな道を開く。 私たちのデータセットとベンチマークはhttps://muses.vision.ee.ethz.ch.comで公開されています。

Achieving level-5 driving automation in autonomous vehicles necessitates a robust semantic visual perception system capable of parsing data from different sensors across diverse conditions. However, existing semantic perception datasets often lack important non-camera modalities typically used in autonomous vehicles, or they do not exploit such modalities to aid and improve semantic annotations in challenging conditions. To address this, we introduce MUSES, the MUlti-SEnsor Semantic perception dataset for driving in adverse conditions under increased uncertainty. MUSES includes synchronized multimodal recordings with 2D panoptic annotations for 2500 images captured under diverse weather and illumination. The dataset integrates a frame camera, a lidar, a radar, an event camera, and an IMU/GNSS sensor. Our new two-stage panoptic annotation protocol captures both class-level and instance-level uncertainty in the ground truth and enables the novel task of uncertainty-aware panoptic segmentation we introduce, along with standard semantic and panoptic segmentation. MUSES proves both effective for training and challenging for evaluating models under diverse visual conditions, and it opens new avenues for research in multimodal and uncertainty-aware dense semantic perception. Our dataset and benchmark are publicly available at https://muses.vision.ee.ethz.ch.
翻訳日:2024-07-09 00:13:02 公開日:2024-07-05
# コヒーレンスの相対エントロピーはベイズ計量における性能を定量化する

The relative entropy of coherence quantifies performance in Bayesian metrology ( http://arxiv.org/abs/2401.16020v2 )

ライセンス: Link先を確認
Ruvi Lecamwasam, Syed M Assad, Joseph J Hope, Ping Koy Lam, Jayne Thompson, Mile Gu, (参考訳) 量子状態が重ね合わさることの能力は、それらを古典的世界から切り離す重要な特徴の1つである。 この「コヒーレンス」は資源理論によって厳密に定量化され、量子技術においてそのような性質をどのように活用するかを理解することを目的としている。 コヒーレンス(英語版)の資源理論が量子力学についてどのように明らかにできるかについては、多くの研究がなされており、ほとんど全てがフィッシャー情報の観点から研究されている。 しかしながら、コヒーレンスの相対エントロピーと最近のPOVMへの一般化がベイズ計量の性能を自然に定量化していることを証明している。 特に、コヒーレンス測度が状態のアンサンブルにどのように適用できるかを示す。 次に,パラメータ推定において,コヒーレンスのアンサンブル相対エントロピーは得られた情報と最適なホレボ情報との差に等しいことを示す。 この関係を CXI 等式と呼ぶ。 アンサンブル・コヒーレンス(英語版)は、与えられた測定スキームでアクセス不能な重ね合わせでどれだけの情報がロックされているかを可視化し、複数の状態のジョイント測定を用いて得られる利点を定量化する。 我々の結果は、パラメータが状態においてどのようにエンコードされているかに関わらず、ユニタリ、散逸、離散的な設定を含む。 我々は、射影測定と一般的なPOVMの両方を考慮する。 この研究は、量子資源理論の研究のための新しい方向を示唆し、コヒーレンスの相対エントロピーとそのPOVM一般化の新たな操作的解釈を提供し、メトロジーにおける量子的特徴の役割を研究するための新しいツールを導入する。

The ability of quantum states to be in superposition is one of the key features that sets them apart from the classical world. This `coherence' is rigorously quantified by resource theories, which aim to understand how such properties may be exploited in quantum technologies. There has been much research on what the resource theory of coherence can reveal about quantum metrology, almost all of which has been from the viewpoint of Fisher information. We prove however that the relative entropy of coherence, and its recent generalisation to POVMs, naturally quantify the performance of Bayesian metrology. In particular, we show how a coherence measure can be applied to an ensemble of states. We then prove that during parameter estimation, the ensemble relative entropy of coherence is equal to the difference between the information gained, and the optimal Holevo information. We call this relation the CXI equality. The ensemble coherence lets us visualise how much information is locked away in superposition inaccessible with a given measurement scheme, and quantify the advantage that would be gained by using a joint measurement on multiple states. Our results hold regardless of how the parameter is encoded in the state, encompassing unitary, dissipative, and discrete settings. We consider both projective measurements, and general POVMs. This work suggests new directions for research in quantum resource theories, provides a novel operational interpretation for the relative entropy of coherence and its POVM generalisation, and introduces a new tool to study the role of quantum features in metrology.
翻訳日:2024-07-09 00:13:01 公開日:2024-07-05
# MT-HCCAR:階層分類とアテンションに基づくクラウドプロパティ検索のためのマルチタスクディープラーニング

MT-HCCAR: Multi-Task Deep Learning with Hierarchical Classification and Attention-based Regression for Cloud Property Retrieval ( http://arxiv.org/abs/2401.16520v2 )

ライセンス: Link先を確認
Xingyan Li, Andrew M. Sayer, Ian T. Carroll, Xin Huang, Jianwu Wang, (参考訳) 地球科学の領域では、雲のマスキング、雲相の分類、雲の光学的厚さ(COT)の予測を含む効果的な雲の性質の検索が依然として重要なままである。 従来の手法では、それぞれのセンサ機器の独自のスペクトル特性のために、異なるモデルが必要である。 地球科学研究における最近の進歩は、衛星データセットの分光観測から特徴を抽出する機械学習とディープラーニング技術を採用している。 しかし,検索タスク間の階層的関係を考慮に入れた新しいアーキテクチャは存在しない。 さらに、既存のセンサ間のスペクトルの多様性を考慮すると、異なるセンサデータセットに対する堅牢な一般化機能を持つモデルの開発が不可欠である。 驚くべきことに、多様なデータセットに対する最適なモデルの選択に対処する方法論が数多く存在する。 本稿では,マルチタスク学習を用いてクラウドマスキング,クラウドフェーズ検索(分類タスク),COT予測(回帰タスク)を同時に行うエンドツーエンドディープラーニングモデルMT-HCCARを紹介する。 MT-HCCARは階層型分類ネットワーク(HC)と分類支援型注意ベース回帰ネットワーク(CAR)を統合し、クラウドラベリングとCOT予測の精度と堅牢性を向上させる。 さらに,3つのシミュレーション衛星データセットOCI, VIIRS, ABI上での最適モデルを選択するために,K-foldクロスバリデーションに根ざした包括的モデル選択法,標準誤差規則,および2つの導入性能スコアを提案する。 MT-HCCARをベースライン法,アブレーション法およびモデル選択と比較した実験により,MT-HCCARの優位性と一般化能力が確認された。

In the realm of Earth science, effective cloud property retrieval, encompassing cloud masking, cloud phase classification, and cloud optical thickness (COT) prediction, remains pivotal. Traditional methodologies necessitate distinct models for each sensor instrument due to their unique spectral characteristics. Recent strides in Earth Science research have embraced machine learning and deep learning techniques to extract features from satellite datasets' spectral observations. However, prevailing approaches lack novel architectures accounting for hierarchical relationships among retrieval tasks. Moreover, considering the spectral diversity among existing sensors, the development of models with robust generalization capabilities over different sensor datasets is imperative. Surprisingly, there is a dearth of methodologies addressing the selection of an optimal model for diverse datasets. In response, this paper introduces MT-HCCAR, an end-to-end deep learning model employing multi-task learning to simultaneously tackle cloud masking, cloud phase retrieval (classification tasks), and COT prediction (a regression task). The MT-HCCAR integrates a hierarchical classification network (HC) and a classification-assisted attention-based regression network (CAR), enhancing precision and robustness in cloud labeling and COT prediction. Additionally, a comprehensive model selection method rooted in K-fold cross-validation, one standard error rule, and two introduced performance scores is proposed to select the optimal model over three simulated satellite datasets OCI, VIIRS, and ABI. The experiments comparing MT-HCCAR with baseline methods, the ablation studies, and the model selection affirm the superiority and the generalization capabilities of MT-HCCAR.
翻訳日:2024-07-09 00:13:01 公開日:2024-07-05
# 科学コミュニケーションにおけるLCM支援書字の検出:まだ存在するか?

Detecting LLM-Assisted Writing in Scientific Communication: Are We There Yet? ( http://arxiv.org/abs/2401.16807v2 )

ライセンス: Link先を確認
Teddy Lazebnik, Ariel Rosenfeld, (参考訳) 大規模言語モデル(LLM)は、ChatGPTが例示しているように、特に筆記支援の領域において、テキスト生成を著しく再形成している。 倫理的考察は、特に科学的コミュニケーションにおいて、透過的にLLMの使用を認めることの重要性を浮き彫りにしているが、真の承認はまれである。 LLM支援文字の正確な認識を促進するための潜在的な手段は、自動検出器の使用である。 LLMの拡散前後の急激な書き込みスタイル変化を識別するために設計された単純なアドホック検出器と比較して,4つの最先端LCM生成テキスト検出器の評価結果が最適であることがわかった。 LLM支援文字検出専用の特殊検出器の開発が必要であると我々は主張する。 このような検出器は、科学コミュニケーションにおけるLSMのより正確な認識を促進する上で重要な役割を担い、認知の実践における現在の課題に対処する。

Large Language Models (LLMs), exemplified by ChatGPT, have significantly reshaped text generation, particularly in the realm of writing assistance. While ethical considerations underscore the importance of transparently acknowledging LLM use, especially in scientific communication, genuine acknowledgment remains infrequent. A potential avenue to encourage accurate acknowledging of LLM-assisted writing involves employing automated detectors. Our evaluation of four cutting-edge LLM-generated text detectors reveals their suboptimal performance compared to a simple ad-hoc detector designed to identify abrupt writing style changes around the time of LLM proliferation. We contend that the development of specialized detectors exclusively dedicated to LLM-assisted writing detection is necessary. Such detectors could play a crucial role in fostering more authentic recognition of LLM involvement in scientific communication, addressing the current challenges in acknowledgment practices.
翻訳日:2024-07-09 00:13:01 公開日:2024-07-05
# Depends-Kotlin - Kotlin依存関係エクストラクタ

Depends-Kotlin: A Cross-Language Kotlin Dependency Extractor ( http://arxiv.org/abs/2401.16865v2 )

ライセンス: Link先を確認
Qiong Feng, Xiaotian Ma, Huan Ji, Wei Song, Peng Liang, (参考訳) Googleが2017年にAndroidアプリ開発の公式プログラミング言語としてKotlinを導入して以来、KotlinはAndroid開発で広く採用されている。 しかしながら、Javaと比較して、ソフトウェア分析の基礎であるKotlinコード依存性分析は限定的にサポートされている。 このギャップを埋めるため、Kotlinソースコード内のエンティティとその依存関係を抽出するDepends-Kotlinを開発しました。 Depends-KotlinはKotlinコードのエンティティの依存関係を抽出するだけでなく、KotlinとJava間の依存関係関係も抽出できる。 このような言語間の依存関係の抽出は、開発者がJavaからKotlinへのマイグレーションプロセスを理解するのに役立つ。 Depends-Kotlinは、Kotlin-KotlinとKotlin-Javaの依存関係関係を解決する上で、高い精度とパフォーマンスを示しています。 Depends-Kotlinのソースコードと使用するデータセットはhttps://github.com/XYZboom/depends-kotlin.comで公開されている。 また、Depends-Kotlinをhttps://youtu.be/ZPq8SRhgXzMで表示するスクリーンキャストも提供します。

Since Google introduced Kotlin as an official programming language for developing Android apps in 2017, Kotlin has gained widespread adoption in Android development. However, compared to Java, there is limited support for Kotlin code dependency analysis, which is the foundation to software analysis. To bridge this gap, we develop Depends-Kotlin to extract entities and their dependencies in Kotlin source code. Not only does Depends-Kotlin support extracting entities' dependencies in Kotlin code, but it can also extract dependency relations between Kotlin and Java. The extraction of such cross-language dependencies can help developers understand the migration process from Java to Kotlin. Using three open-source Kotlin-Java mixing projects as our subjects, Depends-Kotlin demonstrates high accuracy and performance in resolving Kotlin-Kotlin and Kotlin-Java dependencies relations. The source code of Depends-Kotlin and the dataset used have been made available at https://github.com/XYZboom/depends-kotlin. We also provide a screencast presenting Depends-Kotlin at https://youtu.be/ZPq8SRhgXzM.
翻訳日:2024-07-09 00:13:01 公開日:2024-07-05
# 言語誘導世界モデル:AI制御に対するモデルベースアプローチ

Language-Guided World Models: A Model-Based Approach to AI Control ( http://arxiv.org/abs/2402.01695v2 )

ライセンス: Link先を確認
Alex Zhang, Khanh Nguyen, Jens Tuyls, Albert Lin, Karthik Narasimhan, (参考訳) 本稿では,LWM(Language-Guided World Models)の概念を紹介する。 これらのモデルを備えたエージェントは、人間により広範囲で効率的な制御を提供し、自然な言語コミュニケーションを通じて複数のタスクにおけるエージェントの振る舞いを同時に変更することができる。 本研究では,言語記述を包括的に新規に記述できるロバストなLWMの開発において,最初の一歩を踏み出す。 我々は,MESSENGER (Hanjie et al , 2021) のゲームに基づいて,様々な構成一般化を必要とする評価設定を特徴とする,挑戦的な世界モデリングベンチマークを設計する。 本実験は,非テキストベースラインに対するシミュレーション品質の限界改善を提供するため,最先端トランスフォーマーモデルの一般化性の欠如を明らかにした。 我々は、トランスフォーマーをEMMAアテンション機構で融合させることにより、より堅牢なモデルを考案した(Hanjie et al , 2021)。 我々のモデルはトランスフォーマーを大幅に上回り、オラクルのセマンティックパースとグラウンド機能を備えたモデルの性能にアプローチする。 このモデルがAIの安全性と透明性を改善するための実用性を実証するために、エージェントが実行前に計画を提示し、言語フィードバックに基づいて計画を修正するシナリオをシミュレートする。

This paper introduces the concept of Language-Guided World Models (LWMs) -- probabilistic models that can simulate environments by reading texts. Agents equipped with these models provide humans with more extensive and efficient control, allowing them to simultaneously alter agent behaviors in multiple tasks via natural verbal communication. In this work, we take initial steps in developing robust LWMs that can generalize to compositionally novel language descriptions. We design a challenging world modeling benchmark based on the game of MESSENGER (Hanjie et al., 2021), featuring evaluation settings that require varying degrees of compositional generalization. Our experiments reveal the lack of generalizability of the state-of-the-art Transformer model, as it offers marginal improvements in simulation quality over a no-text baseline. We devise a more robust model by fusing the Transformer with the EMMA attention mechanism (Hanjie et al., 2021). Our model substantially outperforms the Transformer and approaches the performance of a model with an oracle semantic parsing and grounding capability. To demonstrate the practicality of this model in improving AI safety and transparency, we simulate a scenario in which the model enables an agent to present plans to a human before execution, and to revise plans based on their language feedback.
翻訳日:2024-07-09 00:03:17 公開日:2024-07-05
# 条件付きディープGEMによる混合騒音と後部推定

Mixed Noise and Posterior Estimation with Conditional DeepGEM ( http://arxiv.org/abs/2402.02964v2 )

ライセンス: Link先を確認
Paul Hagemann, Johannes Hertrich, Maren Casfor, Sebastian Heidenreich, Gabriele Steidl, (参考訳) 混合雑音モデルを用いたナノメソロジーの間接的測定および応用により、ベイズ逆問題における後部および雑音パラメータを共同推定する新しいアルゴリズムを開発した。 本稿では,予測最大化(EM)アルゴリズムを用いてこの問題を解決することを提案する。 現在の雑音パラメータに基づいて、後部を近似した条件正規化フローをEステップで学習する。 M-stepでは、解析式を持つEMアルゴリズムにより、再びノイズパラメータの更新を求める。 我々は,条件付き正規化流のトレーニングを前後KLと比較し,従来の手法とは異なり,我々のモデルが多くの測定値から情報を組み込むことができることを示す。

Motivated by indirect measurements and applications from nanometrology with a mixed noise model, we develop a novel algorithm for jointly estimating the posterior and the noise parameters in Bayesian inverse problems. We propose to solve the problem by an expectation maximization (EM) algorithm. Based on the current noise parameters, we learn in the E-step a conditional normalizing flow that approximates the posterior. In the M-step, we propose to find the noise parameter updates again by an EM algorithm, which has analytical formulas. We compare the training of the conditional normalizing flow with the forward and reverse KL, and show that our model is able to incorporate information from many measurements, unlike previous approaches.
翻訳日:2024-07-09 00:03:17 公開日:2024-07-05
# DexDiffuser:拡散モデルによるDexterous Graspsの生成

DexDiffuser: Generating Dexterous Grasps with Diffusion Models ( http://arxiv.org/abs/2402.02989v2 )

ライセンス: Link先を確認
Zehang Weng, Haofei Lu, Danica Kragic, Jens Lundell, (参考訳) DexDiffuser(デックスディフューザー)は、部分的な物体点の雲を生成、評価、精査する、新しいデクスタラスな把握方法である。 DexDiffuserは、条件拡散に基づくグリップサンプリング器DexSamplerと、デクスタラスグリップ評価器DexEvaluatorを含む。 DexSamplerは、ランダムにサンプリングされたグリップの反復的 denoising により、オブジェクトポイントクラウド上で条件付けられた高品質なグリップを生成する。 Evaluator-Guided Diffusion (EGD) と Evaluator-based Sampling Refinement (ESR) の2つのグリップリファインメント戦略を導入する。 実験の結果、DexDiffuser は最先端のマルチフィンガーグリップ生成法FFHNet を平均 9.12% と 19.44% で、シミュレーションと実ロボット実験において、常に上回っていることがわかった。 追加資料はhttps://yulihn.github.io/DexDiffuser_page/で公開されている。

We introduce DexDiffuser, a novel dexterous grasping method that generates, evaluates, and refines grasps on partial object point clouds. DexDiffuser includes the conditional diffusion-based grasp sampler DexSampler and the dexterous grasp evaluator DexEvaluator. DexSampler generates high-quality grasps conditioned on object point clouds by iterative denoising of randomly sampled grasps. We also introduce two grasp refinement strategies: Evaluator-Guided Diffusion (EGD) and Evaluator-based Sampling Refinement (ESR). The experiment results demonstrate that DexDiffuser consistently outperforms the state-of-the-art multi-finger grasp generation method FFHNet with an, on average, 9.12% and 19.44% higher grasp success rate in simulation and real robot experiments, respectively. Supplementary materials are available at https://yulihn.github.io/DexDiffuser_page/
翻訳日:2024-07-09 00:03:17 公開日:2024-07-05
# 動的グラフを用いた適応形経路計画のための深層強化学習

Deep Reinforcement Learning with Dynamic Graphs for Adaptive Informative Path Planning ( http://arxiv.org/abs/2402.04894v2 )

ライセンス: Link先を確認
Apoorva Vashisth, Julius Rückin, Federico Magistri, Cyrill Stachniss, Marija Popović, (参考訳) 自律ロボットは、その効率性と労働コストの低さから、しばしばデータ収集に使用される。 ロボットデータ取得における重要な課題は、当初未知の環境を通る経路を計画し、バッテリー寿命の制限など、プラットフォーム固有のリソース制約が与えられた場合の観測を収集することである。 3D環境における適応的なオンラインパス計画は、有効な行動の集合と未知の閉塞の存在のために困難である。 これらの課題に対処するために,未知の3D環境における対象をマップするロボットパスを適応的に計画する,新しい深層強化学習手法を提案する。 我々のアプローチの重要な側面は、動的に構築されたグラフであり、ロボットのローカルな計画行動を制限することで、新たに発見された静的な障害物や関心の対象に反応することができる。 そこで本研究では,未知環境の探索と,関心のオンライン発見を両立させる新たな報酬関数を提案する。 実験の結果,本手法は,最先端の学習基準や非学習基準に比べ,より効率的な目標探索を可能にすることがわかった。 我々はまた,無人航空機を用いた果樹園のモニタリングをフォトリアリスティックシミュレーターで実証した。 私たちは、コードとモデルをhttps://github.com/dmar-bonn/ipp-rl-3dでオープンソース化しました。

Autonomous robots are often employed for data collection due to their efficiency and low labour costs. A key task in robotic data acquisition is planning paths through an initially unknown environment to collect observations given platform-specific resource constraints, such as limited battery life. Adaptive online path planning in 3D environments is challenging due to the large set of valid actions and the presence of unknown occlusions. To address these issues, we propose a novel deep reinforcement learning approach for adaptively replanning robot paths to map targets of interest in unknown 3D environments. A key aspect of our approach is a dynamically constructed graph that restricts planning actions local to the robot, allowing us to react to newly discovered static obstacles and targets of interest. For replanning, we propose a new reward function that balances between exploring the unknown environment and exploiting online-discovered targets of interest. Our experiments show that our method enables more efficient target discovery compared to state-of-the-art learning and non-learning baselines. We also showcase our approach for orchard monitoring using an unmanned aerial vehicle in a photorealistic simulator. We open-source our code and model at: https://github.com/dmar-bonn/ipp-rl-3d.
翻訳日:2024-07-09 00:03:17 公開日:2024-07-05
# 適応近位勾配法は近似なしで普遍的である

Adaptive proximal gradient methods are universal without approximation ( http://arxiv.org/abs/2402.06271v2 )

ライセンス: Link先を確認
Konstantinos A. Oikonomidis, Emanuel Laude, Puya Latafat, Andreas Themelis, Panagiotis Patrinos, (参考訳) 凸問題に対する適応的近位勾配法は従来のリプシッツ的仮定に限らないことを示す。 解析の結果、線形探索自由な手法のクラスは、局所H\"古い勾配の連続性の下でも収束し、特に連続的に微分可能な半代数関数をカバーしていることが明らかとなった。 局所的なリプシッツ連続性の欠如を軽減するため、一般的なアプローチは$\varepsilon$-oraclesや/または行探索手順を中心に展開する。 対照的に、適応スキームの直線探索自由性を維持しながら、近似を含まない平易なH\"古い不等式を利用する。 さらに、局所的なH\"older定数の事前の知識やH\"older連続性の順序がなければ、全列収束を証明できる。 数値実験は、局所的およびグローバルなH\"古い設定の両方をカバーする機械学習から、多様なタスクのベースライン手法と比較する。

We show that adaptive proximal gradient methods for convex problems are not restricted to traditional Lipschitzian assumptions. Our analysis reveals that a class of linesearch-free methods is still convergent under mere local H\"older gradient continuity, covering in particular continuously differentiable semi-algebraic functions. To mitigate the lack of local Lipschitz continuity, popular approaches revolve around $\varepsilon$-oracles and/or linesearch procedures. In contrast, we exploit plain H\"older inequalities not entailing any approximation, all while retaining the linesearch-free nature of adaptive schemes. Furthermore, we prove full sequence convergence without prior knowledge of local H\"older constants nor of the order of H\"older continuity. Numerical experiments make comparisons with baseline methods on diverse tasks from machine learning covering both the locally and the globally H\"older setting.
翻訳日:2024-07-09 00:03:17 公開日:2024-07-05
# 平均定常分布からのサンプリング

Sampling from the Mean-Field Stationary Distribution ( http://arxiv.org/abs/2402.07355v4 )

ライセンス: Link先を確認
Yunbum Kook, Matthew S. Zhang, Sinho Chewi, Murat A. Erdogdu, Mufan Bill Li, (参考訳) 本研究では,平均場SDEの定常分布からのサンプリングの複雑さ,あるいは相互作用項を含む確率測度空間上の関数の最小化の複雑さについて検討する。 本研究の主な知見は,(1)有限粒子系による平均場SDEの近似と,(2)標準対数対数検層による有限粒子定常分布からのサンプリングの2つの重要な側面を分離することである。 我々のアプローチは概念的にシンプルであり、その柔軟性はアルゴリズムと理論の両方に最先端の技術を取り入れることができる。 これにより、平均フィールド状態における特定の2層ニューラルネットワークを最適化する保証の改善など、多数の設定での保証が改善される。 重要な技術的貢献は、平均場ランゲヴィン力学の定常分布に対する新しい均一-$N$log-Sobolev不等式を確立することである。

We study the complexity of sampling from the stationary distribution of a mean-field SDE, or equivalently, the complexity of minimizing a functional over the space of probability measures which includes an interaction term. Our main insight is to decouple the two key aspects of this problem: (1) approximation of the mean-field SDE via a finite-particle system, via uniform-in-time propagation of chaos, and (2) sampling from the finite-particle stationary distribution, via standard log-concave samplers. Our approach is conceptually simpler and its flexibility allows for incorporating the state-of-the-art for both algorithms and theory. This leads to improved guarantees in numerous settings, including better guarantees for optimizing certain two-layer neural networks in the mean-field regime. A key technical contribution is to establish a new uniform-in-$N$ log-Sobolev inequality for the stationary distribution of the mean-field Langevin dynamics.
翻訳日:2024-07-08 23:53:32 公開日:2024-07-05
# 表現のアライメント:表現学習のダイナミクスにおける普遍性

When Representations Align: Universality in Representation Learning Dynamics ( http://arxiv.org/abs/2402.09142v2 )

ライセンス: Link先を確認
Loek van Rossem, Andrew M. Saxe, (参考訳) ディープニューラルネットワークには、さまざまなサイズとアーキテクチャがある。 アーキテクチャの選択は、データセットと学習アルゴリズムと共に、学習した神経表現に影響を与えると一般的に理解されている。 しかし、最近の研究では、異なるアーキテクチャが質的な類似性を示す表現を学習していることが示されている。 ここでは、入力から隠れ表現への符号化写像と、表現から出力への復号写像が任意の滑らかな関数であるという仮定の下で、表現学習の効果的な理論を導出する。 この理論は、隠れた表現がパラメトリゼーションによって強く制約されない複雑な大規模アーキテクチャの体系における表現学習力学をスキーマ化する。 実験を通して,活性化関数とアーキテクチャの異なる深層ネットワークをまたいだ表現学習のダイナミクスの側面を効果的に記述し,豊かな状態と怠慢な状態に類似した現象を示す。 多くのネットワーク動作はアーキテクチャに定量的に依存するが、モデルが十分に柔軟であれば広く保存される特定の挙動を指摘する。

Deep neural networks come in many sizes and architectures. The choice of architecture, in conjunction with the dataset and learning algorithm, is commonly understood to affect the learned neural representations. Yet, recent results have shown that different architectures learn representations with striking qualitative similarities. Here we derive an effective theory of representation learning under the assumption that the encoding map from input to hidden representation and the decoding map from representation to output are arbitrary smooth functions. This theory schematizes representation learning dynamics in the regime of complex, large architectures, where hidden representations are not strongly constrained by the parametrization. We show through experiments that the effective theory describes aspects of representation learning dynamics across a range of deep networks with different activation functions and architectures, and exhibits phenomena similar to the "rich" and "lazy" regime. While many network behaviors depend quantitatively on architecture, our findings point to certain behaviors that are widely conserved once models are sufficiently flexible.
翻訳日:2024-07-08 23:53:32 公開日:2024-07-05
# ノイズの存在下での量子プローブと複素量子系の非古典的相関

Non-classical correlations between a quantum probe and complex quantum systems in presence of noise ( http://arxiv.org/abs/2402.09618v2 )

ライセンス: Link先を確認
Bijoy John Mathew, Sanchit Srivastava, Anil Shaji, (参考訳) 大規模でマクロなシステムと相互作用する量子プローブシステム内で発生する非古典的相関は、後者における量子的特徴の存在を示唆することができる。 理論モデルでは、光合成細菌が引き起こした絡み合いが光によってどのように観測されるかが検討されている。 最近では、ターディオグラードがトランスモンキュービットに絡まれている。 このようなシステムに対するノイズを含む詳細なモデルを考えると、小さな量子プローブが大きなシステムと相互作用し、マクロシステムにおける量子性のシグネチャを現実的に検出できる結合強度やノイズレベルについて、状態を記述する。

Non-classical correlations generated within a quantum probe system when it interacts with a large, macroscopic system can signal the presence of quantum features in the latter. Theoretical models have considered how entanglement generated in photosynthetic bacteria can be probed using light that interacts with them. More recently, a tardigrade was entangled to a transmon qubit. We consider a detailed model including noise for such systems wherein a small quantum probe interacts with a large system in order to delineate the regimes with respect to coupling strengths and noise levels in which such signatures of quantumness in macroscopic systems can realistically be detected.
翻訳日:2024-07-08 23:53:32 公開日:2024-07-05
# 表現外科:アフィンステアリングの理論と実践

Representation Surgery: Theory and Practice of Affine Steering ( http://arxiv.org/abs/2402.09631v6 )

ライセンス: Link先を確認
Shashwat Singh, Shauli Ravfogel, Jonathan Herzig, Roee Aharoni, Ryan Cotterell, Ponnurangam Kumaraguru, (参考訳) 言語モデルは、しばしば好ましくない振る舞いを示し、例えば、有毒または性別に偏ったテキストを生成する。 ニューラルネットワークモデルの場合、望ましくない振る舞いの符号化がモデルの表現にしばしば存在する。 したがって、モデルが望ましくない振る舞いを示すのを防ぐ自然な(そして一般的な)アプローチは、望ましくないテキストを生成する確率を減らす方法でモデルの表現を操ることである。 本稿では、ステアリング関数の形式的および経験的特性、すなわち、その振る舞いを変えるニューラルネットワークモデルの表現の変換について検討する。 まず、最小二乗の意味で、異なる制約の下でのアフィンステアリング関数を最適に2つ導き出す。 我々の理論は既存のアプローチを正当化し、新しく改良されたステアリングアプローチを提供する。 第2に、偏りを緩和し、毒性の発生を減らす方法の実証的な効果を実証する一連の実験を提供する。

Language models often exhibit undesirable behavior, e.g., generating toxic or gender-biased text. In the case of neural language models, an encoding of the undesirable behavior is often present in the model's representations. Thus, one natural (and common) approach to prevent the model from exhibiting undesirable behavior is to steer the model's representations in a manner that reduces the probability of it generating undesirable text. This paper investigates the formal and empirical properties of steering functions, i.e., transformation of the neural language model's representations that alter its behavior. First, we derive two optimal, in the least-squares sense, affine steering functions under different constraints. Our theory provides justification for existing approaches and offers a novel, improved steering approach. Second, we offer a series of experiments that demonstrate the empirical effectiveness of the methods in mitigating bias and reducing toxic generation.
翻訳日:2024-07-08 23:53:32 公開日:2024-07-05
# DELL: LLMによる誤情報検出のための反応生成と説明

DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection ( http://arxiv.org/abs/2402.10426v2 )

ライセンス: Link先を確認
Herun Wan, Shangbin Feng, Zhaoxuan Tan, Heng Wang, Yulia Tsvetkov, Minnan Luo, (参考訳) 大規模な言語モデルは、事実の正確さが最重要であるニュース記事の正確さを判断するために、本棚外で直接使用されることの難しさと幻覚によって制限される。 本研究では,LLMをパイプラインの一部として組み込んだ誤情報検出における3つの重要な段階を同定するDELLを提案する。 1) LLMは,多様な視点を表現し,ユーザと新規のインタラクションネットワークをシミュレートするために,emph{generate news reaction}を作成できる。 2 LLMは、ニュース記事の文脈を充実させ、ニュース理解の様々な側面を専門とする専門家を育成するために、代理業務(例えば、感情、スタンス)に「emph{generate explanations}」を付けることができる。 3) LLMは, 様々な専門家の予測と信頼スコアを組み込むことで, タスク固有の専門家を育成し, 全体的な予測を行うことができる。 3つのLCMを持つ7つのデータセットの大規模な実験により、DELLはマクロf1スコアにおいて、最先端のベースラインを最大16.8倍に上回っていることが示された。 さらに分析した結果, 生成した反応や説明が誤情報検出に大いに有用であることが明らかとなった。

Large language models are limited by challenges in factuality and hallucinations to be directly employed off-the-shelf for judging the veracity of news articles, where factual accuracy is paramount. In this work, we propose DELL that identifies three key stages in misinformation detection where LLMs could be incorporated as part of the pipeline: 1) LLMs could \emph{generate news reactions} to represent diverse perspectives and simulate user-news interaction networks; 2) LLMs could \emph{generate explanations} for proxy tasks (e.g., sentiment, stance) to enrich the contexts of news articles and produce experts specializing in various aspects of news understanding; 3) LLMs could \emph{merge task-specific experts} and provide an overall prediction by incorporating the predictions and confidence scores of varying experts. Extensive experiments on seven datasets with three LLMs demonstrate that DELL outperforms state-of-the-art baselines by up to 16.8\% in macro f1-score. Further analysis reveals that the generated reactions and explanations are greatly helpful in misinformation detection, while our proposed LLM-guided expert merging helps produce better-calibrated predictions.
翻訳日:2024-07-08 23:53:32 公開日:2024-07-05
# MRPD : 大規模な潜伏拡散モデルによるMRIのアンダーサンプル化

MRPD: Undersampled MRI reconstruction by prompting a large latent diffusion model ( http://arxiv.org/abs/2402.10609v2 )

ライセンス: Link先を確認
Ziqi Gao, S. Kevin Zhou, (参考訳) 自然画像に事前訓練された大型潜伏拡散モデル(LLDM)における暗黙的な視覚的知識は、自然画像や医学画像に対して豊富で普遍的である。 この仮説を実用的観点から検証するために,大規模な潜伏拡散モデル(MRPD)を用いてMRI再構成をアンサンプする新しい枠組みを提案する。 MRIデータセットでトレーニングされた既存の方法は、典型的には多様なデータ取得シナリオに対して限定的な一般化性を持つが、MRPDは教師なしで普遍的なMRI再構成をサポートする。 教師なし再構成のために、MSSamplerはランダム位相変調されたハード・トゥ・ソフト制御でLLDMを誘導する。 単一または複数ソースのMRIデータセットでは、LLDMのオートエンコーダのみを微調整する軽量なMRAdapterによってMRPDのパフォーマンスが普遍的に向上する。 FastMRIとIXIの実験によると、MRPDはMRIデータベースのないシナリオとデータベースが利用可能なシナリオの両方をサポートする唯一のモデルであり、比較対象の教師なし、教師なし、MRI拡散法の中で、ドメイン外サンプリング(OOD)、コントラスト、臓器に対する最高の一般化性を実現する。 我々の知る限り、MRPDはMRIのための広大な自然画像に事前訓練されたLLDMの普遍的な長所を実証的に示す最初の方法である。 公式実装はhttps://github.com/Z7Gao/MRPDです。

Implicit visual knowledge in a large latent diffusion model (LLDM) pre-trained on natural images is rich and hypothetically universal to natural and medical images. To test this hypothesis from a practical perspective, we propose a novel framework for undersampled MRI Reconstruction by Prompting a large latent Diffusion model (MRPD). While the existing methods trained on MRI datasets are typically of limited generalizability toward diverse data acquisition scenarios, MRPD supports unsupervised and universally adaptive MRI reconstruction. For unsupervised reconstruction, MRSampler guides LLDM with a random-phase-modulated hard-to-soft control. With any single- or multiple-source MRI dataset, MRPD's performance is boosted universally by a lightweight MRAdapter that only finetunes the LLDM's autoencoder. Experiments on FastMRI and IXI show that MRPD is the only model that supports both MRI database-free and database-available scenarios and attains the best generalizability towards out-of-domain (OOD) samplings, contrasts, and organs among compared unsupervised, supervised, and MRI diffusion methods. To our knowledge, MRPD is the first method that empirically shows the universal prowess of an LLDM pre-trained on vast natural images for MRI. Our official implementation is at https://github.com/Z7Gao/MRPD.
翻訳日:2024-07-08 23:53:32 公開日:2024-07-05
# LLMの連続マルチホップ推論能力の評価

Evaluating LLMs' Inherent Multi-hop Reasoning Ability ( http://arxiv.org/abs/2402.11924v4 )

ライセンス: Link先を確認
Jian Wu, Linyi Yang, Zhen Wang, Manabu Okumura, Yue Zhang, (参考訳) 大言語モデル(LLM)は質問応答(QA)タスクに優れるが、マルチホップQAタスクに複数のエビデンスを組み込んだ多段階推論能力は未定である。 LLMは、与えられたコンテキストを推論するのではなく、内部記憶に依存する回答を生成することがあるため、実際の推論能力の評価品質に関する懸念が生じる。 対実的QAタスクは、内部記憶を推論能力から切り離すことができるが、多段階推論プロセスを評価することなく最終QAのパフォーマンスのみにフォーカスすることは、LCMの真の推論能力の報告には不十分である。 現在のマルチホップQA(MHQA)ベンチマークは、ウィキペディアのようなオープンソースのコーポラで実際に注釈付けされているが、多段階の推論評価には有用であり、LLMの事前学習段階における潜在的なデータ汚染による制限を示している。 この問題に対処するため,本研究では,元となるウィキペディアの文節を編集し,データの汚染リスクを低減することを含む,最初の知識を駆使したマルチホップQAデータに基づいて,LLMの連鎖解析性能を共同評価する新しい評価手法であるIRE手法を提案する。 IREは、サブQAおよびファイナルQA評価を通じて、推論チェーンを包括的に評価する。 比較の結果,ウィキペディアベースのベンチマークとIREを比較した結果,既存のベンチマークにおけるデータ汚染の問題を推定する上で,いくつかのLCMに対して大きな性能差がみられた。 IREベンチマークは信頼性の高いLCM評価を強化し、促進すると考えています。

While Large Language Models (LLMs) excel in question-answering (QA) tasks, their multi-step reasoning abilities on multiple evidence integration on Multi-hop QA tasks remain underexplored. LLMs sometimes generate answers that rely on internal memory rather than reasoning given context, which brings concerns about the evaluation quality of real reasoning abilities. The counterfactual QA task can separate internal memory from reasoning abilities, but focusing solely on final-QA performance without evaluating the multi-step reasoning process is insufficient for reporting LLMs' real reasoning abilities. Current Multi-hop QA (MHQA) benchmarks are factual and annotated on open-source corpora such as Wikipedia, although useful for multi-step reasoning evaluation, showing limitations due to potential data contamination in LLMs pre-training stage. To address this issue, we introduce the Inherent Reasoning Evaluation (IRE) method, a novel evaluation way that jointly evaluates the LLMs' chain-of-reasoning performance based on the first knowledge-edited counterfactual multi-hop QA data which involves editing the original Wikipedia passages, reducing data contamination risks. The IRE comprehensively assesses reasoning chains through sub-QA and final-QA evaluations. Our comparisons reveal significant performance gaps for several LLMs between Wikipedia-based benchmarks and IRE, deeming data contamination issues in existing benchmarks. We believe that the IRE benchmark will enhance and facilitate trustworthy LLM evaluations.
翻訳日:2024-07-08 23:53:32 公開日:2024-07-05
# この年の出来事を覚えているだろうか?大規模言語モデルにおける時間的情報と推論

Remember This Event That Year? Assessing Temporal Information and Reasoning in Large Language Models ( http://arxiv.org/abs/2402.11997v2 )

ライセンス: Link先を確認
Himanshu Beniwal, Dishant Patel, Kowsik Nandagopan D, Hritik Ladia, Ankit Yadav, Mayank Singh, (参考訳) 大規模言語モデル(LLM)はますます普及しているが、その時間的情報の保持と推論能力は依然として限られており、イベントのシーケンシャルな性質を理解することが不可欠である現実のシナリオでの応用を妨げる。 本研究は,紀元前1万年から2100年にわたる新しい時間的データセットである \textbf{TempUN} 上で,12種類の最先端モデル(2Bから70B以上のパラメータ)を用いて実験を行い,時間的保持と理解の限界を明らかにした。 本研究では,時間的知識獲得を促進するための3つの学習パラダイムを評価するための6つの指標を提案する。 その結果,オープンソースモデルは知識ギャップの頻度が高く,限られた知識と誤った応答とのトレードオフが示唆された。 さらに、様々な微調整アプローチによって性能が大幅に向上し、不正な出力が減少し、世代間での「入手できない情報」の識別に影響を及ぼした。 関連するデータセットとコードは (https://github.com/lingoiitgn/TempUN) で公開されている。

Large Language Models (LLMs) are increasingly ubiquitous, yet their ability to retain and reason about temporal information remains limited, hindering their application in real-world scenarios where understanding the sequential nature of events is crucial. Our study experiments with 12 state-of-the-art models (ranging from 2B to 70B+ parameters) on a novel numerical-temporal dataset, \textbf{TempUN}, spanning from 10,000 BCE to 2100 CE, to uncover significant temporal retention and comprehension limitations. We propose six metrics to assess three learning paradigms to enhance temporal knowledge acquisition. Our findings reveal that open-source models exhibit knowledge gaps more frequently, suggesting a trade-off between limited knowledge and incorrect responses. Additionally, various fine-tuning approaches significantly improved performance, reducing incorrect outputs and impacting the identification of 'information not available' in the generations. The associated dataset and code are available at (https://github.com/lingoiitgn/TempUN).
翻訳日:2024-07-08 23:53:32 公開日:2024-07-05
# 多変量時系列予測の活性化:系列間依存による学習可能な分解と系列内変動モデリング

Revitalizing Multivariate Time Series Forecasting: Learnable Decomposition with Inter-Series Dependencies and Intra-Series Variations Modeling ( http://arxiv.org/abs/2402.12694v5 )

ライセンス: Link先を確認
Guoqi Yu, Jing Zou, Xiaowei Hu, Angelica I. Aviles-Rivero, Jing Qin, Shujun Wang, (参考訳) 多変量時系列の予測は非常に重要であり、シリーズ間の依存関係やシリーズ内のバリエーションを含む複雑なパターンを正確にモデル化する必要がある。 各時系列における特異な傾向特性は課題を生じさせ、既存の手法は基本的な移動平均カーネルに依存し、非線形構造や実世界のデータの複雑な傾向に悩まされる可能性がある。 そこで本研究では,動的傾向情報をより合理的に捉えるための,学習可能な分解戦略を提案する。 さらに,チャネルワイドな自己注意と自己回帰的自己注意によって実装された時系列予測の精度向上のために,シリーズ間の依存関係とシリーズ内変動を同時にキャプチャする2つのアテンションモジュールを提案する。 提案手法の有効性を評価するため,8つのオープンソースデータセットを対象に実験を行い,最先端の手法と比較した。 その結果,Leddam (Learnable Decomposition and Dual Attention Module) は,予測性能の大幅な向上を示すだけでなく,提案した分解戦略を11.87%から48.56%のMSE誤差劣化率で他の手法にプラグインできることがわかった。

Predicting multivariate time series is crucial, demanding precise modeling of intricate patterns, including inter-series dependencies and intra-series variations. Distinctive trend characteristics in each time series pose challenges, and existing methods, relying on basic moving average kernels, may struggle with the non-linear structure and complex trends in real-world data. Given that, we introduce a learnable decomposition strategy to capture dynamic trend information more reasonably. Additionally, we propose a dual attention module tailored to capture inter-series dependencies and intra-series variations simultaneously for better time series forecasting, which is implemented by channel-wise self-attention and autoregressive self-attention. To evaluate the effectiveness of our method, we conducted experiments across eight open-source datasets and compared it with the state-of-the-art methods. Through the comparison results, our Leddam (LEarnable Decomposition and Dual Attention Module) not only demonstrates significant advancements in predictive performance, but also the proposed decomposition strategy can be plugged into other methods with a large performance-boosting, from 11.87% to 48.56% MSE error degradation.
翻訳日:2024-07-08 23:53:32 公開日:2024-07-05
# In-Context Adversarial Gameによる脱獄防止策

Defending Jailbreak Prompts via In-Context Adversarial Game ( http://arxiv.org/abs/2402.13148v2 )

ライセンス: Link先を確認
Yujun Zhou, Yufei Han, Haomin Zhuang, Kehan Guo, Zhenwen Liang, Hongyan Bao, Xiangliang Zhang, (参考訳) 大規模言語モデル(LLM)は多様なアプリケーションにまたがる優れた機能を示している。 しかし、セキュリティ、特に脱獄攻撃の脆弱性に関する懸念は継続している。 深層学習とLLMエージェント学習プロセスにおける対人訓練からインスピレーションを得て, 細調整を必要とせずにジェイルブレイクを防ぎつつ, ICAG(In-Context Adversarial Game)を導入する。 ICAGはエージェント学習を活用して対戦ゲームを実行し、ジェイルブレイクから守るための知識を動的に拡張することを目的としている。 静的データセットに依存する従来の方法とは異なり、ICAGは防御エージェントと攻撃エージェントの両方を強化するために反復的なプロセスを採用している。 この継続的改善プロセスは、新しく生成されたジェイルブレイクプロンプトに対する防御を強化する。 ICAGにより保護されたLSMが、様々な攻撃シナリオにおけるジェイルブレイクの成功率を大幅に低下させるという、ICAGの有効性を実証した。 さらにICAGは他のLLMへの顕著な転写可能性を示し、多目的防御機構としての可能性を示している。

Large Language Models (LLMs) demonstrate remarkable capabilities across diverse applications. However, concerns regarding their security, particularly the vulnerability to jailbreak attacks, persist. Drawing inspiration from adversarial training in deep learning and LLM agent learning processes, we introduce the In-Context Adversarial Game (ICAG) for defending against jailbreaks without the need for fine-tuning. ICAG leverages agent learning to conduct an adversarial game, aiming to dynamically extend knowledge to defend against jailbreaks. Unlike traditional methods that rely on static datasets, ICAG employs an iterative process to enhance both the defense and attack agents. This continuous improvement process strengthens defenses against newly generated jailbreak prompts. Our empirical studies affirm ICAG's efficacy, where LLMs safeguarded by ICAG exhibit significantly reduced jailbreak success rates across various attack scenarios. Moreover, ICAG demonstrates remarkable transferability to other LLMs, indicating its potential as a versatile defense mechanism.
翻訳日:2024-07-08 23:53:32 公開日:2024-07-05
# 拡張フローマッチング:一般化連続性方程式を用いた条件付き生成法

Extended Flow Matching: a Method of Conditional Generation with Generalized Continuity Equation ( http://arxiv.org/abs/2402.18839v6 )

ライセンス: Link先を確認
Noboru Isobe, Masanori Koyama, Jinzhe Zhang, Kohei Hayashi, Kenji Fukumizu, (参考訳) 条件生成の課題は生成モデルの最も重要な応用の1つであり、フローベースモデルに基づく多くの手法が開発されている。 しかし、現在使われているフローベースモデルの多くは、条件分布の生成方法に明示的な帰納バイアスを導入するために構築されていない。 これは例えば、スタイル転送のタスクにおいて予期せぬ振舞いを引き起こす可能性がある。 本研究では,条件空間から分布空間への連続写像に対応する「行列場」を学習するフローマッチングの直接拡張である拡張フローマッチング(EFM)を提案する。 本研究では,行列場を通した条件生成に誘導バイアスを導入し,ディリクレエネルギーや分布の感度を最小化することを目的としたEMMのバージョンであるMMOT-EFMを用いて,この事実を実証する。 条件生成におけるEMFの競争性を支持する実験結果とともに,本理論を提示する。

The task of conditional generation is one of the most important applications of generative models, and numerous methods have been developed to date based on the celebrated flow-based models. However, many flow-based models in use today are not built to allow one to introduce an explicit inductive bias to how the conditional distribution to be generated changes with respect to conditions. This can result in unexpected behavior in the task of style transfer, for example. In this research, we introduce extended flow matching (EFM), a direct extension of flow matching that learns a "matrix field" corresponding to the continuous map from the space of conditions to the space of distributions. We show that we can introduce inductive bias to the conditional generation through the matrix field and demonstrate this fact with MMOT-EFM, a version of EFM that aims to minimize the Dirichlet energy or the sensitivity of the distribution with respect to conditions. We will present our theory along with experimental results that support the competitiveness of EFM in conditional generation.
翻訳日:2024-07-08 23:43:31 公開日:2024-07-05
# アルツハイマー病の進行にともなう脳病変の地形的組織を解明するためのグラフ理論とGNN

Graph Theory and GNNs to Unravel the Topographical Organization of Brain Lesions in Variants of Alzheimer's Disease Progression ( http://arxiv.org/abs/2403.00636v2 )

ライセンス: Link先を確認
Gabriel Jimenez, Leopold Hebert-Stevens, Benoit Delatour, Lev Stimmer, Daniel Racoceanu, (参考訳) 本研究は,アルツハイマー病(AD)神経病理の変動を評価するためのグラフベースフレームワークを提案し,評価し,古典的(cAD)と急速(rpAD)進行様式に着目した。 病理像はタウ病理図形(アミロイドプラークとタウトライアングル)に変換され、派生メトリクスは機械学習分類器で使用される。 この分類器は、HCADとrpADを区別するSHAP値説明能力を備えている。 さらに、グラフニューラルネットワーク(GNN)を用いて、グラフからトポロジ的埋め込みを抽出し、それらを用いてADの進行形態を分類した。 rpADは中層に大きく影響し,cADは表層と深層の両方に影響を及ぼす。 これらの結果は,各AD変異体に特有の神経病理学的ネットワーク構造が示唆された。

In this study, we proposed and evaluated a graph-based framework to assess variations in Alzheimer's disease (AD) neuropathologies, focusing on classic (cAD) and rapid (rpAD) progression forms. Histopathological images are converted into tau-pathology-based (i.e., amyloid plaques and tau tangles) graphs, and derived metrics are used in a machine-learning classifier. This classifier incorporates SHAP value explainability to differentiate between cAD and rpAD. Furthermore, we tested graph neural networks (GNNs) to extract topological embeddings from the graphs and use them in classifying the progression forms of AD. The analysis demonstrated denser networks in rpAD and a distinctive impact on brain cortical layers: rpAD predominantly affects middle layers, whereas cAD influences both superficial and deep layers of the same cortical regions. These results suggest a unique neuropathological network organization for each AD variant.
翻訳日:2024-07-08 23:43:30 公開日:2024-07-05
# ブロックチェーンを活用したフェデレーションラーニング - メリット、課題、解決策

Blockchain-empowered Federated Learning: Benefits, Challenges, and Solutions ( http://arxiv.org/abs/2403.00873v2 )

ライセンス: Link先を確認
Zeju Cai, Jianguo Chen, Yuting Fan, Zibin Zheng, Keqin Li, (参考訳) Federated Learning(FL)は、クライアント上でモデルをトレーニングし、パラメータサーバ上でそれらを集約することによって、ユーザのデータプライバシを保護する分散機械学習アプローチである。 プライバシーの保護には有効だが、FLシステムは単一障害点、インセンティブの欠如、セキュリティの不十分といった制限に直面している。 これらの課題に対処するため、ブロックチェーン技術はFLシステムに統合され、より強力なセキュリティ、公正性、スケーラビリティを提供する。 しかしながら、ブロックチェーンを利用したFL(BC-FL)システムは、ネットワーク、コンピューティング、ストレージリソースにさらなる要求をもたらす。 この調査は、BC-FLシステムに関する最近の調査を包括的にレビューし、ブロックチェーン統合に関連するメリットと課題を分析します。 ブロックチェーンがFLに適用可能な理由、実装方法、その統合における課題と既存のソリューションについて検討する。 さらに,BC-FLシステムの今後の研究方向性について考察する。

Federated learning (FL) is a distributed machine learning approach that protects user data privacy by training models locally on clients and aggregating them on a parameter server. While effective at preserving privacy, FL systems face limitations such as single points of failure, lack of incentives, and inadequate security. To address these challenges, blockchain technology is integrated into FL systems to provide stronger security, fairness, and scalability. However, blockchain-empowered FL (BC-FL) systems introduce additional demands on network, computing, and storage resources. This survey provides a comprehensive review of recent research on BC-FL systems, analyzing the benefits and challenges associated with blockchain integration. We explore why blockchain is applicable to FL, how it can be implemented, and the challenges and existing solutions for its integration. Additionally, we offer insights on future research directions for the BC-FL system.
翻訳日:2024-07-08 23:43:30 公開日:2024-07-05
# 量子貯水池計算のための拡張エコー状態特性

Extending echo state property for quantum reservoir computing ( http://arxiv.org/abs/2403.02686v5 )

ライセンス: Link先を確認
Shumpei Kobayashi, Quoc Hoan Tran, Kohei Nakajima, (参考訳) エコー状態特性(ESP)は、貯水池コンピューティング(RC)フレームワークの基本概念であり、初期状態と遠い過去の入力に依存せず、貯水池ネットワークの出力のみのトレーニングを保証する。 しかしながら、ESPの伝統的な定義は、統計的性質が進化する可能性のある非定常系を記述していない。 この問題に対処するために、潜在的に静止しないシステムのために設計された$\textit{non-stationary ESP}$と、サブシステムがESPを持つシステムのために設計された$\textit{subspace/subset ESP}$の2つの新しいカテゴリを紹介した。 定義に従うと、量子貯水池計算機(QRC)における非定常ESPと典型的なハミルトン力学および非線形自己回帰移動平均(NARMA)タスクを用いた入力符号化法との対応を数値的に示す。 また、リニア/非線形メモリ容量を計算し、貯水池の状態内の入力依存成分を定量化する。 本研究は,非定常システムとサブシステムを利用したQRCおよび非定常RCシステムの実用設計について,新たな知見を提示する。

The echo state property (ESP) represents a fundamental concept in the reservoir computing (RC) framework that ensures output-only training of reservoir networks by being agnostic to the initial states and far past inputs. However, the traditional definition of ESP does not describe possible non-stationary systems in which statistical properties evolve. To address this issue, we introduce two new categories of ESP: $\textit{non-stationary ESP}$, designed for potentially non-stationary systems, and $\textit{subspace/subset ESP}$, designed for systems whose subsystems have ESP. Following the definitions, we numerically demonstrate the correspondence between non-stationary ESP in the quantum reservoir computer (QRC) framework with typical Hamiltonian dynamics and input encoding methods using non-linear autoregressive moving-average (NARMA) tasks. We also confirm the correspondence by computing linear/non-linear memory capacities that quantify input-dependent components within reservoir states. Our study presents a new understanding of the practical design of QRC and other possibly non-stationary RC systems in which non-stationary systems and subsystems are exploited.
翻訳日:2024-07-08 23:43:30 公開日:2024-07-05
# バイアス浄化によるマルチモーダル感性分析のデバイアス化に向けて

Towards Multimodal Sentiment Analysis Debiasing via Bias Purification ( http://arxiv.org/abs/2403.05023v2 )

ライセンス: Link先を確認
Dingkang Yang, Mingcheng Li, Dongling Xiao, Yang Liu, Kun Yang, Zhaoyu Chen, Yuzheng Wang, Peng Zhai, Ke Li, Lihua Zhang, (参考訳) マルチモーダル・センティメント・アナリティクス(MSA)は、視覚、言語、音声などの様々なモダリティから感情に関連する手がかりを統合することで、人間の意図を理解することを目的としている。 残念ながら、現在のMSAタスクは、計画されていないデータセットバイアス、特にマルチモーダル発話レベルのラベルバイアスと単語レベルのコンテキストバイアスに悩まされている。 これらの有害なバイアスは、統計的ショートカットと急激な相関にフォーカスするモデルを誤解させ、重大なパフォーマンスボトルネックを引き起こす可能性がある。 これらの問題を緩和するために,従来の可能性ではなく因果関係に基づくマルチモーダル・カウンセリング・インセプティメント(MCIS)分析フレームワークを提案する。 具体的には、まず因果グラフを定式化し、すでに訓練済みのバニラモデルから有害なバイアスを発見する。 推測フェーズでは、実数的なマルチモーダル入力が与えられた場合、MCISはこれらのバイアスを浄化し緩和する2つの逆のシナリオを想像する。 そして、MCISは、事実と反事実の結果を比較して偏見のある観察から偏見のない決定を下すことができる。 いくつかの標準MSAベンチマークで広範な実験を行う。 定性的かつ定量的な結果は,提案手法の有効性を示す。

Multimodal Sentiment Analysis (MSA) aims to understand human intentions by integrating emotion-related clues from diverse modalities, such as visual, language, and audio. Unfortunately, the current MSA task invariably suffers from unplanned dataset biases, particularly multimodal utterance-level label bias and word-level context bias. These harmful biases potentially mislead models to focus on statistical shortcuts and spurious correlations, causing severe performance bottlenecks. To alleviate these issues, we present a Multimodal Counterfactual Inference Sentiment (MCIS) analysis framework based on causality rather than conventional likelihood. Concretely, we first formulate a causal graph to discover harmful biases from already-trained vanilla models. In the inference phase, given a factual multimodal input, MCIS imagines two counterfactual scenarios to purify and mitigate these biases. Then, MCIS can make unbiased decisions from biased observations by comparing factual and counterfactual outcomes. We conduct extensive experiments on several standard MSA benchmarks. Qualitative and quantitative results show the effectiveness of the proposed framework.
翻訳日:2024-07-08 23:43:30 公開日:2024-07-05
# 画像から癌まで:CTにおける細胞性オートマタ

From Pixel to Cancer: Cellular Automata in Computed Tomography ( http://arxiv.org/abs/2403.06459v2 )

ライセンス: Link先を確認
Yuxiang Lai, Xiaoxi Chen, Angtian Wang, Alan Yuille, Zongwei Zhou, (参考訳) がん検出のためのAIは、データの不足、アノテーションの難しさ、早期腫瘍の頻度の低いボトルネックに遭遇する。 腫瘍合成は、医療画像に人工腫瘍を作成しようとしている。 しかしながら、現在の腫瘍合成アプローチは、特定の専門知識と設計を必要とするため、異なる臓器に適用できない。 本稿では腫瘍発生をシミュレートする汎用ルールのセットを確立する。 各細胞(ピクセル)は最初、腫瘍の集団を表すために0から10の状態を割り当てられ、成長、浸潤、死の過程を記述する3つの規則に基づいて腫瘍を発生させることができる。 これら3つの一般的なルールを適用し,腫瘍の発生をシミュレートする。 次に,腫瘍状態をCT画像に統合し,異なる臓器にまたがる合成腫瘍を作製する。 この腫瘍合成アプローチにより、複数の段階の腫瘍をサンプリングし、腫瘍と臓器の相互作用を分析することができる。 臨床的には、3人の専門的な放射線学者による研究によると、合成腫瘍とその発生軌跡は、説得力のあるほど現実的である。 本研究は, 世界中の68の病院から得られた9,262個の未標識CT画像を用いて, 様々な段階における腫瘍発生を解析, シミュレーションする。 肝、膵、腎臓における腫瘍の分節化のパフォーマンスは、特に早期がんの検出において、腫瘍合成の潜在可能性の基盤となる、一般的な文献ベンチマークを上回っている。 コードとモデルはhttps://github.com/MrGiovanni/Pixel2Cancerで公開されている。

AI for cancer detection encounters the bottleneck of data scarcity, annotation difficulty, and low prevalence of early tumors. Tumor synthesis seeks to create artificial tumors in medical images, which can greatly diversify the data and annotations for AI training. However, current tumor synthesis approaches are not applicable across different organs due to their need for specific expertise and design. This paper establishes a set of generic rules to simulate tumor development. Each cell (pixel) is initially assigned a state between zero and ten to represent the tumor population, and a tumor can be developed based on three rules to describe the process of growth, invasion, and death. We apply these three generic rules to simulate tumor development--from pixel to cancer--using cellular automata. We then integrate the tumor state into the original computed tomography (CT) images to generate synthetic tumors across different organs. This tumor synthesis approach allows for sampling tumors at multiple stages and analyzing tumor-organ interaction. Clinically, a reader study involving three expert radiologists reveals that the synthetic tumors and their developing trajectories are convincingly realistic. Technically, we analyze and simulate tumor development at various stages using 9,262 raw, unlabeled CT images sourced from 68 hospitals worldwide. The performance in segmenting tumors in the liver, pancreas, and kidneys exceeds prevailing literature benchmarks, underlining the immense potential of tumor synthesis, especially for earlier cancer detection. The code and models are available at https://github.com/MrGiovanni/Pixel2Cancer
翻訳日:2024-07-08 23:33:46 公開日:2024-07-05
# 事前学習と重要度メカニズムの微調整による低リソース知識追跡タスクの改善

Improving Low-Resource Knowledge Tracing Tasks by Supervised Pre-training and Importance Mechanism Fine-tuning ( http://arxiv.org/abs/2403.06725v3 )

ライセンス: Link先を確認
Hengyuan Zhang, Zitao Liu, Shuyan Huang, Chenming Shang, Bojun Zhan, Yong Jiang, (参考訳) 知識追跡(KT)は、学生の歴史的相互作用に基づいて、学生の知識熟達度を推定することを目的としている。 近年、深層学習に基づくKT(DLKT)アプローチは、KTタスクにおいて顕著なパフォーマンスを実現している。 これらのDLKTモデルは、利用可能な多数の学生相互作用に大きく依存している。 しかしながら、予算制約やプライバシー上の懸念といった様々な理由により、観測された相互作用は、低リソースのKTデータセットなど、多くの現実のシナリオにおいて非常に限定されている。 低リソースのKTデータセットでDLKTモデルを直接トレーニングすることは、過度な適合につながる可能性があり、適切なディープニューラルネットワークアーキテクチャを選択するのは難しい。 そこで本稿では,上記の課題に対処するため,LoReKTと呼ばれる低リソースKTフレームワークを提案する。 事前学習および微調整」パラダイムにインスパイアされた我々は、事前学習段階でリッチリソースのKTデータセットから転送可能なパラメータと表現を学習し、その後、低リソースのKTデータセットへの効果的な適応を容易にすることを目的としている。 具体的には,既存のDLKTモデルアーキテクチャを,純粋にトランスフォーマーデコーダのスタックで単純化する。 我々は、複数のKTデータソースからの学生のインタラクションを組み込むエンコーディング機構を設計し、微調整段階において重要でないパラメータを制約しながら、重要度の高い更新パラメータを優先順位付けする重要なメカニズムを開発する。 6つのパブリックKTデータセット上でLoReKTを評価し,AUCと精度の観点からアプローチの優位性を実証した。 再現可能な研究を促進するため、私たちはhttps://anonymous.4open.science/r/LoReKT-C619でデータとコードを公開しています。

Knowledge tracing (KT) aims to estimate student's knowledge mastery based on their historical interactions. Recently, the deep learning based KT (DLKT) approaches have achieved impressive performance in the KT task. These DLKT models heavily rely on the large number of available student interactions. However, due to various reasons such as budget constraints and privacy concerns, observed interactions are very limited in many real-world scenarios, a.k.a, low-resource KT datasets. Directly training a DLKT model on a low-resource KT dataset may lead to overfitting and it is difficult to choose the appropriate deep neural architecture. Therefore, in this paper, we propose a low-resource KT framework called LoReKT to address above challenges. Inspired by the prevalent "pre-training and fine-tuning" paradigm, we aim to learn transferable parameters and representations from rich-resource KT datasets during the pre-training stage and subsequently facilitate effective adaptation to low-resource KT datasets. Specifically, we simplify existing sophisticated DLKT model architectures with purely a stack of transformer decoders. We design an encoding mechanism to incorporate student interactions from multiple KT data sources and develop an importance mechanism to prioritize updating parameters with high importance while constraining less important ones during the fine-tuning stage. We evaluate LoReKT on six public KT datasets and experimental results demonstrate the superiority of our approach in terms of AUC and Accuracy. To encourage reproducible research, we make our data and code publicly available at https://anonymous.4open.science/r/LoReKT-C619.
翻訳日:2024-07-08 23:33:46 公開日:2024-07-05
# ディープシークエンシャル知識追跡モデルの精度と解釈性向上のための質問中心型マルチエキスパートコントラスト学習フレームワーク

A Question-centric Multi-experts Contrastive Learning Framework for Improving the Accuracy and Interpretability of Deep Sequential Knowledge Tracing Models ( http://arxiv.org/abs/2403.07322v3 )

ライセンス: Link先を確認
Hengyuan Zhang, Zitao Liu, Chenming Shang, Dawei Li, Yong Jiang, (参考訳) 知識追跡(KT)は,過去の学習過程を分析することによって,学生の今後のパフォーマンスを予測する上で重要な役割を担っている。 ディープニューラルネットワーク(DNN)は、KT問題を解決する大きな可能性を示している。 しかし、KTプロセスのモデル化にディープラーニング技術を適用する際には、いくつかの重要な課題がある。 最初の課題は、質問の個々の情報をモデリングに取り入れることである。 これは、同じ知識コンポーネント(KC)を共有する質問にもかかわらず、同質な質問に対する学生の知識獲得が著しく異なるためである。 2つ目の課題は、既存のディープラーニングベースのKTモデルによる予測結果の解釈である。 実世界のアプリケーションでは、モデルパラメータの完全な透明性と解釈可能性を持つことは必要ないかもしれないが、教師が解釈できると考える方法でモデルの予測結果を提示することが不可欠である。 これにより、教師は予測結果の背後にある合理的な根拠を受け入れて、学生のための教育活動や調整された学習戦略の設計に利用することができる。 しかし、深層学習技術の本質的なブラックボックスの性質は、教師がモデルの予測結果を完全に受け入れるハードルとなることが多い。 これらの課題に対処するために、Q-MCKTと呼ばれるKTのための質問中心マルチエキスパートコントラスト学習フレームワークを提案する。 データセットとコードは、https://github.com/rattlesnakey/Q-MCKT.comで公開しています。

Knowledge tracing (KT) plays a crucial role in predicting students' future performance by analyzing their historical learning processes. Deep neural networks (DNNs) have shown great potential in solving the KT problem. However, there still exist some important challenges when applying deep learning techniques to model the KT process. The first challenge lies in taking the individual information of the question into modeling. This is crucial because, despite questions sharing the same knowledge component (KC), students' knowledge acquisition on homogeneous questions can vary significantly. The second challenge lies in interpreting the prediction results from existing deep learning-based KT models. In real-world applications, while it may not be necessary to have complete transparency and interpretability of the model parameters, it is crucial to present the model's prediction results in a manner that teachers find interpretable. This makes teachers accept the rationale behind the prediction results and utilize them to design teaching activities and tailored learning strategies for students. However, the inherent black-box nature of deep learning techniques often poses a hurdle for teachers to fully embrace the model's prediction results. To address these challenges, we propose a Question-centric Multi-experts Contrastive Learning framework for KT called Q-MCKT. We have provided all the datasets and code on our website at https://github.com/rattlesnakey/Q-MCKT.
翻訳日:2024-07-08 23:33:46 公開日:2024-07-05
# 消散性量子スピン系における駆動のない創発的連続時間結晶

Emergent Continuous Time Crystal in Dissipative Quantum Spin System without Driving ( http://arxiv.org/abs/2403.08476v2 )

ライセンス: Link先を確認
Shu Yang, Zeqing Wang, Libin Fu, Jianwen Jie, (参考訳) 時間結晶は、自発対称性を時間次元に分割する非平衡現象であり、量子多体物理学を理解する上で基本的な重要性を持っている。 本研究では,2次元散逸型ハイゼンベルクスピン系の非平衡位相図を明示的コヒーレントあるいは非コヒーレントな外部駆動なしで探索する。 スピンダイナミクスを解析することにより、新しい非定常振動状態の出現を数値的に同定する。 これらの状態は、リャプノフ指数に基づいて極限周期とカオスに分類される。 注目すべきことに、観測された極限周期の挙動は連続時間結晶(CTC)を表し、系の連続時間翻訳対称性を自発的に破る。 さらに, 局所摂動に対する安定性について検討し, その振動挙動を検証した。 最後に, 相互作用に等方性ガウス型白色雑音を導入することにより, 創発性CTCのロバスト性について検討する。 本研究は、散逸誘起スピン下降と異方性相互作用誘起スピン沈降またはスピン揺らぎとの複雑な相互作用について多くの知見を与え、散逸誘起熱免疫性TCを実現するための新たな道を開く。

Time crystal, a nonequilibrium phenomenon extending spontaneous symmetry breaking into the temporal dimension, holds fundamental significance in understanding quantum many-body physics. In this work, we explore the nonequilibrium phase diagram of a two-dimensional dissipative Heisenberg spin system without explicit coherent or incoherent external driving. We numerically identify the emergence of novel nonstationary oscillatory states by analyzing the spin dynamics. These states are categorized as limit cycle and chaos based on the Lyapunov exponent. Remarkably, the observed limit cycle behavior represents a continuous time crystal (CTC), spontaneously breaking the continuous time translation symmetry of the system. We further confirm those oscillatory behaviors by studying the stability against local perturbations applied to the system. Finally, we investigate the robustness of the emergent CTC by introducing isotropic Gaussian-type white noise into the interactions. This study provides many insights into the intricate interplay between the dissipation-induced spin downwards and anisotropic-interaction-induced spin precession or spin fluctuation, opening a new avenue for realizing dissipation-induced, heating-immune TCs.
翻訳日:2024-07-08 23:33:46 公開日:2024-07-05
# 拡散モデルによる画像編集性向上のためのソース・プロンプト・アンタングル・インバージョン

Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models ( http://arxiv.org/abs/2403.11105v2 )

ライセンス: Link先を確認
Ruibin Li, Ruihuang Li, Song Guo, Lei Zhang, (参考訳) テキスト駆動拡散モデルでは、テキストプロンプトを入力として使用することにより、画像編集性能が大幅に向上した。 テキスト駆動画像編集における重要なステップの1つは、元の画像をソースプロンプトに条件付き遅延ノイズコードに変換することである。 従来の手法では画像合成プロセスのリファクタリングによって有望な結果が得られたが、逆潜時雑音符号はソースプロンプトと密結合され、ターゲットテキストプロンプトによる画像編集性が制限される。 そこで本研究では,ソースプロンプトの影響を低減し,拡散モデルを用いてテキスト駆動画像編集性能を向上させることを目的とした,ソース・プロンプト・ディスタングル・インバージョン(SPDInv)と呼ばれる新しい手法を提案する。 インバータ型ノイズコードを与えられたソースプロンプトから可能な限り独立にするためには、反復的逆転処理が固定点制約を満たすべきであることを示す。 その結果, インバージョン問題を探索問題に変換し, 定点解を求めるとともに, 事前学習した拡散モデルを用いて探索プロセスを容易にする。 実験の結果,提案手法は,対象の編集プロンプトとソースプロンプトとの衝突を効果的に軽減し,編集アーティファクトの大幅な減少を図っている。 テキスト駆動画像編集に加えて、SPDInvにより、ローカル化された編集タスクにカスタマイズされた画像生成モデルを適応し、有望なパフォーマンスを実現することができる。 ソースコードはhttps://github.com/leeruibin/SPDInv.comで入手できる。

Text-driven diffusion models have significantly advanced the image editing performance by using text prompts as inputs. One crucial step in text-driven image editing is to invert the original image into a latent noise code conditioned on the source prompt. While previous methods have achieved promising results by refactoring the image synthesizing process, the inverted latent noise code is tightly coupled with the source prompt, limiting the image editability by target text prompts. To address this issue, we propose a novel method called Source Prompt Disentangled Inversion (SPDInv), which aims at reducing the impact of source prompt, thereby enhancing the text-driven image editing performance by employing diffusion models. To make the inverted noise code be independent of the given source prompt as much as possible, we indicate that the iterative inversion process should satisfy a fixed-point constraint. Consequently, we transform the inversion problem into a searching problem to find the fixed-point solution, and utilize the pre-trained diffusion models to facilitate the searching process. The experimental results show that our proposed SPDInv method can effectively mitigate the conflicts between the target editing prompt and the source prompt, leading to a significant decrease in editing artifacts. In addition to text-driven image editing, with SPDInv we can easily adapt customized image generation models to localized editing tasks and produce promising performance. The source code are available at https://github.com/leeruibin/SPDInv.
翻訳日:2024-07-08 23:33:46 公開日:2024-07-05
# 表現的ハームからサービス品質ハームへ:Llama 2の安全保護を事例として

From Representational Harms to Quality-of-Service Harms: A Case Study on Llama 2 Safety Safeguards ( http://arxiv.org/abs/2403.13213v4 )

ライセンス: Link先を確認
Khaoula Chehbouni, Megha Roshan, Emmanuel Ma, Futian Andrew Wei, Afaf Taik, Jackie CK Cheung, Golnoosh Farnadi, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な領域で広く採用されている。 しかし、これらの進歩は安全性のリスクを増し、既に過疎化されている人口に対する有害な影響を懸念している。 安全指向の微調整の監督や、人間のフィードバックからの安全な強化学習の活用など、安全性の保護を開発するための緩和努力が増加しているが、これらのモデルにおける安全性と微妙なバイアスに関する複数の懸念が残っている。 さらに、安全のために最適化されたモデルは、予防措置として特定の要求に対する応答を控える傾向など、過大な安全行動を示すことが多いことを以前の研究は示している。 このように、これらのモデルの有用性と安全性の明確なトレードオフが文献に記録されている。 本稿では,すでに緩和されているバイアスに対するモデル評価による安全対策の有効性について検討する。 Llama 2 の例を用いて、LLM の安全応答が有害な仮定をエンコードする方法を説明している。 そのために、無害なプロンプトの集合を作り、それをLlamaモデルの評価に用いる。 利用者に対するLSMs応答の新たな分類法により、一部の人口集団では、安全と健康のトレードオフがより顕著になり、人口過疎化によるサービス品質の害につながることが観察された。

Recent progress in large language models (LLMs) has led to their widespread adoption in various domains. However, these advancements have also introduced additional safety risks and raised concerns regarding their detrimental impact on already marginalized populations. Despite growing mitigation efforts to develop safety safeguards, such as supervised safety-oriented fine-tuning and leveraging safe reinforcement learning from human feedback, multiple concerns regarding the safety and ingrained biases in these models remain. Furthermore, previous work has demonstrated that models optimized for safety often display exaggerated safety behaviors, such as a tendency to refrain from responding to certain requests as a precautionary measure. As such, a clear trade-off between the helpfulness and safety of these models has been documented in the literature. In this paper, we further investigate the effectiveness of safety measures by evaluating models on already mitigated biases. Using the case of Llama 2 as an example, we illustrate how LLMs' safety responses can still encode harmful assumptions. To do so, we create a set of non-toxic prompts, which we then use to evaluate Llama models. Through our new taxonomy of LLMs responses to users, we observe that the safety/helpfulness trade-offs are more pronounced for certain demographic groups which can lead to quality-of-service harms for marginalized populations.
翻訳日:2024-07-08 23:33:46 公開日:2024-07-05
# 低コスト心血行動態不安定性検出のためのマルチモーダル変分オートエンコーダ

Multimodal Variational Autoencoder for Low-cost Cardiac Hemodynamics Instability Detection ( http://arxiv.org/abs/2403.13658v3 )

ライセンス: Link先を確認
Mohammod N. I. Suvon, Prasun C. Tripathi, Wenrui Fan, Shuo Zhou, Xianyuan Liu, Samer Alabed, Venet Osmani, Andrew J. Swift, Chen Chen, Haiping Lu, (参考訳) 心臓血行動態不安定症(CHDI)の非侵襲的検出の最近の進歩は、主に単一のデータモダリティ、例えば心臓磁気共鳴画像(MRI)に機械学習技術を適用することに焦点を当てている。 それらの可能性にもかかわらず、これらのアプローチは、特にラベル付き患者データのサイズが限られている場合、医学領域における一般的な課題である。 さらに、心臓MRIや心エコー図のような高価なモダリティに大きく依存するCHDIを研究するためのマルチモーダル手法を探求する研究はほとんどない。 これらの制約に対応するために、我々は、低コストの胸部X線(CXR)と心電図(ECG)モダリティを統合するための、新しいマルチモーダル変分オートエンコーダ($\text{CardioVAE}_\text{X,G}$)を提案する。 具体的には、$\text{CardioVAE}_\text{X,G}$は、共有機能とモダリティ固有の機能の両方を学ぶために、新しいトリストリーム事前トレーニング戦略を導入し、非モーダルデータセットとマルチモーダルデータセットの両方で微調整を可能にする。 私たちはMIMICデータベースのサブセットから50,982ドルの未ラベルのデータセットで$\text{CardioVAE}_\text{X,G}$を事前トレーニングし、ASPIREレジストリから795ドルのラベル付きデータセットで事前トレーニングされたモデルを微調整します。 既存のメソッドに対する包括的な評価は、$\text{CardioVAE}_\text{X,G}$が有望な性能(AUROC $=0.79$と精度$=0.77$)を提供することを示している。 また,本モデルでは,臨床特徴に直接関連した予測の微妙な解釈を行い,臨床的意思決定を支援することにも長けている。

Recent advancements in non-invasive detection of cardiac hemodynamic instability (CHDI) primarily focus on applying machine learning techniques to a single data modality, e.g. cardiac magnetic resonance imaging (MRI). Despite their potential, these approaches often fall short especially when the size of labeled patient data is limited, a common challenge in the medical domain. Furthermore, only a few studies have explored multimodal methods to study CHDI, which mostly rely on costly modalities such as cardiac MRI and echocardiogram. In response to these limitations, we propose a novel multimodal variational autoencoder ($\text{CardioVAE}_\text{X,G}$) to integrate low-cost chest X-ray (CXR) and electrocardiogram (ECG) modalities with pre-training on a large unlabeled dataset. Specifically, $\text{CardioVAE}_\text{X,G}$ introduces a novel tri-stream pre-training strategy to learn both shared and modality-specific features, thus enabling fine-tuning with both unimodal and multimodal datasets. We pre-train $\text{CardioVAE}_\text{X,G}$ on a large, unlabeled dataset of $50,982$ subjects from a subset of MIMIC database and then fine-tune the pre-trained model on a labeled dataset of $795$ subjects from the ASPIRE registry. Comprehensive evaluations against existing methods show that $\text{CardioVAE}_\text{X,G}$ offers promising performance (AUROC $=0.79$ and Accuracy $=0.77$), representing a significant step forward in non-invasive prediction of CHDI. Our model also excels in producing fine interpretations of predictions directly associated with clinical features, thereby supporting clinical decision-making.
翻訳日:2024-07-08 23:33:46 公開日:2024-07-05
# Transformer-Lite: 携帯電話GPU上での大規模言語モデルの高効率展開

Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs ( http://arxiv.org/abs/2403.20041v3 )

ライセンス: Link先を確認
Luchang Li, Sheng Qian, Jie Lu, Lunxi Yuan, Rui Wang, Qin Xie, (参考訳) 大規模言語モデル(LLM)は、インテリジェントアシスタント、テキスト要約、翻訳、携帯電話でのマルチモダリティといったタスクに広く使われている。 しかし、現在のデバイス上でのLCMデプロイメントの手法は推論速度を遅く保ち、ユーザエクスペリエンスを損なう。 デバイスGPU上でのLLMの高効率展開を容易にするため,我々は4つの最適化手法を提案する。 (a)動的形状モデル推論を支援する記号表現に基づくアプローチ b) 推測速度を向上し、通話遅延を低減するための演算子最適化及び実行優先設定 (c)M0E4と呼ばれるFP4量子化法により、復号化オーバーヘッドを低減する。 (d)LLM推論後にKVキャッシュをコピーする必要がないサブテンソルベースの手法。 さらに,これらの手法をモバイル推論エンジンであるTransformer-Liteに実装し,Qualcomm と MTK の両プロセッサに互換性を持たせた。 2Bから14Bまでの異なるアーキテクチャとパラメータを持つLLMを用いてTransformer-Liteの性能を評価した。 具体的には,ChatGLM2 6Bでは121トークン/s,ChatGLM2 6Bでは14トークン/s,Gemma 2Bでは330トークン/s,Gemma 2Bでは30トークン/sのプリフィルとデコードを実現した。 CPUベースのFastLLMやGPUベースのMLC-LLMと比較して、エンジンはプリフィル速度で10倍以上のスピードアップ、デコード速度で2~3倍のスピードアップを実現しています。

The Large Language Model (LLM) is widely employed for tasks such as intelligent assistants, text summarization, translation, and multi-modality on mobile phones. However, the current methods for on-device LLM deployment maintain slow inference speed, which causes poor user experience. To facilitate high-efficiency LLM deployment on device GPUs, we propose four optimization techniques: (a) a symbolic expression-based approach to support dynamic shape model inference; (b) operator optimizations and execution priority setting to enhance inference speed and reduce phone lagging; (c) an FP4 quantization method termed M0E4 to reduce dequantization overhead; (d) a sub-tensor-based technique to eliminate the need for copying KV cache after LLM inference. Furthermore, we implement these methods in our mobile inference engine, Transformer-Lite, which is compatible with both Qualcomm and MTK processors. We evaluated Transformer-Lite's performance using LLMs with varied architectures and parameters ranging from 2B to 14B. Specifically, we achieved prefill and decoding speeds of 121 token/s and 14 token/s for ChatGLM2 6B, and 330 token/s and 30 token/s for smaller Gemma 2B, respectively. Compared with CPU-based FastLLM and GPU-based MLC-LLM, our engine attains over 10x speedup for the prefill speed and 2~3x speedup for the decoding speed.
翻訳日:2024-07-08 23:24:01 公開日:2024-07-05
# 有限温度における量子臨界エンジン

Quantum critical engine at finite temperatures ( http://arxiv.org/abs/2403.20172v2 )

ライセンス: Link先を確認
Revathy B S, Victor Mukherjee, Uma Divakaran, (参考訳) 有限温度浴を動力とする量子臨界オットーエンジンを構築する。 エンジンの作業出力は, 作業媒質の臨界指数や冷水浴の温度に依存する普遍的な電力法則の挙動を示す。 さらに、冷湯の高温により、エンジンは減圧動作の限界に近づき、対応する電力は冷湯温度の中間値で最大となる。 これらの反直感的な結果は、高温で力学を支配する熱励起に由来する。

We construct a quantum critical Otto engine that is powered by finite temperature baths. We show that the work output of the engine shows universal power law behavior that depends on the critical exponents of the working medium, as well as on the temperature of the cold bath. Furthermore, higher temperatures of the cold bath allows the engine to approach the limit of adiabatic operation for smaller values of the time period, while the corresponding power shows a maximum at an intermediate value of the cold bath temperature. These counterintuitive results stems from thermal excitations dominating the dynamics at higher temperatures.
翻訳日:2024-07-08 23:24:01 公開日:2024-07-05
# アクセラレーションパラメータフリー確率最適化

Accelerated Parameter-Free Stochastic Optimization ( http://arxiv.org/abs/2404.00666v2 )

ライセンス: Link先を確認
Itai Kreisler, Maor Ivgi, Oliver Hinder, Yair Carmon, (参考訳) 本研究では,スムーズな確率凸最適化のための近似速度を近似的に達成し,問題パラメータの事前知識を必要としない手法を提案する。 これは、少なくとも最適性 d0 への初期距離を知る必要がある先行作業を改善する。 U-DoG法は, UniXGrad (Kavis et al , 2019) と DoG (Ivgi et al , 2023) を新しい反復安定化技術と組み合わせたものである。 d0 と雑音の大きさのゆるい境界しか必要とせず、ガウス以下の雑音の下で高い確率保証を提供し、非滑らかな場合もほぼ最適である。 本実験は, 凸問題に対する一貫した強い性能と, ニューラルネットワークトレーニングにおける混合結果を示す。

We propose a method that achieves near-optimal rates for smooth stochastic convex optimization and requires essentially no prior knowledge of problem parameters. This improves on prior work which requires knowing at least the initial distance to optimality d0. Our method, U-DoG, combines UniXGrad (Kavis et al., 2019) and DoG (Ivgi et al., 2023) with novel iterate stabilization techniques. It requires only loose bounds on d0 and the noise magnitude, provides high probability guarantees under sub-Gaussian noise, and is also near-optimal in the non-smooth case. Our experiments show consistent, strong performance on convex problems and mixed results on neural network training.
翻訳日:2024-07-08 23:24:01 公開日:2024-07-05
# Z-Splat:Z-Axis Gaussian Splatting for Camera-Sonar Fusion

Z-Splat: Z-Axis Gaussian Splatting for Camera-Sonar Fusion ( http://arxiv.org/abs/2404.04687v2 )

ライセンス: Link先を確認
Ziyuan Qu, Omkar Vengurlekar, Mohamad Qadri, Kevin Zhang, Michael Kaess, Christopher Metzler, Suren Jayasuriya, Adithya Pediredla, (参考訳) 3Dシーンを再構成するためのコンピュータビジョンとグラフィックにおいて、微分可能な3D-ガウススプラッティング(GS)が顕著な技術として登場している。 GSは、様々な不透明度を持つ3Dガウスの集合としてシーンを表現し、様々な視点から捉えたシーン画像から得られる3Dガウスのパラメータを計算するために、解析的微分とともに計算効率の良いスプレイティング演算を用いる。 残念なことに、水中イメージング、建物内の部屋、自律ナビゲーションなど、現実の多くのシナリオでは、サラウンドビュー(360^{\circ}$ view)の画像の撮影は不可能か、現実的ではない。 これらの制限されたベースラインイメージングのシナリオでは、GSアルゴリズムはよく知られた「ミス・コーン」問題に悩まされ、深さ軸に沿った再構成が不十分になる。 本稿では, ソナーから得られた過渡的データを用いて, 奥行き軸に沿った高周波データをサンプリングすることにより, 行方不明なコーン問題に対処できることを実証する。 RGBカメラデータとソナーデータを同時に利用する融合アルゴリズムを提案する。 シミュレーション,エミュレーション,ハードウェア実験により,提案した融合アルゴリズムは,新しいビュー合成(PSNR 5dB改良)と3次元幾何再構成(チャンファー距離60%下)を著しく向上させることを示した。

Differentiable 3D-Gaussian splatting (GS) is emerging as a prominent technique in computer vision and graphics for reconstructing 3D scenes. GS represents a scene as a set of 3D Gaussians with varying opacities and employs a computationally efficient splatting operation along with analytical derivatives to compute the 3D Gaussian parameters given scene images captured from various viewpoints. Unfortunately, capturing surround view ($360^{\circ}$ viewpoint) images is impossible or impractical in many real-world imaging scenarios, including underwater imaging, rooms inside a building, and autonomous navigation. In these restricted baseline imaging scenarios, the GS algorithm suffers from a well-known 'missing cone' problem, which results in poor reconstruction along the depth axis. In this manuscript, we demonstrate that using transient data (from sonars) allows us to address the missing cone problem by sampling high-frequency data along the depth axis. We extend the Gaussian splatting algorithms for two commonly used sonars and propose fusion algorithms that simultaneously utilize RGB camera data and sonar data. Through simulations, emulations, and hardware experiments across various imaging scenarios, we show that the proposed fusion algorithms lead to significantly better novel view synthesis (5 dB improvement in PSNR) and 3D geometry reconstruction (60% lower Chamfer distance).
翻訳日:2024-07-08 23:24:01 公開日:2024-07-05
# 時系列予測におけるデータセットの類似性と多様性が伝達学習成功に及ぼす影響

The impact of data set similarity and diversity on transfer learning success in time series forecasting ( http://arxiv.org/abs/2404.06198v2 )

ライセンス: Link先を確認
Claudia Ehrig, Benedikt Sonnleitner, Ursula Neumann, Catherine Cleophas, Germain Forestier, (参考訳) 事前学習されたモデルは、転送学習を活用することで、ターゲットデータセット上での時系列予測の効率性と精度を高める上で重要なものとなっている。 ベンチマークでは、様々な対象データセット上でのモデル一般化の性能を検証しているが、ソースとターゲットデータの特徴がどの学習の成功に繋がるかを説明するための類似性や多様性の尺度を提供する構造化された研究は存在しない。 本研究の先駆者は,精度,バイアス,不確実性評価の観点から,ソースターゲットの類似性とソース多様性がゼロショットおよび微調整による予測結果に与える影響を体系的に評価する。 5つのオープンソースデータセットをまたいだトレーニング済みニューラルネットワークを用いて,これらのダイナミクスを調査し,実世界の包括データを含む5つのターゲットデータセットの予測に適用した。 特徴に基づく類似度と多様性の2つの尺度を同定し、ソースターゲットの類似度が予測バイアスを減少させるのに対し、ソースの多様性は予測精度と不確実性の推定を改善するが、バイアスを増大させる。

Pre-trained models have become pivotal in enhancing the efficiency and accuracy of time series forecasting on target data sets by leveraging transfer learning. While benchmarks validate the performance of model generalization on various target data sets, there is no structured research providing similarity and diversity measures to explain which characteristics of source and target data lead to transfer learning success. Our study pioneers in systematically evaluating the impact of source-target similarity and source diversity on zero-shot and fine-tuned forecasting outcomes in terms of accuracy, bias, and uncertainty estimation. We investigate these dynamics using pre-trained neural networks across five public source datasets, applied to forecasting five target data sets, including real-world wholesales data. We identify two feature-based similarity and diversity measures, finding that source-target similarity reduces forecasting bias, while source diversity improves forecasting accuracy and uncertainty estimation, but increases the bias.
翻訳日:2024-07-08 23:24:01 公開日:2024-07-05
# 大規模言語モデルに基づくエージェントのためのメモリ共有

Memory Sharing for Large Language Model based Agents ( http://arxiv.org/abs/2404.09982v2 )

ライセンス: Link先を確認
Hang Gao, Yongfeng Zhang, (参考訳) 自然言語プロンプトを介してタスクを実行するためのLLM(Large Language Model)ベースのエージェントの適応は、特に明示的なリトレーニングや微調整の必要性を排除し、提案された例の包括性と多様性に制約されるなど、大幅な進歩を示している。 本稿では,リアルタイムメモリフィルタ,ストレージ,検索を統合し,In-Context学習プロセスを強化するためのフレームワークであるMemory Sharingを紹介する。 このフレームワークは、複数のエージェント間でのメモリ共有を可能にし、異なるエージェント間の相互作用と共有メモリにより、メモリの多様性が効果的に向上する。 複数のエージェント間の対話的学習による集合的自己向上は、個人の知性から集団的知性への進化を促進する。 さらに、動的に成長するメモリプールは、応答の質の向上だけでなく、レシーバのトレーニングや強化にも利用される。 エージェントの専門的なタスクを含む3つの異なるドメインにわたるフレームワークの評価を行った。 実験の結果,MSフレームワークはオープンな質問に対処する際のエージェントの性能を大幅に改善することが示された。

The adaptation of Large Language Model (LLM)-based agents to execute tasks via natural language prompts represents a significant advancement, notably eliminating the need for explicit retraining or fine tuning, but are constrained by the comprehensiveness and diversity of the provided examples, leading to outputs that often diverge significantly from expected results, especially when it comes to the open-ended questions. This paper introduces the Memory Sharing, a framework which integrates the real-time memory filter, storage and retrieval to enhance the In-Context Learning process. This framework allows for the sharing of memories among multiple agents, whereby the interactions and shared memories between different agents effectively enhance the diversity of the memories. The collective self-enhancement through interactive learning among multiple agents facilitates the evolution from individual intelligence to collective intelligence. Besides, the dynamically growing memory pool is utilized not only to improve the quality of responses but also to train and enhance the retriever. We evaluated our framework across three distinct domains involving specialized tasks of agents. The experimental results demonstrate that the MS framework significantly improves the agents' performance in addressing open-ended questions.
翻訳日:2024-07-08 23:14:17 公開日:2024-07-05
# RAM:コミュニケーションから学習したメモリシステムの実現に向けて

RAM: Towards an Ever-Improving Memory System by Learning from Communications ( http://arxiv.org/abs/2404.12045v2 )

ライセンス: Link先を確認
Jiaqi Li, Xiaobo Wang, Wentao Ding, Zihao Wang, Yipeng Kang, Zixia Jia, Zilong Zheng, (参考訳) メモリを改良した革新的なRAGベースのフレームワークを導入する。 人間の教育的プロセスにインスパイアされたRAMは、再帰的推論に基づく検索と経験的リフレクションを利用して、メモリを継続的に更新し、ユーザのコミュニケーション的フィードバック、すなわちコミュニケーション的学習から学習する。 シミュレーションと実ユーザの両方による大規模な実験は、従来のRAG法や自己知識法よりも大幅に改善されている。 さらに、RAMは様々なフィードバックや検索手法への有望な適応性を示し、動的知識獲得と生涯学習におけるAI能力向上の可能性を示している。

We introduce an innovative RAG-based framework with an ever-improving memory. Inspired by humans'pedagogical process, RAM utilizes recursively reasoning-based retrieval and experience reflections to continually update the memory and learn from users' communicative feedback, namely communicative learning. Extensive experiments with both simulated and real users demonstrate significant improvements over traditional RAG and self-knowledge methods, particularly excelling in handling false premise and multi-hop questions. Furthermore, RAM exhibits promising adaptability to various feedback and retrieval methods, showcasing its potential for advancing AI capabilities in dynamic knowledge acquisition and lifelong learning.
翻訳日:2024-07-08 23:14:17 公開日:2024-07-05
# TalkingGaussian: Gaussian Splattingによる構造持続型3次元音声頭合成

TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting ( http://arxiv.org/abs/2404.15264v2 )

ライセンス: Link先を確認
Jiahe Li, Jiawei Zhang, Xiao Bai, Jin Zheng, Xin Ning, Jun Zhou, Lin Gu, (参考訳) 放射場は、ライフライクな3D音声ヘッドを合成する際、印象的な性能を示した。 しかし, 急激な外観変化の適応が困難であることから, 顔の動きを直接修正することで動的領域の歪みが生じる可能性がある。 この課題に対処するために,高忠実な音声ヘッド合成のための変形型放射場フレームワークであるTalkingGaussianを紹介する。 点ベースガウススプラッティングを応用した顔の動きは、従来の手法のような難易度変化を学習することなく、スムーズで連続的な変形を持続的なガウスプリミティブに適用することで、我々の方法で表現することができる。 この単純化により、高度に無傷な顔の特徴を維持しつつ、正確な顔の動きを合成することができる。 このような変形パラダイムの下では、詳細な発話動作の学習に影響を及ぼすような、対面運動の不整合をさらに特定する。 この対立に対処するために、我々は、モデルを顔と口の内側の2つの枝に分割し、学習タスクを簡素化し、より正確な口の領域の動きと構造を再構築する。 大規模な実験により, 従来の方法に比べて顔の忠実度が良く, 効率も良く, 高品質な唇同期音声ヘッドビデオが得られた。

Radiance fields have demonstrated impressive performance in synthesizing lifelike 3D talking heads. However, due to the difficulty in fitting steep appearance changes, the prevailing paradigm that presents facial motions by directly modifying point appearance may lead to distortions in dynamic regions. To tackle this challenge, we introduce TalkingGaussian, a deformation-based radiance fields framework for high-fidelity talking head synthesis. Leveraging the point-based Gaussian Splatting, facial motions can be represented in our method by applying smooth and continuous deformations to persistent Gaussian primitives, without requiring to learn the difficult appearance change like previous methods. Due to this simplification, precise facial motions can be synthesized while keeping a highly intact facial feature. Under such a deformation paradigm, we further identify a face-mouth motion inconsistency that would affect the learning of detailed speaking motions. To address this conflict, we decompose the model into two branches separately for the face and inside mouth areas, therefore simplifying the learning tasks to help reconstruct more accurate motion and structure of the mouth region. Extensive experiments demonstrate that our method renders high-quality lip-synchronized talking head videos, with better facial fidelity and higher efficiency compared with previous methods.
翻訳日:2024-07-08 23:14:17 公開日:2024-07-05
# カタストロフィック形成を伴わない自己監督型ビタミンVTの高精度微調整

Parameter Efficient Fine-tuning of Self-supervised ViTs without Catastrophic Forgetting ( http://arxiv.org/abs/2404.17245v2 )

ライセンス: Link先を確認
Reza Akbarian Bafghi, Nidhin Harilal, Claire Monteleoni, Maziar Raissi, (参考訳) 人工ニューラルネットワークは、しばしば破滅的な忘れ込みに悩まされ、そこで新しい概念を学ぶことで、以前に獲得した知識が完全に失われる。 特に視覚変換器(ViT)では,新しいタスクの事前学習や微調整により,モデルの本来の汎用能力を著しく低下させる可能性がある。 例えば、ImageNet-1kで事前トレーニングされたDINO ViT-Base/16は、CIFAR-100で10回の微調整を行っただけで、ImageNet-1kで70%以上の精度を失う。 この安定性-塑性ジレンマを克服することは、ViTが初期知識を維持しながら、新しいドメインを継続的に学習し、適応できるようにするために重要である。 本研究では,(1)〜ブロック展開と(2)ローランク適応(LoRA)という,パラメータ効率のよい2つの新しい微調整戦略について検討する。 実験の結果,自己指導型VTではブロック拡張あるいはLoRAが完全に調整されたVTを超越し,パラメータ効率は大幅に向上した。 特に、Block Expansionはトレーニング済みのドメインで最小のパフォーマンス低下しか経験せず、これにより、トレーニング済みのViTにおける破滅的な忘れを効果的に軽減できることがわかった。

Artificial neural networks often suffer from catastrophic forgetting, where learning new concepts leads to a complete loss of previously acquired knowledge. We observe that this issue is particularly magnified in vision transformers (ViTs), where post-pre-training and fine-tuning on new tasks can significantly degrade the model's original general abilities. For instance, a DINO ViT-Base/16 pre-trained on ImageNet-1k loses over 70% accuracy on ImageNet-1k after just 10 iterations of fine-tuning on CIFAR-100. Overcoming this stability-plasticity dilemma is crucial for enabling ViTs to continuously learn and adapt to new domains while preserving their initial knowledge. In this work, we study two new parameter-efficient fine-tuning strategies: (1)~Block Expansion, and (2) Low-rank adaptation (LoRA). Our experiments reveal that using either Block Expansion or LoRA on self-supervised pre-trained ViTs surpass fully fine-tuned ViTs in new domains while offering significantly greater parameter efficiency. Notably, we find that Block Expansion experiences only a minimal performance drop in the pre-training domain, thereby effectively mitigating catastrophic forgetting in pre-trained ViTs.
翻訳日:2024-07-08 23:14:17 公開日:2024-07-05
# インクリメンタルグラフクエリのためのローカライズされたRETE

Localized RETE for Incremental Graph Queries ( http://arxiv.org/abs/2405.01145v2 )

ライセンス: Link先を確認
Matthias Barkowsky, Holger Giese, (参考訳) コンテキスト: モデル駆動エンジニアリングにおけるグラフベースのモデリングアーティファクトの増大は、グラフクエリの効率的な実行を可能にする技術を呼び起こします。 RETEアルゴリズムに基づくインクリメンタルアプローチは、多くのシナリオにおいて適切なソリューションを提供するが、一般にグラフ全体のクエリ結果を探すように設計されている。 しかし、ある状況では、例えば開発者がワークスペースに部分だけをロードする大きなモデルに取り組んでいる場合、ユーザはサブグラフのクエリ結果のみに興味を持つかもしれません。 この場合、グローバルな実行セマンティクスは大きな計算オーバーヘッドをもたらす可能性がある。 コントリビューション: 概要的な欠点を軽減するため,本稿では,グラフクエリの局所的かつ完全にインクリメンタルな実行を可能にするRETEアプローチの拡張を提案し,関連するサブグラフに関して結果の完全性を保証する。 結果: ソフトウェア開発のシナリオと独立したソーシャルネットワークのベンチマークから着想を得た実験を通じて,提案手法を実証的に評価した。 実験結果から,提案手法は,好ましくないケースではメモリ消費や実行時間に関する性能を著しく向上させることができるが,好ましくないケースでは顕著な線形オーバーヘッドが生じる可能性が示唆された。

Context: The growing size of graph-based modeling artifacts in model-driven engineering calls for techniques that enable efficient execution of graph queries. Incremental approaches based on the RETE algorithm provide an adequate solution in many scenarios, but are generally designed to search for query results over the entire graph. However, in certain situations, a user may only be interested in query results for a subgraph, for instance when a developer is working on a large model of which only a part is loaded into their workspace. In this case, the global execution semantics can result in significant computational overhead. Contribution: To mitigate the outlined shortcoming, in this paper we propose an extension of the RETE approach that enables local, yet fully incremental execution of graph queries, while still guaranteeing completeness of results with respect to the relevant subgraph. Results: We empirically evaluate the presented approach via experiments inspired by a scenario from software development and an independent social network benchmark. The experimental results indicate that the proposed technique can significantly improve performance regarding memory consumption and execution time in favorable cases, but may incur a noticeable linear overhead in unfavorable cases.
翻訳日:2024-07-08 23:04:18 公開日:2024-07-05
# Dense Minutia Descriptorによる潜時指紋照合

Latent Fingerprint Matching via Dense Minutia Descriptor ( http://arxiv.org/abs/2405.01199v2 )

ライセンス: Link先を確認
Zhiyu Pan, Yongjie Duan, Xiongjun Guan, Jianjiang Feng, Jie Zhou, (参考訳) 潜伏指紋マッチングは、潜伏指紋の質が低かったため、大変な作業である。 本研究では,潜伏指紋マッチングのための深層学習型高密度ミツリニアディスクリプタ(DMD)を提案する。 DMDは、その中心ミナミヤに整列した指紋パッチを抽出し、詳細なミナミヤ情報とテクスチャ情報をキャプチャして得られる。 我々の高密度記述子は、元の画像平面に関連付けられた2次元と、抽象的な特徴を表す他の次元の2次元の3次元表現の形を取る。 さらに、抽出処理は指紋分割マップを出力し、デクリプタが前景領域でのみ有効であることを保証する。 2つの記述子間のマッチングは重なり合う領域で発生し、スコア正規化戦略により、有効領域外の差による影響を低減する。 我々の記述子は、複数の潜伏指紋データに対して最先端の性能を達成する。 全体として、我々のDMDは従来の方法よりも代表的で解釈しやすい。

Latent fingerprint matching is a daunting task, primarily due to the poor quality of latent fingerprints. In this study, we propose a deep-learning based dense minutia descriptor (DMD) for latent fingerprint matching. A DMD is obtained by extracting the fingerprint patch aligned by its central minutia, capturing detailed minutia information and texture information. Our dense descriptor takes the form of a three-dimensional representation, with two dimensions associated with the original image plane and the other dimension representing the abstract features. Additionally, the extraction process outputs the fingerprint segmentation map, ensuring that the descriptor is only valid in the foreground region. The matching between two descriptors occurs in their overlapping regions, with a score normalization strategy to reduce the impact brought by the differences outside the valid area. Our descriptor achieves state-of-the-art performance on several latent fingerprint datasets. Overall, our DMD is more representative and interpretable compared to previous methods.
翻訳日:2024-07-08 23:04:18 公開日:2024-07-05
# 原子間フェルミ超流動におけるライドバーグ-分子分光法によるクーパー対の破れとトラップ

Breaking and trapping Cooper pairs by Rydberg-molecule spectroscopy in atomic Fermi superfluids ( http://arxiv.org/abs/2405.01401v2 )

ライセンス: Link先を確認
Chih-Chun Chien, Simeon I. Mistakidis, Hossein R. Sadeghpour, (参考訳) ライドバーグ不純物と相互作用する原子フェルミ超流動層におけるクーパー対の破壊と局在の分光プローブを提案する。 これは、BCS-Bose Einstein condensation (BEC) の交差する超流動層における二原子および三原子超長距離分子種の形成をモニタリングすることによって達成される。 BECの3つの原子Rydberg分子は、核物質のピオン捕獲を連想させる強結合のクーパー対のトラップを、BCS側の2つの原子Rydberg分子によるクーパー対の破壊はブラックホールによる連星潮位破壊を誘発する。 フェルミ超流動分子とリドベルク分子の分光はクーパー対の大きさを推定し、ライドベルク分子結合エネルギーは多体対効果を識別する。

We propose a spectroscopic probe of the breaking and localization of Cooper pairs in an atomic Fermi superfluid interacting with a Rydberg impurity. This is achieved by monitoring the formation of diatomic and triatomic ultralong-range molecular species in the superfluid across the BCS - Bose Einstein condensation (BEC) crossover. The triatomic Rydberg molecule in the BEC regime heralds the trapping of a tightly-bound Cooper pair, reminiscent of pion capture in nuclear matter, while the breaking of a Cooper pair on the BCS side by a diatomic Rydberg molecule is evocative of binary-star tidal disruption by a black hole. Spectroscopy of the Fermi superfluid and Rydberg molecules allows for an estimation of the Cooper-pair size while the Rydberg molecule binding energies discern many-body pairing effects.
翻訳日:2024-07-08 23:04:18 公開日:2024-07-05
# フーリエに基づく微分クラスタリングによる生成モデルにおける新しいモードの同定

Identification of Novel Modes in Generative Models via Fourier-based Differential Clustering ( http://arxiv.org/abs/2405.02700v2 )

ライセンス: Link先を確認
Jingwei Zhang, Mohammad Jalali, Cheuk Ting Li, Farzan Farnia, (参考訳) 生成モデルの解釈可能な比較では、関連する各モデルによってより頻繁に生成されるサンプルの型を特定する必要がある。 異なる生成モデルをランク付けするために、文献でいくつかの定量的スコアが提案されているが、このようなスコアに基づく評価は、様々なサンプルタイプの取得において、生成モデル間の微妙な違いを明らかにしていない。 本研究では,差分クラスタリング問題を解き,2つの生成モデルで表されるサンプルタイプを別々に検出する。 差分クラスタリング問題を解くために,Fourier-based Identification of Novel Clusters (FINC) という手法を提案する。 FINCは、ランダムなフーリエ特徴に基づくスケーラブルな確率的アルゴリズムを提供し、2つの生成モデルのカーネル共分散行列の固有空間を推定し、主固有方向を利用して、各モデルにより支配的なサンプル型を検出する。 FINC法の大規模コンピュータビジョンデータセットおよび生成モデルフレームワークへの応用を実証する。 提案手法は, 広範に使用されている生成モデルを用いて, 異なる周波数で生成したサンプルタイプを強調表示するために, 開発したフーリエ方式のスケーラビリティを示唆する。 コードは \url{https://github.com/buyeah1109/FINC} で入手できる。

An interpretable comparison of generative models requires the identification of sample types produced more frequently by each of the involved models. While several quantitative scores have been proposed in the literature to rank different generative models, such score-based evaluations do not reveal the nuanced differences between the generative models in capturing various sample types. In this work, we attempt to solve a differential clustering problem to detect sample types expressed differently by two generative models. To solve the differential clustering problem, we propose a method called Fourier-based Identification of Novel Clusters (FINC) to identify modes produced by a generative model with a higher frequency in comparison to a reference distribution. FINC provides a scalable stochastic algorithm based on random Fourier features to estimate the eigenspace of kernel covariance matrices of two generative models and utilize the principal eigendirections to detect the sample types present more dominantly in each model. We demonstrate the application of the FINC method to large-scale computer vision datasets and generative model frameworks. Our numerical results suggest the scalability of the developed Fourier-based method in highlighting the sample types produced with different frequencies by widely-used generative models. Code is available at \url{https://github.com/buyeah1109/FINC}
翻訳日:2024-07-08 23:04:18 公開日:2024-07-05
# 目標学習によるネットワーク干渉による二重ロバスト因果効果推定

Doubly Robust Causal Effect Estimation under Networked Interference via Targeted Learning ( http://arxiv.org/abs/2405.03342v3 )

ライセンス: Link先を確認
Weilin Chen, Ruichu Cai, Zeqin Yang, Jie Qiao, Yuguang Yan, Zijian Li, Zhifeng Hao, (参考訳) ネットワーク干渉による因果効果の推定は重要であるが、難しい問題である。 利用可能なパラメトリック手法はモデル空間で制限されているが、従来の半パラメトリック手法、例えば1つのニュアンス関数に1つだけ適合するニューラルネットワークを利用すると、データ生成プロセスの適切な仮定なしに、ネットワーク干渉下での誤特定問題に遭遇する可能性がある。 本稿では,ニューラルネットワークのトレーニングにターゲット学習技術を適用することにより,ネットワーク干渉下での2重頑健な因果効果推定手法を提案する。 具体的には、対象とする学習技術をネットワーク干渉設定に一般化し、推定器が二重ロバスト性を達成する条件を確立する。 この条件に基づいて、同定された理論条件を目標損失に変換することにより、エンドツーエンドの因果効果推定器を考案する。 さらに,設計した推定器の理論的解析を行い,単一ニュアンスモデルと比較して収束速度が速いことを示した。 半合成データを用いた2つの実世界のネットワークにおける大規模な実験結果から,提案手法の有効性が示された。

Causal effect estimation under networked interference is an important but challenging problem. Available parametric methods are limited in their model space, while previous semiparametric methods, e.g., leveraging neural networks to fit only one single nuisance function, may still encounter misspecification problems under networked interference without appropriate assumptions on the data generation process. To mitigate bias stemming from misspecification, we propose a novel doubly robust causal effect estimator under networked interference, by adapting the targeted learning technique to the training of neural networks. Specifically, we generalize the targeted learning technique into the networked interference setting and establish the condition under which an estimator achieves double robustness. Based on the condition, we devise an end-to-end causal effect estimator by transforming the identified theoretical condition into a targeted loss. Moreover, we provide a theoretical analysis of our designed estimator, revealing a faster convergence rate compared to a single nuisance model. Extensive experimental results on two real-world networks with semisynthetic data demonstrate the effectiveness of our proposed estimators.
翻訳日:2024-07-08 23:04:18 公開日:2024-07-05
# FuXi-ENS:中距離アンサンブル天気予報のための機械学習モデル

FuXi-ENS: A machine learning model for medium-range ensemble weather forecasting ( http://arxiv.org/abs/2405.05925v2 )

ライセンス: Link先を確認
Xiaohui Zhong, Lei Chen, Hao Li, Jun Liu, Xu Fan, Jie Feng, Kan Dai, Jing-Jia Luo, Jie Wu, Yuan Qi, Bo Lu, (参考訳) 組立て予測は、特に極端な出来事の予測のために、天気予報を改善するために不可欠である。 従来のNWPモデルに基づくアンサンブル予測システム(EPS)の構築は,計算コストが高い。 MLモデルは、決定論的天気予報のための貴重なツールとして登場し、計算要求が大幅に減少し、従来のNWPモデルの予測性能を超えた予測を提供する。 しかし、予測のアンサンブルにMLモデルを適用する場合、課題が発生する。 GenCastやSEEDSモデルといった最近のMLモデルは、予測生成のためにERA5 EDAまたは運用NWPアンサンブルメンバーに依存している。 それらの空間分解能は、多くの応用において非常に粗いと考えられている。 これらの制限を克服するため、Fuxi-ENSは6時間ごとのグローバルアンサンブル天気予報を最大15日間提供するように設計された高度なMLモデルである。 このモデルは、13の圧力レベルで5つの大気変数と13の表面変数を組み込んで、0.25の空間分解能を著しく高めている。 変分オートエンコーダ(VAE)の固有確率特性を活用することにより、予測分布と目標分布のCRPSとKL分散を組み合わせた損失関数を最適化し、初期条件と予測条件の両方においてフロー依存摂動を組み込む。 この革新的なアプローチにより、FuXi-ENSは、アンサンブル気象予報のための標準VAEモデルにおいて、L1損失とKL損失を併用した従来のものよりも進歩する。 その結果,FXi-ENSは360変数の98.1%のCRPSと予測リードタイムの組み合わせで,世界有数のNWPモデルであるECMWFのアンサンブル予測よりも優れていた。 この成果は、アンサンブル天気予報を強化するためのフキシエンスモデルの可能性を強調し、この分野のさらなる発展に向けた有望な方向性を提供する。

Ensemble forecasting is crucial for improving weather predictions, especially for forecasts of extreme events. Constructing an ensemble prediction system (EPS) based on conventional NWP models is highly computationally expensive. ML models have emerged as valuable tools for deterministic weather forecasts, providing forecasts with significantly reduced computational requirements and even surpassing the forecast performance of traditional NWP models. However, challenges arise when applying ML models to ensemble forecasting. Recent ML models, such as GenCast and SEEDS model, rely on the ERA5 EDA or operational NWP ensemble members for forecast generation. Their spatial resolution is also considered too coarse for many applications. To overcome these limitations, we introduce FuXi-ENS, an advanced ML model designed to deliver 6-hourly global ensemble weather forecasts up to 15 days. This model runs at a significantly increased spatial resolution of 0.25\textdegree, incorporating 5 atmospheric variables at 13 pressure levels, along with 13 surface variables. By leveraging the inherent probabilistic nature of Variational AutoEncoder (VAE), FuXi-ENS optimizes a loss function that combines the CRPS and the KL divergence between the predicted and target distribution, facilitating the incorporation of flow-dependent perturbations in both initial conditions and forecast. This innovative approach makes FuXi-ENS an advancement over the traditional ones that use L1 loss combined with the KL loss in standard VAE models for ensemble weather forecasting. Results demonstrate that FuXi-ENS outperforms ensemble forecasts from the ECMWF, a world leading NWP model, in the CRPS of 98.1% of 360 variable and forecast lead time combinations. This achievement underscores the potential of the FuXi-ENS model to enhance ensemble weather forecasts, offering a promising direction for further development in this field.
翻訳日:2024-07-08 23:04:18 公開日:2024-07-05
# 差分生産型フェデレーション学習のための年齢アウェアスケジューリング

Age Aware Scheduling for Differentially-Private Federated Learning ( http://arxiv.org/abs/2405.05962v2 )

ライセンス: Link先を確認
Kuan-Yu Lin, Hsuan-Yin Lin, Yu-Pin Hsu, Yu-Chih Huang, (参考訳) 本稿では, 年齢, 精度, 差分プライバシー (DP) を含む3方向の微妙なトレードオフを掘り下げ, 時間差データベース間の差分私的フェデレーションラーニング (FL) について検討する。 本稿では,DP制約のないモデルと集約モデルとの損失差を最小化しつつ,DP要求を満たす最適化問題を提案する。 スケジューリングの利点を生かして、年齢依存的な損失上限を導入し、年齢認識型スケジューリング設計の開発に繋がる。 提案手法は従来の DP を用いた FL よりも優れた性能を示し,スケジューリングを設計要因とはみなさない。 本研究は,フェデレートラーニングにおける年齢,正確性,DPの相互作用に関する知見を,スケジューリング戦略の実践的意義として貢献する。

This paper explores differentially-private federated learning (FL) across time-varying databases, delving into a nuanced three-way tradeoff involving age, accuracy, and differential privacy (DP). Emphasizing the potential advantages of scheduling, we propose an optimization problem aimed at meeting DP requirements while minimizing the loss difference between the aggregated model and the model obtained without DP constraints. To harness the benefits of scheduling, we introduce an age-dependent upper bound on the loss, leading to the development of an age-aware scheduling design. Simulation results underscore the superior performance of our proposed scheme compared to FL with classic DP, which does not consider scheduling as a design factor. This research contributes insights into the interplay of age, accuracy, and DP in federated learning, with practical implications for scheduling strategies.
翻訳日:2024-07-08 23:04:18 公開日:2024-07-05
# ホップ代数からの一般化クラスター状態:非可逆対称性とホップテンソルネットワーク表現

Generalized cluster states from Hopf algebras: non-invertible symmetry and Hopf tensor network representation ( http://arxiv.org/abs/2405.09277v3 )

ライセンス: Link先を確認
Zhian Jia, (参考訳) クラスタ状態は、測定ベースの量子計算(MBQC)にとって重要なリソースである。 対称性保護トポロジカル秩序(SPT)を示すため、トポロジカルフェーズの研究にも重要な役割を果たしている。 ホップ代数に基づくクラスター状態の構成について述べる。 有限群値quditをホップ代数値quditに一般化し、ホップ代数の正則作用に基づく一般化されたパウリ-X作用素を導入し、ホップ代数上の既約表現作用に基づく一般化されたパウリ-Z作用素を導入することにより、ホップ量子の包括的理論を開発する。 ホップ四重項に対して非可逆対称性が自然に現れることを示す。 その後、クラスタグラフと呼ばれる二部グラフに対して、同一性状態と自明な表現状態はそれぞれ偶数頂点と奇数頂点に割り当てる。 エッジアンタングルを制御された正規動作として導入し、ホップクラスター状態の一般的な構成を提供する。 エッジエンタングルの可換性を確保するために,任意の三角形多様体に対してクラスタ格子を構築する手法を提案する。 構築を説明する例として,1dクラスタ状態の例を例に挙げる。 これはSPT相の有望な候補として機能するので、このシナリオのためにギャップ付きハミルトニアンを構築し、その非可逆対称性に関する詳細な議論を掘り下げる。 また,1dクラスタ状態モデルが準1dホップ量子二重モデルと等価であることを示す。 また、構造定数のテンソル表現とホップ代数の弦図形を統合することでホップクラスター状態のホップテンソルネットワーク表現を導入する。

Cluster states are crucial resources for measurement-based quantum computation (MBQC). It exhibits symmetry-protected topological (SPT) order, thus also playing a crucial role in studying topological phases. We present the construction of cluster states based on Hopf algebras. By generalizing the finite group valued qudit to a Hopf algebra valued qudit and introducing the generalized Pauli-X operator based on the regular action of the Hopf algebra, as well as the generalized Pauli-Z operator based on the irreducible representation action on the Hopf algebra, we develop a comprehensive theory of Hopf qudits. We demonstrate that non-invertible symmetry naturally emerges for Hopf qudits. Subsequently, for a bipartite graph termed the cluster graph, we assign the identity state and trivial representation state to even and odd vertices, respectively. Introducing the edge entangler as controlled regular action, we provide a general construction of Hopf cluster states. To ensure the commutativity of the edge entangler, we propose a method to construct a cluster lattice for any triangulable manifold. We use the 1d cluster state as an example to illustrate our construction. As this serves as a promising candidate for SPT phases, we construct the gapped Hamiltonian for this scenario and delve into a detailed discussion of its non-invertible symmetries. We also show that the 1d cluster state model is equivalent to the quasi-1d Hopf quantum double model. We also introduce the Hopf tensor network representation of Hopf cluster states by integrating the tensor representation of structure constants with the string diagrams of the Hopf algebra.
翻訳日:2024-07-08 23:04:18 公開日:2024-07-05
# UDA4Inst: インスタンスセグメンテーションのための教師なしドメイン適応

UDA4Inst: Unsupervised Domain Adaptation for Instance Segmentation ( http://arxiv.org/abs/2405.09682v3 )

ライセンス: Link先を確認
Yachan Guo, Yi Xiao, Danna Xue, Jose Luis Gomez Zurita, Antonio M. López, (参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインから未ラベルのターゲットドメインに学習した知識を転送することを目的としている。 UDAの合成から実世界のドメイン(合成から実世界のドメイン)は、セマンティックセグメンテーションやオブジェクト検出といったタスクにおいて顕著な性能を示すが、視覚に基づく自律運転の分野でのセグメンテーションを例に挙げた例はほとんどなく、既存の手法は準最適ベースラインに基づいており、性能を著しく制限している。 本稿では,ケースセグメンテーションのための合成-実 UDA の強力なベースラインである UDA4Inst を紹介する。 UDA4Instは、ソースドメインとターゲットドメインの両方からのデータを効果的に活用するために、インスタンスレベルでクロスドメインの双方向データミキシングを採用する。 希少なクラスバランスとカテゴリモジュールのトレーニングも、パフォーマンスの向上のために採用されている。 このベンチマークはUrbanSyn->Cityscapesで39.0 mAP、Synscapes->Cityscapesで35.7 mAPである。 本手法は,ソースのみのMask2Formerモデルを,+7mAPと+7.6mAPでそれぞれ上回っている。 SynTHIA->Cityscapes では、ソースのみの Mask2Former を +6.7 mAP で改善し、最先端の結果を達成する。

Unsupervised Domain Adaptation (UDA) aims to transfer knowledge learned from a labeled source domain to an unlabeled target domain. While UDA methods for synthetic to real-world domains (synth-to-real) show remarkable performance in tasks such as semantic segmentation and object detection, very few were proposed for instance segmentation in the field of vision-based autonomous driving, and the existing ones are based on a suboptimal baseline, which severely limits the performance. In this paper, we introduce UDA4Inst, a strong baseline of synth-to-real UDA for instance segmentation. UDA4Inst adopts cross-domain bidirectional data mixing at the instance level to effectively utilize data from both source and target domains. Rare-class balancing and category module training are also employed to further improve the performance. It is worth noting that we are the first to demonstrate results on two new synth-to-real instance segmentation benchmarks, with 39.0 mAP on UrbanSyn->Cityscapes and 35.7 mAP on Synscapes->Cityscapes. Our method outperforms the source-only Mask2Former model by +7 mAP and +7.6 mAP, respectively. On SYNTHIA->Cityscapes, our method improves the source-only Mask2Former by +6.7 mAP, achieving state-of-the-art results.Our code will be released soon.
翻訳日:2024-07-08 22:54:33 公開日:2024-07-05
# Rydberg原子を用いた物質量子位相の生成と最大独立単位ディスクグラフの探索

Generation of quantum phases of matter and finding maximum-weight independent set of unit-disk graphs using Rydberg atoms ( http://arxiv.org/abs/2405.09803v2 )

ライセンス: Link先を確認
Ahmed M. Farouk, I. I. Beterov, Peng Xu, I. I. Ryabtsev, (参考訳) 近年の量子コンピューティングと、Rydbergの励起を用いた中性原子配列を持つ多体系の量子シミュレーションは、様々な最適化問題の解法における計算上の優位性に対する予期せぬ機会をもたらした。 単位ディスクグラフの最大ウェイト独立集合(MWIS)の問題はNPハード最適化問題の例である。 それは、単位距離内で全ての頂点を接続するエッジを持つグラフに対して、その重みの最大和を持つ最大の頂点の集合を見つけることを含む。 この問題は、相互作用するRydberg原子の配列を持つ量子アニールを用いて解決できる。 特定のグラフに対して、原子の空間配置はグラフの頂点を表し、一方、リドベルクの励起における共鳴からの変形はこれらの頂点の重みを定義する。 グラフのエッジは単位ディスク基準に従って描画することができる。 MWISは変分量子断熱アルゴリズム(VQAA)を適用することで得られる。 相互作用する原子の量子系を多体基底状態に駆動し,非線形準断熱プロファイルを用いてライドバーグデチューニングを網羅する。 また、異なる化学元素の補助原子の集合である量子ワイヤを用いて、グラフの遠隔頂点間の強い結合を媒介する。 量子ワイヤの異なる長さに対するこの効果について検討する。 また,原子配列の1次元および2次元空間配置におけるコンメニュレートおよび非コンメニュレート相を実現する物質の量子相についても検討した。

Recent progress in quantum computing and quantum simulation of many-body systems with arrays of neutral atoms using Rydberg excitation brought unforeseen opportunities towards computational advantage in solving various optimization problems. The problem of maximum-weight independent set (MWIS) of unit-disk graphs is an example of NP-hard optimization problems. It involves finding the largest set of vertices with the maximum sum of their weights for a graph which has edges connecting all pairs of vertices within a unit distance. This problem can be solved using quantum annealing with an array of interacting Rydberg atoms. For a particular graph, a spatial arrangement of atoms represents vertices of the graph, while the detuning from the resonance at Rydberg excitation defines weights of these vertices. The edges of the graph can be drawn according to the unit disk criterion. MWIS can be obtained by applying a variational quantum adiabatic algorithm (VQAA). We consider driving the quantum system of interacting atoms to the many-body ground state using a non-linear quasi-adiabatic profile for sweeping the Rydberg detuning. We also propose using a quantum wire which is a set of auxiliary atoms of a different chemical element to mediate strong coupling between the remote vertices of the graph. We investigate this effect for different lengths of the quantum wire. We also investigate the quantum phases of matter realizing commensurate and incommensurate phases in 1D and 2D spatial arrangement of the atomic array.
翻訳日:2024-07-08 22:54:33 公開日:2024-07-05
# 生成型カメラ:超単分子動的新しいビュー合成

Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis ( http://arxiv.org/abs/2405.14868v2 )

ライセンス: Link先を確認
Basile Van Hoorick, Rundi Wu, Ege Ozguroglu, Kyle Sargent, Ruoshi Liu, Pavel Tokmakov, Achal Dave, Changxi Zheng, Carl Vondrick, (参考訳) 単一の視点から複雑な動的シーンを正確に再構築することは、コンピュータビジョンにおいて難しい課題である。 現在のダイナミックな新しいビュー合成手法は、通常、多くの異なるカメラ視点からのビデオを必要とし、注意深い記録設定を必要とし、その実用性を大幅に制限すると同時に、具体化されたAIアプリケーションも必要である。 本稿では,任意のシーンのビデオに対して,他の選択された視点から同期映像を生成し,相対カメラのポーズパラメータのセットを条件とした,大規模拡散に先立って,制御可能なモノクロダイナミックビュー合成パイプラインである$\textbf{GCD}$を提案する。 我々のモデルは入力として深度を必要とせず、3Dシーンの幾何学を明示的にモデル化せず、その目的を効率的に達成するためにエンドツーエンドの映像翻訳を行う。 合成多視点ビデオデータのみに訓練されているにもかかわらず、ゼロショットの実世界の一般化実験は、ロボット工学、オブジェクト永続性、運転環境を含む複数の領域で有望な結果を示している。 私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。

Accurate reconstruction of complex dynamic scenes from just a single viewpoint continues to be a challenging task in computer vision. Current dynamic novel view synthesis methods typically require videos from many different camera viewpoints, necessitating careful recording setups, and significantly restricting their utility in the wild as well as in terms of embodied AI applications. In this paper, we propose $\textbf{GCD}$, a controllable monocular dynamic view synthesis pipeline that leverages large-scale diffusion priors to, given a video of any scene, generate a synchronous video from any other chosen perspective, conditioned on a set of relative camera pose parameters. Our model does not require depth as input, and does not explicitly model 3D scene geometry, instead performing end-to-end video-to-video translation in order to achieve its goal efficiently. Despite being trained on synthetic multi-view video data only, zero-shot real-world generalization experiments show promising results in multiple domains, including robotics, object permanence, and driving environments. We believe our framework can potentially unlock powerful applications in rich dynamic scene understanding, perception for robotics, and interactive 3D video viewing experiences for virtual reality.
翻訳日:2024-07-08 22:54:33 公開日:2024-07-05
# 2次元フェルミオン線における超拡散輸送

Super-diffusive transport in two-dimensional Fermionic wires ( http://arxiv.org/abs/2405.15560v2 )

ライセンス: Link先を確認
Junaid Majeed Bhat, (参考訳) 本稿では, 搬送方向に沿って非相関性障害が存在するにもかかわらず, 導電挙動を示すフェルミオンワイヤの2次元モデルを提案する。 パワー・ローの挙動は、エネルギーカットオフ以下の局所化長を分散させるエネルギー固有状態の存在に起因する。 輸送を研究するために、フェルミ準位に偏った電子貯水池に電線を接触させます。 導電性は$|E|<E_c$に対して超拡散的にスケールし、$|E|>E_c$に対して指数関数的に崩壊することを示す。 |E|=E_c$ で、コンダクタンススケールは、障害の期待値とワイヤのパラメータの符号に応じて、拡散的または異なるサブ拡散的パワーローでスケールすることを示す。

We present a two-dimensional model of a Fermionic wire which shows a power-law conductance behavior despite the presence of uncorrelated disorder along the direction of the transport. The power-law behavior is attributed to the presence of energy eigenstates of diverging localization length below some energy cutoff, $E_c$. To study transport, we place the wire in contact with electron reservoirs biased around a Fermi level, $E$. We show that the conductance scales super-diffusively for $|E|<E_c$ and decays exponentially for $|E|>E_c$. At $|E|=E_c$, we show that the conductance scales diffusively or with different sub-diffusive power-laws depending on the sign of the expectation value of the disorder and the parameters of the wire.
翻訳日:2024-07-08 22:54:33 公開日:2024-07-05
# ロスレス圧縮機を用いたマルチスペクトル時系列からの低リソース作物分類

Low-Resource Crop Classification from Multi-Spectral Time Series Using Lossless Compressors ( http://arxiv.org/abs/2405.18119v2 )

ライセンス: Link先を確認
Wei Cheng, Hongrui Ye, Xiao Wen, Jiachen Zhang, Jiping Xu, Feifan Zhang, (参考訳) 深層学習は多スペクトル時間データを用いた作物分類の精度を大幅に向上させた。 しかし、これらのモデルは多数のパラメータを持つ複雑な構造を持ち、大量のデータと高価な訓練を必要とする。 ラベル付きサンプルが少ない低リソース環境では、深層学習モデルは不十分なデータのために性能が悪い。 逆に、圧縮機はデータ型非依存であり、非パラメトリック法は基礎となる仮定をもたらすことはない。 この知見に触発されて、これらの状況に対処することを目的として、ディープラーニングモデルに代わる訓練を受けない代替案を提案する。 具体的には、反射率を記号表現に変換するシンボリック表現モジュールが提案されている。 シンボル表現は、チャネルと時間次元の両方でクロス変換され、シンボリック埋め込みを生成する。 次に、MNCD(Multiscale Normalized Compression Distance)は、2つのシンボル埋め込み間の相関を測定するように設計されている。 最後に、MNCDに基づいて、k-nearest-neighbor分類器kNNのみを用いて高品質な作物分類を行うことができる。 フレームワーク全体が使用可能で軽量です。 トレーニングなしでは、平均して7つの高度なディープラーニングモデルが3つのベンチマークデータセットで大規模にトレーニングされている。 また、これらのモデルの半数以上を、粗雑な作物ラベルで数ショットで上回っている。 したがって、我々の非学習フレームワークの高性能と堅牢性は、実世界の作物マッピングに真に適用できる。 コードは、https://github.com/qinfengsama/Compressor-Based-Crop-Mapping.comで入手できる。

Deep learning has significantly improved the accuracy of crop classification using multispectral temporal data. However, these models have complex structures with numerous parameters, requiring large amounts of data and costly training. In low-resource situations with fewer labeled samples, deep learning models perform poorly due to insufficient data. Conversely, compressors are data-type agnostic, and non-parametric methods do not bring underlying assumptions. Inspired by this insight, we propose a non-training alternative to deep learning models, aiming to address these situations. Specifically, the Symbolic Representation Module is proposed to convert the reflectivity into symbolic representations. The symbolic representations are then cross-transformed in both the channel and time dimensions to generate symbolic embeddings. Next, the Multi-scale Normalised Compression Distance (MNCD) is designed to measure the correlation between any two symbolic embeddings. Finally, based on the MNCDs, high quality crop classification can be achieved using only a k-nearest-neighbor classifier kNN. The entire framework is ready-to-use and lightweight. Without any training, it outperformed, on average, 7 advanced deep learning models trained at scale on three benchmark datasets. It also outperforms more than half of these models in the few-shot setting with sparse crop labels. Therefore, the high performance and robustness of our non-training framework makes it truly applicable to real-world crop mapping. Codes are available at: https://github.com/qinfengsama/Compressor-Based-Crop-Mapping.
翻訳日:2024-07-08 22:54:33 公開日:2024-07-05
# 産業における人工知能 4.0:産業システム統合の課題

Artificial Intelligence in Industry 4.0: A Review of Integration Challenges for Industrial Systems ( http://arxiv.org/abs/2405.18580v2 )

ライセンス: Link先を確認
Alexander Windmann, Philipp Wittenberg, Marvin Schieseck, Oliver Niggemann, (参考訳) 業界 4.0 では、CPS (Cyber-Physical Systems) は、予測保守や生産計画を含むアプリケーションに人工知能 (AI) が活用できる膨大なデータセットを生成する。 しかし、AIの可能性を実証しているにもかかわらず、製造業のような分野に広く採用されていることは依然として限られている。 システム統合、データ関連の問題、労働関連の問題の管理、信頼できるAIの確保などです。 定量的分析では、実践者にとって重要な課題とトピックが強調されるが、それでも学者によって十分に調査される必要がある。 本稿では,これらの課題に対する既存の解決策を簡潔に論じ,今後の研究への道筋を提案する。 この調査は、CPSにおけるAIの費用対効果を評価する実践者や、これらの緊急課題に対処することを目指す研究者のためのリソースとして役立ちたい。

In Industry 4.0, Cyber-Physical Systems (CPS) generate vast data sets that can be leveraged by Artificial Intelligence (AI) for applications including predictive maintenance and production planning. However, despite the demonstrated potential of AI, its widespread adoption in sectors like manufacturing remains limited. Our comprehensive review of recent literature, including standards and reports, pinpoints key challenges: system integration, data-related issues, managing workforce-related concerns and ensuring trustworthy AI. A quantitative analysis highlights particular challenges and topics that are important for practitioners but still need to be sufficiently investigated by academics. The paper briefly discusses existing solutions to these challenges and proposes avenues for future research. We hope that this survey serves as a resource for practitioners evaluating the cost-benefit implications of AI in CPS and for researchers aiming to address these urgent challenges.
翻訳日:2024-07-08 22:54:33 公開日:2024-07-05
# ニューラルネットワークにおけるセミリング活性化

Semiring Activation in Neural Networks ( http://arxiv.org/abs/2405.18805v2 )

ライセンス: Link先を確認
Bart M. N. Smets, Peter D. Donker, Jim W. Portegies, Remco Duits, (参考訳) ニューラルネットワークでの使用に適したセミリングに基づいて、トレーニング可能な非線形演算子のクラスを導入する。 これらの作用素は、ニューラルネットワークにおける活性化関数を持つ線形作用素の伝統的な交替を一般化する。 セミリング(英: Semiring)は、線形性の一般化された表記を記述する代数的構造であり、ニューラルネットワークに含まれる訓練可能な作用素の範囲を大きく広げている。 実際、最大または最小プール演算は、固定された核を持つ熱帯半環の畳み込みである。 トレーニング可能なセミリング演算子の活性化関数を置き換える実験を行い、これらが完全に接続されただけでなく畳み込みニューラルネットワーク(ConvNeXt)にも適用可能であることを示す。 本稿では,従来のアクティベーション関数をトレーニング可能なセミリングアクティベーションに置き換えることの課題と,そのトレードオフについて論じる。

We introduce a class of trainable nonlinear operators based on semirings that are suitable for use in neural networks. These operators generalize the traditional alternation of linear operators with activation functions in neural networks. Semirings are algebraic structures that describe a generalised notation of linearity, greatly expanding the range of trainable operators that can be included in neural networks. In fact, max- or min-pooling operations are convolutions in the tropical semiring with a fixed kernel. We perform experiments where we replace the activation functions for trainable semiring-based operators to show that these are viable operations to include in fully connected as well as convolutional neural networks (ConvNeXt). We discuss some of the challenges of replacing traditional activation functions with trainable semiring activations and the trade-offs of doing so.
翻訳日:2024-07-08 22:54:33 公開日:2024-07-05
# EasyAnimate: トランスフォーマーアーキテクチャに基づく高性能長ビデオ生成手法

EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture ( http://arxiv.org/abs/2405.18991v2 )

ライセンス: Link先を確認
Jiaqi Xu, Xinyi Zou, Kunzhe Huang, Yunkuo Chen, Bo Liu, MengLi Cheng, Xing Shi, Jun Huang, (参考訳) 本稿では,高速な結果を得るためにトランスフォーマーアーキテクチャのパワーを利用する,ビデオ生成の高度な手法であるEasyAnimateを提案する。 動作モジュールブロックを組み込んで,3次元映像生成の複雑さに対応するために,当初2次元画像合成用に設計されたDiTフレームワークを拡張した。 時間的ダイナミクスを捉え、一貫したフレームの生成とシームレスな動き遷移を保証するために使用される。 モーションモジュールは様々なDiTベースラインメソッドに適応して、異なるスタイルの動画を生成することができる。 また、トレーニングと推論の段階で異なるフレームレートと解像度のビデオを生成でき、画像とビデオの両方に適している。 さらに、時間軸を凝縮する新しい手法であるスライスVAEを導入し、長時間ビデオの生成を容易にする。 現在、EasyAnimateは144フレームのビデオを生成する能力を示している。 我々は、データ前処理、VAEトレーニング、DiTモデルトレーニング(ベースラインモデルとLoRAモデルの両方)、エンドツーエンドのビデオ推論といった側面を含む、DiTに基づくビデオ制作のための総合的なエコシステムを提供する。 コードは、https://github.com/aigc-apps/EasyAnimate.comで入手できる。 我々は継続的に手法の性能向上に努めている。

This paper presents EasyAnimate, an advanced method for video generation that leverages the power of transformer architecture for high-performance outcomes. We have expanded the DiT framework originally designed for 2D image synthesis to accommodate the complexities of 3D video generation by incorporating a motion module block. It is used to capture temporal dynamics, thereby ensuring the production of consistent frames and seamless motion transitions. The motion module can be adapted to various DiT baseline methods to generate video with different styles. It can also generate videos with different frame rates and resolutions during both training and inference phases, suitable for both images and videos. Moreover, we introduce slice VAE, a novel approach to condense the temporal axis, facilitating the generation of long duration videos. Currently, EasyAnimate exhibits the proficiency to generate videos with 144 frames. We provide a holistic ecosystem for video production based on DiT, encompassing aspects such as data pre-processing, VAE training, DiT models training (both the baseline model and LoRA model), and end-to-end video inference. Code is available at: https://github.com/aigc-apps/EasyAnimate. We are continuously working to enhance the performance of our method.
翻訳日:2024-07-08 22:54:33 公開日:2024-07-05
# Value-Incentivized Preference Optimization:オンラインとオフラインのRLHFに対する統一的なアプローチ

Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF ( http://arxiv.org/abs/2405.19320v3 )

ライセンス: Link先を確認
Shicong Cen, Jincheng Mei, Katayoon Goshvadi, Hanjun Dai, Tong Yang, Sherry Yang, Dale Schuurmans, Yuejie Chi, Bo Dai, (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合性を示す。 嗜好データの利用状況によっては、オンラインとオフラインのRLHFの両方が調査の活発な領域である。 主なボトルネックは、RLHFの選好データから得られた報奨関数に不確実性推定を組み込む方法を理解することである。 不確実性の下での楽観主義や悲観主義の原理は、標準強化学習(RL)において十分に確立されているが、任意の政策パラメータ化の下では、信頼区間を構築するための標準技術が難解になるため、大規模言語モデルに適応可能な実用的な実装可能で理論的に構築された形式は、まだ利用できない。 本稿では,オンラインおよびオフラインのRLHF (value-incentivized preference optimization, VPO) に対する統一的なアプローチを提案する。 VPOはまた、暗黙の報酬モデリングでポリシーを直接最適化するので、直接の優先最適化と同様のシンプルなRLHFパイプラインを共有している。 VPOの理論的保証は、オンラインとオフラインの両方で提供され、標準RLのレートと一致する。 さらに、テキスト要約とダイアログの実験により、VPOの実用性と有効性を検証する。

Reinforcement learning from human feedback (RLHF) has demonstrated great promise in aligning large language models (LLMs) with human preference. Depending on the availability of preference data, both online and offline RLHF are active areas of investigation. A key bottleneck is understanding how to incorporate uncertainty estimation in the reward function learned from the preference data for RLHF, regardless of how the preference data is collected. While the principles of optimism or pessimism under uncertainty are well-established in standard reinforcement learning (RL), a practically-implementable and theoretically-grounded form amenable to large language models is not yet available, as standard techniques for constructing confidence intervals become intractable under arbitrary policy parameterizations. In this paper, we introduce a unified approach to online and offline RLHF -- value-incentivized preference optimization (VPO) -- which regularizes the maximum-likelihood estimate of the reward function with the corresponding value function, modulated by a $\textit{sign}$ to indicate whether the optimism or pessimism is chosen. VPO also directly optimizes the policy with implicit reward modeling, and therefore shares a simpler RLHF pipeline similar to direct preference optimization. Theoretical guarantees of VPO are provided for both online and offline settings, matching the rates of their standard RL counterparts. Moreover, experiments on text summarization and dialog verify the practicality and effectiveness of VPO.
翻訳日:2024-07-08 22:54:33 公開日:2024-07-05
# HOPE: 多様なパーキングシナリオのための強化学習型ハイブリッドポリシーパスプランナ

HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios ( http://arxiv.org/abs/2405.20579v2 )

ライセンス: Link先を確認
Mingyang Jiang, Yueyuan Li, Songan Zhang, Siyuan Chen, Chunxiang Wang, Ming Yang, (参考訳) 自動駐車は自動運転技術の高度な応用として期待されている。 しかし、既存の経路計画手法は、現実の多様な複雑な駐車シナリオを扱うことができないため、このニーズに対処できない。 非学習手法は信頼性の高い計画結果を提供するが、複雑な機会に弱い一方で、学習ベースの手法は探索に長けているが、実現可能な解に収束するには不安定である。 両アプローチの長所を活用するために,Hybrid pOlicy Path PlannEr(HOPE)を導入する。 この新しいソリューションは強化学習エージェントをReeds-Shepp曲線に統合し、多様なシナリオにまたがる効果的な計画を可能にする。 HOPEは、アクションマスク機構を適用して強化学習剤の探索を誘導し、認識された環境情報をマスクと統合するトランスフォーマーを用いる。 提案したプランナの訓練と評価を容易にするため,空間および障害物分布に基づく駐車シナリオの難易度を分類する基準を提案する。 実験の結果,本手法は一般的なルールベースアルゴリズムや従来の強化学習手法よりも優れており,計画の成功率や様々なシナリオにおける一般化が期待できることがわかった。 また,実世界の実験を行い,HOPEの実践性を検証する。 私たちのソリューションのコードは、 \href{GitHub}{https://github.com/jiamiya/HOPE}で公開されます。

Automated parking stands as a highly anticipated application of autonomous driving technology. However, existing path planning methodologies fall short of addressing this need due to their incapability to handle the diverse and complex parking scenarios in reality. While non-learning methods provide reliable planning results, they are vulnerable to intricate occasions, whereas learning-based ones are good at exploration but unstable in converging to feasible solutions. To leverage the strengths of both approaches, we introduce Hybrid pOlicy Path plannEr (HOPE). This novel solution integrates a reinforcement learning agent with Reeds-Shepp curves, enabling effective planning across diverse scenarios. HOPE guides the exploration of the reinforcement learning agent by applying an action mask mechanism and employs a transformer to integrate the perceived environmental information with the mask. To facilitate the training and evaluation of the proposed planner, we propose a criterion for categorizing the difficulty level of parking scenarios based on space and obstacle distribution. Experimental results demonstrate that our approach outperforms typical rule-based algorithms and traditional reinforcement learning methods, showing higher planning success rates and generalization across various scenarios. We also conduct real-world experiments to verify the practicability of HOPE. The code for our solution will be openly available on \href{GitHub}{https://github.com/jiamiya/HOPE}.
翻訳日:2024-07-08 22:54:33 公開日:2024-07-05
# 惑星因果推論 : 貧困の地理学における意味

Planetary Causal Inference: Implications for the Geography of Poverty ( http://arxiv.org/abs/2406.02584v2 )

ライセンス: Link先を確認
Kazuki Sakamoto, Connor T. Jerzak, Adel Daoud, (参考訳) 衛星画像などの地球観測データと機械学習を組み合わせると、生活環境の予測を通じて貧困の地理を理解することに、はるかに大きな影響を与える可能性がある。 地球観測(EO)データを用いた最近の研究は、空間的経済効果の予測だけでなく、下流の政策分析にとって重要な原因と効果の探索にも進んでいる。 本稿では、まず、衛星画像とEOデータを用いた因果解析への関心の高まりについて述べる。 次に, 空間統計学と機械学習手法の関係を追究し, 因果学習パイプラインにおけるEOデータの利用方法について考察した。 (1.) 下流因果解析のための貧困結果計算, (2.) EO画像分解処理, (3.) EOベースの処理効果の不均一性, (4.) EOベースのトランスポートビリティ解析である。 研究者が今後、因果ML分析にEOデータを組み込むためのステップバイステップのワークフローを提供することで、データ、モデル、評価メトリクスの主要な選択肢を概説する。

Earth observation data such as satellite imagery can, when combined with machine learning, can have far-reaching impacts on our understanding of the geography of poverty through the prediction of living conditions, especially where government-derived economic indicators are either unavailable or potentially untrustworthy. Recent work has progressed in using Earth Observation (EO) data not only to predict spatial economic outcomes but also to explore cause and effect, an understanding which is critical for downstream policy analysis. In this review, we first document the growth of interest in using satellite images together with EO data in causal analysis. We then trace the relationship between spatial statistics and machine learning methods before discussing four ways in which EO data has been used in causal machine learning pipelines -- (1.) poverty outcome imputation for downstream causal analysis, (2.) EO image deconfounding, (3.) EO-based treatment effect heterogeneity, and (4.) EO-based transportability analysis. We conclude by providing a step-by-step workflow for how researchers can incorporate EO data in causal ML analysis going forward, outlining major choices of data, models, and evaluation metrics.
翻訳日:2024-07-08 22:44:48 公開日:2024-07-05
# 微調整かRAGか? : 対話にLLMを適応させる異なる手法の評価

Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue ( http://arxiv.org/abs/2406.06399v2 )

ライセンス: Link先を確認
Simone Alghisi, Massimo Rizzoli, Gabriel Roccabruna, Seyed Mahed Mousavi, Giuseppe Riccardi, (参考訳) 本研究では,人間と機械の対話における応答生成作業におけるLarge Language Models (LLMs) の限界について検討する。 異なる対話型(例えば、Open-Domain)の文献では、いくつかの技術が提案されている。 しかし, これらの手法の評価は, 基本LLM, 対話型, 評価指標の点で制限されている。 本研究では,異なる対話型に適用した場合のLLM適応手法を広範囲に解析する。 Llama-2とMistralの2つの基本LLMと、Open-Domain, Knowledge-Grounded, Task-Oriented, Question Answeringの4つの対話タイプを選択した。 対話型毎に選択されたデータセット間での文脈内学習と微調整技術の性能を評価する。 我々は、検索・拡張世代(RAG)と金知識の両方のシナリオにおいて、外部知識を取り入れて生成を基盤とする影響を評価する。 我々は,自動測定と人的評価プロトコルに対して,一貫した評価基準と説明可能性基準を採用する。 解析の結果,各手法の有効性は基本LPMと特定の対話形式に依存するため,大規模言語モデルに適用するための普遍的なベストプラクティスは存在しないことがわかった。 最後に、最も優れた適応手法の評価には、自動メトリクスから得られる誤った期待と結果を避けるために、人間の評価を含めるべきである。

We study the limitations of Large Language Models (LLMs) for the task of response generation in human-machine dialogue. Several techniques have been proposed in the literature for different dialogue types (e.g., Open-Domain). However, the evaluations of these techniques have been limited in terms of base LLMs, dialogue types and evaluation metrics. In this work, we extensively analyze different LLM adaptation techniques when applied to different dialogue types. We have selected two base LLMs, Llama-2 and Mistral, and four dialogue types Open-Domain, Knowledge-Grounded, Task-Oriented, and Question Answering. We evaluate the performance of in-context learning and fine-tuning techniques across datasets selected for each dialogue type. We assess the impact of incorporating external knowledge to ground the generation in both scenarios of Retrieval-Augmented Generation (RAG) and gold knowledge. We adopt consistent evaluation and explainability criteria for automatic metrics and human evaluation protocols. Our analysis shows that there is no universal best-technique for adapting large language models as the efficacy of each technique depends on both the base LLM and the specific type of dialogue. Last but not least, the assessment of the best adaptation technique should include human evaluation to avoid false expectations and outcomes derived from automatic metrics.
翻訳日:2024-07-08 22:44:48 公開日:2024-07-05
# 属性正規化による心臓MRIの解釈型表現学習

Interpretable Representation Learning of Cardiac MRI via Attribute Regularization ( http://arxiv.org/abs/2406.08282v2 )

ライセンス: Link先を確認
Maxime Di Folco, Cosmin I. Bercea, Emily Chan, Julia A. Schnabel, (参考訳) 臨床医が人工知能モデルの理解と信頼を確実にするためには、医療画像の解釈可能性が不可欠である。 最近では、その解釈可能性を高めるために、属性を潜在空間にエンコードするいくつかのアプローチが検討されている。 特に属性正規化は、潜在表現の次元に沿って属性のセットを符号化することを目的としている。 しかし、このアプローチは変分オートエンコーダに基づいており、ぼやけた再構築に悩まされている。 本稿では,分散正規化されたソフトイントロスペクティブ変分オートエンコーダを提案し,逆向きに訓練された変分オートエンコーダのフレームワーク内に潜時空間の属性正規化を組み合わせた。 本稿では,英国バイオバンクの短軸磁気共鳴画像を用いて,潜時空間の解釈性を維持しつつ,変動型オートエンコーダ法のぼやけた再構成問題に対処する手法を提案する。

Interpretability is essential in medical imaging to ensure that clinicians can comprehend and trust artificial intelligence models. Several approaches have been recently considered to encode attributes in the latent space to enhance its interpretability. Notably, attribute regularization aims to encode a set of attributes along the dimensions of a latent representation. However, this approach is based on Variational AutoEncoder and suffers from blurry reconstruction. In this paper, we propose an Attributed-regularized Soft Introspective Variational Autoencoder that combines attribute regularization of the latent space within the framework of an adversarially trained variational autoencoder. We demonstrate on short-axis cardiac Magnetic Resonance images of the UK Biobank the ability of the proposed method to address blurry reconstruction issues of variational autoencoder methods while preserving the latent space interpretability.
翻訳日:2024-07-08 22:44:48 公開日:2024-07-05
# 語彙データ合成のための因果性:高階構造因果ベンチマークフレームワーク

Causality for Tabular Data Synthesis: A High-Order Structure Causal Benchmark Framework ( http://arxiv.org/abs/2406.08311v2 )

ライセンス: Link先を確認
Ruibo Tu, Zineb Senane, Lele Cao, Cheng Zhang, Hedvig Kjellström, Gustav Eje Henter, (参考訳) タブラル合成モデルは複雑な依存関係を捉えるのに効果がなく、分散シフト下での予測や自動意思決定、クロステーブル理解といった包括的な下流タスクでは、合成データの質は依然として不十分である。 大きな課題は、表データの基盤構造と高次関係に関する事前知識の欠如である。 グラフデータ合成のための高次構造情報の体系的評価が,この問題の解決に向けた第一歩である,と我々は主張する。 本稿では,高次構造因果情報を自然な事前知識として導入し,表層合成モデル評価のためのベンチマークフレームワークを提案する。 このフレームワークにより、フレキシブルなデータ生成プロセスでベンチマークデータセットを生成し、これらのデータセットを使用して表形式の合成モデルをトレーニングし、さらなる評価を行うことができる。 複数のベンチマークタスク、高次メトリクス、因果推論タスクを下流タスクとして提案し、トレーニングされたモデルが生成した合成データの品質を評価する。 実験では,高次構造因果情報を取得するためのモデル能力を評価するために,ベンチマークフレームワークを活用することを実証した。 さらに, ベンチマークの結果から, 最先端の表層合成モデルの初期評価が得られた。 彼らは明らかに、理想的なパフォーマンスと実際のパフォーマンスのギャップと、ベースラインメソッドの違いを明らかにしている。 ベンチマークフレームワークはURL https://github.com/TURuibo/CauTabBench.comで利用可能です。

Tabular synthesis models remain ineffective at capturing complex dependencies, and the quality of synthetic data is still insufficient for comprehensive downstream tasks, such as prediction under distribution shifts, automated decision-making, and cross-table understanding. A major challenge is the lack of prior knowledge about underlying structures and high-order relationships in tabular data. We argue that a systematic evaluation on high-order structural information for tabular data synthesis is the first step towards solving the problem. In this paper, we introduce high-order structural causal information as natural prior knowledge and provide a benchmark framework for the evaluation of tabular synthesis models. The framework allows us to generate benchmark datasets with a flexible range of data generation processes and to train tabular synthesis models using these datasets for further evaluation. We propose multiple benchmark tasks, high-order metrics, and causal inference tasks as downstream tasks for evaluating the quality of synthetic data generated by the trained models. Our experiments demonstrate to leverage the benchmark framework for evaluating the model capability of capturing high-order structural causal information. Furthermore, our benchmarking results provide an initial assessment of state-of-the-art tabular synthesis models. They have clearly revealed significant gaps between ideal and actual performance and how baseline methods differ. Our benchmark framework is available at URL https://github.com/TURuibo/CauTabBench.
翻訳日:2024-07-08 22:44:48 公開日:2024-07-05
# 進化可能な開発エンコーディングのメタラーニング

Meta-Learning an Evolvable Developmental Encoding ( http://arxiv.org/abs/2406.09020v2 )

ライセンス: Link先を確認
Milton L. Montero, Erwan Plantec, Eleni Nisioti, Joachim W. Pedersen, Sebastian Risi, (参考訳) ブラックボックス最適化法(進化アルゴリズムなど)の表現は、伝統的に繊細な手作業で構築されている。 これは、生物の複雑さと進化性に耳を傾ける生物学的生物の表現型にDNAをマッピングする表現とは対照的である。 さらに、この過程の核は基本的にほぼ全ての生命体で同じであり、進化の起源の共有を反映している。 生成モデルはブラックボックス最適化のための学習可能な表現であることを示すが、それらが簡単に検索できるように設計されているわけではない。 本稿では,このような表現をメタ学習できるシステムを提案する。 より詳しくは、我々のメタラーニングアプローチは、開発中に細胞が「DNA」文字列ゲノムの異なる部分に参加することができる1つのニューラルセルラーオートマタを見つけることができ、異なる解像可能な2D迷路構造を成長させることができることを示す。 進化したジェノタイプからフェノタイプへのマッピングは、より高速な探索だけでなく、成長した人工物の品質や多様性も向上することを示す。

Representations for black-box optimisation methods (such as evolutionary algorithms) are traditionally constructed using a delicate manual process. This is in contrast to the representation that maps DNAs to phenotypes in biological organisms, which is at the hear of biological complexity and evolvability. Additionally, the core of this process is fundamentally the same across nearly all forms of life, reflecting their shared evolutionary origin. Generative models have shown promise in being learnable representations for black-box optimisation but they are not per se designed to be easily searchable. Here we present a system that can meta-learn such representation by directly optimising for a representation's ability to generate quality-diversity. In more detail, we show our meta-learning approach can find one Neural Cellular Automata, in which cells can attend to different parts of a "DNA" string genome during development, enabling it to grow different solvable 2D maze structures. We show that the evolved genotype-to-phenotype mappings become more and more evolvable, not only resulting in a faster search but also increasing the quality and diversity of grown artefacts.
翻訳日:2024-07-08 22:44:48 公開日:2024-07-05
# SEACrowd: 東南アジア言語のための多言語マルチモーダルデータハブとベンチマークスイート

SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages ( http://arxiv.org/abs/2406.10118v2 )

ライセンス: Link先を確認
Holy Lovenia, Rahmad Mahendra, Salsabil Maulana Akbar, Lester James V. Miranda, Jennifer Santoso, Elyanah Aco, Akhdan Fadhilah, Jonibek Mansurov, Joseph Marvin Imperial, Onno P. Kampman, Joel Ruben Antony Moniz, Muhammad Ravi Shulthan Habibi, Frederikus Hudi, Railey Montalan, Ryan Ignatius, Joanito Agili Lopo, William Nixon, Börje F. Karlsson, James Jaya, Ryandito Diandaru, Yuze Gao, Patrick Amadeus, Bin Wang, Jan Christian Blaise Cruz, Chenxi Whitehouse, Ivan Halim Parmonangan, Maria Khelli, Wenyu Zhang, Lucky Susanto, Reynard Adha Ryanda, Sonny Lazuardi Hermawan, Dan John Velasco, Muhammad Dehan Al Kautsar, Willy Fitra Hendria, Yasmin Moslem, Noah Flynn, Muhammad Farid Adilazuarda, Haochen Li, Johanes Lee, R. Damanhuri, Shuo Sun, Muhammad Reza Qorib, Amirbek Djanibekov, Wei Qi Leong, Quyet V. Do, Niklas Muennighoff, Tanrada Pansuwan, Ilham Firdausi Putra, Yan Xu, Ngee Chia Tai, Ayu Purwarianti, Sebastian Ruder, William Tjhi, Peerat Limkonchotiwat, Alham Fikri Aji, Sedrick Keh, Genta Indra Winata, Ruochen Zhang, Fajri Koto, Zheng-Xin Yong, Samuel Cahyawijaya, (参考訳) 東南アジア (SEA) は言語多様性と文化的多様性に富んだ地域であり、1,300以上の先住民語があり、人口は671万人である。 しかし、一般的なAIモデルは、SEA言語のテキスト、画像、オーディオデータセットの表現が著しく欠けており、SEA言語のAIモデルの品質が損なわれている。 SEA言語のモデルを評価することは、英語のトレーニングデータの優位性によって複合された高品質なデータセットが不足しているために困難であり、潜在的な文化的誤表現に対する懸念を提起する。 これらの課題に対処するために,私たちは,3つのモードにわたる1,000近いSEA言語で標準化されたコーパスを提供することによって,リソースギャップを埋める包括的なリソースハブを統合する共同イニシアティブであるSEACrowdを紹介します。 SEACrowdベンチマークを通じて、13のタスクにわたる36のネイティブ言語上のAIモデルの品質を評価し、SEAの現在のAI状況に関する貴重な洞察を提供する。 さらに、我々は、SEAにおけるAIの将来のための潜在的ユーティリティとリソースエクイティを最大化し、AIのさらなる進歩を促進するための戦略を提案する。

Southeast Asia (SEA) is a region rich in linguistic diversity and cultural variety, with over 1,300 indigenous languages and a population of 671 million people. However, prevailing AI models suffer from a significant lack of representation of texts, images, and audio datasets from SEA, compromising the quality of AI models for SEA languages. Evaluating models for SEA languages is challenging due to the scarcity of high-quality datasets, compounded by the dominance of English training data, raising concerns about potential cultural misrepresentation. To address these challenges, we introduce SEACrowd, a collaborative initiative that consolidates a comprehensive resource hub that fills the resource gap by providing standardized corpora in nearly 1,000 SEA languages across three modalities. Through our SEACrowd benchmarks, we assess the quality of AI models on 36 indigenous languages across 13 tasks, offering valuable insights into the current AI landscape in SEA. Furthermore, we propose strategies to facilitate greater AI advancements, maximizing potential utility and resource equity for the future of AI in SEA.
翻訳日:2024-07-08 22:44:48 公開日:2024-07-05
# ドットの接続:New York Times Connections Word Gameを用いたLLMの抽象推論能力の評価

Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game ( http://arxiv.org/abs/2406.11012v4 )

ライセンス: Link先を確認
Prisha Samadarshi, Mariam Mustafa, Anushka Kulkarni, Raven Rothkopf, Tuhin Chakrabarty, Smaranda Muresan, (参考訳) New York Times Connectionsゲームは、ワードパズル愛好家のための人気で挑戦的な追跡ゲームとして登場した。 我々は200のConnectionsゲームを収集し、最先端の大規模言語モデル(LLM)の性能を専門家や初心者の人間プレイヤーに対して評価する。 以上の結果から,多種多様なベンチマークで顕著な推論能力を示した最高のLPMであるGPT-4oでも,ゲーム全体の8%しか解けないことがわかった。 GPT-4oと比較すると、初心者や専門家のプレイヤーはGPT-4oより優れており、専門家のプレイヤーはGPT-4oよりも優れていた。 我々の理解を深めるために、私たちはコネクティクスゲームにおける単語の分類に成功するために必要な知識タイプの分類を作成し、LLMが連想的、百科事典的、言語的知識に苦しむことを明らかにした。 我々の発見は、New York Times Connectionsゲームが、人間とAIシステムの抽象的推論能力を評価するための挑戦的なベンチマークとして確立されている。

The New York Times Connections game has emerged as a popular and challenging pursuit for word puzzle enthusiasts. We collect 200 Connections games to evaluate the performance of state-of-the-art large language models (LLMs) against expert and novice human players. Our results show that even the best-performing LLM, GPT-4o, which has otherwise shown impressive reasoning abilities on a wide variety of benchmarks, can only fully solve 8% of the games. Compared to GPT-4o, novice and expert players perform better, with expert human players significantly outperforming GPT-4o. To deepen our understanding we create a taxonomy of the knowledge types required to successfully categorize words in the Connections game, revealing that LLMs struggle with associative, encyclopedic, and linguistic knowledge. Our findings establish the New York Times Connections game as a challenging benchmark for evaluating abstract reasoning capabilities in humans and AI systems.
翻訳日:2024-07-08 22:44:48 公開日:2024-07-05
# 1ビット無線-Over-Fiberフロントエンドを用いた分散MIMOのディープラーニングに基づくチャネル推定

Deep-Learning-Based Channel Estimation for Distributed MIMO with 1-bit Radio-Over-Fiber Fronthaul ( http://arxiv.org/abs/2406.11325v2 )

ライセンス: Link先を確認
Alireza Bordbar, Lise Aabel, Christian Häger, Christian Fager, Giuseppe Durisi, (参考訳) 我々は、受信したアナログ無線周波数信号の2レベル量子化バージョンを担いながら、ファイバ・オプティカル・フロントホールリンクを介して、アクセスポイントを中央処理ユニットに接続する分散マルチインプット・マルチアウトプット(MIMO)アーキテクチャにおけるパイロット支援・アップリンクチャネル推定の問題を考える。 我々は、最近Nguyenらによって提案されたディープラーニングに基づくチャネル推定アルゴリズム(2023)に適応し、自動ゲインコントローラ(AGC)とコンパレータによって検討されたアーキテクチャで導入された信号歪み(1ビット量子化)に対する頑健さを探求する。 これらのコンポーネントは、受信した信号から2レベルアナログ波形を生成するためにアクセスポイントで使用される。 シミュレーションの結果から,提案手法は,Bussgang線形平均二乗誤差チャネル推定器よりも有意に優れており,AGCやコンパレータが導入した付加的な障害に対して頑健であることを示す。

We consider the problem of pilot-aided, uplink channel estimation in a distributed massive multiple-input multiple-output (MIMO) architecture, in which the access points are connected to a central processing unit via fiber-optical fronthaul links, carrying a two-level-quantized version of the received analog radio-frequency signal. We adapt to this architecture the deep-learning-based channel-estimation algorithm recently proposed by Nguyen et al. (2023), and explore its robustness to the additional signal distortions (beyond 1-bit quantization) introduced in the considered architecture by the automatic gain controllers (AGCs) and by the comparators. These components are used at the access points to generate the two-level analog waveform from the received signal. Via simulation results, we illustrate that the proposed channel-estimation method outperforms significantly the Bussgang linear minimum mean-square error channel estimator, and it is robust against the additional impairments introduced by the AGCs and the comparators.
翻訳日:2024-07-08 22:44:48 公開日:2024-07-05
# AnyMaker: Decoupled Dual-Level ID注入によるゼロショット汎用オブジェクトのカスタマイズ

AnyMaker: Zero-shot General Object Customization via Decoupled Dual-Level ID Injection ( http://arxiv.org/abs/2406.11643v3 )

ライセンス: Link先を確認
Lingjie Kong, Kai Wu, Xiaobin Hu, Wenhui Han, Jinlong Peng, Chengming Xu, Donghao Luo, Jiangning Zhang, Chengjie Wang, Yanwei Fu, (参考訳) テキスト・ツー・イメージ・オブジェクトのカスタマイズは、テキストのプロンプトや参照画像に応じて、同じID(ID)で画像を生成することを目的としており、大きな進歩を遂げている。 しかし、近年のカスタマイズ研究は、人間のカスタマイズや仮想試行のような特殊なタスクに支配されており、一般的なオブジェクトのカスタマイズにギャップが残されている。 この目的のために、AnyMakerという革新的なゼロショットオブジェクトカスタマイズフレームワークを導入し、高いID忠実度と柔軟なテキスト編集性を持つ汎用オブジェクトを生成する。 AnyMakerの有効性は、新しい一般ID抽出、二重レベルID注入、およびID認識デカップリングに起因している。 具体的には、汎用ID抽出モジュールは、汎用オブジェクトの多様なカスタマイズタスクに取り組むために、自己教師付きモデルのアンサンブルで十分なID情報を抽出する。 そして, 生成プロセスにおけるテキスト編集性を損なうことなく, 抽出したIDを拡散するUNetを提供するために, グローバルなローカルなデュアルレベルIDインジェクションモジュールを設計し, グローバルレベルのセマンティックIDをテキスト記述に注入し, ローカルレベルのID詳細を新たに付加したクロスアテンションモジュールを通じてモデルに直接注入する。 さらに,非ID要素からID関連情報を非ID要素から切り離すためのID対応デカップリングモジュールを提案する。 提案手法の検証と汎用オブジェクトのカスタマイズの研究を促進するため,315kのテキストイメージサンプルと10kのカテゴリを持つ,最初の大規模汎用IDデータセットであるMC-IDC(Multi-Category ID-Consistent)データセットを構築した。 実験により、AnyMakerは一般的なオブジェクトのカスタマイズにおいて顕著なパフォーマンスを示し、対応するタスクにおける特殊なメソッドよりも優れています。 コードとデータセットはまもなくリリースされる。

Text-to-image based object customization, aiming to generate images with the same identity (ID) as objects of interest in accordance with text prompts and reference images, has made significant progress. However, recent customizing research is dominated by specialized tasks, such as human customization or virtual try-on, leaving a gap in general object customization. To this end, we introduce AnyMaker, an innovative zero-shot object customization framework capable of generating general objects with high ID fidelity and flexible text editability. The efficacy of AnyMaker stems from its novel general ID extraction, dual-level ID injection, and ID-aware decoupling. Specifically, the general ID extraction module extracts sufficient ID information with an ensemble of self-supervised models to tackle the diverse customization tasks for general objects. Then, to provide the diffusion UNet with the extracted ID as much while not damaging the text editability in the generation process, we design a global-local dual-level ID injection module, in which the global-level semantic ID is injected into text descriptions while the local-level ID details are injected directly into the model through newly added cross-attention modules. In addition, we propose an ID-aware decoupling module to disentangle ID-related information from non-ID elements in the extracted representations for high-fidelity generation of both identity and text descriptions. To validate our approach and boost the research of general object customization, we create the first large-scale general ID dataset, Multi-Category ID-Consistent (MC-IDC) dataset, with 315k text-image samples and 10k categories. Experiments show that AnyMaker presents remarkable performance in general object customization and outperforms specialized methods in corresponding tasks. Code and dataset will be released soon.
翻訳日:2024-07-08 22:35:04 公開日:2024-07-05
# 低ランク適応における部分空間の混合

Mixture-of-Subspaces in Low-Rank Adaptation ( http://arxiv.org/abs/2406.11909v2 )

ライセンス: Link先を確認
Taiqiang Wu, Jiahao Wang, Zhe Zhao, Ngai Wong, (参考訳) 本稿では、計算効率が高く、実装が容易で、大規模言語、マルチモーダル、拡散モデルにも容易に適用可能なサブスペースインスパイアされたローランド適応法(LoRA)を提案する。 最初は、LoRAの重みを2つの部分空間に等価に分解し、それらを単純に混ぜれば性能が向上することを示した。 このような現象を研究するため、細粒度のサブスペースレンズを用いて再検討し、そのような修正は固定ミキサーを用いてサブスペースを融合させることと等価であることを示した。 より柔軟にするために、元のLoRA重みとミキサーを共同で学習し、Mixture-of-Subspaces LoRA (MoSLoRA) と呼ぶ。 MoSLoRAは、コモンセンス推論、ビジュアルインストラクションチューニング、主観駆動のテキスト・ツー・イメージ生成など、さまざまなモードのタスクにおいてLoRAを一貫して上回り、その有効性と堅牢性を示している。 コードはhttps://github.com/wutaiqiang/MoSLoRA.comで入手できる。

In this paper, we introduce a subspace-inspired Low-Rank Adaptation (LoRA) method, which is computationally efficient, easy to implement, and readily applicable to large language, multimodal, and diffusion models. Initially, we equivalently decompose the weights of LoRA into two subspaces, and find that simply mixing them can enhance performance. To study such a phenomenon, we revisit it through a fine-grained subspace lens, showing that such modification is equivalent to employing a fixed mixer to fuse the subspaces. To be more flexible, we jointly learn the mixer with the original LoRA weights, and term the method Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA consistently outperforms LoRA on tasks in different modalities, including commonsense reasoning, visual instruction tuning, and subject-driven text-to-image generation, demonstrating its effectiveness and robustness. Codes are available at https://github.com/wutaiqiang/MoSLoRA.
翻訳日:2024-07-08 22:35:04 公開日:2024-07-05
# 音声コーデックに基づく音声分離に向けて

Towards Audio Codec-based Speech Separation ( http://arxiv.org/abs/2406.12434v2 )

ライセンス: Link先を確認
Jia Qi Yip, Shengkui Zhao, Dianwen Ng, Eng Siong Chng, Bin Ma, (参考訳) ニューラルオーディオコーデック(NAC)モデルの最近の改良は、様々な音声処理アプリケーションに事前訓練されたコーデックを採用することに関心を惹き付け、高い圧縮から得られる効率を生かしたが、これらはまだ音声分離(SS)タスクには適用されていない。 従来のSSモデルに必要な計算処理は、エッジコンピューティングのユースケースの多くにおいて実用的ではないため、SSは高い圧縮の恩恵を受けることができる。 しかし、SSは、圧縮がパフォーマンスに深刻な影響を与える歪みをもたらす傾向にある波形マスキングタスクである。 本稿では,NACの埋め込み空間内でSSが実行されるAudio CodecベースのSSの新しいタスクを提案し,その課題に対処する新しいモデルであるCodecformerを提案する。 推論では、CodecformerはMACの52倍の削減を実現し、Sepformerのクラウドデプロイメントに匹敵する分離性能を実現している。 本手法は,実運用シナリオにおいて効率的なSSを実現するための新たな方向性を示す。

Recent improvements in neural audio codec (NAC) models have generated interest in adopting pre-trained codecs for a variety of speech processing applications to take advantage of the efficiencies gained from high compression, but these have yet been applied to the speech separation (SS) task. SS can benefit from high compression because the compute required for traditional SS models makes them impractical for many edge computing use cases. However, SS is a waveform-masking task where compression tends to introduce distortions that severely impact performance. Here we propose a novel task of Audio Codec-based SS, where SS is performed within the embedding space of a NAC, and propose a new model, Codecformer, to address this task. At inference, Codecformer achieves a 52x reduction in MAC while producing separation performance comparable to a cloud deployment of Sepformer. This method charts a new direction for performing efficient SS in practical scenarios.
翻訳日:2024-07-08 22:35:04 公開日:2024-07-05
# マルチモーダル条件誘導拡散モデルによる制御可能な心エコービデオ合成に向けたHeartBeat

HeartBeat: Towards Controllable Echocardiography Video Synthesis with Multimodal Conditions-Guided Diffusion Models ( http://arxiv.org/abs/2406.14098v2 )

ライセンス: Link先を確認
Xinrui Zhou, Yuhao Huang, Wufeng Xue, Haoran Dou, Jun Cheng, Han Zhou, Dong Ni, (参考訳) 心エコー法(ECHO)ビデオは心臓検査に広く用いられている。 臨床では、この手順は長年の訓練と、精度と効率を高めるためのディープラーニングベースのシステムの助けを必要とするオペレーターの経験に大きく依存している。 しかし、初級訓練や深層モデル開発に十分なカスタマイズデータ(例:異常事例)を取得することは臨床的に非現実的であるため、困難である。 したがって、制御可能なECHOビデオ合成が極めて望ましい。 本稿では,HeartBeatという新しい拡散型フレームワークを提案する。 私たちのハイライトは3倍です。 第一に、HeartBeatは、制御可能な生成を導くために、同時にマルチモーダル条件を知覚できる統一されたフレームワークとして機能する。 第2に,マルチモーダル条件を局所的・大域的に分類し,個別に細粒度と粗粒度を構成可能かつ柔軟に制御する2つの挿入戦略を提案する。 このように、ユーザはマルチモーダル制御信号を組み合わせることで、心的イメージに適合するECHOビデオを合成することができる。 第3に、モデルトレーニングを簡素化する2段階のトレーニングスキームを用いて、視覚概念と時間力学学習を分離することを提案する。 もう一つ興味深いのは、HeartBeatがマスクで誘導された心臓MRI合成を数枚の写真で簡単に一般化できることだ。 2つの公開データセットに対する大規模な実験は、提案されたHeartBeatの有効性を示している。

Echocardiography (ECHO) video is widely used for cardiac examination. In clinical, this procedure heavily relies on operator experience, which needs years of training and maybe the assistance of deep learning-based systems for enhanced accuracy and efficiency. However, it is challenging since acquiring sufficient customized data (e.g., abnormal cases) for novice training and deep model development is clinically unrealistic. Hence, controllable ECHO video synthesis is highly desirable. In this paper, we propose a novel diffusion-based framework named HeartBeat towards controllable and high-fidelity ECHO video synthesis. Our highlight is three-fold. First, HeartBeat serves as a unified framework that enables perceiving multimodal conditions simultaneously to guide controllable generation. Second, we factorize the multimodal conditions into local and global ones, with two insertion strategies separately provided fine- and coarse-grained controls in a composable and flexible manner. In this way, users can synthesize ECHO videos that conform to their mental imagery by combining multimodal control signals. Third, we propose to decouple the visual concepts and temporal dynamics learning using a two-stage training scheme for simplifying the model training. One more interesting thing is that HeartBeat can easily generalize to mask-guided cardiac MRI synthesis in a few shots, showcasing its scalability to broader applications. Extensive experiments on two public datasets show the efficacy of the proposed HeartBeat.
翻訳日:2024-07-08 22:35:04 公開日:2024-07-05
# 時間的知識グラフ質問に対する回答

Temporal Knowledge Graph Question Answering: A Survey ( http://arxiv.org/abs/2406.14191v2 )

ライセンス: Link先を確認
Miao Su, Zixuan Li, Zhuo Chen, Long Bai, Xiaolong Jin, Jiafeng Guo, (参考訳) 知識ベース質問回答(KBQA)は,知識ベースに基づいて質問に回答するための長年にわたる分野である。 近年,時間的知識グラフ質問回答(TKGQA)への関心が高まっている。 しかし、この分野は時間的問題の定義においてあいまいさを伴い、既存のTKGQAの手法の体系的な分類を欠いている。 そこで本研究では,時間的質問の分類とTKGQAの方法論的分類という2つの観点から,徹底的な調査を行った。 具体的には、まず、先行研究に携わる時間的疑問の詳細な分類法を確立する。 その後、セマンティックパーシングベースとTKG埋め込みベースという2つのカテゴリのTKGQAテクニックの総合的なレビューを行う。 本報告では,TKGQA分野の進展をめざした研究の方向性について概説する。 この研究は、TKGQAの包括的な参照として機能し、さらなる研究を促進することを目的としている。

Knowledge Base Question Answering (KBQA) has been a long-standing field to answer questions based on knowledge bases. Recently, the evolving dynamics of knowledge have attracted a growing interest in Temporal Knowledge Graph Question Answering (TKGQA), an emerging task to answer temporal questions. However, this field grapples with ambiguities in defining temporal questions and lacks a systematic categorization of existing methods for TKGQA. In response, this paper provides a thorough survey from two perspectives: the taxonomy of temporal questions and the methodological categorization for TKGQA. Specifically, we first establish a detailed taxonomy of temporal questions engaged in prior studies. Subsequently, we provide a comprehensive review of TKGQA techniques of two categories: semantic parsing-based and TKG embedding-based. Building on this review, the paper outlines potential research directions aimed at advancing the field of TKGQA. This work aims to serve as a comprehensive reference for TKGQA and to stimulate further research.
翻訳日:2024-07-08 22:35:04 公開日:2024-07-05
# Recommender Interferenceによる治療効果の推定:構造化ニューラルネットワークによるアプローチ

Estimating Treatment Effects under Recommender Interference: A Structured Neural Networks Approach ( http://arxiv.org/abs/2406.14380v3 )

ライセンス: Link先を確認
Ruohan Zhan, Shichao Han, Yuchen Hu, Zhenling Jiang, (参考訳) レコメンダシステムは、パーソナライズされたコンテンツをキュレートすることによって、コンテンツ共有プラットフォームに不可欠である。 コンテンツクリエーターをターゲットにしたレコメンデーターシステムの更新を評価するために、プラットフォームはクリエーター側のランダム化実験に頻繁に依存する。 処理効果は、ステータスクオに比べて新しいアルゴリズムが実装された場合の結果の変化を測定する。 標準差分推定器は, プロセッシング時に発生する推奨者干渉による偏りのある推定を導出し, クリエーターの露出を制御できることが示唆された。 本稿では,処理項目と制御項目の両方を含むプールからどのアイテムが露出するかを記述した「レコメンダ選択モデル」を提案する。 このフレームワークは、構造選択モデルとニューラルネットワークを組み合わせることで、リッチなビューアー・コンテントの不均一性を考慮しつつ、干渉経路を直接モデル化する。 治療効果の偏りのある推定器を構築し,それが$\sqrt n$-consistentで漸近的に正常であることを示す。 Weixin短ビデオプラットフォーム上でのフィールド実験により,推定器の実証性能を検証した。 標準クリエータ側実験に加えて、コストのかかる二面ランダム化設計を行い、干渉バイアスのないベンチマーク推定値を得る。 提案した推定器はベンチマークに匹敵する結果が得られるのに対し,標準差分推定器は有意なバイアスを示し,また逆の兆候も生み出すことを示す。

Recommender systems are essential for content-sharing platforms by curating personalized content. To evaluate updates to recommender systems targeting content creators, platforms frequently rely on creator-side randomized experiments. The treatment effect measures the change in outcomes when a new algorithm is implemented compared to the status quo. We show that the standard difference-in-means estimator can lead to biased estimates due to recommender interference that arises when treated and control creators compete for exposure. We propose a "recommender choice model" that describes which item gets exposed from a pool containing both treated and control items. By combining a structural choice model with neural networks, this framework directly models the interference pathway while accounting for rich viewer-content heterogeneity. We construct a debiased estimator of the treatment effect and prove it is $\sqrt n$-consistent and asymptotically normal with potentially correlated samples. We validate our estimator's empirical performance with a field experiment on Weixin short-video platform. In addition to the standard creator-side experiment, we conduct a costly double-sided randomization design to obtain a benchmark estimate free from interference bias. We show that the proposed estimator yields results comparable to the benchmark, whereas the standard difference-in-means estimator can exhibit significant bias and even produce reversed signs.
翻訳日:2024-07-08 22:35:04 公開日:2024-07-05
# OpenDebateEvidence: 大規模Argument MiningとSummarizationデータセット

OpenDebateEvidence: A Massive-Scale Argument Mining and Summarization Dataset ( http://arxiv.org/abs/2406.14657v2 )

ライセンス: Link先を確認
Allen Roush, Yusuf Shabazz, Arvind Balaji, Peter Zhang, Stefano Mezza, Markus Zhang, Sanjay Basu, Sriram Vishwanath, Mehdi Fatemi, Ravid Shwartz-Ziv, (参考訳) 我々は,アメリカン・コンペティティブ・ディベート・コミュニティから派生した議論マイニングと要約のための包括的データセットであるOpenDebateEvidenceを紹介する。 このデータセットには、350万以上のドキュメントと豊富なメタデータが含まれており、議論を巻き起こした最も広範な証拠の1つである。 OpenDebateEvidenceは、高校や大学の議論における議論の複雑さを捉え、トレーニングと評価のための貴重なリソースを提供する。 我々は,様々な手法,モデル,データセットをまたいだ議論的抽象的要約のための,最先端の大規模言語モデルの有効性を実証した。 この包括的リソースを提供することで、計算議論を進展させ、議論者、教育者、研究者の実践的応用を支援することを目指している。 OpenDebateEvidenceは、計算議論におけるさらなる研究と革新をサポートするために公開されている。 https://huggingface.co/datasets/Yusuf5/OpenCaselist

We introduce OpenDebateEvidence, a comprehensive dataset for argument mining and summarization sourced from the American Competitive Debate community. This dataset includes over 3.5 million documents with rich metadata, making it one of the most extensive collections of debate evidence. OpenDebateEvidence captures the complexity of arguments in high school and college debates, providing valuable resources for training and evaluation. Our extensive experiments demonstrate the efficacy of fine-tuning state-of-the-art large language models for argumentative abstractive summarization across various methods, models, and datasets. By providing this comprehensive resource, we aim to advance computational argumentation and support practical applications for debaters, educators, and researchers. OpenDebateEvidence is publicly available to support further research and innovation in computational argumentation. Access it here: https://huggingface.co/datasets/Yusuf5/OpenCaselist
翻訳日:2024-07-08 22:35:04 公開日:2024-07-05
# 検索・拡張世代に対する回答の質評価:強力なLLMがすべて必要である

Evaluating Quality of Answers for Retrieval-Augmented Generation: A Strong LLM Is All You Need ( http://arxiv.org/abs/2406.18064v2 )

ライセンス: Link先を確認
Yang Wang, Alberto Garcia Hernandez, Roman Kyslyi, Nicholas Kersting, (参考訳) 本稿では, 精度, 完全性, 誠実さを評価できる新しいグレーディングシステムであるvRAG-Evalを用いた検索・拡張生成(RAG)アプリケーションにおける応答品質評価の総合的研究について述べる。 さらに、上記の品質面の階調をバイナリスコアにマッピングし、チャットアプリケーションで一般的に使用される直感的な"thumbs-up"や"thumbs-down"のジェスチャーを反映して、受け入れまたは拒否の決定を示す。 このアプローチは、明確な意思決定の意見が不可欠である現実的なビジネス設定に適合します。 我々の評価は2つの大言語モデル(LLM)にvRAG-Evalを適用し、バニラRAGアプリケーションによって生成される回答の質を評価する。 これらの評価を人的専門家の判断と比較し、GPT-4の評価と人的専門家の判断とを実質的に一致させ、決定を受諾または拒否することに関して83%の合意に達した。 本研究は, 閉領域, 閉領域設定における信頼性評価器としてのLCMの可能性, 特に人的評価が重要な資源を必要とする場合について述べる。

We present a comprehensive study of answer quality evaluation in Retrieval-Augmented Generation (RAG) applications using vRAG-Eval, a novel grading system that is designed to assess correctness, completeness, and honesty. We further map the grading of quality aspects aforementioned into a binary score, indicating an accept or reject decision, mirroring the intuitive "thumbs-up" or "thumbs-down" gesture commonly used in chat applications. This approach suits factual business settings where a clear decision opinion is essential. Our assessment applies vRAG-Eval to two Large Language Models (LLMs), evaluating the quality of answers generated by a vanilla RAG application. We compare these evaluations with human expert judgments and find a substantial alignment between GPT-4's assessments and those of human experts, reaching 83% agreement on accept or reject decisions. This study highlights the potential of LLMs as reliable evaluators in closed-domain, closed-ended settings, particularly when human evaluations require significant resources.
翻訳日:2024-07-08 22:24:52 公開日:2024-07-05
# ウェアラブルバイオシグナーを用いたカフレス血圧測定のための大規模言語モデル

Large Language Models for Cuffless Blood Pressure Measurement From Wearable Biosignals ( http://arxiv.org/abs/2406.18069v3 )

ライセンス: Link先を確認
Zengding Liu, Chen Chen, Jiannong Cao, Minglei Pan, Jikui Liu, Nan Li, Fen Miao, Ye Li, (参考訳) 大規模言語モデル(LLM)は、様々なテキストタスクにまたがる優れたパフォーマンスのために、学術と産業の両方から大きな関心を集めている。 しかし、生理的時系列データを解析するLLMの可能性は、いまだに新たな研究分野である。 特に,ウェアラブルバイオシグナーを解析してカフレス血圧(BP)測定を行うことは,循環器疾患の予防に重要である。 本稿では,ウェアラブルバイオシグナーを用いたカフレスBP推定のためのLCMのキャパシティを初めて検討する。 心電図(ECG)と光胸腺図(PPG)の信号から生理的特徴を抽出し,これらの特徴をBPドメイン知識とユーザ情報と組み合わせてコンテキスト強調プロンプトを設計した。 その後,細調整によるBP推定タスクにLLMを適用した。 提案手法を評価するため,1,272人のウェアラブルバイオシグナーの包括的公開データセットを用いて,10種類の高度なLCMの評価を行った。 実験の結果, 最適微調整LDMは従来のタスク固有のベースラインを大幅に上回り, シストリックBPは0.00$\pm$9.25 mmHg, 拡張型BPは1.29$\pm$6.37 mmHgと推定された。 特に、アブレーション研究は、我々の文脈強化戦略の利点を強調し、シストリックBP推定における平均絶対誤差を8.9%減少させる結果となった。 本稿では,カフレスBP測定のためのLCMの探索を開拓し,カフレスBP測定の精度を高めるための潜在的解決策を提供する。

Large language models (LLMs) have captured significant interest from both academia and industry due to their impressive performance across various textual tasks. However, the potential of LLMs to analyze physiological time-series data remains an emerging research field. Particularly, there is a notable gap in the utilization of LLMs for analyzing wearable biosignals to achieve cuffless blood pressure (BP) measurement, which is critical for the management of cardiovascular diseases. This paper presents the first work to explore the capacity of LLMs to perform cuffless BP estimation based on wearable biosignals. We extracted physiological features from electrocardiogram (ECG) and photoplethysmogram (PPG) signals and designed context-enhanced prompts by combining these features with BP domain knowledge and user information. Subsequently, we adapted LLMs to BP estimation tasks through fine-tuning. To evaluate the proposed approach, we conducted assessments of ten advanced LLMs using a comprehensive public dataset of wearable biosignals from 1,272 participants. The experimental results demonstrate that the optimally fine-tuned LLM significantly surpasses conventional task-specific baselines, achieving an estimation error of 0.00 $\pm$ 9.25 mmHg for systolic BP and 1.29 $\pm$ 6.37 mmHg for diastolic BP. Notably, the ablation studies highlight the benefits of our context enhancement strategy, leading to an 8.9% reduction in mean absolute error for systolic BP estimation. This paper pioneers the exploration of LLMs for cuffless BP measurement, providing a potential solution to enhance the accuracy of cuffless BP measurement.
翻訳日:2024-07-08 22:24:52 公開日:2024-07-05
# ガウスランダム場の第2次最大値とエクササイズ試験

Second Maximum of a Gaussian Random Field and Exact (t-)Spacing test ( http://arxiv.org/abs/2406.18397v2 )

ライセンス: Link先を確認
Jean-Marc Azaïs, Federico Dalmao, Yohann De Castro, (参考訳) 本稿では、リーマン部分多様体上のガウス乱体の第2次極大の概念を紹介する。 この第2の最大値は、最大値の分布を特徴づける強力なツールとして機能する。 副次的なカツライス式を用いて, リーマン・ヘッセンの最大値と回帰成分を条件に, 最大値分布の明示的な形式を導出した。 このアプローチは,これらの最大値間の間隔の評価に基づいて,正確なテストを行う。 本研究では, ガウス対称テンソル, 連続スパースデコンボリューション, およびスムーズ整流器を有する2層ニューラルネットワークにおけるスパースオルタナティブの検出における本試験の適用性を検討した。 提案実験のキャリブレーションとパワーを示す数値実験により理論的結果が得られた。 より一般に、このテストはリーマン多様体上の任意のガウス確率場に適用でき、連続スパース核回帰におけるスペーシングテストの適用のための一般的なフレームワークを提供する。 さらに, ガウス確率場の分散共分散関数をスケーリング係数まで知っていれば, 正確な学生版を導出し, $t$-spacing test を作成した。 このテストは、ヌル仮説の下で完全に校正され、スパースオルタナティブを検出する力が高い。

In this article, we introduce the novel concept of the second maximum of a Gaussian random field on a Riemannian submanifold. This second maximum serves as a powerful tool for characterizing the distribution of the maximum. By utilizing an ad-hoc Kac Rice formula, we derive the explicit form of the maximum's distribution, conditioned on the second maximum and some regressed component of the Riemannian Hessian. This approach results in an exact test, based on the evaluation of spacing between these maxima, which we refer to as the spacing test. We investigate the applicability of this test in detecting sparse alternatives within Gaussian symmetric tensors, continuous sparse deconvolution, and two-layered neural networks with smooth rectifiers. Our theoretical results are supported by numerical experiments, which illustrate the calibration and power of the proposed tests. More generally, this test can be applied to any Gaussian random field on a Riemannian manifold, and we provide a general framework for the application of the spacing test in continuous sparse kernel regression. Furthermore, when the variance-covariance function of the Gaussian random field is known up to a scaling factor, we derive an exact Studentized version of our test, coined the $t$-spacing test. This test is perfectly calibrated under the null hypothesis and has high power for detecting sparse alternatives.
翻訳日:2024-07-08 22:24:52 公開日:2024-07-05
# UltraCortex: サブミリ超高磁場9.4 T1脳MR画像収集と手動皮質切片

UltraCortex: Submillimeter Ultra-High Field 9.4 T1 Brain MR Image Collection and Manual Cortical Segmentations ( http://arxiv.org/abs/2406.18571v2 )

ライセンス: Link先を確認
Lucas Mahler, Julius Steiglechner, Benjamin Bender, Tobias Lindig, Dana Ramadan, Jonas Bause, Florian Birk, Rahel Heule, Edyta Charyasz, Michael Erb, Vinod Jangir Kumar, Gisela E Hagberg, Pascal Martin, Gabriele Lohmann, Klaus Scheffler, (参考訳) UltraCortexリポジトリ(https://www.ultracortex.org)には、超高磁場強度9.4Tで取得したヒト脳の磁気共鳴画像データが格納されている。 さらに、レポジトリは12の脳をグレーとホワイトの物質区画に分割する。 これらのセグメンテーションは、2人の専門神経放射線学者によって独立に検証され、信頼できる金の標準として確立されている。 このリソースは、高品質な脳画像データと検証されたセグメンテーションへのアクセスを提供し、神経画像の研究を促進し、脳の構造と機能の理解を促進する。 既存のリポジトリは7 T以上のフィールド強度を許容せず、検証されたセグメンテーションも提供せず、この新しいリソースの重要性を強調している。

The UltraCortex repository (https://www.ultracortex.org) houses magnetic resonance imaging data of the human brain obtained at an ultra-high field strength of 9.4 T. It contains 86 structural MR images with spatial resolutions ranging from 0.6 to 0.8 mm. Additionally, the repository includes segmentations of 12 brains into gray and white matter compartments. These segmentations have been independently validated by two expert neuroradiologists, thus establishing them as a reliable gold standard. This resource provides researchers with access to high-quality brain imaging data and validated segmentations, facilitating neuroimaging studies and advancing our understanding of brain structure and function. Existing repositories do not accommodate field strengths beyond 7 T, nor do they offer validated segmentations, underscoring the significance of this new resource.
翻訳日:2024-07-08 22:24:52 公開日:2024-07-05
# 機械学習を用いたシドニー大都市圏の交通事故発生期間予測

Predicting the duration of traffic incidents for Sydney greater metropolitan area using machine learning methods ( http://arxiv.org/abs/2406.18861v2 )

ライセンス: Link先を確認
Artur Grigorev, Sajjad Shafiei, Hanna Grzybowska, Adriana-Simona Mihaita, (参考訳) 本研究は,シドニー大都市圏における交通事故の期間を予測し,短期的・長期的に分類するための包括的アプローチを提案する。 交通事故、道路ネットワークの特徴、社会経済的指標の詳細な記録を含むデータセットを活用して、グラディエントブースト決定木(GBDT)、ランダムフォレスト、LightGBM、XGBoostなどの先進的な機械学習モデルを訓練し、評価する。 モデルは回帰タスクにRoot Mean Square Error(RMSE)、分類タスクにF1スコアを用いて評価される。 実験の結果、XGBoostとLightGBMは従来のモデルよりも優れており、XGBoostは事故発生期間を予測するための最低RMSEが33.7、最高分類F1スコアが0.62、30分間の閾値が0.62であることがわかった。 分類において、30分間の閾値は、70.84%の短期分類精度と62.72%の長期分類精度で性能のバランスをとる。 木分割数とSHAP値の両方を用いて特徴重要度分析を行い,影響車線数,交通量,一次車種,二次車種を最も影響のある特徴として同定した。 提案手法は高い予測精度を達成するだけでなく、ステークホルダーにインシデント期間に寄与する要因について重要な洞察を与える。 これらの洞察は、トラフィック管理とレスポンス戦略に対してより情報的な意思決定を可能にする。 コードはリンクで入手できる。 https://github.com/Future-Mobility-Lab/SydneyIncidents

This research presents a comprehensive approach to predicting the duration of traffic incidents and classifying them as short-term or long-term across the Sydney Metropolitan Area. Leveraging a dataset that encompasses detailed records of traffic incidents, road network characteristics, and socio-economic indicators, we train and evaluate a variety of advanced machine learning models including Gradient Boosted Decision Trees (GBDT), Random Forest, LightGBM, and XGBoost. The models are assessed using Root Mean Square Error (RMSE) for regression tasks and F1 score for classification tasks. Our experimental results demonstrate that XGBoost and LightGBM outperform conventional models with XGBoost achieving the lowest RMSE of 33.7 for predicting incident duration and highest classification F1 score of 0.62 for a 30-minute duration threshold. For classification, the 30-minute threshold balances performance with 70.84% short-term duration classification accuracy and 62.72% long-term duration classification accuracy. Feature importance analysis, employing both tree split counts and SHAP values, identifies the number of affected lanes, traffic volume, and types of primary and secondary vehicles as the most influential features. The proposed methodology not only achieves high predictive accuracy but also provides stakeholders with vital insights into factors contributing to incident durations. These insights enable more informed decision-making for traffic management and response strategies. The code is available by the link: https://github.com/Future-Mobility-Lab/SydneyIncidents
翻訳日:2024-07-08 22:24:52 公開日:2024-07-05
# 360 in the Wild: Dataset for Depth Prediction and View Synthesis

360 in the Wild: Dataset for Depth Prediction and View Synthesis ( http://arxiv.org/abs/2406.18898v2 )

ライセンス: Link先を確認
Kibaek Park, Francois Rameau, Jaesik Park, In So Kweon, (参考訳) パースペクティブカメラデータセットの多さは、カメラのローカライゼーション、単一画像深度推定、ビュー合成など、様々なタスクのための新しい学習ベースの戦略の出現を促した。 しかし、ポーズや奥行きといった重要な情報を含むパノラマ画像や全方位画像のデータセットは、主に合成シーンで作られる。 本研究では,大規模な360$^{\circ}$ビデオデータセットをワイルドに導入する。 このデータセットはインターネットから慎重に取り除かれ、世界中で様々な場所から収集されている。 したがって、このデータセットは、非常に多様化した環境(例えば、屋内、屋外)とコンテキスト(例えば、移動対象を持たないもの)を示す。 データセットを構成する25K画像のそれぞれに、それぞれのカメラのポーズと深さマップが提供される。 単一画像深度推定とビュー合成という2つの主要なタスクに対するデータセットの関連性について述べる。

The large abundance of perspective camera datasets facilitated the emergence of novel learning-based strategies for various tasks, such as camera localization, single image depth estimation, or view synthesis. However, panoramic or omnidirectional image datasets, including essential information, such as pose and depth, are mostly made with synthetic scenes. In this work, we introduce a large scale 360$^{\circ}$ videos dataset in the wild. This dataset has been carefully scraped from the Internet and has been captured from various locations worldwide. Hence, this dataset exhibits very diversified environments (e.g., indoor and outdoor) and contexts (e.g., with and without moving objects). Each of the 25K images constituting our dataset is provided with its respective camera's pose and depth map. We illustrate the relevance of our dataset for two main tasks, namely, single image depth estimation and view synthesis.
翻訳日:2024-07-08 22:24:52 公開日:2024-07-05
# DISCO: 大規模組合せ最適化問題に対する効率的な拡散解法

DISCO: Efficient Diffusion Solver for Large-Scale Combinatorial Optimization Problems ( http://arxiv.org/abs/2406.19705v2 )

ライセンス: Link先を確認
Kexiong Yu, Hang Zhao, Yuhang Huang, Renjiao Yi, Kai Xu, Chenyang Zhu, (参考訳) 組合せ最適化(CO)問題は、膨大なソリューション空間と時間に敏感な応答を必要とすることが特徴で、様々な産業にまたがる多くの実践的応用において、基本的に重要な問題である。 最近のニューラルソルバによる顕著な進歩にもかかわらず、その限定的な表現性はCOランドスケープのマルチモーダルな性質とよく一致しない。 拡散モデルに向かっている研究もあるが、サンプルを生成するには多くのステップでマルコフ連鎖をシミュレートする必要がある。 本稿では,解の質と推論速度の両面において優れる,解法最適化のための効率的な拡散解法であるdisCOを提案する。 DISCOの有効性は2つある: まず、分析的に解ける形で解を素早く分解し、非常に少ない逆時間ステップで解空間から直接サンプリングし、推論時間を劇的に短縮する。 第二に、 DisCO は、サンプリング空間を、解残基によって導かれるより制約された有意義な領域に制限し、出力確率分布の本質的にの多重モダリティを保ったまま、解の質を高める。 DISCOは10000のノードを持ち、最大独立セットのベンチマークに挑戦する非常に大きなトラベリングセールスマン問題に対する最先端の結果を達成し、そのインスタンスごとの遅延時間は44.8倍速くなった。 DISCOはディバイド・アンド・コンカ戦略をさらに組み合わせることで、任意のスケールの問題を棚から解けるように一般化することができる。

Combinatorial Optimization (CO) problems are fundamentally crucial in numerous practical applications across diverse industries, characterized by entailing enormous solution space and demanding time-sensitive response. Despite significant advancements made by recent neural solvers, their limited expressiveness does not conform well to the multi-modal nature of CO landscapes. While some research has pivoted towards diffusion models, they require simulating a Markov chain with many steps to produce a sample, which is time-consuming and does not meet the efficiency requirement of real applications, especially at scale. We propose DISCO, an efficient DIffusion Solver for Combinatorial Optimization problems that excels in both solution quality and inference speed. DISCO's efficacy is two-pronged: Firstly, it achieves rapid denoising of solutions through an analytically solvable form, allowing for direct sampling from the solution space with very few reverse-time steps, thereby drastically reducing inference time. Secondly, DISCO enhances solution quality by restricting the sampling space to a more constrained, meaningful domain guided by solution residues, while still preserving the inherent multi-modality of the output probabilistic distributions. DISCO achieves state-of-the-art results on very large Traveling Salesman Problems with 10000 nodes and challenging Maximal Independent Set benchmarks, with its per-instance denoising time up to 44.8 times faster. Through further combining a divide-and-conquer strategy, DISCO can be generalized to solve arbitrary-scale problem instances off the shelf, even outperforming models trained specifically on corresponding scales.
翻訳日:2024-07-08 22:24:52 公開日:2024-07-05
# 改良型YOLOv8に基づく逸脱運転行動の目標検出法に関する研究

Research on target detection method of distracted driving behavior based on improved YOLOv8 ( http://arxiv.org/abs/2407.01864v2 )

ライセンス: Link先を確認
Shiquan Shen, Zhizhong Wu, Pan Zhang, (参考訳) 深層学習技術の発達に伴い、注意をそらした運転行動の検出と分類はより正確である必要がある。 既存のディープラーニングベースの手法は、計算集約的でパラメータ冗長であり、実用的な応用における効率と精度を制限している。 そこで本研究では,BOTNetモジュール,GAMアテンション機構,EIoU損失関数を統合することで,従来のYOLOv8モデルに基づく改良YOLOv8検出手法を提案する。 特徴抽出とマルチスケール特徴融合戦略を最適化することにより、トレーニングと推論のプロセスが簡素化され、検出精度と効率が大幅に向上する。 実験結果から, 精度99.4%の精度で検出速度, 精度ともに良好に動作し, 運転行動の特定・分類, タイムリーな警告, 運転安全性の向上を実現した。

With the development of deep learning technology, the detection and classification of distracted driving behaviour requires higher accuracy. Existing deep learning-based methods are computationally intensive and parameter redundant, limiting the efficiency and accuracy in practical applications. To solve this problem, this study proposes an improved YOLOv8 detection method based on the original YOLOv8 model by integrating the BoTNet module, GAM attention mechanism and EIoU loss function. By optimising the feature extraction and multi-scale feature fusion strategies, the training and inference processes are simplified, and the detection accuracy and efficiency are significantly improved. Experimental results show that the improved model performs well in both detection speed and accuracy, with an accuracy rate of 99.4%, and the model is smaller and easy to deploy, which is able to identify and classify distracted driving behaviours in real time, provide timely warnings, and enhance driving safety.
翻訳日:2024-07-08 22:15:07 公開日:2024-07-05
# エキスパートが最後に耐える: スパースアーキテクチャの大規模言語モデルのためのエキスパート特化ファインチューニング

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models ( http://arxiv.org/abs/2407.01906v2 )

ライセンス: Link先を確認
Zihan Wang, Deli Chen, Damai Dai, Runxin Xu, Zhuoshu Li, Y. Wu, (参考訳) パラメータ効率のよい微調整(PEFT)は、制約のあるリソースでLLM(Large Language Models)をカスタマイズするために不可欠である。 密構造LLMには様々なPEFT法があるが、スパース構造LLMのPEFT法はまだ未検討である。 本研究では,LLMのPEFT法とMixture-of-Experts (MoE) アーキテクチャを併用して検討し,その内容が主に3倍であることを示す。 2) 他の専門家やモジュールを凍結させながら下流タスクに最も関係のある専門家をチューニングするエキスパート特化ファインチューニング(ESFT)を提案し,実験結果から,本手法はチューニング効率を向上するだけでなく,フルパラメータファインチューニングの性能に匹敵する,あるいは超越することを示した。 (3)MoEアーキテクチャが専門的な微調整に与える影響をさらに分析する。 よりきめ細かい専門家によるMoEモデルは、下流タスクに最も関係のある専門家の組み合わせを選択することで、トレーニング効率と効果の両立を図っている。 私たちのコードはhttps://github.com/deepseek-ai/ESFT.comで公開されています。

Parameter-efficient fine-tuning (PEFT) is crucial for customizing Large Language Models (LLMs) with constrained resources. Although there have been various PEFT methods for dense-architecture LLMs, PEFT for sparse-architecture LLMs is still underexplored. In this work, we study the PEFT method for LLMs with the Mixture-of-Experts (MoE) architecture and the contents of this work are mainly threefold: (1) We investigate the dispersion degree of the activated experts in customized tasks, and found that the routing distribution for a specific task tends to be highly concentrated, while the distribution of activated experts varies significantly across different tasks. (2) We propose Expert-Specialized Fine-Tuning, or ESFT, which tunes the experts most relevant to downstream tasks while freezing the other experts and modules; experimental results demonstrate that our method not only improves the tuning efficiency, but also matches or even surpasses the performance of full-parameter fine-tuning. (3) We further analyze the impact of the MoE architecture on expert-specialized fine-tuning. We find that MoE models with finer-grained experts are more advantageous in selecting the combination of experts that are most relevant to downstream tasks, thereby enhancing both the training efficiency and effectiveness. Our code is available at https://github.com/deepseek-ai/ESFT.
翻訳日:2024-07-08 22:15:07 公開日:2024-07-05
# 野生におけるマルチモーダルビデオ対話状態追跡

Multi-Modal Video Dialog State Tracking in the Wild ( http://arxiv.org/abs/2407.02218v2 )

ライセンス: Link先を確認
Adnen Abdessaied, Lei Shi, Andreas Bulling, (参考訳) MST-MIXER - 汎用マルチモーダル状態追跡方式上で動作する新しいビデオダイアログモデルを提案する。 マルチモーダル状態追跡を行うと主張する現在のモデルは、(1) 1つのモーダル(主に視覚入力)だけを追跡するか、(2)野生のシナリオにおける現実世界の複雑さを反映しない合成データセットをターゲットにしている。 私たちのモデルは、この重要な研究ギャップを埋めるために、これらの2つの制限に対処します。 具体的には、MST-MIXERはまず各入力モードの最も重要な成分を追跡する。 そして,新しいマルチモーダルグラフ構造学習法を用いて局所潜在グラフを学習することにより,各モーダル選択成分の欠落基盤構造を予測する。 その後、学習した局所グラフと特徴を解析して、すべてのモダリティを混合したグローバルグラフを形成し、その構造とノードの埋め込みをさらに洗練する。 最後に、詳細なグラフノード機能を使用して、バックボーンビジョンランゲージモデル(VLM)の隠れ状態を強化する。 MST-MIXERは5つの挑戦的なベンチマークで新しい最先端の結果を達成する。

We present MST-MIXER - a novel video dialog model operating over a generic multi-modal state tracking scheme. Current models that claim to perform multi-modal state tracking fall short of two major aspects: (1) They either track only one modality (mostly the visual input) or (2) they target synthetic datasets that do not reflect the complexity of real-world in the wild scenarios. Our model addresses these two limitations in an attempt to close this crucial research gap. Specifically, MST-MIXER first tracks the most important constituents of each input modality. Then, it predicts the missing underlying structure of the selected constituents of each modality by learning local latent graphs using a novel multi-modal graph structure learning method. Subsequently, the learned local graphs and features are parsed together to form a global graph operating on the mix of all modalities which further refines its structure and node embeddings. Finally, the fine-grained graph node features are used to enhance the hidden states of the backbone Vision-Language Model (VLM). MST-MIXER achieves new state-of-the-art results on five challenging benchmarks.
翻訳日:2024-07-08 22:15:07 公開日:2024-07-05
# 視覚言語モデルのための概念的コードブック学習

Conceptual Codebook Learning for Vision-Language Models ( http://arxiv.org/abs/2407.02350v2 )

ライセンス: Link先を確認
Yi Zhang, Ke Yu, Siqi Wu, Zhihai He, (参考訳) 本稿では,視覚言語モデル(VLM)の新しい微調整手法であるConceptual Codebook Learning (CoCoLe)を提案する。 我々は、テクスチャ、形状、色といった視覚概念が自然にドメイン間で伝達可能であり、一般化タスクにおいて重要な役割を果たすことを認識している。 この興味深い発見に触発されて、視覚概念をキーとして、概念的プロンプトを値として、概念的コードブックを学習し、画像エンコーダの出力とテキストエンコーダの入力とのリンクとして機能する。 具体的には、与えられた画像に対して、コードブックを利用して、クラス埋め込みに関連する最も関連性の高い概念的プロンプトを特定し、分類を実行する。 さらに、ローショットシナリオにおける過度な問題を軽減するために、手作りのコンセプトキャッシュを正規化として組み込んだ。 この概念的コードブック学習法は,視覚的・言語的モダリティの高度化を実現することができる。 実験の結果,CoCoLe法は,ベース・ツー・ニューな一般化,クロス・データセット評価,ドメイン一般化タスクなど,さまざまな評価設定において,既存の最先端手法よりも著しく優れていた。 詳細なアブレーション研究により、CoCoLeの各成分の有効性がさらに確認された。

In this paper, we propose Conceptual Codebook Learning (CoCoLe), a novel fine-tuning method for vision-language models (VLMs) to address the challenge of improving the generalization capability of VLMs while fine-tuning them on downstream tasks in a few-shot setting. We recognize that visual concepts, such as textures, shapes, and colors are naturally transferable across domains and play a crucial role in generalization tasks. Motivated by this interesting finding, we learn a conceptual codebook consisting of visual concepts as keys and conceptual prompts as values, which serves as a link between the image encoder's outputs and the text encoder's inputs. Specifically, for a given image, we leverage the codebook to identify the most relevant conceptual prompts associated with the class embeddings to perform the classification. Additionally, we incorporate a handcrafted concept cache as a regularization to alleviate the overfitting issues in low-shot scenarios. We observe that this conceptual codebook learning method is able to achieve enhanced alignment between visual and linguistic modalities. Extensive experimental results demonstrate that our CoCoLe method remarkably outperforms the existing state-of-the-art methods across various evaluation settings, including base-to-new generalization, cross-dataset evaluation, and domain generalization tasks. Detailed ablation studies further confirm the efficacy of each component in CoCoLe.
翻訳日:2024-07-08 22:15:07 公開日:2024-07-05
# 乳がん分離・同定のための多段階統合型深層学習フレームワーク

Multi-Attention Integrated Deep Learning Frameworks for Enhanced Breast Cancer Segmentation and Identification ( http://arxiv.org/abs/2407.02844v2 )

ライセンス: Link先を確認
Pandiyaraju V, Shravan Venkatraman, Pavan Kumar S, Santhosh Malarvannan, Kannan A, (参考訳) 乳がんは世界中で深刻な脅威となり、毎年多くの命が報告されている。 したがって、早期介入や生存率の向上には、タイムリーな検出が不可欠である。 超音波画像を用いた乳腺腫瘍の正確な診断と分類は、治療戦略の改善のために最先端の解決策を要求する医学的課題である。 本研究は,乳がん腫瘍の超音波画像からの分類と分類を目的とした多目的ディープラーニング(DL)フレームワークを提案する。 InceptionResNetバックボーンを備えた新しいLinkNet DLフレームワークを用いて,超音波画像から腫瘍をセグメント化するための空間チャネルアテンション機構を提案する。 そこで本研究では,腫瘍を良性,悪性,正常と分類するために,DCNNIMAFを用いた深部畳み込みニューラルネットワークを提案する。 実験結果から、セグメンテーションモデルの精度は98.1%であり、最小損失は0.6%であることがわかった。 また、IoUとDice Coefficientのスコアはそれぞれ96.9%、97.2%という高いインターセクションを達成している。 同様に、分類モデルは99.2%の精度に達し、低い損失は0.31%となった。 さらに、この分類フレームワークは、それぞれ99.1%、99.3%、99.1%の優れたF1スコア、精度、リコール値を達成した。 乳がんの早期発見と正確な分類のための堅牢な枠組みを提供することにより、この研究は医療画像解析の分野を著しく進歩させ、診断精度と患者の予後を向上させる可能性がある。

Breast cancer poses a profound threat to lives globally, claiming numerous lives each year. Therefore, timely detection is crucial for early intervention and improved chances of survival. Accurately diagnosing and classifying breast tumors using ultrasound images is a persistent challenge in medicine, demanding cutting-edge solutions for improved treatment strategies. This research introduces multiattention-enhanced deep learning (DL) frameworks designed for the classification and segmentation of breast cancer tumors from ultrasound images. A spatial channel attention mechanism is proposed for segmenting tumors from ultrasound images, utilizing a novel LinkNet DL framework with an InceptionResNet backbone. Following this, the paper proposes a deep convolutional neural network with an integrated multi-attention framework (DCNNIMAF) to classify the segmented tumor as benign, malignant, or normal. From experimental results, it is observed that the segmentation model has recorded an accuracy of 98.1%, with a minimal loss of 0.6%. It has also achieved high Intersection over Union (IoU) and Dice Coefficient scores of 96.9% and 97.2%, respectively. Similarly, the classification model has attained an accuracy of 99.2%, with a low loss of 0.31%. Furthermore, the classification framework has achieved outstanding F1-Score, precision, and recall values of 99.1%, 99.3%, and 99.1%, respectively. By offering a robust framework for early detection and accurate classification of breast cancer, this proposed work significantly advances the field of medical image analysis, potentially improving diagnostic precision and patient outcomes.
翻訳日:2024-07-08 22:15:07 公開日:2024-07-05
# 3次元オブジェクトを用いた言語接地のためのマルチタスク領域適応

Multi-Task Domain Adaptation for Language Grounding with 3D Objects ( http://arxiv.org/abs/2407.02846v2 )

ライセンス: Link先を確認
Penglei Sun, Yaoxian Song, Xinglin Pan, Peijie Dong, Xiaofei Yang, Qiang Wang, Zhixu Li, Tiefeng Li, Xiaowen Chu, (参考訳) 既存の3Dオブジェクトによるオブジェクトレベルの言語接地に関する研究は、主に、市販の事前学習モデルを利用して、視点選択や幾何学的先行といった特徴を捉えることで、パフォーマンス向上に重点を置いている。 しかし、クロスドメイン分野における言語ビジョンアライメントのクロスモーダル表現について検討することはできなかった。 そこで本研究では,3次元オブジェクトを用いたDA4LG(Domain Adaptation for Language Grounding)という新しい手法を提案する。 具体的には、DA4LGは、マルチタスク学習による視覚的適応モジュールからなり、包括的マルチモーダル特徴表現による視覚言語アライメントを実現する。 実験の結果,DA4LGは観察の完全性とは無関係に,視覚的および非視覚的言語記述を競合的に行うことが示された。 DA4LGは、言語基盤ベンチマークSNAREにおいて、それぞれ83.8%と86.8%の精度で、シングルビュー設定とマルチビュー設定で最先端のパフォーマンスを達成する。 シミュレーション実験により,従来の手法と比較して,DA4LGの実用的,汎用的な性能を示す。 私たちのプロジェクトはhttps://sites.google.com/view/da4lg.comで利用可能です。

The existing works on object-level language grounding with 3D objects mostly focus on improving performance by utilizing the off-the-shelf pre-trained models to capture features, such as viewpoint selection or geometric priors. However, they have failed to consider exploring the cross-modal representation of language-vision alignment in the cross-domain field. To answer this problem, we propose a novel method called Domain Adaptation for Language Grounding (DA4LG) with 3D objects. Specifically, the proposed DA4LG consists of a visual adapter module with multi-task learning to realize vision-language alignment by comprehensive multimodal feature representation. Experimental results demonstrate that DA4LG competitively performs across visual and non-visual language descriptions, independent of the completeness of observation. DA4LG achieves state-of-the-art performance in the single-view setting and multi-view setting with the accuracy of 83.8% and 86.8% respectively in the language grounding benchmark SNARE. The simulation experiments show the well-practical and generalized performance of DA4LG compared to the existing methods. Our project is available at https://sites.google.com/view/da4lg.
翻訳日:2024-07-08 22:15:07 公開日:2024-07-05
# ゲノミクスにおける説明可能なAIのための意味的にリッチな局所データセット生成

Semantically Rich Local Dataset Generation for Explainable AI in Genomics ( http://arxiv.org/abs/2407.02984v2 )

ライセンス: Link先を確認
Pedro Barbosa, Rosina Savisaar, Alcides Fonseca, (参考訳) ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。 したがって、これらのモデルを解釈することで、下流の生物医学的応用をサポートする基礎となる生物学に関する新たな洞察が得られるかもしれない。 その複雑さのため、解釈可能な代理モデルは局所的な説明(例:単一インスタンス)のためにのみ構築できる。 しかし、これを実現するには、入力の近傍にデータセットを生成する必要がある。これは、モデルの予測にセマンティック変数を導入しながら、元のデータと構文的類似性を維持する必要がある。 この課題はDNAの複雑な配列と機能の関係のため困難である。 本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。 我々のカスタムドメイン誘導型個人表現は、構文的類似性を効果的に制約し、計算労力なしで多様性を促進する2つの代替フィットネス関数を提供する。 本手法はRNAスプライシング領域に適用し, 優れた多様性を実現し, 検索空間を探索する際のランダムなベースラインを著しく上回っている。 さらに、その一般化性を評価し、より大きなシーケンスに対するスケーラビリティを実証し、ベースラインよりも約30%改善する。

Black box deep learning models trained on genomic sequences excel at predicting the outcomes of different gene regulatory mechanisms. Therefore, interpreting these models may provide novel insights into the underlying biology, supporting downstream biomedical applications. Due to their complexity, interpretable surrogate models can only be built for local explanations (e.g., a single instance). However, accomplishing this requires generating a dataset in the neighborhood of the input, which must maintain syntactic similarity to the original data while introducing semantic variability in the model's predictions. This task is challenging due to the complex sequence-to-function relationship of DNA. We propose using Genetic Programming to generate datasets by evolving perturbations in sequences that contribute to their semantic diversity. Our custom, domain-guided individual representation effectively constrains syntactic similarity, and we provide two alternative fitness functions that promote diversity with no computational effort. Applied to the RNA splicing domain, our approach quickly achieves good diversity and significantly outperforms a random baseline in exploring the search space, as shown by our proof-of-concept, short RNA sequence. Furthermore, we assess its generalizability and demonstrate scalability to larger sequences, resulting in a ~30% improvement over the baseline.
翻訳日:2024-07-08 22:15:07 公開日:2024-07-05
# 選挙人とその構成員はどの程度似ているか : オンラインソーシャルネットワークによる定量的証拠

How Similar Are Elected Politicians and Their Constituents? Quantitative Evidence From Online Social Networks ( http://arxiv.org/abs/2407.03255v2 )

ライセンス: Link先を確認
Waleed Iqbal, Gareth Tyson, Ignacio Castro, (参考訳) 政治家は投票する政治家とどの程度似ているのか。 これは民主的な代表の中心にある重要な問題であり、政治的不満やポピュリズムが高まりつつあるときに特に関係している。 この質問に答えるために、選出された政治家とその構成員のオンライン談話を比較する。 私たちは2年半(2020年9月~2023年2月)の米国と英国の選挙区レベルのデータセットを集めています。 (i)選挙で選出された政治家(英国議会議員595人、米国下院議員433人)のTwitterタイムライン(560万ツイート) (ii) 選挙区のNextdoorポスト(21.8万ポスト)(98.4%、英国91.5%)。 選出された政治家は、選挙区が右派か左派かに関わらず、その構成員と内容やスタイルで等しく類似する傾向にある。 選挙人の勝利の大きさと選挙区の収入水準は、微妙なイメージを示している。 選挙人の勝利が狭まるほど、そのスタイルはより類似し、内容が異なってくる。 選挙区の収入が低いほど、その内容はより類似している。 スタイルの面では、貧しい選挙区は、より類似した感情を持ち、より異質な心理的テキスト特性を持つ傾向がある(すなわち、LIWCカテゴリで測定される)。

How similar are politicians to those who vote for them? This is a critical question at the heart of democratic representation and particularly relevant at times when political dissatisfaction and populism are on the rise. To answer this question we compare the online discourse of elected politicians and their constituents. We collect a two and a half years (September 2020 - February 2023) constituency-level dataset for USA and UK that includes: (i) the Twitter timelines (5.6 Million tweets) of elected political representatives (595 UK Members of Parliament and 433 USA Representatives), (ii) the Nextdoor posts (21.8 Million posts) of the constituency (98.4% USA and 91.5% UK constituencies). We find that elected politicians tend to be equally similar to their constituents in terms of content and style regardless of whether a constituency elects a right or left-wing politician. The size of the electoral victory and the level of income of a constituency shows a nuanced picture. The narrower the electoral victory, the more similar the style and the more dissimilar the content is. The lower the income of a constituency, the more similar the content is. In terms of style, poorer constituencies tend to have a more similar sentiment and more dissimilar psychological text traits (i.e. measured with LIWC categories).
翻訳日:2024-07-08 22:15:07 公開日:2024-07-05
# 先進的なスマートシティモニタリング:インド市民属性のリアルタイム識別

Advanced Smart City Monitoring: Real-Time Identification of Indian Citizen Attributes ( http://arxiv.org/abs/2407.03305v2 )

ライセンス: Link先を確認
Shubham Kale, Shashank Sharma, Abhilash Khuntia, (参考訳) このプロジェクトは、人々の属性をリアルタイムで識別し分析できる、インドの都市のためのスマート監視システムの構築に焦点を当てている。 人工知能や機械学習などの高度な技術を使って、システムは上半身の色、身に着けているもの、装着しているアクセサリー、ヘッドギアなどの属性を認識し、市内に設置されたカメラを通して行動を分析する。

This project focuses on creating a smart surveillance system for Indian cities that can identify and analyze people's attributes in real time. Using advanced technologies like artificial intelligence and machine learning, the system can recognize attributes such as upper body color, what the person is wearing, accessories they are wearing, headgear, etc., and analyze behavior through cameras installed around the city.
翻訳日:2024-07-08 22:15:07 公開日:2024-07-05
# 歩行異常ビデオデータセットを用いた歩行分析のためのコンピュータビジョン

Computer Vision for Clinical Gait Analysis: A Gait Abnormality Video Dataset ( http://arxiv.org/abs/2407.04190v1 )

ライセンス: Link先を確認
Rahm Ranjan, David Ahmedt-Aristizabal, Mohammad Ali Armin, Juno Kim, (参考訳) コンピュータビジョンを用いた臨床歩行分析(CGA)は、アクセス可能で現実世界のデータ、明確なタスク目的の障壁に直面している人工知能の新興分野である。 本稿では,歩行分析に適した視覚ベースの手法とデータセットとともに,CGAの現在の発展の基礎を定めている。 我々は現在150以上の歩行関連コンピュータビジョンデータセットのレビューに答えて、映像データセットにおける歩行異常(GAVD)を紹介し、CGAに対して臨床的に注釈付けされた大規模かつアクセス可能な歩行データセットの必要性を強調した。 GAVDは、1874年の正常な、異常な、および病理的な歩行のシーケンスからなる、最大のビデオ歩行データセットとして際立っている。 さらに、GAVDは、オンラインプラットフォーム上で公開されているコンテンツから得られた臨床注釈付きRGBデータを含んでいる。 また、400人以上の被験者を対象とし、様々な異常な歩行パターンを表現し、病院や都会の未管理屋外環境など様々な場所で撮影している。 GAVDデータセットを用いて,時間分割ネットワーク(TSN)とSlowFastネットワークを用いたCGAの動作認識モデルのデータセットと有用性を示し,それぞれ94%,92%の動画異常検出を実現した。 便利なURLリンクからなるGitHubリポジトリhttps://github.com/Rahmyyy/GAVDと、CGAに関する臨床的に関連するアノテーションが450以上のオンラインビデオに提供されている。

Clinical gait analysis (CGA) using computer vision is an emerging field in artificial intelligence that faces barriers of accessible, real-world data, and clear task objectives. This paper lays the foundation for current developments in CGA as well as vision-based methods and datasets suitable for gait analysis. We introduce The Gait Abnormality in Video Dataset (GAVD) in response to our review of over 150 current gait-related computer vision datasets, which highlighted the need for a large and accessible gait dataset clinically annotated for CGA. GAVD stands out as the largest video gait dataset, comprising 1874 sequences of normal, abnormal and pathological gaits. Additionally, GAVD includes clinically annotated RGB data sourced from publicly available content on online platforms. It also encompasses over 400 subjects who have undergone clinical grade visual screening to represent a diverse range of abnormal gait patterns, captured in various settings, including hospital clinics and urban uncontrolled outdoor environments. We demonstrate the validity of the dataset and utility of action recognition models for CGA using pretrained models Temporal Segment Networks(TSN) and SlowFast network to achieve video abnormality detection of 94% and 92% respectively when tested on GAVD dataset. A GitHub repository https://github.com/Rahmyyy/GAVD consisting of convenient URL links, and clinically relevant annotation for CGA is provided for over 450 online videos, featuring diverse subjects performing a range of normal, pathological, and abnormal gait patterns.
翻訳日:2024-07-08 14:50:59 公開日:2024-07-05
# Kan-ODEs: Kolmogorov-Arnold Network Ordinary Differential Equations for Learning Dynamical Systems and Hidden Physics

KAN-ODEs: Kolmogorov-Arnold Network Ordinary Differential Equations for Learning Dynamical Systems and Hidden Physics ( http://arxiv.org/abs/2407.04192v1 )

ライセンス: Link先を確認
Benjamin C. Koenig, Suyong Kim, Sili Deng, (参考訳) マルチ層パーセプトロン(MLP)の代替としてKAN(Kolmogorov-Arnold Networks)は、データ駆動モデリングの強力な可能性を示す最近の開発である。 この研究は、KANSAをニューラルネットワークの正規微分方程式フレームワークのバックボーンとして適用し、科学的な機械学習応用でよく見られる時間依存およびグリッド依存のケースにその使用を一般化する。 提案したkan-ODEは、より高速なニューラルスケーリング、より強力な解釈可能性、MLPと比較した場合のパラメータ数など、Kansの多くの利点を活用しながら、Neural ODEのフレキシブルな動的システムモデリングフレームワークを維持している。 これらの利点は、ロトカ・ボルテラ捕食者・捕食者・捕食者・捕食者モデル、バーガースの方程式、フィッシャー・KPP PDEの3つのテストケースで示される。 本稿では, パラメータ型kan-ODEシステムにおいて, 一般に動的システム全体を再構築する上での強い性能と, その他の流れ場におけるソース項の推論への応用について述べる。 また, アクティベーション関数の可視化と学習結果のシンボリックレグレッションにより, KAN-ODEの解釈可能性を示す。 Kan-ODEsのトレーニングの成功と、従来のNeural ODEsと比較してパフォーマンスが向上したことは、この新しいネットワークアーキテクチャを無数の科学機械学習応用に活用する大きな可能性を示唆している。

Kolmogorov-Arnold Networks (KANs) as an alternative to Multi-layer perceptrons (MLPs) are a recent development demonstrating strong potential for data-driven modeling. This work applies KANs as the backbone of a Neural Ordinary Differential Equation framework, generalizing their use to the time-dependent and grid-sensitive cases often seen in scientific machine learning applications. The proposed KAN-ODEs retain the flexible dynamical system modeling framework of Neural ODEs while leveraging the many benefits of KANs, including faster neural scaling, stronger interpretability, and lower parameter counts when compared against MLPs. We demonstrate these benefits in three test cases: the Lotka-Volterra predator-prey model, Burgers' equation, and the Fisher-KPP PDE. We showcase the strong performance of parameter-lean KAN-ODE systems generally in reconstructing entire dynamical systems, and also in targeted applications to the inference of a source term in an otherwise known flow field. We additionally demonstrate the interpretability of KAN-ODEs via activation function visualization and symbolic regression of trained results. The successful training of KAN-ODEs and their improved performance when compared to traditional Neural ODEs implies significant potential in leveraging this novel network architecture in myriad scientific machine learning applications.
翻訳日:2024-07-08 14:50:59 公開日:2024-07-05
# HCS-TNAS:超音波画像分割のためのハイブリッド拘束駆動半教師付き変圧器-NAS

HCS-TNAS: Hybrid Constraint-driven Semi-supervised Transformer-NAS for Ultrasound Image Segmentation ( http://arxiv.org/abs/2407.04203v1 )

ライセンス: Link先を確認
Renqi Chen, (参考訳) 超音波の正確なセグメンテーションは、臨床医が包括的診断を行うのに役立つため追求される。 画像品質が低く,アノテーションに関連するコストが高いことから,(1)マルチスケール特徴の理解を深めること,(2)データ依存に対する耐性を向上させること,の2つの主な懸念が生じる。 これらの懸念を軽減するために,ネットワークを自動設計する新しいニューラルネットワークサーチ(NAS)手法であるHCS-TNASを提案する。 まず, セルレベル, 層レベル, モジュールレベルを含むマルチレベル探索を用いる。 具体的には、視覚変換器(ViT)のマルチスケールトークンを検索して、単純な操作の組み合わせに頼るのではなく、コンテキストやローカル情報をキャプチャする効率的なNAS-ViTモジュールを設計する。 2つ目の問題として,ネットワーク独立性を考慮したハイブリッド制約駆動型半教師付き学習手法を提案し,NASの定式化に対照的な損失を取り入れた。 段階的な最適化戦略をさらに発展させることで、合理的なネットワーク構造を特定できる。 公開されている3つの超音波画像データセットの大規模な実験により、HCS-TNASはセグメンテーション精度を効果的に改善し、最先端の手法より優れていることが示された。

Accurate ultrasound segmentation is pursued because it aids clinicians in achieving a comprehensive diagnosis. Due to the presence of low image quality and high costs associated with annotation, two primary concerns arise: (1) enhancing the understanding of multi-scale features, and (2) improving the resistance to data dependency. To mitigate these concerns, we propose HCS-TNAS, a novel neural architecture search (NAS) method that automatically designs the network. For the first concern, we employ multi-level searching encompassing cellular, layer, and module levels. Specifically, we design an Efficient NAS-ViT module that searches for multi-scale tokens in the vision Transformer (ViT) to capture context and local information, rather than relying solely on simple combinations of operations. For the second concern, we propose a hybrid constraint-driven semi-supervised learning method that considers additional network independence and incorporates contrastive loss in a NAS formulation. By further developing a stage-wise optimization strategy, a rational network structure can be identified. Extensive experiments on three publicly available ultrasound image datasets demonstrate that HCS-TNAS effectively improves segmentation accuracy and outperforms state-of-the-art methods.
翻訳日:2024-07-08 14:50:59 公開日:2024-07-05
# 量子部分空間展開法によるキタエフスピン液体の動的応答関数のシミュレーション

Quantum subspace expansion approach for simulating dynamical response functions of Kitaev spin liquids ( http://arxiv.org/abs/2407.04205v1 )

ライセンス: Link先を確認
Chukwudubem Umeano, François Jamet, Lachlan P. Lindoy, Ivan Rungger, Oleksandr Kyriienko, (参考訳) 我々は,強相関磁性材料の特性を大規模に研究するための量子シミュレーションに基づくアプローチを開発した。 我々は,ハニカム・キタエフモデルによってホストされる量子スピン液体(QSL)状態のパラダイム的な例を考え,トレーニング可能な対称性誘導アンザッツを用いて基底状態を作成する。 量子部分空間展開(QSE)、ハミルトニアン作用素近似、重なり測定のツールを用いて、QSLを0温度と有限磁場でシミュレートし、対称部分空間の外へ移動する。 次に,スピンスピン相関関数の量子部分空間展開に基づく測定のためのプロトコルを実装した。 最後に,有限場北エフモデルのグリーン関数から得られる動的構造因子のQSEに基づくシミュレーションを行う。 以上の結果から, 量子シミュレータは, 強相関磁石の準粒子特性の洞察を与え, 物質科学研究に有用なツールとなる可能性が示唆された。

We develop a quantum simulation-based approach for studying properties of strongly correlated magnetic materials at increasing scale. We consider a paradigmatic example of a quantum spin liquid (QSL) state hosted by the honeycomb Kitaev model, and use a trainable symmetry-guided ansatz for preparing its ground state. Applying the tools of quantum subspace expansion (QSE), Hamiltonian operator approximation, and overlap measurements, we simulate the QSL at zero temperature and finite magnetic field, thus moving outside of the symmetric subspace. Next, we implement a protocol for quantum subspace expansion-based measurement of spin-spin correlation functions. Finally, we perform QSE-based simulation of the dynamical structure factor obtained from Green's functions of the finite field Kitaev model. Our results show that quantum simulators offer an insight to quasiparticle properties of strongly correlated magnets and can become a valuable tool for studying material science.
翻訳日:2024-07-08 14:50:59 公開日:2024-07-05
# マルチモーダル・プロンプト・ラーニングによるゼロショット・スケッチに基づく画像検索

Elevating All Zero-Shot Sketch-Based Image Retrieval Through Multimodal Prompt Learning ( http://arxiv.org/abs/2407.04207v1 )

ライセンス: Link先を確認
Mainak Singha, Ankit Jha, Divyam Gupta, Pranav Singla, Biplab Banerjee, (参考訳) 我々は,ゼロショットSBIR,一般化ゼロショットSBIR,微粒ゼロショットSBIRなど,スケッチベースの画像検索(SBIR)に固有の課題に,視覚言語基盤モデルであるCLIPを活用して対処する。 最近の取り組みでは、SBIRを強化するためにCLIPを使用しているが、これらのアプローチは主に、CLIPの統合されたビジュアルおよびテキスト機能を完全に活用するために、ユニモーダルプロンプト処理と見落としている。 このギャップを埋めるために,凍結したCLIPバックボーンで効果的に動作するように設計された,新しいマルチモーダル・プロンプト学習方式であるSpLIPを導入する。 我々は、視覚的およびテキスト的プロンプトを独立に扱う、あるいは限定的な方法で統合する、既存のマルチモーダルプロンプト手法から逸脱し、準最適一般化につながる。 SpLIPは、CLIPの視覚的エンコーダとテキスト的エンコーダ間の相互知識交換を可能にする双方向のプロンプト共有戦略を実装し、スケッチと写真埋め込みの間のセマンティックギャップを著しく低減するより凝集的で相乗的なプロンプト処理機構を育成する。 マルチモーダルな素早い学習の先駆けとして,埋め込み空間をさらに洗練するための2つの革新的な戦略を提案する。 1つ目は、CLIPのクラステキスト埋め込みによって制御されるスケッチ・フォトトリプルト損失に対する適応的なマージン生成である。 第二に、未処理の写真の知識を用いてスケッチの実行可能なパッチアレンジメントを暗黙的にモデル化することに焦点を当て、きめ細かいスケッチ写真アライメントを強化することを目的とした、条件付きクロスモーダルジグソーと呼ばれる新しいタスクを導入する。 複数のベンチマークを対象とした総合的な実験的評価により,SBIRの3つのシナリオすべてにおいて,SpLIPの優れた性能が示された。 コードはhttps://github.com/mainaksingha01/SpLIPで入手できる。

We address the challenges inherent in sketch-based image retrieval (SBIR) across various settings, including zero-shot SBIR, generalized zero-shot SBIR, and fine-grained zero-shot SBIR, by leveraging the vision-language foundation model, CLIP. While recent endeavors have employed CLIP to enhance SBIR, these approaches predominantly follow uni-modal prompt processing and overlook to fully exploit CLIP's integrated visual and textual capabilities. To bridge this gap, we introduce SpLIP, a novel multi-modal prompt learning scheme designed to operate effectively with frozen CLIP backbones. We diverge from existing multi-modal prompting methods that either treat visual and textual prompts independently or integrate them in a limited fashion, leading to suboptimal generalization. SpLIP implements a bi-directional prompt-sharing strategy that enables mutual knowledge exchange between CLIP's visual and textual encoders, fostering a more cohesive and synergistic prompt processing mechanism that significantly reduces the semantic gap between the sketch and photo embeddings. In addition to pioneering multi-modal prompt learning, we propose two innovative strategies for further refining the embedding space. The first is an adaptive margin generation for the sketch-photo triplet loss, regulated by CLIP's class textual embeddings. The second introduces a novel task, termed conditional cross-modal jigsaw, aimed at enhancing fine-grained sketch-photo alignment, by focusing on implicitly modelling the viable patch arrangement of sketches using knowledge of unshuffled photos. Our comprehensive experimental evaluations across multiple benchmarks demonstrate the superior performance of SpLIP in all three SBIR scenarios. Code is available at https://github.com/mainaksingha01/SpLIP.
翻訳日:2024-07-08 14:50:59 公開日:2024-07-05
# AMD:大規模視覚モデルの多段階自動蒸留

AMD: Automatic Multi-step Distillation of Large-scale Vision Models ( http://arxiv.org/abs/2407.04208v1 )

ライセンス: Link先を確認
Cheng Han, Qifan Wang, Sohail A. Dianat, Majid Rabbani, Raghuveer M. Rao, Yi Fang, Qiang Guan, Lifu Huang, Dongfang Liu, (参考訳) トランスフォーマーベースのアーキテクチャは、優れた性能のため、様々な視覚タスクのためのデファクト標準モデルとなっている。 モデルのサイズが拡大し続ければ、様々な実アプリケーション、特に計算資源に制限されたデバイスにおいて、モデルの蒸留は非常に重要になる。 しかし, 従来の知識蒸留法では, 10倍圧縮率など, 教師と生徒の容量ギャップが大きくなると, 効果が低下する。 本稿では,大規模視覚モデル圧縮のための自動多段階蒸留法(AMD)を提案する。 特に、蒸留プロセスは複数のステップにまたがって展開する。 当初、教師は蒸留を行い、中間教師補助モデルを形成し、さらに学生に蒸留する。 生徒のパフォーマンスを最大化する最適な教師支援者を自動的に識別する,効率的かつ効果的な最適化フレームワークが導入された。 CIFAR-10, CIFAR-100, ImageNetを含む複数の画像分類データセットについて広範な実験を行った。 以上の結果から,本手法は確立されたベースラインよりも優れており,大規模視覚モデルにおける将来的な知識蒸留手法の道筋をたどっていることが明らかとなった。

Transformer-based architectures have become the de-facto standard models for diverse vision tasks owing to their superior performance. As the size of the models continues to scale up, model distillation becomes extremely important in various real applications, particularly on devices limited by computational resources. However, prevailing knowledge distillation methods exhibit diminished efficacy when confronted with a large capacity gap between the teacher and the student, e.g, 10x compression rate. In this paper, we present a novel approach named Automatic Multi-step Distillation (AMD) for large-scale vision model compression. In particular, our distillation process unfolds across multiple steps. Initially, the teacher undergoes distillation to form an intermediate teacher-assistant model, which is subsequently distilled further to the student. An efficient and effective optimization framework is introduced to automatically identify the optimal teacher-assistant that leads to the maximal student performance. We conduct extensive experiments on multiple image classification datasets, including CIFAR-10, CIFAR-100, and ImageNet. The findings consistently reveal that our approach outperforms several established baselines, paving a path for future knowledge distillation methods on large-scale vision models.
翻訳日:2024-07-08 14:50:59 公開日:2024-07-05
# TimeLDM:無条件時系列生成のための潜時拡散モデル

TimeLDM: Latent Diffusion Model for Unconditional Time Series Generation ( http://arxiv.org/abs/2407.04211v1 )

ライセンス: Link先を確認
Jian Qian, Miao Sun, Sifan Zhou, Biao Wan, Minhao Li, Patrick Chiang, (参考訳) 時系列生成は、深層学習において重要な研究トピックであり、データ拡張、不足値の計算、予測に使用できる。 現在、多くの重要なデータ表現のための生成モデリングの最前線に潜伏拡散モデルが上昇している。 コンピュータビジョン領域において最も重要な分野である潜在拡散モデルは、最近NLP、Speech、Geometric Spaceなど他のコミュニティにも関心を寄せている。 本研究では,高品質な時系列生成のための新しい遅延拡散モデルであるTimeLDMを提案する。 TimeLDMは、時系列を情報的でスムーズな潜時コンテンツに符号化する変分オートエンコーダと、潜時空間で動作する潜時拡散モデルとから構成され、潜時情報を生成する。 シミュレーションおよび現実的なデータセットを用いた合成時系列生成機能の評価を行い、既存の最先端手法と比較して性能をベンチマークする。 定性的かつ定量的に、提案するTimeLDMは、高品質な生成時系列を持続的に提供する。 Context-FID と Disriminative の結論は、TimeLDM が現在の最先端のベンチマークをそれぞれ 3.4$\times$ と 3.8$\times$ で、一貫して大幅に上回っていることを示している。 さらに,本手法が時系列データ生成の時間長に優れた性能を示すことを示す。 我々の知る限り、これは無条件時系列生成のための潜伏拡散モデルの可能性を探究し、合成時系列の新たなベースラインを確立するための最初の研究である。

Time series generation is a crucial research topic in the area of deep learning, which can be used for data augmentation, imputing missing values, and forecasting. Currently, latent diffusion models are ascending to the forefront of generative modeling for many important data representations. Being the most pivotal in the computer vision domain, latent diffusion models have also recently attracted interest in other communities, including NLP, Speech, and Geometric Space. In this work, we propose TimeLDM, a novel latent diffusion model for high-quality time series generation. TimeLDM is composed of a variational autoencoder that encodes time series into an informative and smoothed latent content and a latent diffusion model operating in the latent space to generate latent information. We evaluate the ability of our method to generate synthetic time series with simulated and realistic datasets, benchmark the performance against existing state-of-the-art methods. Qualitatively and quantitatively, we find that the proposed TimeLDM persistently delivers high-quality generated time series. Sores from Context-FID and Discriminative indicate that TimeLDM consistently and significantly outperforms current state-of-the-art benchmarks with an average improvement of 3.4$\times$ and 3.8$\times$, respectively. Further studies demonstrate that our method presents better performance on different lengths of time series data generation. To the best of our knowledge, this is the first study to explore the potential of the latent diffusion model for unconditional time series generation and establish a new baseline for synthetic time series.
翻訳日:2024-07-08 14:50:59 公開日:2024-07-05
# Smart Vision-Language Reasoner

Smart Vision-Language Reasoners ( http://arxiv.org/abs/2407.04212v1 )

ライセンス: Link先を確認
Denisa Roberts, Lucas Roberts, (参考訳) 本稿では,視覚言語モデル(VLM)を推論として検討する。 抽象化を形成する能力は、数学的推論、問題解決、その他のMath AIタスクの根底にある。 人や知的なシステムが推論のために利用するこれらの基礎的な抽象化とスキルには、いくつかの形式主義が与えられてきた。 さらに、人間の推論は本質的にマルチモーダルであり、我々はマルチモーダルAIに焦点をあてる。 本稿では,SMARTタスク(Simple Multimodal Algorithmic Reasoning Task)のメタ推論および問題解決技術として,数学,カウント,パス,測度,論理,空間,パターンの8つの軸に沿って導入されたSMARTタスク(Simple Multimodal Algorithmic Reasoning Task)の抽象化を用いる。 視覚言語モデルがこれらの軸に沿って推論し、改善の道を探る能力について検討する。 視覚言語によるクロスアテンションによる複合表現を含むことで、融合した凍結したバックボーンから適応的にマルチモーダル表現を学習することで、より良い視覚的グラウンド化を実現した。 さらに、適切なハイパーパラメータやその他のトレーニング選択は、SMARTタスクに強い改善(最大4,8 % の精度向上)をもたらし、深いマルチモーダル学習のパワーをさらに強調した。 新たなQFマルチモーダル層を含む最も賢いVLMは、8つの基本的な推論スキルのうちの1つにおいて、最も優れた以前のベースラインを改善する。 エンドツーエンドのコードはhttps://github.com/smarter-vlm/smarter.comで入手できる。

In this article, we investigate vision-language models (VLM) as reasoners. The ability to form abstractions underlies mathematical reasoning, problem-solving, and other Math AI tasks. Several formalisms have been given to these underlying abstractions and skills utilized by humans and intelligent systems for reasoning. Furthermore, human reasoning is inherently multimodal, and as such, we focus our investigations on multimodal AI. In this article, we employ the abstractions given in the SMART task (Simple Multimodal Algorithmic Reasoning Task) introduced in \cite{cherian2022deep} as meta-reasoning and problem-solving skills along eight axes: math, counting, path, measure, logic, spatial, and pattern. We investigate the ability of vision-language models to reason along these axes and seek avenues of improvement. Including composite representations with vision-language cross-attention enabled learning multimodal representations adaptively from fused frozen pretrained backbones for better visual grounding. Furthermore, proper hyperparameter and other training choices led to strong improvements (up to $48\%$ gain in accuracy) on the SMART task, further underscoring the power of deep multimodal learning. The smartest VLM, which includes a novel QF multimodal layer, improves upon the best previous baselines in every one of the eight fundamental reasoning skills. End-to-end code is available at https://github.com/smarter-vlm/smarter.
翻訳日:2024-07-08 14:50:59 公開日:2024-07-05
# パスファインダー:インターネット検閲の不整合性を評価するためのパスの多様性を探る

Pathfinder: Exploring Path Diversity for Assessing Internet Censorship Inconsistency ( http://arxiv.org/abs/2407.04213v1 )

ライセンス: Link先を確認
Xiaoqin Liang, Guannan Liu, Lin Jin, Shuai Hao, Haining Wang, (参考訳) インターネット検閲は通常、特定のインターネットユーザーの情報管理を行うために当局によって強制される。 従来の検閲研究は,(1)全国的な政策を持つ政府によって検閲が実施される場合が多く,(2)国内の異なるネットワークにおける検閲の引き金として,調査パケットの経路の制御が難しいため,国レベルの評価に重点を置いている。 しかし、検閲の展開と実装はISPレベルで非常に多様である可能性がある。 本稿では、国内における多様な検閲の展開を精査し、異なる視点からインターネット検閲について検討する。 具体的には、エンドツーエンドの測定フレームワークを活用することで、地理的に分散した複数のバックエンド制御サーバをデプロイして、1つのバンテージポイントからさまざまなパスを探索する。 同じドメインで生成されたトラフィックと異なるコントロールサーバのIPは、異なるトランジットネットワークをトラバースすることを余儀なくされる可能性があるため、もし存在する場合、異なる検閲装置によって検査される。 大規模な実験と詳細な調査を通じて、国内における異なる経路経路によるインターネット検閲の多様性が一般的であることを明らかにし、(1)中央集権検閲の実装は一般的に不完全または欠陥であり、(2)中央集権検閲も一般的であることを示す。 さらに、異なるホスティングプラットフォームが、ある国のISPと異なるピアリング関係により、一貫性のない検閲活動をもたらすことも確認した。 最後に,検閲の不整合に繋がる構成を詳細に説明し,その原因を探るため,広範囲にわたるケーススタディを紹介する。

Internet censorship is typically enforced by authorities to achieve information control for a certain group of Internet users. So far existing censorship studies have primarily focused on country-level characterization because (1) in many cases, censorship is enabled by governments with nationwide policies and (2) it is usually hard to control how the probing packets are routed to trigger censorship in different networks inside a country. However, the deployment and implementation of censorship could be highly diverse at the ISP level. In this paper, we investigate Internet censorship from a different perspective by scrutinizing the diverse censorship deployment inside a country. Specifically, by leveraging an end-to-end measurement framework, we deploy multiple geo-distributed back-end control servers to explore various paths from one single vantage point. The generated traffic with the same domain but different control servers' IPs could be forced to traverse different transit networks, thereby being examined by different censorship devices if present. Through our large-scale experiments and in-depth investigation, we reveal that the diversity of Internet censorship caused by different routing paths inside a country is prevalent, implying that (1) the implementations of centralized censorship are commonly incomplete or flawed and (2) decentralized censorship is also common. Moreover, we identify that different hosting platforms also result in inconsistent censorship activities due to different peering relationships with the ISPs in a country. Finally, we present extensive case studies in detail to illustrate the configurations that lead to censorship inconsistency and explore the causes.
翻訳日:2024-07-08 14:50:59 公開日:2024-07-05
# T2IShield:テキストと画像の拡散モデルによるバックドアの防御

T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models ( http://arxiv.org/abs/2407.04215v1 )

ライセンス: Link先を確認
Zhongqi Wang, Jie Zhang, Shiguang Shan, Xilin Chen, (参考訳) テキストから画像への拡散モデルは印象的な生成能力を示す一方で、悪意のあるトリガーによるモデル出力の操作を含むバックドア攻撃に対する脆弱性も示している。 本稿では,T2IShieldという総合防衛手法を初めて提案し,攻撃の検知,局所化,緩和を行う。 具体的には、バックドアトリガーによって引き起こされた横断アテンションマップに「Assimilation Phenomenon」が現れる。 この重要な知見に基づいて,Frobenius Norm Threshold TruncationとCovariance Discriminant Analysisの2つの効果的なバックドア検出手法を提案する。 さらに,バックドア・サンプル内にトリガを局在させるバイナリ検索手法を導入し,バックドア・アタックを緩和するための既存の概念編集手法の有効性を評価する。 2つの高度なバックドア攻撃シナリオに対する実証的評価は,提案手法の有効性を示す。 バックドアサンプル検出では、T2IShieldは計算コストの低い88.9$\%のF1スコアを達成している。 さらに、T2IShield は 86.4$\%$ のローカライゼーション F1 スコアを達成し、99$\%$ の有毒試料を無効化する。 コードはhttps://github.com/Robin-WZQ/T2IShieldで公開されている。

While text-to-image diffusion models demonstrate impressive generation capabilities, they also exhibit vulnerability to backdoor attacks, which involve the manipulation of model outputs through malicious triggers. In this paper, for the first time, we propose a comprehensive defense method named T2IShield to detect, localize, and mitigate such attacks. Specifically, we find the "Assimilation Phenomenon" on the cross-attention maps caused by the backdoor trigger. Based on this key insight, we propose two effective backdoor detection methods: Frobenius Norm Threshold Truncation and Covariance Discriminant Analysis. Besides, we introduce a binary-search approach to localize the trigger within a backdoor sample and assess the efficacy of existing concept editing methods in mitigating backdoor attacks. Empirical evaluations on two advanced backdoor attack scenarios show the effectiveness of our proposed defense method. For backdoor sample detection, T2IShield achieves a detection F1 score of 88.9$\%$ with low computational cost. Furthermore, T2IShield achieves a localization F1 score of 86.4$\%$ and invalidates 99$\%$ poisoned samples. Codes are released at https://github.com/Robin-WZQ/T2IShield.
翻訳日:2024-07-08 14:41:15 公開日:2024-07-05
# Batch Transformer: Batchの注意点を探る

Batch Transformer: Look for Attention in Batch ( http://arxiv.org/abs/2407.04218v1 )

ライセンス: Link先を確認
Myung Beom Her, Jisu Jeong, Hojoon Song, Ji-Hyeong Han, (参考訳) 顔の表情認識(FER)はコンピュータビジョンにおいて、人間とコンピュータの相互作用のような「未発達の」環境において大きな注目を集めている。 しかし、FER画像には、オクルージョン、低解像度、ポーズ変動、照明変動、主観性などの不確実性が含まれており、対象ラベルと一致しない表現が含まれている。 これにより、ノイズの多い単一画像からはほとんど情報が得られず、信頼できない。 これにより、FERタスクのパフォーマンスが大幅に低下する可能性がある。 この問題に対処するために,提案するクラスバッチアテンション(CBA)モジュールからなるバッチトランスフォーマ(BT)を提案する。 また,各レベル間の相関を捉えることで,特徴の過度な適合を防止するため,マルチレベルアテンション(MLA)を提案する。 本稿では,上記の提案と組み合わせたバッチトランスネットワーク(BTN)を提案する。 さまざまなFERベンチマークデータセットの実験結果から,提案したBTNはFERデータセットの最先端性よりも一貫して優れていた。 代表的結果は、提案された BTN for FER の約束を示す。

Facial expression recognition (FER) has received considerable attention in computer vision, with "in-the-wild" environments such as human-computer interaction. However, FER images contain uncertainties such as occlusion, low resolution, pose variation, illumination variation, and subjectivity, which includes some expressions that do not match the target label. Consequently, little information is obtained from a noisy single image and it is not trusted. This could significantly degrade the performance of the FER task. To address this issue, we propose a batch transformer (BT), which consists of the proposed class batch attention (CBA) module, to prevent overfitting in noisy data and extract trustworthy information by training on features reflected from several images in a batch, rather than information from a single image. We also propose multi-level attention (MLA) to prevent overfitting the specific features by capturing correlations between each level. In this paper, we present a batch transformer network (BTN) that combines the above proposals. Experimental results on various FER benchmark datasets show that the proposed BTN consistently outperforms the state-ofthe-art in FER datasets. Representative results demonstrate the promise of the proposed BTN for FER.
翻訳日:2024-07-08 14:41:15 公開日:2024-07-05
# Autoverse:ロバストなエージェントを学習するための進化可能なゲームランゲージ

Autoverse: An Evolvable Game Langugage for Learning Robust Embodied Agents ( http://arxiv.org/abs/2407.04221v1 )

ライセンス: Link先を確認
Sam Earle, Julian Togelius, (参考訳) シングルプレイヤーの2Dグリッドベースのゲームのための進化可能なドメイン固有言語であるAutoverseを導入し、Open-Ended Learning (OEL)アルゴリズムのスケーラブルなトレーニンググラウンドとしての利用を実証する。 Autoverseはセルラーオートマトンのようなリライトルールを使用してゲームメカニックを記述し、強化学習(RL)エージェントの一般的なテストベッドである様々なゲーム環境(例えば迷路、ダンジョン、ソコバンパズル)を表現できる。 各リライトルールは一連の単純な畳み込みとして表現することができ、GPU上で環境を並列化することで、RLトレーニングを劇的に加速することができる。 本稿では,Autoverseを用いて,探索からの模倣学習によるジャンプ開始型オープンエンド学習を提案する。 このようなアプローチでは、まずAutoverse環境(ルールと初期地図トポロジー)を進化させ、グリージーツリー探索に必要なイテレーション数を最大化し、新しい最良のソリューションを発見し、ますます複雑な環境とプレイトレイスのカリキュラムを作成します。 次に、これらの専門家のプレイトレースを模倣学習を用いてニューラルネットワークベースのポリシーに蒸留する。 最後に、学習したポリシーをオープンエンドRLの出発点として使用し、新たなトレーニング環境を継続的に進化させ、RLプレーヤの値関数エラー(後悔のプロキシ、あるいは生成された環境の学習可能性)を最大化する。

We introduce Autoverse, an evolvable, domain-specific language for single-player 2D grid-based games, and demonstrate its use as a scalable training ground for Open-Ended Learning (OEL) algorithms. Autoverse uses cellular-automaton-like rewrite rules to describe game mechanics, allowing it to express various game environments (e.g. mazes, dungeons, sokoban puzzles) that are popular testbeds for Reinforcement Learning (RL) agents. Each rewrite rule can be expressed as a series of simple convolutions, allowing for environments to be parallelized on the GPU, thereby drastically accelerating RL training. Using Autoverse, we propose jump-starting open-ended learning by imitation learning from search. In such an approach, we first evolve Autoverse environments (their rules and initial map topology) to maximize the number of iterations required by greedy tree search to discover a new best solution, producing a curriculum of increasingly complex environments and playtraces. We then distill these expert playtraces into a neural-network-based policy using imitation learning. Finally, we use the learned policy as a starting point for open-ended RL, where new training environments are continually evolved to maximize the RL player agent's value function error (a proxy for its regret, or the learnability of generated environments), finding that this approach improves the performance and generality of resultant player agents.
翻訳日:2024-07-08 14:41:15 公開日:2024-07-05
# 水中画像の強調と深さ推定のための物理モデルガイドフレームワーク

A Physical Model-Guided Framework for Underwater Image Enhancement and Depth Estimation ( http://arxiv.org/abs/2407.04230v1 )

ライセンス: Link先を確認
Dazhao Du, Enhan Li, Lingyu Si, Fanjiang Xu, Jianwei Niu, Fuchun Sun, (参考訳) 様々な水性媒質による光の選択的吸収と散乱のため、水中の画像は通常様々な視覚的劣化に悩まされる。 既存の水中画像強調(UIE)アプローチでは、水中の物理画像モデルとニューラルネットワークを組み合わせて、深度や対光といった画像モデルパラメータを正確に見積もることができず、特定のシナリオでは性能が低下する。 そこで本研究では,DDM(Deep Degradation Model)とUIE(Deep Degradation Model)を併用した物理モデル誘導フレームワークを提案する。 DDMには3つのよく設計されたサブネットワークが含まれており、様々な画像パラメータを正確に推定する: ベールリング光推定サブネットワーク、因子推定サブネットワーク、深さ推定サブネットワーク。 推定パラメータと水中物理画像モデルに基づいて、水中画像と所望のクリーン画像の関係、すなわちUIEモデルの出力をモデル化することにより、拡張プロセスに物理的制約を課す。 さらに、私たちのフレームワークはどんなUIEモデルとも互換性がありますが、UIEConvと呼ばれるシンプルで効果的な完全に畳み込みのUIEモデルを設計します。 UIEConvは、デュアルブランチ構造による画像拡張にグローバル機能とローカル機能の両方を使用する。 フレームワーク内でトレーニングされたUIEConvは、多様な水中シーンにまたがる顕著な拡張結果を達成する。 さらに、UIEの副産物として、トレーニングされた深度推定サブネットワークは、正確な海底深度推定を可能にする。 人工光源を用いた深海環境を含む様々な水中イメージングシナリオで実施された大規模な実験は、我々のフレームワークとUIEConvモデルの有効性を検証した。

Due to the selective absorption and scattering of light by diverse aquatic media, underwater images usually suffer from various visual degradations. Existing underwater image enhancement (UIE) approaches that combine underwater physical imaging models with neural networks often fail to accurately estimate imaging model parameters such as depth and veiling light, resulting in poor performance in certain scenarios. To address this issue, we propose a physical model-guided framework for jointly training a Deep Degradation Model (DDM) with any advanced UIE model. DDM includes three well-designed sub-networks to accurately estimate various imaging parameters: a veiling light estimation sub-network, a factors estimation sub-network, and a depth estimation sub-network. Based on the estimated parameters and the underwater physical imaging model, we impose physical constraints on the enhancement process by modeling the relationship between underwater images and desired clean images, i.e., outputs of the UIE model. Moreover, while our framework is compatible with any UIE model, we design a simple yet effective fully convolutional UIE model, termed UIEConv. UIEConv utilizes both global and local features for image enhancement through a dual-branch structure. UIEConv trained within our framework achieves remarkable enhancement results across diverse underwater scenes. Furthermore, as a byproduct of UIE, the trained depth estimation sub-network enables accurate underwater scene depth estimation. Extensive experiments conducted in various real underwater imaging scenarios, including deep-sea environments with artificial light sources, validate the effectiveness of our framework and the UIEConv model.
翻訳日:2024-07-08 14:41:15 公開日:2024-07-05
# DWTと正規化に基づく文書画像二元化のための効率的なGAN

Efficient GANs for Document Image Binarization Based on DWT and Normalization ( http://arxiv.org/abs/2407.04231v1 )

ライセンス: Link先を確認
Rui-Yang Ju, KokSheik Wong, Jen-Shiun Chiang, (参考訳) 文書画像バイナライゼーションタスクでは、生成敵対ネットワーク(GAN)は、影やノイズを効果的に除去した画像を生成し、テキスト情報抽出を可能にする。 現在のSOTA(State-of-the-art)法では、6つのGANを利用する3段階のネットワークアーキテクチャを提案する。 優れたモデル性能にもかかわらず、SOTAネットワークアーキテクチャは長いトレーニングと推論時間を必要とする。 この問題を解決するために、離散ウェーブレット変換と正規化を組み込んだ3段階ネットワークアーキテクチャに基づく効率的なGAN手法を導入し、入力画像サイズを削減し、学習時間と推論時間を短縮する。 さらに、モデルの性能を向上させるために、新規なジェネレータ、識別器、損失関数を提示する。 実験の結果,Avg-Scoreの73.79でモデル性能を維持しつつ,SOTA法と比較してトレーニング時間を10%削減し,推論時間を26%短縮した。 実装コードはGitHubでhttps://github.com/RuiyangJu/Efficient_Document_Image_Binarizationで公開しています。

For document image binarization task, generative adversarial networks (GANs) can generate images where shadows and noise are effectively removed, which allow for text information extraction. The current state-of-the-art (SOTA) method proposes a three-stage network architecture that utilizes six GANs. Despite its excellent model performance, the SOTA network architecture requires long training and inference times. To overcome this problem, this work introduces an efficient GAN method based on the three-stage network architecture that incorporates the Discrete Wavelet Transformation and normalization to reduce the input image size, which in turns, decrease both training and inference times. In addition, this work presents novel generators, discriminators, and loss functions to improve the model's performance. Experimental results show that the proposed method reduces the training time by 10% and the inference time by 26% when compared to the SOTA method while maintaining the model performance at 73.79 of Avg-Score. Our implementation code is available on GitHub at https://github.com/RuiyangJu/Efficient_Document_Image_Binarization.
翻訳日:2024-07-08 14:41:15 公開日:2024-07-05
# リッチフローによるグラフプーリング

Graph Pooling via Ricci Flow ( http://arxiv.org/abs/2407.04236v1 )

ライセンス: Link先を確認
Amy Feng, Melanie Weber, (参考訳) グラフ機械学習は、しばしばグラフのトポロジとノードの属性にエンコードされた類似構造に基づいてノードをクラスタリングする。 ホモフィルスグラフ上では、プール層の統合は、固有のマルチスケール構造を考慮し、グラフニューラルネットワークの性能を向上させることが示されている。 ここでは、類似したノードがグループ化され、グラフを粗くし、より深いアーキテクチャにおける後続のレイヤにおける入力サイズを小さくする。 両方の設定で、基礎となるクラスタリングアプローチはグラフプーリング演算子によって実装できる。 本研究では,Ollivierの離散リッチ曲率とそれに付随する幾何フローによるグラフの幾何学的特徴を利用したグラフプーリング演算子(ORC-Pool)を提案する。 以前のRicciフローベースのクラスタリングアプローチは、いくつかのドメインで大きな可能性を秘めているが、ノード属性に符号化された類似性構造を考慮できない構造になっている。 しかし、多くのMLアプリケーションでは、そのような情報は下流タスクには不可欠である。 ORC-Poolはそのようなクラスタリングアプローチを属性付きグラフに拡張し、幾何学的粗大化をプール層としてグラフニューラルネットワークに統合する。

Graph Machine Learning often involves the clustering of nodes based on similarity structure encoded in the graph's topology and the nodes' attributes. On homophilous graphs, the integration of pooling layers has been shown to enhance the performance of Graph Neural Networks by accounting for inherent multi-scale structure. Here, similar nodes are grouped together to coarsen the graph and reduce the input size in subsequent layers in deeper architectures. In both settings, the underlying clustering approach can be implemented via graph pooling operators, which often rely on classical tools from Graph Theory. In this work, we introduce a graph pooling operator (ORC-Pool), which utilizes a characterization of the graph's geometry via Ollivier's discrete Ricci curvature and an associated geometric flow. Previous Ricci flow based clustering approaches have shown great promise across several domains, but are by construction unable to account for similarity structure encoded in the node attributes. However, in many ML applications, such information is vital for downstream tasks. ORC-Pool extends such clustering approaches to attributed graphs, allowing for the integration of geometric coarsening into Graph Neural Networks as a pooling layer.
翻訳日:2024-07-08 14:41:15 公開日:2024-07-05
# GSD : 3次元再構成のためのビューガイド付きガウススプラッティング拡散法

GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction ( http://arxiv.org/abs/2407.04237v1 )

ライセンス: Link先を確認
Yuxuan Mu, Xinxin Zuo, Chuan Guo, Yilin Wang, Juwei Lu, Xiaofeng Wu, Songcen Xu, Peng Dai, Youliang Yan, Li Cheng, (参考訳) 単一視点からの3次元オブジェクト再構成のためのガウススプラッティング(GS)表現に基づく拡散モデルアプローチであるGSDを提案する。 以前の作品は不整合な3D幾何学や不整合表現による中間レンダリング品質に悩まされていた。 我々は,最近の最先端の3D明示表現,ガウススプラッティング,無条件拡散モデルを活用することで,これらの欠点を解決するための一歩を踏み出した。 このモデルは、GS楕円体の集合で表される3Dオブジェクトを生成することを学習する。 これらの強力な3D前駆体は、無条件で学習するが、拡散モデルは、さらなるモデル微調整をすることなく、ビュー誘導再構成の準備が整う。 これは、効率的かつフレキシブルなスプレイティング機能とガイドデノナイジングサンプリングプロセスにより、微細な2次元特徴を伝播させることによって達成される。 さらに、2次元拡散モデルを用いてレンダリングの忠実度を高め、レンダリング画像の研磨・再利用により再構成GSの品質を向上させる。 最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。 挑戦的な実世界のCO3Dデータセットの実験は、我々のアプローチの優位性を実証している。

We present GSD, a diffusion model approach based on Gaussian Splatting (GS) representation for 3D object reconstruction from a single view. Prior works suffer from inconsistent 3D geometry or mediocre rendering quality due to improper representations. We take a step towards resolving these shortcomings by utilizing the recent state-of-the-art 3D explicit representation, Gaussian Splatting, and an unconditional diffusion model. This model learns to generate 3D objects represented by sets of GS ellipsoids. With these strong generative 3D priors, though learning unconditionally, the diffusion model is ready for view-guided reconstruction without further model fine-tuning. This is achieved by propagating fine-grained 2D features through the efficient yet flexible splatting function and the guided denoising sampling process. In addition, a 2D diffusion model is further employed to enhance rendering fidelity, and improve reconstructed GS quality by polishing and re-using the rendered images. The final reconstructed objects explicitly come with high-quality 3D structure and texture, and can be efficiently rendered in arbitrary views. Experiments on the challenging real-world CO3D dataset demonstrate the superiority of our approach.
翻訳日:2024-07-08 14:41:15 公開日:2024-07-05
# 2段ゼロサムマルコフゲームのための2段階ミニマックスQ-ラーニングアルゴリズム

A Two-Step Minimax Q-learning Algorithm for Two-Player Zero-Sum Markov Games ( http://arxiv.org/abs/2407.04240v1 )

ライセンス: Link先を確認
Shreyas S R, Antony Vijesh, (参考訳) 2人のプレイヤーによるゼロサムマルコフゲームを解決するため、興味深い反復手順が提案されている。 まず、この問題はmin-max Markovゲームとして表現される。 次に、マルコフ決定問題(MDP)を解決するための2段階Q-ラーニングアルゴリズムを、このマルコフゲームを解決するために好適に修正する。 適切な仮定の下で、提案された反復の有界性は理論的に得られる。 確率近似の結果を用いて、提案した2段階のミニマックスQ-ラーニングのほぼ確実に収束する。 より具体的には、モデル情報が分かっていない場合、提案アルゴリズムは確率1とゲーム理論最適値に収束する。 数値シミュレーションは,提案アルゴリズムが有効で実装が容易であることを認証する。

An interesting iterative procedure is proposed to solve a two-player zero-sum Markov games. First this problem is expressed as a min-max Markov game. Next, a two-step Q-learning algorithm for solving Markov decision problem (MDP) is suitably modified to solve this Markov game. Under a suitable assumption, the boundedness of the proposed iterates is obtained theoretically. Using results from stochastic approximation, the almost sure convergence of the proposed two-step minimax Q-learning is obtained theoretically. More specifically, the proposed algorithm converges to the game theoretic optimal value with probability one, when the model information is not known. Numerical simulation authenticate that the proposed algorithm is effective and easy to implement.
翻訳日:2024-07-08 14:41:15 公開日:2024-07-05
# AnySR:イメージの超解像をあらゆる規模、あらゆるソースとして実現

AnySR: Realizing Image Super-Resolution as Any-Scale, Any-Resource ( http://arxiv.org/abs/2407.04241v1 )

ライセンス: Link先を確認
Wengyi Zhan, Mingbao Lin, Chia-Wen Lin, Rongrong Ji, (参考訳) 単一画像超解像(SISR)アプリケーションの効率性とスケーラビリティを向上させるため,既存の任意のスケールのSRメソッドを任意のソース実装に再構築するAnySRを導入する。 同じ計算コストで様々なスケールでSRタスクを解くオフザシェルフの手法とは対照的に、AnySRは次のように革新しています。 1)任意の規模のタスクを任意のリソース実装として構築し、より小さなスケールのリソース要件を追加パラメータなしで削減する。 2) 機能インターウィービング方式で任意のスケール性能を向上し, 一定間隔で機能にスケールペアを挿入し, 適切な機能/スケール処理を実現する。 私たちのAnySRの有効性は、既存の任意の規模のSISRメソッドを再構築し、5つの人気のあるSISRテストデータセットを検証することで完全に実証されています。 その結果,AnySR は SISR タスクをより効率的な計算方式で実装し,既存の任意のスケール SISR メソッドに匹敵する性能を示した。 SISRのタスクは文学におけるあらゆるスケールだけでなく、リソースとしても初めて実現しました。 コードはhttps://github.com/CrispyFeSo4/AnySRで入手できる。

In an effort to improve the efficiency and scalability of single-image super-resolution (SISR) applications, we introduce AnySR, to rebuild existing arbitrary-scale SR methods into any-scale, any-resource implementation. As a contrast to off-the-shelf methods that solve SR tasks across various scales with the same computing costs, our AnySR innovates in: 1) building arbitrary-scale tasks as any-resource implementation, reducing resource requirements for smaller scales without additional parameters; 2) enhancing any-scale performance in a feature-interweaving fashion, inserting scale pairs into features at regular intervals and ensuring correct feature/scale processing. The efficacy of our AnySR is fully demonstrated by rebuilding most existing arbitrary-scale SISR methods and validating on five popular SISR test datasets. The results show that our AnySR implements SISR tasks in a computing-more-efficient fashion, and performs on par with existing arbitrary-scale SISR methods. For the first time, we realize SISR tasks as not only any-scale in literature, but also as any-resource. Code is available at https://github.com/CrispyFeSo4/AnySR.
翻訳日:2024-07-08 14:41:15 公開日:2024-07-05
# フリーハンド3次元超音波再構成における微細なコンテキストとマルチモーダルアライメント

Fine-grained Context and Multi-modal Alignment for Freehand 3D Ultrasound Reconstruction ( http://arxiv.org/abs/2407.04242v1 )

ライセンス: Link先を確認
Zhongnuo Yan, Xin Yang, Mingyuan Luo, Jiongquan Chen, Rusi Chen, Lian Liu, Dong Ni, (参考訳) 微細な時空間学習はフリーハンド3次元超音波再構成に不可欠である。 従来の研究は主に粗い空間的特徴と分離した時間的依存学習と細かな時空間的学習に頼っていた。 細粒度スケールでの時空間情報のマイニングは、長距離依存の学習が困難であるため、極めて困難である。 本稿では,この課題に対処するために,状態空間モデル(SSM)の長距離依存性管理機能を利用する新しい手法を提案する。 私たちの貢献は3倍です。 まず、多方向SSMを考案し、マルチスケールの時空間情報をマイニングするReMambaを提案する。 次に,複数の慣性計測ユニットを補助的時間情報として導入し,時空間知覚を高める適応型融合戦略を提案する。 最後に、複数モーダルアライメントのための擬似ラベルとして時間情報を符号化するオンラインアライメント戦略を設計し、再構築性能をさらに向上する。 2つの大規模データセットに対する大規模な実験的検証は、競合相手に対する我々の手法による顕著な改善を示している。

Fine-grained spatio-temporal learning is crucial for freehand 3D ultrasound reconstruction. Previous works mainly resorted to the coarse-grained spatial features and the separated temporal dependency learning and struggles for fine-grained spatio-temporal learning. Mining spatio-temporal information in fine-grained scales is extremely challenging due to learning difficulties in long-range dependencies. In this context, we propose a novel method to exploit the long-range dependency management capabilities of the state space model (SSM) to address the above challenge. Our contribution is three-fold. First, we propose ReMamba, which mines multi-scale spatio-temporal information by devising a multi-directional SSM. Second, we propose an adaptive fusion strategy that introduces multiple inertial measurement units as auxiliary temporal information to enhance spatio-temporal perception. Last, we design an online alignment strategy that encodes the temporal information as pseudo labels for multi-modal alignment to further improve reconstruction performance. Extensive experimental validations on two large-scale datasets show remarkable improvement from our method over competitors.
翻訳日:2024-07-08 14:41:15 公開日:2024-07-05
# 細粒度視覚分類のための授業センターの探索

Exploration of Class Center for Fine-Grained Visual Classification ( http://arxiv.org/abs/2407.04243v1 )

ライセンス: Link先を確認
Hang Yao, Qiguang Miao, Peipei Zhao, Chaoneng Li, Xin Li, Guanwen Feng, Ruyi Liu, (参考訳) 大規模分類タスクとは異なり、きめ細かい視覚分類は2つの重大な問題のために難しい課題である。 1)クラス内での明らかな差異と微妙なクラス間差異 2)データセットのトレーニングサンプルが少ないため,過度に適合する。 既存のほとんどの手法は、クラス内のばらつきを減らすための重要な特徴を抽出するが、きめ細かい視覚的分類におけるクラス間の微妙な違いには注意を払わない。 この問題に対処するために,複数のクラス中心制約とクラス中心ラベル生成からなるクラス中心探索という損失関数を提案する。 この損失関数は、特徴やラベルの観点から、クラスセンターの情報を完全に活用する。 機能の観点から、複数のクラス中心制約は、サンプルをターゲットのクラスセンターに近づけ、最も類似した非ターゲットクラスセンターからサンプルをプッシュする。 したがって、制約はクラス内のばらつきを減らし、クラス間の差異を拡大する。 ラベルの観点から、クラスセンタラベル生成は、クラスセンタ分布を利用してソフトラベルを生成し、オーバーフィッティングを緩和する。 本手法は,損失関数として既存の細粒度視覚分類手法と容易に統合でき,トレーニングコストをわずかに抑えることで,さらに優れた性能を向上することができる。 広範に使われている4つの視覚的分類データセットに対して,本手法により達成された一貫した改善を示すため,広範囲な実験を行った。 特に,本手法はFGVC-AircraftおよびCUB-200-2011データセットの最先端性能を実現する。

Different from large-scale classification tasks, fine-grained visual classification is a challenging task due to two critical problems: 1) evident intra-class variances and subtle inter-class differences, and 2) overfitting owing to fewer training samples in datasets. Most existing methods extract key features to reduce intra-class variances, but pay no attention to subtle inter-class differences in fine-grained visual classification. To address this issue, we propose a loss function named exploration of class center, which consists of a multiple class-center constraint and a class-center label generation. This loss function fully utilizes the information of the class center from the perspective of features and labels. From the feature perspective, the multiple class-center constraint pulls samples closer to the target class center, and pushes samples away from the most similar nontarget class center. Thus, the constraint reduces intra-class variances and enlarges inter-class differences. From the label perspective, the class-center label generation utilizes classcenter distributions to generate soft labels to alleviate overfitting. Our method can be easily integrated with existing fine-grained visual classification approaches as a loss function, to further boost excellent performance with only slight training costs. Extensive experiments are conducted to demonstrate consistent improvements achieved by our method on four widely-used fine-grained visual classification datasets. In particular, our method achieves state-of-the-art performance on the FGVC-Aircraft and CUB-200-2011 datasets.
翻訳日:2024-07-08 14:41:15 公開日:2024-07-05
# あらゆるPixelのモメント:超高解像度で高精細な正規化による画像から画像への変換

Every Pixel Has its Moments: Ultra-High-Resolution Unpaired Image-to-Image Translation via Dense Normalization ( http://arxiv.org/abs/2407.04245v1 )

ライセンス: Link先を確認
Ming-Yang Ho, Che-Ming Wu, Min-Sheng Wu, Yufeng Jane Tseng, (参考訳) 超高解像度画像対画像変換の最近の進歩は、パッチワイズ推論によって限られたGPUメモリによって課される制約を軽減することを目的としている。 それにもかかわらず、既存の手法は、目立ったティリングアーティファクトの削減と色と色調のコントラストの保存の間に妥協することが多く、これは、インスタンスの正規化層におけるグローバルなイメージレベルまたはパッチレベルの統計に依存するためである。 本研究では,画素レベルの統計モーメントを推定するためのDense Normalization (DN) 層を提案する。 このアプローチは、局所色と色調のコントラストを同時に保存しながら、ティリングアーティファクトを効果的に減少させる。 画素レベルの推定の計算要求に対処するため,より効率的な補間アルゴリズムを提案する。 さらに,DN層を単一パスで動作させる並列化戦略を考案した。 実験により,本手法が既存のすべての性能手法を超越していることが実証された。 特に、我々のDN層はハイパーパラメータフリーであり、再トレーニングを必要とせずに、ほとんどの未使用画像から画像への翻訳フレームワークにシームレスに統合できる。 本研究は,画像・画像間翻訳の領域における任意の解像度の画像処理における今後の探索の道を開くものである。 コードは、https://github.com/Kaminyou/Dense-Normalization.comで入手できる。

Recent advancements in ultra-high-resolution unpaired image-to-image translation have aimed to mitigate the constraints imposed by limited GPU memory through patch-wise inference. Nonetheless, existing methods often compromise between the reduction of noticeable tiling artifacts and the preservation of color and hue contrast, attributed to the reliance on global image- or patch-level statistics in the instance normalization layers. In this study, we introduce a Dense Normalization (DN) layer designed to estimate pixel-level statistical moments. This approach effectively diminishes tiling artifacts while concurrently preserving local color and hue contrasts. To address the computational demands of pixel-level estimation, we further propose an efficient interpolation algorithm. Moreover, we invent a parallelism strategy that enables the DN layer to operate in a single pass. Through extensive experiments, we demonstrate that our method surpasses all existing approaches in performance. Notably, our DN layer is hyperparameter-free and can be seamlessly integrated into most unpaired image-to-image translation frameworks without necessitating retraining. Overall, our work paves the way for future exploration in handling images of arbitrary resolutions within the realm of unpaired image-to-image translation. Code is available at: https://github.com/Kaminyou/Dense-Normalization.
翻訳日:2024-07-08 14:41:15 公開日:2024-07-05
# ArAIEval共有タスク:一様および多様アラビアコンテンツにおける確率的手法の検出

ArAIEval Shared Task: Propagandistic Techniques Detection in Unimodal and Multimodal Arabic Content ( http://arxiv.org/abs/2407.04247v1 )

ライセンス: Link先を確認
Maram Hasanain, Md. Arid Hasan, Fatema Ahmed, Reem Suwaileh, Md. Rafiul Biswas, Wajdi Zaghouani, Firoj Alam, (参考訳) ACL 2024と共同で開催されるアラビアNLP 2024会議の一環として組織されたArAIEval共有タスクの第2版の概要を紹介する。 このエディションでは、ArAIEvalは2つのタスクを提供します。 一 つぶやきやニュース記事の特定による宣伝的テキストスパンの検出 (二)プロパガンダ主義と非プロパガンダ主義のミームを区別すること。 最終評価フェーズには14チームが参加し、それぞれ6チームと9チームがタスク1と2に参加した。 最終的に11チームがシステム記述論文を提出した。 どちらのタスクも、AraBERTのような微調整トランスフォーマーモデルが、参加するシステムの大部分の中核にあることを観察した。 本稿では、データセットの構成と評価設定の記述を含むタスク設定について記述する。 さらに,参加システムの概要について概説する。 すべてのデータセットと評価スクリプトが研究コミュニティにリリースされている(https://araieval.gitlab.io/)。 これにより、アラビア語におけるこれらの重要なタスクについて、さらなる研究が可能になることを願っています。

We present an overview of the second edition of the ArAIEval shared task, organized as part of the ArabicNLP 2024 conference co-located with ACL 2024. In this edition, ArAIEval offers two tasks: (i) detection of propagandistic textual spans with persuasion techniques identification in tweets and news articles, and (ii) distinguishing between propagandistic and non-propagandistic memes. A total of 14 teams participated in the final evaluation phase, with 6 and 9 teams participating in Tasks 1 and 2, respectively. Finally, 11 teams submitted system description papers. Across both tasks, we observed that fine-tuning transformer models such as AraBERT was at the core of the majority of the participating systems. We provide a description of the task setup, including a description of the dataset construction and the evaluation setup. We further provide a brief overview of the participating systems. All datasets and evaluation scripts are released to the research community (https://araieval.gitlab.io/). We hope this will enable further research on these important tasks in Arabic.
翻訳日:2024-07-08 14:41:15 公開日:2024-07-05
# 例外最大出力検出法による異常パターンを有する複雑システムの機械学習

Machine Learning for Complex Systems with Abnormal Pattern by Exception Maximization Outlier Detection Method ( http://arxiv.org/abs/2407.04248v1 )

ライセンス: Link先を確認
Zhikun Zhang, Yiting Duan, Xiangjun Wang, Mingyuan Zhang, (参考訳) 本稿では,確率モデルと統計的アルゴリズムを用いて複雑なシステムの出力から異常パターンを検出する,例外最大化外乱検出法(EMODM)と呼ばれる,新しい高速オンライン外乱検出手法を提案する。 The EMODM is based on a two-state Gaussian mix model and showed strong performance in probability anomaly detection working on real-time raw data。 2つの数値ケースの合成データを用いてこれを確認した。 実世界のデータに対して,三相インバータの電流および電圧出力により,EMODMを用いて回路系の短絡パターンを検出した。 EMODMはまた、2000年から2024年までの米国の53地域の保険失業データに、COVID-19による異常期間があることも発見した。 この2つの実生活データセットに対するEMODMの適用により,アルゴリズムの有効性と精度が示された。

This paper proposes a novel fast online methodology for outlier detection called the exception maximization outlier detection method(EMODM), which employs probabilistic models and statistical algorithms to detect abnormal patterns from the outputs of complex systems. The EMODM is based on a two-state Gaussian mixture model and demonstrates strong performance in probability anomaly detection working on real-time raw data rather than using special prior distribution information. We confirm this using the synthetic data from two numerical cases. For the real-world data, we have detected the short circuit pattern of the circuit system using EMODM by the current and voltage output of a three-phase inverter. The EMODM also found an abnormal period due to COVID-19 in the insured unemployment data of 53 regions in the United States from 2000 to 2024. The application of EMODM to these two real-life datasets demonstrated the effectiveness and accuracy of our algorithm.
翻訳日:2024-07-08 14:41:15 公開日:2024-07-05
# FeatureSORT: 効果的なトラッキングに不可欠な機能

FeatureSORT: Essential Features for Effective Tracking ( http://arxiv.org/abs/2407.04249v1 )

ライセンス: Link先を確認
Hamidreza Hashempoor, Rosemary Koikara, Yu Dong Hwang, (参考訳) 本研究では,オンライン複数物体追跡のための新しいトラッカーを提案する。 それぞれが特定の外観情報を表す複数の特徴モジュールを提供します。 衣料品の色,スタイル,ターゲット方向などの特徴を,ロバストな組込み抽出のためのReIDネットワークと組み合わせることで,オンライントラッキングの精度を大幅に向上させる。 さらに,より強力な検出器を組み込んだ後処理手法を提案し,トラッカーの性能をさらに向上させる。 実時間動作中に、IoU、方向、色、スタイル、およびReIDの特徴的類似性情報を含む関連する距離関数を追跡するための測定値を確立し、それぞれの距離を別々に計算する。 特徴関連距離関数の設計により、比較的低いIDスイッチ数を保ちながら、より長いオクルージョン期間を通して物体を追跡することができる。 広範囲な実験的評価は、アイデンティティスイッチの削減と閉塞処理の強化によって証明されたように、追跡精度と信頼性が顕著に向上したことを示している。 これらの進歩は、物体追跡の最先端だけでなく、高度な精度と信頼性を求める将来の研究や実用化のための新たな道を開いた。

In this work, we introduce a novel tracker designed for online multiple object tracking with a focus on being simple, while being effective. we provide multiple feature modules each of which stands for a particular appearance information. By integrating distinct appearance features, including clothing color, style, and target direction, alongside a ReID network for robust embedding extraction, our tracker significantly enhances online tracking accuracy. Additionally, we propose the incorporation of a stronger detector and also provide an advanced post processing methods that further elevate the tracker's performance. During real time operation, we establish measurement to track associated distance function which includes the IoU, direction, color, style, and ReID features similarity information, where each metric is calculated separately. With the design of our feature related distance function, it is possible to track objects through longer period of occlusions, while keeping the number of identity switches comparatively low. Extensive experimental evaluation demonstrates notable improvement in tracking accuracy and reliability, as evidenced by reduced identity switches and enhanced occlusion handling. These advancements not only contribute to the state of the art in object tracking but also open new avenues for future research and practical applications demanding high precision and reliability.
翻訳日:2024-07-08 14:41:15 公開日:2024-07-05
# スマートコントラクトの効果的なターゲットテスト

Effective Targeted Testing of Smart Contracts ( http://arxiv.org/abs/2407.04250v1 )

ライセンス: Link先を確認
Mahdi Fooladgar, Fathiyeh Faghih, (参考訳) スマートコントラクトは、ブロックチェーンネットワーク上にデプロイされ、マイナによって実行される、自律的で不変なコードの断片です。 Ethereumが最初に導入したのは2014年で、その後、セキュリティトークン、投票、ギャンブル、無効トークン、自己主権のアイデンティティ、株式取得、分散金融、分散交換、原子スワップなどの様々なアプリケーションに使用されている。 スマートコントラクトは不変であるため、バグを修正することはできない。 多くの研究者がスマートコントラクトのテストに力を入れてきましたが、最近の研究は、両分野に多くの取り組みがあったにも関わらず、テスト精度とテストデータ生成のギャップを強調しています。 我々のフレームワークであるGriffinは、テストデータを生成するためにターゲットとなるシンボル実行技術を用いて、この欠陥に対処する。 このツールは、突然変異テストで生き残ったミュータントを殺すこと、静的解析アラームを検証すること、安全条件に対する反例を作成すること、手動で選択したコード列に到達することなど、さまざまなアプリケーションで使用することができる。 本稿では,対象とするシンボル実行において,スマートコントラクトとレガシソフトウェアの違いがツール構造に与える影響について論じ,CFG+と呼ばれるSolidityスマートコントラクトのための制御フローグラフの拡張版を提案する。 また、Griffinがプログラム空間を探索するためにカスタムヒューリスティックスを利用する方法や、適切な実行時間で安全条件を考慮して目標ラインに達するテストデータを見つける方法についても論じる。 我々は,関連ツールの実際の欠陥やテストスイートに基づいて,幅広いスマートコントラクト,ターゲットライン,安全条件を含む実験を行った。 評価の結果、Griffinは必要なテストデータを妥当な時間枠内で効果的に識別できることを示した。

Smart contracts are autonomous and immutable pieces of code that are deployed on blockchain networks and run by miners. They were first introduced by Ethereum in 2014 and have since been used for various applications such as security tokens, voting, gambling, non-fungible tokens, self-sovereign identities, stock taking, decentralized finances, decentralized exchanges, and atomic swaps. Since smart contracts are immutable, their bugs cannot be fixed, which may lead to significant monetary losses. While many researchers have focused on testing smart contracts, our recent work has highlighted a gap between test adequacy and test data generation, despite numerous efforts in both fields. Our framework, Griffin, tackles this deficiency by employing a targeted symbolic execution technique for generating test data. This tool can be used in diverse applications, such as killing the survived mutants in mutation testing, validating static analysis alarms, creating counter-examples for safety conditions, and reaching manually selected lines of code. This paper discusses how smart contracts differ from legacy software in targeted symbolic execution and how these differences can affect the tool structure, leading us to propose an enhanced version of the control-flow graph for Solidity smart contracts called CFG+. We also discuss how Griffin can utilize custom heuristics to explore the program space and find the test data that reaches a target line while considering a safety condition in a reasonable execution time. We conducted experiments involving an extensive set of smart contracts, target lines, and safety conditions based on real-world faults and test suites from related tools. The results of our evaluation demonstrate that Griffin can effectively identify the required test data within a reasonable timeframe.
翻訳日:2024-07-08 14:31:15 公開日:2024-07-05
# 知識グラフ埋め込みにおける負サンプリング損失関数の平滑化法の統一解釈

Unified Interpretation of Smoothing Methods for Negative Sampling Loss Functions in Knowledge Graph Embedding ( http://arxiv.org/abs/2407.04251v1 )

ライセンス: Link先を確認
Xincan Feng, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe, (参考訳) 知識グラフ(KG)は、NLPにおける知識集約的なタスクの基本的なリソースである。 手動でKGを作成することの制限のため、KG Completion (KGC) はKG Embedding (KGE) とリンクをスコアリングすることでKGを自動補完する上で重要な役割を担っている。 トレーニングにおいて多くのエンティティを扱うため、KGEはNegative Smpling (NS)損失に依存しており、サンプリングによって計算コストを削減できる。 各リンクの出現頻度はKGの少なくとも1つであるため、スパシティは必須かつ避けられない問題である。 NS損失は例外ではない。 解法として、KGEのNS損失は自己逆陰性サンプリング(SANS)やサブサンプリングのような平滑化手法に依存している。 しかし、理論的な理解の欠如から、どのような平滑化法がこの目的に適しているのかは定かではない。 本稿では,KGEにおけるNS損失のスムース化法の理論的解釈を提供し,従来のスムース化法の特徴をカバーできる新たなNS損失であるトリプルト適応負サンプリング(TANS)を誘導する。 TransE, DistMult, ComplEx, RotatE, HAKE, HousE on FB15k-237, WN18RR, YAGO3-10 data and their sparser subsets showed the soundness of our interpretation and performance improve by our TANS。

Knowledge Graphs (KGs) are fundamental resources in knowledge-intensive tasks in NLP. Due to the limitation of manually creating KGs, KG Completion (KGC) has an important role in automatically completing KGs by scoring their links with KG Embedding (KGE). To handle many entities in training, KGE relies on Negative Sampling (NS) loss that can reduce the computational cost by sampling. Since the appearance frequencies for each link are at most one in KGs, sparsity is an essential and inevitable problem. The NS loss is no exception. As a solution, the NS loss in KGE relies on smoothing methods like Self-Adversarial Negative Sampling (SANS) and subsampling. However, it is uncertain what kind of smoothing method is suitable for this purpose due to the lack of theoretical understanding. This paper provides theoretical interpretations of the smoothing methods for the NS loss in KGE and induces a new NS loss, Triplet Adaptive Negative Sampling (TANS), that can cover the characteristics of the conventional smoothing methods. Experimental results of TransE, DistMult, ComplEx, RotatE, HAKE, and HousE on FB15k-237, WN18RR, and YAGO3-10 datasets and their sparser subsets show the soundness of our interpretation and performance improvement by our TANS.
翻訳日:2024-07-08 14:31:15 公開日:2024-07-05
# WSDM2023 Tolokaの第二の解決法

Second Place Solution of WSDM2023 Toloka Visual Question Answering Challenge ( http://arxiv.org/abs/2407.04255v1 )

ライセンス: Link先を確認
Xiangyu Wu, Zhouyang Chi, Yang Yang, Jianfeng Lu, (参考訳) 本稿では,WSDM2023 Toloka Visual Question Answering Challengeについて述べる。 マルチモーダル事前学習モデルの様々な下流タスク(例えば、視覚的質問応答、視覚的接地、および横断的検索)への適用に触発されて、私たちはこの競合を視覚的接地タスクとしてアプローチし、入力は画像と質問であり、モデルに質問への回答を誘導し、その答を画像上のバウンディングボックスとして表示する。 私たちはこのタスクのために3段階のソリューションを設計しました。 具体的には,視覚言語事前学習モデルOFAを基礎として使用した。 最初の段階では、競合データセットに似た大規模な合成データセットを構築し、そのモデルを粗調整して、一般化された意味情報を学習した。 第2段階では、競争課題を視覚的接地タスクとして扱い、前段から重みをロードし、競争データセット上でモデルを微調整し続け、第1段で学習した意味情報を競争課題に転送した。 最後に、モデルの予測結果を修正するために、バウンディングボックスマッチングと後処理戦略の置き換えを設計した。 我々のチームは最終予選で76.342点を獲得し、ランキング2位となった。

In this paper, we present our solution for the WSDM2023 Toloka Visual Question Answering Challenge. Inspired by the application of multimodal pre-trained models to various downstream tasks(e.g., visual question answering, visual grounding, and cross-modal retrieval), we approached this competition as a visual grounding task, where the input is an image and a question, guiding the model to answer the question and display the answer as a bounding box on the image. We designed a three-stage solution for this task. Specifically, we used the visual-language pre-trained model OFA as the foundation. In the first stage, we constructed a large-scale synthetic dataset similar to the competition dataset and coarse-tuned the model to learn generalized semantic information. In the second stage, we treated the competition task as a visual grounding task, loaded the weights from the previous stage, and continued to fine-tune the model on the competition dataset, transferring the semantic information learned in the first stage to the competition task. Finally, we designed a bounding box matching and replacing post-processing strategy to correct the model's prediction results. Our team achieved a score of 76.342 on the final leaderboard, ranking second.
翻訳日:2024-07-08 14:31:15 公開日:2024-07-05
# 強化学習と訓練評価器による教師なし映像要約

Unsupervised Video Summarization via Reinforcement Learning and a Trained Evaluator ( http://arxiv.org/abs/2407.04258v1 )

ライセンス: Link先を確認
Mehryar Abbasi, Hadi Hadizadeh, Parvaneh Saeedi, (参考訳) 本稿では,強化学習を用いた教師なし映像要約のための新しい手法を提案する。 本研究の目的は、敵のジェネレータ識別アーキテクチャの不安定なトレーニングや、手作りの報酬関数による品質評価など、現在の教師なし手法の既存の制限に対処することである。 提案手法は,簡潔かつ情報的な要約により,オリジナルによく似た再構成ビデオが得られるという概念に基づいている。 要約モデルは、各フレームに重要スコアを割り当て、ビデオ要約を生成する。 提案手法では,一意の報酬生成パイプラインと組み合わさった強化学習を用いて,要約モデルの学習を行う。 報酬生成パイプラインは、要約器を訓練して、改善された再構築につながる要約を作成する。 部分的にマスキングされた映像からマスクされたフレームを再構成できるジェネレータモデルと、その要約から再構成された映像を原文と比較する報酬機構とを備える。 ビデオジェネレータは、ランダムにマスキングされたフレームを再構成する自己教師型の方法で訓練され、正確な要約を生成する能力を高める。 このトレーニングパイプラインは、手作りの報酬に依存する方法と比較して、人間の生成したビデオ要約をよりよく模倣する要約モデルをもたらす。 トレーニングプロセスは、敵のアーキテクチャとは異なり、2つの安定かつ孤立したトレーニングステップで構成される。 実験の結果, TVSum と SumMe のデータセットでそれぞれ62.3 と 54.5 のFスコアが得られた。 さらに、予測段階は、以前報告した最先端手法の300倍高速である。

This paper presents a novel approach for unsupervised video summarization using reinforcement learning. It aims to address the existing limitations of current unsupervised methods, including unstable training of adversarial generator-discriminator architectures and reliance on hand-crafted reward functions for quality evaluation. The proposed method is based on the concept that a concise and informative summary should result in a reconstructed video that closely resembles the original. The summarizer model assigns an importance score to each frame and generates a video summary. In the proposed scheme, reinforcement learning, coupled with a unique reward generation pipeline, is employed to train the summarizer model. The reward generation pipeline trains the summarizer to create summaries that lead to improved reconstructions. It comprises a generator model capable of reconstructing masked frames from a partially masked video, along with a reward mechanism that compares the reconstructed video from the summary against the original. The video generator is trained in a self-supervised manner to reconstruct randomly masked frames, enhancing its ability to generate accurate summaries. This training pipeline results in a summarizer model that better mimics human-generated video summaries compared to methods relying on hand-crafted rewards. The training process consists of two stable and isolated training steps, unlike adversarial architectures. Experimental results demonstrate promising performance, with F-scores of 62.3 and 54.5 on TVSum and SumMe datasets, respectively. Additionally, the inference stage is 300 times faster than our previously reported state-of-the-art method.
翻訳日:2024-07-08 14:31:15 公開日:2024-07-05
# 有限あいまい性集合に対するロバストQ-ラーニング

Robust Q-Learning for finite ambiguity sets ( http://arxiv.org/abs/2407.04259v1 )

ライセンス: Link先を確認
Cécile Decker, Julian Sester, (参考訳) 本稿では,確率測度のあいまいさを任意に選択できる確率測度を,有限量の測度しか含まない限り,分布的に頑健なマルコフ決定問題を解くための新しい$Q$-learningアルゴリズムを提案する。 したがって、Warsserstein 距離やKullback-Leibler の発散に関して測定される基準測度との距離の基準測度に関する、ある基準測度に関する球のあいまいさ集合に関するよく研究されたケースを超越する。 したがって、本手法により、申請者は、彼女のニーズに合ったあいまいさセットを作成し、主要な結果によって収束が保証される$Q$-learningアルゴリズムによって、関連するロバストなマルコフ決定問題を解決することができる。 さらに,本手法のトラクタビリティについていくつかの数値実験を行った。

In this paper we propose a novel $Q$-learning algorithm allowing to solve distributionally robust Markov decision problems for which the ambiguity set of probability measures can be chosen arbitrarily as long as it comprises only a finite amount of measures. Therefore, our approach goes beyond the well-studied cases involving ambiguity sets of balls around some reference measure with the distance to reference measure being measured with respect to the Wasserstein distance or the Kullback--Leibler divergence. Hence, our approach allows the applicant to create ambiguity sets better tailored to her needs and to solve the associated robust Markov decision problem via a $Q$-learning algorithm whose convergence is guaranteed by our main result. Moreover, we showcase in several numerical experiments the tractability of our approach.
翻訳日:2024-07-08 14:31:15 公開日:2024-07-05
# 長周期の効率的な検出と分散同期への応用

Efficient Detection of Long Consistent Cycles and its Application to Distributed Synchronization ( http://arxiv.org/abs/2407.04260v1 )

ライセンス: Link先を確認
Shaohan Li, Yunpeng Shi, Gilad Lerman, (参考訳) グループ同期は、Structure from Motion (SfM)のグローバルパイプラインにおいて重要な役割を果たす。 その定式化は非凸であり、高度に劣化した測定に直面している。 サイクル一貫性はこれらの課題に対処するのに有効です。 しかし、特に3サイクルが利用できない現実的なシナリオでは、3サイクルよりも長いサイクルで計算的に効率的な解が必要である。 この計算ボトルネックを克服するために,より高速な行列乗算アルゴリズムを使用する場合,3から6までの周期から,次数$O(n^3)$(または$O(n^{2.373})$)の時間的複雑さを持つ情報を利用するグループ同期アルゴリズムを提案する。 我々は、一様腐敗モデルを仮定して、競合するサンプルの複雑さを実現する、これと関連した手法について、非自明な理論を確立する。 提案手法の実践的ニーズを提起するために,少なくとも4サイクルの分散グループ同期を考察し,本手法による最先端性能について述べる。

Group synchronization plays a crucial role in global pipelines for Structure from Motion (SfM). Its formulation is nonconvex and it is faced with highly corrupted measurements. Cycle consistency has been effective in addressing these challenges. However, computationally efficient solutions are needed for cycles longer than three, especially in practical scenarios where 3-cycles are unavailable. To overcome this computational bottleneck, we propose an algorithm for group synchronization that leverages information from cycles of lengths ranging from three to six with a time complexity of order $O(n^3)$ (or $O(n^{2.373})$ when using a faster matrix multiplication algorithm). We establish non-trivial theory for this and related methods that achieves competitive sample complexity, assuming the uniform corruption model. To advocate the practical need for our method, we consider distributed group synchronization, which requires at least 4-cycles, and we illustrate state-of-the-art performance by our method in this context.
翻訳日:2024-07-08 14:31:15 公開日:2024-07-05
# すべてを捨てるか、拾うか? Log4JShellの脆弱性に対する開発者の反応

Drop it All or Pick it Up? How Developers Responded to the Log4JShell Vulnerability ( http://arxiv.org/abs/2407.04263v1 )

ライセンス: Link先を確認
Vittunyuta Maeprasart, Ali Ouni, Raula Gaikovina Kula, (参考訳) 現代のソフトウェア開発では、サードパーティのライブラリの使用が一般的になっているが、開発者は依存関係の更新に苦労することが多い。 以前の作業では、マイグレーションの取り組みや優先度、その他の問題がマイグレーションプロセスの遅延の原因であることを認識している。 一般的な前提は、開発者は他のすべてのアクティビティを廃止し、脆弱性の修正を優先すべきである。 私たちの目標は、コードにリスクの高い脆弱性に直面している場合の開発者の振る舞いを理解することです。 Log4JShellは、最も深刻度が高い脆弱性で、メディアの注目を集めています。 混合メソッドのアプローチを用いて、219のGitHub Pull Requests (PR)と53のMavenプロジェクトに属する354の問題をLog4JShell脆弱性によって分析する。 私たちの調査では、開発者は5日から6日間の迅速なレスポンスを示しています。 しかし、すべてを捨てる代わりに、驚くほどの開発者の活動は、待ち望まれている問題やPRに対して増加する傾向があります。 開発者による議論では、既存のサポートツールに欠けている情報(29.3\%)と情報(20.6\%)が提供された。 この種のイベントを活用すれば、洞察が新たな研究ラインを開くことで、ベストプラクティスや開発者が脆弱性を効果的に修正するために何が必要なのかを再考することが可能になるのです。

Although using third-party libraries has become prevalent in contemporary software development, developers often struggle to update their dependencies. Prior works acknowledge that due to the migration effort, priority and other issues cause lags in the migration process. The common assumption is that developers should drop all other activities and prioritize fixing the vulnerability. Our objective is to understand developer behavior when facing high-risk vulnerabilities in their code. We explore the prolific, and possibly one of the cases of the Log4JShell, a vulnerability that has the highest severity rating ever, which received widespread media attention. Using a mixed-method approach, we analyze 219 GitHub Pull Requests (PR) and 354 issues belonging to 53 Maven projects affected by the Log4JShell vulnerability. Our study confirms that developers show a quick response taking from 5 to 6 days. However, instead of dropping everything, surprisingly developer activities tend to increase for all pending issues and PRs. Developer discussions involved either giving information (29.3\%) and seeking information (20.6\%), which is missing in existing support tools. Leveraging this possibly-one of a kind event, insights opens up a new line of research, causing us to rethink best practices and what developers need in order to efficiently fix vulnerabilities.
翻訳日:2024-07-08 14:31:15 公開日:2024-07-05
# Langevin Dynamics: リアプノフポテンシャルによる最適化の統一的な展望

Langevin Dynamics: A Unified Perspective on Optimization via Lyapunov Potentials ( http://arxiv.org/abs/2407.04264v1 )

ライセンス: Link先を確認
August Y. Chen, Ayush Sekhari, Karthik Sridharan, (参考訳) 本研究では,SGLD(Stochastic Gradient Langevin Dynamics)を用いた非凸最適化の問題点について検討する。 SGLDは確率勾配勾配の自然な変化であり、各ステップで適切なスケールのガウス雑音が加えられる。 我々の知る限り、損失関数上のSGLDのグローバル収束を示す唯一の戦略は、関数が小さいときにより大きな質量を割り当てる定常分布からSGLDをサンプリングできることを示し(ギブス測度)、これらの保証を最適化結果に変換することである。 我々は、リアプノフポテンシャルと最適化に基づいて、SGLDのグローバルミニマへの収束を分析するために、新しい戦略を採用している。 我々は、SGLDの以前の研究から、リアプノフポテンシャルに基づく幾何学的性質に変換する。 これは、人口減少を最小限に抑えたいが、ミニバッチトレーニングサンプルを通じてのみ確率勾配にアクセスしたい機械学習アプリケーションにとって自然な、確率勾配オラクルの場合によく適応する。 ここでは 1)SGLDを最適化するための先行研究の実施率の向上。 2) 関数がリプシッツであり、函数によって定義されるギブズ測度がポアンカーの不等式を満たすような SGLD に対する最初の有限勾配複雑性を保証する。 3) 連続時間ランゲヴィンダイナミクスが最適化に成功するなら、離散時間 SGLD は穏やかな正規性仮定の下で成功する。

We study the problem of non-convex optimization using Stochastic Gradient Langevin Dynamics (SGLD). SGLD is a natural and popular variation of stochastic gradient descent where at each step, appropriately scaled Gaussian noise is added. To our knowledge, the only strategy for showing global convergence of SGLD on the loss function is to show that SGLD can sample from a stationary distribution which assigns larger mass when the function is small (the Gibbs measure), and then to convert these guarantees to optimization results. We employ a new strategy to analyze the convergence of SGLD to global minima, based on Lyapunov potentials and optimization. We convert the same mild conditions from previous works on SGLD into geometric properties based on Lyapunov potentials. This adapts well to the case with a stochastic gradient oracle, which is natural for machine learning applications where one wants to minimize population loss but only has access to stochastic gradients via minibatch training samples. Here we provide 1) improved rates in the setting of previous works studying SGLD for optimization, 2) the first finite gradient complexity guarantee for SGLD where the function is Lipschitz and the Gibbs measure defined by the function satisfies a Poincar\'e Inequality, and 3) prove if continuous-time Langevin Dynamics succeeds for optimization, then discrete-time SGLD succeeds under mild regularity assumptions.
翻訳日:2024-07-08 14:31:15 公開日:2024-07-05
# 支援領域によるパラメトリック曲線セグメント抽出

Parametric Curve Segment Extraction by Support Regions ( http://arxiv.org/abs/2407.04265v1 )

ライセンス: Link先を確認
Cem Ünsalan, (参考訳) ガウスフィルタのラプラシアン(Laplacian of Gaussian, LoG)を用いた画像からパラメトリック形状の曲線セグメントを抽出する手法を提案する。 我々のセグメンテーションは凸曲線と凹曲線を与える。 そのため、閾値フィルタ応答の画素をグループ化することにより、曲線支持領域を形成する。 次に、各支持領域境界をフーリエ級数でモデル化し、対応するパラメトリック曲線セグメントを抽出する。

We introduce a method to extract curve segments in parametric form from the image directly using the Laplacian of Gaussian (LoG) filter response. Our segmentation gives convex and concave curves. To do so, we form curve support regions by grouping pixels of the thresholded filter response. Then, we model each support region boundary by Fourier series and extract the corresponding parametric curve segment.
翻訳日:2024-07-08 14:31:15 公開日:2024-07-05
# NeuFair: ドロップアウトによるニューラルネットワークのフェアネス修復

NeuFair: Neural Network Fairness Repair with Dropout ( http://arxiv.org/abs/2407.04268v1 )

ライセンス: Link先を確認
Vishnu Asutosh Dasu, Ashish Kumar, Saeid Tizpaz-Niari, Gang Tan, (参考訳) 本稿では,ディープニューラルネットワーク(DNN)の処理後バイアス軽減手法として,ニューラルドロップアウト法について検討する。 神経駆動型ソフトウェアソリューションは、社会的に重要な領域において、重要な公正性に影響を及ぼす。 ニューラルネットワークはデータから統計パターンを見つけるのに非常に適しているが、過去のデータから既存のバイアスをエンコードし増幅するトレーニングデータセットに過度に適合していることで有名だ。 既存のバイアス軽減アルゴリズムは、入力データセットを変更するか、学習アルゴリズムを変更する必要があることが多い。 ランダムにニューロンを落とすことによるトレーニング中に過剰な適合を防げる一般的なドロップアウト手法は、事前訓練されたDNNの公平性を改善するための効果的な、より侵入的なアプローチである可能性があると仮定する。 しかし、ドロップするニューロンの理想的な集合を見つけることは組合せ問題である。 我々は,事前学習したDNNにおける不公平性を緩和する,後処理のランダム化アルゴリズムであるNeuFairを提案する。 我々のランダム化検索は、モデルユーティリティを維持しながら差別を最小限に抑える目的によって導かれる。 ランダム化アルゴリズムの設計は,最適解を求めるための統計的保証を提供し,性能劣化を最小限に抑えつつ,公平性向上におけるNeuFairの有効性と効率を実証的に評価する。 以上の結果から,NeuFairは公正性を最大69%向上し,最先端のポストプロセッシングバイアス技術より優れることがわかった。

This paper investigates the neural dropout method as a post-processing bias mitigation for deep neural networks (DNNs). Neural-driven software solutions are increasingly applied in socially critical domains with significant fairness implications. While neural networks are exceptionally good at finding statistical patterns from data, they are notorious for overfitting to the training datasets that may encode and amplify existing biases from the historical data. Existing bias mitigation algorithms often require either modifying the input dataset or modifying the learning algorithms. We posit that the prevalent dropout methods that prevent over-fitting during training by randomly dropping neurons may be an effective and less intrusive approach to improve fairness of pre-trained DNNs. However, finding the ideal set of neurons to drop is a combinatorial problem. We propose NeuFair, a family of post-processing randomized algorithms that mitigate unfairness in pre-trained DNNs. Our randomized search is guided by an objective to minimize discrimination while maintaining the model utility. We show that our design of randomized algorithms provides statistical guarantees on finding optimal solutions, and we empirically evaluate the efficacy and efficiency of NeuFair in improving fairness, with minimal or no performance degradation. Our results show that NeuFair improves fairness by up to 69% and outperforms state-of-the-art post-processing bias techniques.
翻訳日:2024-07-08 14:31:15 公開日:2024-07-05
# 回転と色変化の入力型部分的等式に対する変分部分群畳み込み

Variational Partial Group Convolutions for Input-Aware Partial Equivariance of Rotations and Color-Shifts ( http://arxiv.org/abs/2407.04271v1 )

ライセンス: Link先を確認
Hyunsu Kim, Yegon Kim, Hongseok Yang, Juho Lee, (参考訳) グループ同変CNN(G-CNN)は、階層的特徴を同変的に捉える能力のため、様々なタスクにおいて有望な有効性を示している。 しかし、それらの等式はグループ全体の対称性に固定されており、手書き桁画像の回転対称性や花画像の色のシフト対称性の制限など、実世界のデータセットにおける様々な部分対称性への適応性を制限している。 近年の取り組みは、この制限に対処しており、例えば、部分G-CNNは、畳み込み層の出力群空間を、完全な等式を破るために制限している。 しかし、そのようなアプローチは、データ間の平衡レベルを調整することにはまだ失敗している。 本稿では,各データインスタンスに特有の部分的等値の変動レベルを捉えるための,新しいアプローチとして,変分部分G-CNN(VP G-CNN)を提案する。 VP G-CNNは入力データに条件付けされる出力群要素の分布を再設計し、過度な適合を避けるために変分推論を利用する。 これにより、モデルは個々のデータポイントのニーズに応じて同値レベルを調整することができる。 さらに、離散群同値モデルに固有のトレーニング不安定性について、再帰的分布を再考することによって解決する。 我々は,MNIST67-180,CIFAR10,ColorMNIST,Flowers102など,おもちゃと現実世界の両方のデータセットに対するVP G-CNNの有効性を示す。 結果から,不確実性指標においても,ロバストな性能を示した。

Group Equivariant CNNs (G-CNNs) have shown promising efficacy in various tasks, owing to their ability to capture hierarchical features in an equivariant manner. However, their equivariance is fixed to the symmetry of the whole group, limiting adaptability to diverse partial symmetries in real-world datasets, such as limited rotation symmetry of handwritten digit images and limited color-shift symmetry of flower images. Recent efforts address this limitation, one example being Partial G-CNN which restricts the output group space of convolution layers to break full equivariance. However, such an approach still fails to adjust equivariance levels across data. In this paper, we propose a novel approach, Variational Partial G-CNN (VP G-CNN), to capture varying levels of partial equivariance specific to each data instance. VP G-CNN redesigns the distribution of the output group elements to be conditioned on input data, leveraging variational inference to avoid overfitting. This enables the model to adjust its equivariance levels according to the needs of individual data points. Additionally, we address training instability inherent in discrete group equivariance models by redesigning the reparametrizable distribution. We demonstrate the effectiveness of VP G-CNN on both toy and real-world datasets, including MNIST67-180, CIFAR10, ColorMNIST, and Flowers102. Our results show robust performance, even in uncertainty metrics.
翻訳日:2024-07-08 14:31:15 公開日:2024-07-05
# Dual-Level Adaptive Lossy Compressionを用いたDeep Learning Recommendation Modelトレーニングにおけるコミュニケーションの高速化

Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression ( http://arxiv.org/abs/2407.04272v1 )

ライセンス: Link先を確認
Hao Feng, Boyuan Zhang, Fanjiang Ye, Min Si, Ching-Hsiang Chu, Jiannan Tian, Chunxing Yin, Zhaoxia, Deng, Yuchen Hao, Pavan Balaji, Tong Geng, Dingwen Tao, (参考訳) DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。 しかし、DLRMモデルの大きなサイズは、効率的なトレーニングのために複数のデバイス/GPUを使用する必要がある。 このプロセスにおける重要なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。 これを軽減するため,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。 本研究では,埋込データの特徴を詳細に解析し,高い圧縮率を達成するために,新しい誤り結合型損失圧縮アルゴリズムを開発した。 さらに、テーブルワイドとイテレーションワイドの両方にまたがる、エラーバウンド調整のための二重レベル適応戦略を導入し、圧縮の利点と精度への影響をバランスさせる。 さらに、GPU上のPyTorchテンソルの圧縮機を最適化し、圧縮オーバーヘッドを最小限にする。 評価の結果,本手法は最小限の精度で1.38$\times$トレーニングスピードアップを達成した。

DLRM is a state-of-the-art recommendation system model that has gained widespread adoption across various industry applications. The large size of DLRM models, however, necessitates the use of multiple devices/GPUs for efficient training. A significant bottleneck in this process is the time-consuming all-to-all communication required to collect embedding data from all devices. To mitigate this, we introduce a method that employs error-bounded lossy compression to reduce the communication data size and accelerate DLRM training. We develop a novel error-bounded lossy compression algorithm, informed by an in-depth analysis of embedding data features, to achieve high compression ratios. Moreover, we introduce a dual-level adaptive strategy for error-bound adjustment, spanning both table-wise and iteration-wise aspects, to balance the compression benefits with the potential impacts on accuracy. We further optimize our compressor for PyTorch tensors on GPUs, minimizing compression overhead. Evaluation shows that our method achieves a 1.38$\times$ training speedup with a minimal accuracy impact.
翻訳日:2024-07-08 14:31:15 公開日:2024-07-05
# サウジアラビアの持続的成長のためのIoT活用の景観理解

Understanding the Landscape of Leveraging IoT for Sustainable Growth in Saudi Arabia ( http://arxiv.org/abs/2407.04273v1 )

ライセンス: Link先を確認
Manal Alshehri, Ohoud Alharbi, (参考訳) 農業におけるモノのインターネット(IoT)技術の統合は、特にサウジアラビア王国(KSA)において、農業の実践を変えることを約束している。 本研究は,KSA農家におけるスマート農業の実践について考察した。 KSAの地理的な位置と性質のため、農業において大きな課題に直面している。 本研究の目的は,様々な年齢,地域,経験年数をもつサウジアラビアの農家を対象に,IoTがKSAの農業をいかに向上させるのかを議論し,その利用状況を明らかにすることである。 その結果、農家の90%が農業の課題に直面しており、これらの問題に対処するためにスマート農業を採用することに関心を示していることが示唆された。 現在、農家の60%がIoT技術を利用しているが、スマート農業の実践における課題に直面している。 このように、スマート農業は、悪天候、水不足、労働不足など、一般的な課題に対する解決策を提供するが、障壁にはコストと教育上の課題が含まれる。

The integration of Internet of Things (IoT) technologies in agriculture holds promise for transforming farming practices, particularly in the Kingdom of Saudi Arabia (KSA). This study explores the adoption of smart farming practices among KSA farmers. Due to the geographical location and nature of KSA, it faces significant challenges in agriculture. The objective of this research is to discuss how IoT will enhance agriculture in KSA and identify its current usage by conducting a study on Saudi farmers with varying ages, regions, and years of experience. The results indicate that 90% of the farmers encounter challenges in farming, and all of them express interest in adopting smart farming to address these issues. While 60% of farmers are currently utilizing IoT technologies, they encounter challenges in implementing smart farming practices. Thus, smart farming presents solutions to prevalent challenges including adverse weather, water scarcity, and labor shortages, though barriers include cost and educational challenges.
翻訳日:2024-07-08 14:31:15 公開日:2024-07-05
# イベント境界検出のためのきめ細かい動的ネットワーク

Fine-grained Dynamic Network for Generic Event Boundary Detection ( http://arxiv.org/abs/2407.04274v1 )

ライセンス: Link先を確認
Ziwei Zheng, Lijun He, Le Yang, Fan Li, (参考訳) ジェネリックイベント境界検出(GEBD)は、人間が自然に知覚するイベント境界をピンポイントすることを目的としており、ロングフォームビデオを理解する上で重要な役割を果たす。 さまざまなビデオの外観、オブジェクト、アクションにまたがる、汎用境界の多様性を考えると、この作業は依然として困難である。 既存の手法では, 特性や検出の難しさに関わらず, 様々な境界を同じプロトコルで検出する。 直感的には、よりインテリジェントで合理的な方法は、その特別な性質を考慮して境界を適応的に検出することである。 そこで我々はDyBDetという汎用イベント境界のための新しい動的パイプラインを提案する。 マルチエグジットネットワークアーキテクチャを導入することで、DyBDetは異なるビデオスニペットへのサブネット割り当てを自動的に学習し、様々な境界のきめ細かい検出を可能にする。 さらに、汎用境界を効果的に同定し、適応的に処理できるように、多次差分検出器も提案されている。 Kinetics-GEBD と TAPOS のデータセットに対する大規模な実験は、ダイナミック戦略の採用が GEBD タスクに大きく貢献することを示した。

Generic event boundary detection (GEBD) aims at pinpointing event boundaries naturally perceived by humans, playing a crucial role in understanding long-form videos. Given the diverse nature of generic boundaries, spanning different video appearances, objects, and actions, this task remains challenging. Existing methods usually detect various boundaries by the same protocol, regardless of their distinctive characteristics and detection difficulties, resulting in suboptimal performance. Intuitively, a more intelligent and reasonable way is to adaptively detect boundaries by considering their special properties. In light of this, we propose a novel dynamic pipeline for generic event boundaries named DyBDet. By introducing a multi-exit network architecture, DyBDet automatically learns the subnet allocation to different video snippets, enabling fine-grained detection for various boundaries. Besides, a multi-order difference detector is also proposed to ensure generic boundaries can be effectively identified and adaptively processed. Extensive experiments on the challenging Kinetics-GEBD and TAPOS datasets demonstrate that adopting the dynamic strategy significantly benefits GEBD tasks, leading to obvious improvements in both performance and efficiency compared to the current state-of-the-art.
翻訳日:2024-07-08 14:31:15 公開日:2024-07-05
# イベントベース歩行者検出の研究開発とその応用と展望

Research, Applications and Prospects of Event-Based Pedestrian Detection: A Survey ( http://arxiv.org/abs/2407.04277v1 )

ライセンス: Link先を確認
Han Wang, Yuman Nie, Yun Li, Hongjie Liu, Min Liu, Wen Cheng, Yaoxiong Wang, (参考訳) 生物学的網膜にインスパイアされたイベントベースのカメラは、最小限の電力要求、無視できるレイテンシ、時間分解能、拡張可能なダイナミックレンジによって区別される最先端のセンサーへと進化してきた。 現在、歩行者検出に用いられるカメラは、主にフレームベースの撮像センサーであり、レタキシー反応時間と重度のデータ冗長性に悩まされている。 対照的に、イベントベースのカメラは、高速撮像シナリオにおいて、外部データ伝送を誘発し、動きのぼやけをなくすことによって、これらの制限に対処する。 本稿では,イベントベースカメラによる歩行者検出について,特に自律運転環境における研究と応用について概観する。 本論文は,関連文献の方法論的精査を通じて,基本原理,発達軌跡,および従来のフレームベース手法と比較しての事象検出のメリットとデメリットについて概説する。 本稿では,各種イベントストリーム入力とそれに対応するネットワークモデルを網羅的に分析し,各種運用環境における適用性を評価する。 また、この技術の進歩に不可欠な重要なデータセットやデータ取得技術、イベントストリームデータを処理する高度なアルゴリズムなど、重要な要素についても検討している。 既存の景観の合成によって、このレビューは、イベントベースの歩行者検出に固有の、ユニークな利点と永続的な課題を強調し、この急速な進歩の分野における将来の発展の予見を提供する。

Event-based cameras, inspired by the biological retina, have evolved into cutting-edge sensors distinguished by their minimal power requirements, negligible latency, superior temporal resolution, and expansive dynamic range. At present, cameras used for pedestrian detection are mainly frame-based imaging sensors, which have suffered from lethargic response times and hefty data redundancy. In contrast, event-based cameras address these limitations by eschewing extraneous data transmissions and obviating motion blur in high-speed imaging scenarios. On pedestrian detection via event-based cameras, this paper offers an exhaustive review of research and applications particularly in the autonomous driving context. Through methodically scrutinizing relevant literature, the paper outlines the foundational principles, developmental trajectory, and the comparative merits and demerits of eventbased detection relative to traditional frame-based methodologies. This review conducts thorough analyses of various event stream inputs and their corresponding network models to evaluate their applicability across diverse operational environments. It also delves into pivotal elements such as crucial datasets and data acquisition techniques essential for advancing this technology, as well as advanced algorithms for processing event stream data. Culminating with a synthesis of the extant landscape, the review accentuates the unique advantages and persistent challenges inherent in event-based pedestrian detection, offering a prognostic view on potential future developments in this fast-progressing field.
翻訳日:2024-07-08 14:31:15 公開日:2024-07-05
# BiosERC:ERCタスクのためのLCMの支援によるバイオグラフィー話者の統合

BiosERC: Integrating Biography Speakers Supported by LLMs for ERC Tasks ( http://arxiv.org/abs/2407.04279v1 )

ライセンス: Link先を確認
Jieying Xue, Minh Phuong Nguyen, Blake Matheny, Le Minh Nguyen, (参考訳) 会話課題における感情認識において、近年の研究では、話者間の感情的相互作用をモデル化するために、話者内および話者間の発話間の関係を探索する注意機構が活用されている。 しかし、話者の性格特性などの属性は未解明のままであり、他のタスクへの適用性や多様なモデルアーキテクチャとの互換性の観点からも課題を提示している。 そこで本研究では,会話における話者特性を調査するBiosERCという新しいフレームワークを紹介した。 本研究では,Large Language Models (LLMs) を用いて,会話中の話者の「生体情報」をモデルに注入した補足的知識として抽出し,発話毎に感情ラベルを分類する。 提案手法は,IEMOCAP,MELD,EmoryNLPの3つのベンチマークデータセットを用いて,本モデルの有効性と一般化を実証し,様々な会話分析タスクへの適応の可能性を示した。 ソースコードはhttps://github.com/yingjie7/BiosERC.comで公開されています。

In the Emotion Recognition in Conversation task, recent investigations have utilized attention mechanisms exploring relationships among utterances from intra- and inter-speakers for modeling emotional interaction between them. However, attributes such as speaker personality traits remain unexplored and present challenges in terms of their applicability to other tasks or compatibility with diverse model architectures. Therefore, this work introduces a novel framework named BiosERC, which investigates speaker characteristics in a conversation. By employing Large Language Models (LLMs), we extract the "biographical information" of the speaker within a conversation as supplementary knowledge injected into the model to classify emotional labels for each utterance. Our proposed method achieved state-of-the-art (SOTA) results on three famous benchmark datasets: IEMOCAP, MELD, and EmoryNLP, demonstrating the effectiveness and generalization of our model and showcasing its potential for adaptation to various conversation analysis tasks. Our source code is available at https://github.com/yingjie7/BiosERC.
翻訳日:2024-07-08 14:21:30 公開日:2024-07-05
# LearnerVoice:非負の英語学習者の自発音声のデータセット

LearnerVoice: A Dataset of Non-Native English Learners' Spontaneous Speech ( http://arxiv.org/abs/2407.04280v1 )

ライセンス: Link先を確認
Haechan Kim, Junho Myung, Seoyoung Kim, Sungpah Lee, Dongyeop Kang, Juho Kim, (参考訳) 第二言語(L2)学習者による自然発話における非文法的表現と不一致は、自動音声認識(ASR)システムに固有の課題を提起する。 しかし、L2学習音声に適したデータセットはほとんどない。 我々はLearnerVoiceを公開し、LearnerVoiceは50.04時間の音声とL2学習者の自然発話の書き起こしからなるデータセットである。 言語学的分析の結果,L2S(L2学習者の自発音声)の特徴は,非文法的表現と不一致(例えば,充足語,単語繰り返し,自己修復,偽開始)から成り立っていることがわかった。 LearnerVoiceによる微調整のwhisper-small.enのWERは10.26%、バニラのwhisper-small.enよりも44.2%低い。 さらに,LearnerVoiceにおけるバニラモデルの誤差の54.2%がL2Sの特徴によるもので,48.1%が微調整モデルで減少している。

Prevalent ungrammatical expressions and disfluencies in spontaneous speech from second language (L2) learners pose unique challenges to Automatic Speech Recognition (ASR) systems. However, few datasets are tailored to L2 learner speech. We publicly release LearnerVoice, a dataset consisting of 50.04 hours of audio and transcriptions of L2 learners' spontaneous speech. Our linguistic analysis reveals that transcriptions in our dataset contain L2S (L2 learner's Spontaneous speech) features, consisting of ungrammatical expressions and disfluencies (e.g., filler words, word repetitions, self-repairs, false starts), significantly more than native speech datasets. Fine-tuning whisper-small.en with LearnerVoice achieves a WER of 10.26%, 44.2% lower than vanilla whisper-small.en. Furthermore, our qualitative analysis indicates that 54.2% of errors from the vanilla model on LearnerVoice are attributable to L2S features, with 48.1% of them being reduced in the fine-tuned model.
翻訳日:2024-07-08 14:21:30 公開日:2024-07-05
# ロバスト決定変換器:シーケンスモデリングによるオフラインRLにおけるデータの破壊に対処する

Robust Decision Transformer: Tackling Data Corruption in Offline RL via Sequence Modeling ( http://arxiv.org/abs/2407.04285v1 )

ライセンス: Link先を確認
Jiawei Xu, Rui Yang, Feng Luo, Meng Fang, Baoxiang Wang, Lei Han, (参考訳) オフラインデータセットからオフライン強化学習(RL)を通じての学習ポリシは、データ駆動による意思決定のスケールアップと、安全でコストのかかるオンラインインタラクションの回避を約束する。 しかし、センサや人間から収集された実世界のデータには、しばしばノイズやエラーが含まれており、既存のオフラインRL手法には大きな課題がある。 本研究では、時間差分学習に基づく従来のオフラインRL手法は、特にデータ量に制限がある場合、データ破損時にDT(Decision Transformer)を過小評価する傾向にあることを示す。 これは、オフラインのRLでデータ破損に対処するためのシーケンシャルなモデリングの可能性を示している。 そこで本研究では,ロバスト決定変換器 (RDT) を提案する。 具体的には,ガウス重み付き学習と反復データ補正を導入し,劣化したデータの効果を低減する。 さらに、埋め込みドロップアウトを利用して、間違った入力に対するモデルの抵抗を高める。 MoJoCo、KitChen、Adroitタスクに関する大規模な実験は、RTTが従来の方法に比べて多種多様なデータ破損下での優れたパフォーマンスを示している。 さらに、RTTは、トレーニング時のデータ破損とテスト時の観察摂動を組み合わせた困難な環境で、顕著な堅牢性を示す。 これらの結果は、ノイズや破損したオフラインデータセットから学習するための堅牢なシーケンスモデリングの可能性を強調し、現実世界のタスクにおけるオフラインRLの信頼性の高い適用を促進する。

Learning policies from offline datasets through offline reinforcement learning (RL) holds promise for scaling data-driven decision-making and avoiding unsafe and costly online interactions. However, real-world data collected from sensors or humans often contains noise and errors, posing a significant challenge for existing offline RL methods. Our study indicates that traditional offline RL methods based on temporal difference learning tend to underperform Decision Transformer (DT) under data corruption, especially when the amount of data is limited. This suggests the potential of sequential modeling for tackling data corruption in offline RL. To further unleash the potential of sequence modeling methods, we propose Robust Decision Transformer (RDT) by incorporating several robust techniques. Specifically, we introduce Gaussian weighted learning and iterative data correction to reduce the effect of corrupted data. Additionally, we leverage embedding dropout to enhance the model's resistance to erroneous inputs. Extensive experiments on MoJoCo, KitChen, and Adroit tasks demonstrate RDT's superior performance under diverse data corruption compared to previous methods. Moreover, RDT exhibits remarkable robustness in a challenging setting that combines training-time data corruption with testing-time observation perturbations. These results highlight the potential of robust sequence modeling for learning from noisy or corrupted offline datasets, thereby promoting the reliable application of offline RL in real-world tasks.
翻訳日:2024-07-08 14:21:30 公開日:2024-07-05
# MARS:テキストに基づく人物検索のための視覚属性にもっと注意を払う

MARS: Paying more attention to visual attributes for text-based person search ( http://arxiv.org/abs/2407.04287v1 )

ライセンス: Link先を確認
Alex Ergasti, Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati, (参考訳) テキストベースの人物検索(TBPS)は、研究コミュニティ内で大きな関心を集めている問題である。 タスクは、テキスト記述に基づいて、特定の個人の1つ以上の画像を検索する作業である。 タスクのマルチモーダルな性質は、テキストと画像データを共有潜在空間内にブリッジする学習表現を必要とする。 既存のTBPSシステムは2つの大きな課題に直面している。 一人は、本質的な曖昧さとテキスト記述の不正確さによる個人間ノイズと定義され、また、視覚的属性の記述が一般的に異なる人々とどのように結びつくかを示すものであり、もう一つは、被写体における同じテキスト属性の視覚的外観を変えることのできる、すべてのニュアンスegのポーズ、照明である、同一性内ノイズである。 これらの課題に対処するために,MARS (Mae-Attribute-Relation-Sensitive) という新しいTBPSアーキテクチャを提案する。 前者は、テキスト記述の助けを借りてランダムにマスクされたイメージパッチを再構築するよう訓練されたMasked AutoEncoderを使用している。 そうすることで、モデルはより表現力のある表現と、潜在空間におけるテキストと視覚の関係を学ぶことが奨励される。 Attribute Lossは、形容詞-名詞のテキストチャンクとして定義される、さまざまなタイプの属性のコントリビューションのバランスを取る。 この損失は、人物検索プロセスにおいて全ての属性が考慮されることを保証する。 CUHK-PEDES(英語版)、ICFG-PEDES(英語版)、RSTPReid(英語版)の3つの一般的なデータセットに対する大規模な実験では、現在の最先端の平均精度(mAP)メートル法において大きな改善が報告されている。

Text-based person search (TBPS) is a problem that gained significant interest within the research community. The task is that of retrieving one or more images of a specific individual based on a textual description. The multi-modal nature of the task requires learning representations that bridge text and image data within a shared latent space. Existing TBPS systems face two major challenges. One is defined as inter-identity noise that is due to the inherent vagueness and imprecision of text descriptions and it indicates how descriptions of visual attributes can be generally associated to different people; the other is the intra-identity variations, which are all those nuisances e.g. pose, illumination, that can alter the visual appearance of the same textual attributes for a given subject. To address these issues, this paper presents a novel TBPS architecture named MARS (Mae-Attribute-Relation-Sensitive), which enhances current state-of-the-art models by introducing two key components: a Visual Reconstruction Loss and an Attribute Loss. The former employs a Masked AutoEncoder trained to reconstruct randomly masked image patches with the aid of the textual description. In doing so the model is encouraged to learn more expressive representations and textual-visual relations in the latent space. The Attribute Loss, instead, balances the contribution of different types of attributes, defined as adjective-noun chunks of text. This loss ensures that every attribute is taken into consideration in the person retrieval process. Extensive experiments on three commonly used datasets, namely CUHK-PEDES, ICFG-PEDES, and RSTPReid, report performance improvements, with significant gains in the mean Average Precision (mAP) metric w.r.t. the current state of the art.
翻訳日:2024-07-08 14:21:30 公開日:2024-07-05
# 多電子シリコン量子ドットの電子相関

Electronic Correlations in Multielectron Silicon Quantum Dots ( http://arxiv.org/abs/2407.04289v1 )

ライセンス: Link先を確認
Dylan H. Liang, MengKe Feng, Philip Y. Mai, Jesus D. Cifuentes, Andrew S. Dzurak, Andre Saraiva, (参考訳) シリコン量子コンピューティングは、複雑なエラー修正計算を行うのに十分な高品質な量子ビットを提供することで、計算的に複雑で、あるいは現代のコンピュータでは難解な現実の問題を解く能力を持つ技術に革命をもたらす可能性がある。 シリコン金属-酸化物-半導体系量子ドットは、実用的な量子コンピュータを実現するための有望な経路を示す。 特定の量子ビット特性を改善するために、複数の電子を同じドットに組み込んで、より高い閉じ込められた軌道状態において量子ビットを形成するという一般的な戦略である。 理論的モデリングは、これらの電子の量子的振る舞いを理解する上で不可欠な部分であり、デバイスモデルの物理的動作を検証する基盤を提供し、実験データに対する洞察を提供する。 ハートリー・フォック理論(Hartree-Fock theory)は、管理可能な計算負荷で多数の電子をシミュレートする能力により、多電子量子ドットの電子構造モデリングの必須ツールである。 しかし、シリコン中のドット形成が強い電子-電子相互作用と伝導帯の谷によって特徴づけられるのに加えて、比較的高い有効質量を持つため、十分に確立されたシェル構造ではなく電子間の反発によって支配される振る舞いを生み出すため、自己整合体の効率的な計算が困難になる。 本稿では,シリコン量子ドットのモデリングにおいて,これらの複雑さを考慮に入れたHartree-Fock法を提案する。 この方法により、まず電子-電子相互作用とバレー自由度とそれらの意味を包含することの重要性を確定する。 次に、異方性点の簡単な場合を探索し、異方性が点形成に与える影響を観察する。

Silicon quantum computing has the potential to revolutionize technology with capabilities to solve real-life problems that are computationally complex or even intractable for modern computers [1] by offering sufficient high quality qubits to perform complex error-corrected calculations. Silicon metal-oxide-semiconductor based quantum dots present a promising pathway for realizing practical quantum computers. To improve certain qubit properties, it is a common strategy to incorporate multiple electrons in the same dot in order to form qubits in higher confined orbital states. Theoretical modelling is an essential part of understanding the quantum behaviour of these electrons, providing a basis for validating the physical working of device models as well as providing insights into experimental data. Hartree-Fock theory is an imperative tool for the electronic structure modelling of multi-electron quantum dots due to its ability to simulate a large number of electrons with manageable computation load. However, an efficient calculation of the self-consistent field becomes hard because dot formations in silicon are characterized by strong electron-electron interactions and conduction band valleys, besides the relatively high comparative effective mass, which add to create a behaviour dominated by repulsion between electrons rather than a well established shell structure. In this paper, we present a Hartree-Fock-based method that accounts for these complexities for the modelling of silicon quantum dots. With this method, we first establish the significance of including electron-electron interactions and valley degree of freedom and their implications. We then explore a simple case of anisotropic dots and observe the impact of anisotropy on dot formations.
翻訳日:2024-07-08 14:21:30 公開日:2024-07-05
# 音声合成のバリエーション:話者埋め込みのためのサブセンタモデリング

We Need Variations in Speech Synthesis: Sub-center Modelling for Speaker Embeddings ( http://arxiv.org/abs/2407.04291v1 )

ライセンス: Link先を確認
Ismail Rasim Ulgen, Carlos Busso, John H. L. Hansen, Berrak Sisman, (参考訳) 音声合成においては、人間の声に含まれる豊かな感情と韻律変化のモデリングが自然音声の合成に不可欠である。 話者埋め込みは、パーソナライズされた音声合成を条件付け入力として広く用いられているが、話者認識精度を最適化するために、変化を無くすように設計されている。 したがって、これらは、出力音声分布におけるリッチな変動をモデル化するという点で、音声合成に最適である。 本研究では,従来の組込みシステムとして単一クラス中心ではなく,複数のクラス中心を用いた話者分類訓練を行う新しい組込みネットワークを提案する。 提案手法では,話者の発話をすべて単一クラス中心にマッピングする必要がないため,話者認識性能を維持しながら話者埋め込みのバリエーションを導入する。 提案手法を音声変換タスクに応用し, 合成音声の自然性や韻律が向上することを示す。

In speech synthesis, modeling of rich emotions and prosodic variations present in human voice are crucial to synthesize natural speech. Although speaker embeddings have been widely used in personalized speech synthesis as conditioning inputs, they are designed to lose variation to optimize speaker recognition accuracy. Thus, they are suboptimal for speech synthesis in terms of modeling the rich variations at the output speech distribution. In this work, we propose a novel speaker embedding network which utilizes multiple class centers in the speaker classification training rather than a single class center as traditional embeddings. The proposed approach introduces variations in the speaker embedding while retaining the speaker recognition performance since model does not have to map all of the utterances of a speaker into a single class center. We apply our proposed embedding in voice conversion task and show that our method provides better naturalness and prosody in synthesized speech.
翻訳日:2024-07-08 14:21:30 公開日:2024-07-05
# 遅延を考慮したオンライン話者ダイアリゼーションシステムのシステム評価

Systematic Evaluation of Online Speaker Diarization Systems Regarding their Latency ( http://arxiv.org/abs/2407.04293v1 )

ライセンス: Link先を確認
Roman Aperdannier, Sigurd Schacht, Alexander Piazza, (参考訳) 本稿では、異なるオンライン話者ダイアリゼーションシステムについて、そのレイテンシに関して、同じテストデータを持つ同じハードウェア上で評価する。 遅延とは、音声入力から対応する話者ラベルの出力までの時間である。 評価の一環として、DIARTフレームワーク内の様々なモデルの組み合わせ、オンラインクラスタリングアルゴリズムであるUIS-RNN-SMLに基づくダイアリゼーションシステム、およびエンドツーエンドのオンラインダイアリゼーションシステムFS-EENDを比較した。 組込みモデル pyannote/embedding とセグメンテーションモデル pyannote/segmentation でDIART-pipeline で最低レイテンシを実現する。 FS-EENDシステムも同様に優れたレイテンシを示している。 一般に、いくつかのオンラインダイアリゼーションシステムと比較する研究は発表されていない。 これにより、この作業はより重要になります。

In this paper, different online speaker diarization systems are evaluated on the same hardware with the same test data with regard to their latency. The latency is the time span from audio input to the output of the corresponding speaker label. As part of the evaluation, various model combinations within the DIART framework, a diarization system based on the online clustering algorithm UIS-RNN-SML, and the end-to-end online diarization system FS-EEND are compared. The lowest latency is achieved for the DIART-pipeline with the embedding model pyannote/embedding and the segmentation model pyannote/segmentation. The FS-EEND system shows a similarly good latency. In general there is currently no published research that compares several online diarization systems in terms of their latency. This makes this work even more relevant.
翻訳日:2024-07-08 14:21:30 公開日:2024-07-05
# SQLaser: クロースガイドファジィによるDBMS論理バグの検出

SQLaser: Detecting DBMS Logic Bugs with Clause-Guided Fuzzing ( http://arxiv.org/abs/2407.04294v1 )

ライセンス: Link先を確認
Jin Wei, Ping Chen, Kangjie Lu, Jun Dai, Xiaoyan Sun, (参考訳) データベース管理システム(DBMS)は、現代のデータ駆動システムにおいて重要なコンポーネントである。 これらの複雑さは、DBMS内の実装エラーであるロジックのバグにつながることが多く、必ずしもシステム障害を発生させることなく、誤ったクエリ結果、データ露出、不正アクセスなどに繋がる。 既存の検出には、ルールベースのバグ検出とカバレッジ誘導ファジィという2つの戦略がある。 一般的に、ルール仕様そのものは困難であり、結果として、ルールベースの検出は特定のルールと単純なルールに限られる。 カバレッジ誘導ファジィは、コードパスやブロックを盲目的に探索するが、その多くはロジックのバグを含まないため、この戦略はコスト非効率である。 本稿では,DBMSの論理的バグを検出するSQL-clause-guided fuzzerであるSQLaserを設計する。 システムクラッシュの原因を除いた4つのDBMSにまたがる既存のロジックバグの包括的調査を通じて、35のロジックバグパターンを特定した。 これらのパターンは、一般的にロジックのバグを引き起こす特定のSQL節の組み合わせとして現れ、これらの条項の組み合わせは関数のシーケンスである。 したがって、我々はエラーを起こしやすい関数チェーン(つまり関数のシーケンス)としてロジックバグパターンをモデル化する。 さらに,これらのチェーンを効果的にテストし,追加の論理的バグを発見するための経路間距離計算機構を新たに開発した。 このメカニズムにより、SQLaserは素早くターゲットサイトへナビゲートし、これらのパスから発生する潜在的なバグを発見できる。 SQLite、MySQL、PostgreSQL、TiDBで実施した我々の評価は、SQLaserが他のファジィアプローチに比べてバグ発見を著しく加速し、検出時間を約60%削減していることを示している。

Database Management Systems (DBMSs) are vital components in modern data-driven systems. Their complexity often leads to logic bugs, which are implementation errors within the DBMSs that can lead to incorrect query results, data exposure, unauthorized access, etc., without necessarily causing visible system failures. Existing detection employs two strategies: rule-based bug detection and coverage-guided fuzzing. In general, rule specification itself is challenging; as a result, rule-based detection is limited to specific and simple rules. Coverage-guided fuzzing blindly explores code paths or blocks, many of which are unlikely to contain logic bugs; therefore, this strategy is cost-ineffective. In this paper, we design SQLaser, a SQL-clause-guided fuzzer for detecting logic bugs in DBMSs. Through a comprehensive examination of most existing logic bugs across four distinct DBMSs, excluding those causing system crashes, we have identified 35 logic bug patterns. These patterns manifest as certain SQL clause combinations that commonly result in logic bugs, and behind these clause combinations are a sequence of functions. We therefore model logic bug patterns as error-prone function chains (ie, sequences of functions). We further develop a directed fuzzer with a new path-to-path distance-calculation mechanism for effectively testing these chains and discovering additional logic bugs. This mechanism enables SQLaser to swiftly navigate to target sites and uncover potential bugs emerging from these paths. Our evaluation, conducted on SQLite, MySQL, PostgreSQL, and TiDB, demonstrates that SQLaser significantly accelerates bug discovery compared to other fuzzing approaches, reducing detection time by approximately 60%.
翻訳日:2024-07-08 14:21:30 公開日:2024-07-05
# 大規模言語モデルに対するジェイルブレイク攻撃と防衛:調査

Jailbreak Attacks and Defenses Against Large Language Models: A Survey ( http://arxiv.org/abs/2407.04295v1 )

ライセンス: Link先を確認
Sibo Yi, Yule Liu, Zhen Sun, Tianshuo Cong, Xinlei He, Jiaxing Song, Ke Xu, Qi Li, (参考訳) 大きな言語モデル(LLM)は、質問応答、翻訳、コード補完など、様々なテキスト生成タスクで例外的に実行されています。 しかし、LSMの過剰な支援は「ジェイルブレイク」という課題を提起し、敵のプロンプトを設計することで、利用方針や社会に対する悪意ある反応を発生させるモデルを生み出している。 LLMの異なる脆弱性を利用したジェイルブレイク攻撃手法の出現に伴い、対応する安全アライメント対策も進化している。 本稿では,ジェイルブレイク攻撃と防衛方法の包括的かつ詳細な分類法を提案する。 例えば、攻撃方法はターゲットモデルの透明性に基づいてブラックボックスとホワイトボックスの攻撃に分割される。 一方,防衛手法を即時防衛とモデルレベルの防衛に分類する。 さらに,これらの攻撃・防御手法を別のサブクラスに分割し,それらの関係を図示するコヒーレントな図を提示する。 また、現在の評価手法についても検討を行い、異なる視点から比較する。 本研究の目的は,LLMを敵攻撃から保護するための今後の研究・実践を刺激することである。 とりわけ、Jailbreakはコミュニティ内でも重要な関心事ですが、私たちはこの領域の理解を深め、よりセキュアなLDMを開発するための基盤を提供すると信じています。

Large Language Models (LLMs) have performed exceptionally in various text-generative tasks, including question answering, translation, code completion, etc. However, the over-assistance of LLMs has raised the challenge of "jailbreaking", which induces the model to generate malicious responses against the usage policy and society by designing adversarial prompts. With the emergence of jailbreak attack methods exploiting different vulnerabilities in LLMs, the corresponding safety alignment measures are also evolving. In this paper, we propose a comprehensive and detailed taxonomy of jailbreak attack and defense methods. For instance, the attack methods are divided into black-box and white-box attacks based on the transparency of the target model. Meanwhile, we classify defense methods into prompt-level and model-level defenses. Additionally, we further subdivide these attack and defense methods into distinct sub-classes and present a coherent diagram illustrating their relationships. We also conduct an investigation into the current evaluation methods and compare them from different perspectives. Our findings aim to inspire future research and practical implementations in safeguarding LLMs against adversarial attacks. Above all, although jailbreak remains a significant concern within the community, we believe that our work enhances the understanding of this domain and provides a foundation for developing more secure LLMs.
翻訳日:2024-07-08 14:21:30 公開日:2024-07-05
# HuntFUZZ:クラスタリングベースのファズリングによるエラー処理テストの強化

HuntFUZZ: Enhancing Error Handling Testing through Clustering Based Fuzzing ( http://arxiv.org/abs/2407.04297v1 )

ライセンス: Link先を確認
Jin Wei, Ping Chen, Jun Dai, Xiaoyan Sun, Zhihao Zhang, Chang Xu, Yi Wanga, (参考訳) エラーを効果的に処理するプログラムの能力をテストすることは、プログラムエラーが比較的稀であることを考えると、大きな課題である。 これを解決するために、Software Fault Injection(SFI)ベースのファジィは、SFIと従来のファジィを統合し、テスト(エラーハンドリング)コードのエラーを注入し、トリガーする。 しかし、現在のSFIベースのファジリング手法は、経路ハウジングエラー点間の相関性を見落としている。 実際、エラーポイントの実行パスはしばしば共通のパスを共有します。 それでも、Fuzzerは通常、一般的にトラバースされたパスでエラーポイントをテストするために、繰り返しテストケースを生成する。 このプラクティスはファジッターの効率を損なう可能性がある。 そこで本稿では,SFIベースのファジィフレームワークであるHuntFUZZを紹介する。 具体的には、HuntFUZZはこれらの相関するエラーポイントをクラスタ化し、各クラスタ内の共通パスに対してのみ制約を計算するために、ココリック実行を利用する。 これにより、ファジィザに効率の良いテストケースを提供し、最小冗長性で関連するエラー点を探索する。 我々はHuntFUZZを42のアプリケーションで評価し、HuntFUZZは162の既知のバグを明らかにし、そのうち62のバグはエラー処理に関連している。 さらに、HuntFUZZはその効率的なエラー点検出方法により、7つのユニークなゼロデイバグを発見し、それらは全て既存のファズナーによって見逃されている。 さらに,HuntFUZZと,AFL,AFL++,AFLGo,EH-FUZの4つのファジィ手法を比較した。 評価の結果,HuntFUZZは広い範囲のエラー点をカバーできることを確認した。

Testing a program's capability to effectively handling errors is a significant challenge, given that program errors are relatively uncommon. To solve this, Software Fault Injection (SFI)-based fuzzing integrates SFI and traditional fuzzing, injecting and triggering errors for testing (error handling) code. However, we observe that current SFI-based fuzzing approaches have overlooked the correlation between paths housing error points. In fact, the execution paths of error points often share common paths. Nonetheless, Fuzzers usually generate test cases repeatedly to test error points on commonly traversed paths. This practice can compromise the efficiency of the fuzzer(s). Thus, this paper introduces HuntFUZZ, a novel SFI-based fuzzing framework that addresses the issue of redundant testing of error points with correlated paths. Specifically, HuntFUZZ clusters these correlated error points and utilizes concolic execution to compute constraints only for common paths within each cluster. By doing so, we provide the fuzzer with efficient test cases to explore related error points with minimal redundancy. We evaluate HuntFUZZ on a diverse set of 42 applications, and HuntFUZZ successfully reveals 162 known bugs, with 62 of them being related to error handling. Additionally, due to its efficient error point detection method, HuntFUZZ discovers 7 unique zero-day bugs, which are all missed by existing fuzzers. Furthermore, we compare HuntFUZZ with 4 existing fuzzing approaches, including AFL, AFL++, AFLGo, and EH-FUZZ. Our evaluation confirms that HuntFUZZ can cover a broader range of error points, and it exhibits better performance in terms of bug finding speed.
翻訳日:2024-07-08 14:21:30 公開日:2024-07-05
# パーソナライズによる公正なフェデレーションデータクラスタリング - 分散データ分散のギャップを埋める

Fair Federated Data Clustering through Personalization: Bridging the Gap between Diverse Data Distributions ( http://arxiv.org/abs/2407.04302v1 )

ライセンス: Link先を確認
Shivam Gupta, Tarushi, Tsering Wangzes, Shweta Jain, (参考訳) エッジデバイスからのデータの急速な成長は、機械学習アルゴリズムのパフォーマンスを触媒にした。 しかしながら、生成されたデータはクライアントデバイスに存在するため、従来の機械学習パラダイムが直面する大きな課題が2つある – トレーニング用のデータの集中化と、クラスラベルが欠落している生成データの大部分に対して、高コストと専門知識の欠如により、クライアントが手動でデータをラベル付けするインセンティブが非常に低い。 これらの問題を解決するために、教師なしのフェデレートされたデータクラスタリングを使用して、分散的に保護されたプライバシで、不正なデータを処理するための初期の試みがあった。 目標は、クライアントで利用可能なデータを、実際のデータ交換なしで、$k$パーティション(クラスタと呼ばれる)に分割することだ。 既存のアルゴリズムのほとんどは、クライアント間のデータ分散パターンに依存しているか、あるいは計算コストが高い。 さらに、既存のモデルが現実的なシナリオのほとんどにおいて、クライアントにまたがるデータの歪んだ性質があるため、クライアントは高いクラスタリングコストを被り、フェデレーションプロセスへの参加に消極的になる可能性がある。 そこで,我々はまず,フェデレートクラスタリングにおけるパーソナライゼーションの考え方を紹介する。 目標は、より低いクラスタリングコストを達成することと、同時に、クライアント間で均一なコストを達成することのバランスを達成することです。 サーバとクライアント間の1ラウンドの通信でこれらの目標に対処するp-FClusを提案する。 我々は,p-FClusがデータ独立性を示す様々なフェデレーションデータセットに対して有効であること,有限$$$$-normに適用可能であること,同時にコストと分散の低減を実現していることを検証した。

The rapid growth of data from edge devices has catalyzed the performance of machine learning algorithms. However, the data generated resides at client devices thus there are majorly two challenge faced by traditional machine learning paradigms - centralization of data for training and secondly for most the generated data the class labels are missing and there is very poor incentives to clients to manually label their data owing to high cost and lack of expertise. To overcome these issues, there have been initial attempts to handle unlabelled data in a privacy preserving distributed manner using unsupervised federated data clustering. The goal is partition the data available on clients into $k$ partitions (called clusters) without actual exchange of data. Most of the existing algorithms are highly dependent on data distribution patterns across clients or are computationally expensive. Furthermore, due to presence of skewed nature of data across clients in most of practical scenarios existing models might result in clients suffering high clustering cost making them reluctant to participate in federated process. To this, we are first to introduce the idea of personalization in federated clustering. The goal is achieve balance between achieving lower clustering cost and at same time achieving uniform cost across clients. We propose p-FClus that addresses these goal in a single round of communication between server and clients. We validate the efficacy of p-FClus against variety of federated datasets showcasing it's data independence nature, applicability to any finite $\ell$-norm, while simultaneously achieving lower cost and variance.
翻訳日:2024-07-08 14:21:30 公開日:2024-07-05
# 安定な3次元物体検出に向けて

Towards Stable 3D Object Detection ( http://arxiv.org/abs/2407.04305v1 )

ライセンス: Link先を確認
Jiabao Wang, Qiang Meng, Guochao Liu, Liujiang Yan, Ke Wang, Ming-Ming Cheng, Qibin Hou, (参考訳) 自律運転においては、3次元物体検出の時間的安定性は運転安全性に大きな影響を及ぼす。 しかし、検出安定性はmAPやMOTAといった既存のメトリクスではアクセスできないため、コミュニティによる調査は少ない。 このギャップを埋めるために、この研究は3次元検出器の安定性を信頼度、ボックスの定位、範囲、方向で総合的に評価できる新しい指標である安定性指数(SI)を提案する。 Waymo Open Datasetで最先端のオブジェクト検出器をベンチマークすることで、SIは他のメトリクスでこれまで発見されていなかったオブジェクト安定性の興味深い特性を明らかにする。 さらに,モデルの安定性向上を支援するため,予測一貫性学習(PCL)と呼ばれる,汎用的で効果的なトレーニング戦略を導入する。 PCLは本質的に、異なるタイムスタンプと拡張の下で同じオブジェクトの予測一貫性を促進し、検出安定性を向上させる。 さらに,PCLと広く使用されているCenterPointの有効性について検討し,車種別86.00の顕著なSIを実現し,ベースラインを5.48以上越えた。 私たちの仕事は信頼できるベースラインとして機能し、この重要な3Dオブジェクト検出問題にコミュニティの注意を引き付けることを願っています。 コードは公開されます。

In autonomous driving, the temporal stability of 3D object detection greatly impacts the driving safety. However, the detection stability cannot be accessed by existing metrics such as mAP and MOTA, and consequently is less explored by the community. To bridge this gap, this work proposes Stability Index (SI), a new metric that can comprehensively evaluate the stability of 3D detectors in terms of confidence, box localization, extent, and heading. By benchmarking state-of-the-art object detectors on the Waymo Open Dataset, SI reveals interesting properties of object stability that have not been previously discovered by other metrics. To help models improve their stability, we further introduce a general and effective training strategy, called Prediction Consistency Learning (PCL). PCL essentially encourages the prediction consistency of the same objects under different timestamps and augmentations, leading to enhanced detection stability. Furthermore, we examine the effectiveness of PCL with the widely-used CenterPoint, and achieve a remarkable SI of 86.00 for vehicle class, surpassing the baseline by 5.48. We hope our work could serve as a reliable baseline and draw the community's attention to this crucial issue in 3D object detection. Codes will be made publicly available.
翻訳日:2024-07-08 14:21:30 公開日:2024-07-05
# 解釈可能性を高めるための大規模言語モデルの構築

Crafting Large Language Models for Enhanced Interpretability ( http://arxiv.org/abs/2407.04307v1 )

ライセンス: Link先を確認
Chung-En Sun, Tuomas Oikarinen, Tsui-Wei Weng, (参考訳) 本稿では,概念ボトルネック大言語モデル (CB-LLM) を紹介する。 制限されたニューロン関数の洞察を持つポストホック解釈法に依存する従来のブラックボックスのLCMとは異なり、CB-LLMは、その解釈可能性、拡張性、明快で正確な説明を提供する能力を備えた新しい標準を定めている。 このイノベーションは、言語モデルの透明性を向上するだけでなく、その効果も向上します。 我々の独自のAutomatic Concept Correction(ACC)戦略は、従来のブラックボックスLLMとパフォーマンスギャップを狭めることに成功し、CB-LLMを従来のLCMの高精度と明確な解釈可能性の利点を兼ね備えたモデルとして位置づけています。

We introduce the Concept Bottleneck Large Language Model (CB-LLM), a pioneering approach to creating inherently interpretable Large Language Models (LLMs). Unlike traditional black-box LLMs that rely on post-hoc interpretation methods with limited neuron function insights, CB-LLM sets a new standard with its built-in interpretability, scalability, and ability to provide clear, accurate explanations. This innovation not only advances transparency in language models but also enhances their effectiveness. Our unique Automatic Concept Correction (ACC) strategy successfully narrows the performance gap with conventional black-box LLMs, positioning CB-LLM as a model that combines the high accuracy of traditional LLMs with the added benefit of clear interpretability -- a feature markedly absent in existing LLMs.
翻訳日:2024-07-08 14:21:30 公開日:2024-07-05
# SSP-GNN: 双方向最適化による追跡学習

SSP-GNN: Learning to Track via Bilevel Optimization ( http://arxiv.org/abs/2407.04308v1 )

ライセンス: Link先を確認
Griffin Golias, Masa Nakura-Fan, Vitaly Ablavsky, (参考訳) 本稿では,マルチオブジェクト追跡(MOT)のためのグラフベースのトラッキング定式化を提案し,その対象検出にはキネマティック情報と再識別機能(属性)が含まれている。 本手法は,一組のフレーム上で定義された追跡グラフに対して,逐次最短経路 (SSP) アルゴリズムを適用した。 この追跡グラフのエッジコストは、グラフニューラルネットワーク(GNN)の変種であるメッセージパスネットワークを介して計算される。 GNNのパラメータと、従ってトラッカーは、地道トラックと検出のトレーニングセットでエンドツーエンドに学習される。 具体的には、学習は、新しい損失関数によって導かれる二段階最適化の形を取る。 シミュレーションシナリオ上でのアルゴリズムの評価を行い,シナリオに対する感度とハイパーパラメータのモデル化を行った。 様々なシナリオの複雑さにまたがって,本手法は強いベースラインと良好に比較できる。

We propose a graph-based tracking formulation for multi-object tracking (MOT) where target detections contain kinematic information and re-identification features (attributes). Our method applies a successive shortest paths (SSP) algorithm to a tracking graph defined over a batch of frames. The edge costs in this tracking graph are computed via a message-passing network, a graph neural network (GNN) variant. The parameters of the GNN, and hence, the tracker, are learned end-to-end on a training set of example ground-truth tracks and detections. Specifically, learning takes the form of bilevel optimization guided by our novel loss function. We evaluate our algorithm on simulated scenarios to understand its sensitivity to scenario aspects and model hyperparameters. Across varied scenario complexities, our method compares favorably to a strong baseline.
翻訳日:2024-07-08 14:21:30 公開日:2024-07-05
# Intel Quantum SDKにおける古典的プログラミング原理の利用:量子格子ボルツマン法の実装

Utilizing classical programming principles in the Intel Quantum SDK: implementation of quantum lattice Boltzmann method ( http://arxiv.org/abs/2407.04311v1 )

ライセンス: Link先を確認
Tejas Shinde, Ljubomir Budinski, Ossi Niemimäki, Valtteri Lahtinen, Helena Liebelt, Rui Li, (参考訳) 我々は、Intel量子ハードウェア上で量子回路の作成と実行を行うソフトウェアツールであるIntel Quantum SDKにおける量子格子ボルツマン法の実装における古典的なプログラミング技術の使用について検討する。 ハードウェアアクセスが限られているため、SDKが提供する状態ベクトルシミュレータを使用します。 この研究の新規性は、量子アルゴリズムの実装に古典的なテクニックを活用することである。 我々は,問題変数のより良い制御のために,量子回路を強化するためのアルゴリズム実装の洗練と戦略の考案を強調した。 この目的のために、モジュール化のような古典的な原則を採用し、複雑なアルゴリズムの体系的かつ制御された実行を可能にする。 さらに、状態ベクトルシミュレーションから量子ハードウェア上での実行まで、これらの構成を微調整して、同じ実装をどのように拡張するかについても論じる。

We explore the use of classical programming techniques in implementing the quantum lattice Boltzmann method in the Intel Quantum SDK -- a software tool for quantum circuit creation and execution on Intel quantum hardware. As hardware access is limited, we use the state vector simulator provided by the SDK. The novelty of this work lies in leveraging classical techniques for the implementation of quantum algorithms. We emphasize the refinement of algorithm implementation and devise strategies to enhance quantum circuits for better control over problem variables. To this end, we adopt classical principles such as modularization, which allows for systematic and controlled execution of complex algorithms. Furthermore, we discuss how the same implementation could be expanded from state vector simulations to execution on quantum hardware with minor adjustments in these configurations.
翻訳日:2024-07-08 14:21:30 公開日:2024-07-05
# 知識に基づく医薬品サンプルの比較

Knowledge-based Drug Samples' Comparison ( http://arxiv.org/abs/2407.04317v1 )

ライセンス: Link先を確認
Sébastien Guillemin, Ana Roxin, Laurence Dujourdy, Ludovic Journaux, (参考訳) ドラッグ・サンプル・コンファレンス(英: Drug sample comparison)は、フランス国家警察が麻薬の流通ネットワークを識別するプロセスである。 現在のアプローチは、法医学の専門家による手動比較に基づいている。 本稿では,現在のプロセスを改善するために専門家の知識を取得し,形式化し,特定するためのアプローチを提案する。 基礎となる知識をモデル化するためには、オントロジーと論理的ルールを使います。 このアプローチのさまざまなステップは、他のアプリケーションドメインで再利用するように設計されています。 得られた結果は、さまざまな分野の専門家が利用できるように説明できる。

Drug sample comparison is a process used by the French National police to identify drug distribution networks. The current approach is based on manual comparison done by forensic experts. In this article, we present our approach to acquire, formalise, and specify expert knowledge to improve the current process. For modelling the underlying knowledge we use an ontology coupled with logical rules. The different steps of our approach are designed to be reused in other application domains. The results obtained are explainable making them usable by experts in different fields.
翻訳日:2024-07-08 14:09:46 公開日:2024-07-05
# トランスファーラーニングにおける不変性の役割の理解

Understanding the Role of Invariance in Transfer Learning ( http://arxiv.org/abs/2407.04325v1 )

ライセンス: Link先を確認
Till Speicher, Vedant Nanda, Krishna P. Gummadi, (参考訳) トランスファーラーニングは、異なるタスク間で知識を共有するための強力なテクニックである。 近年の研究では、逆入力摂動のような特定の不変性を持つモデルの表現が、下流タスクにおいてより高い性能を達成することが判明している。 これらの結果から,変分は転帰学習の文脈において重要な特性である可能性が示唆された。 しかし、転送性能と不変性の関係は未だ完全には理解されておらず、多くの疑問が残っている。 例えば、事前学習タスクの他の要因と比較して、不変性はどの程度重要か? いかに非分散を学ぶか? 本研究では,伝達学習における表現不変性の重要性と,事前学習中に他のパラメータとどのように相互作用するかを系統的に検討する。 そのために、私たちは、トレーニングデータとテストデータの両方において、変動の要因を正確に制御できる一連の合成データセットを導入しました。 これらのデータセットを使って a) 伝達性能の高い表現の学習において、適切な変換に対する不変性は、トレーニングサンプルの数、モデルアーキテクチャ、事前学習クラスの同一性など、他のほとんどの要因よりも重要であることを示すこと。 ロ 相違が表現を伝達する能力に悪影響を及ぼすおそれのある条件を示すこと。 c) タスク間の転送可能な不変性について調べる。 コードは \url{https://github.com/tillspeicher/representation-invariance-transfer} で公開されている。

Transfer learning is a powerful technique for knowledge-sharing between different tasks. Recent work has found that the representations of models with certain invariances, such as to adversarial input perturbations, achieve higher performance on downstream tasks. These findings suggest that invariance may be an important property in the context of transfer learning. However, the relationship of invariance with transfer performance is not fully understood yet and a number of questions remain. For instance, how important is invariance compared to other factors of the pretraining task? How transferable is learned invariance? In this work, we systematically investigate the importance of representational invariance for transfer learning, as well as how it interacts with other parameters during pretraining. To do so, we introduce a family of synthetic datasets that allow us to precisely control factors of variation both in training and test data. Using these datasets, we a) show that for learning representations with high transfer performance, invariance to the right transformations is as, or often more, important than most other factors such as the number of training samples, the model architecture and the identity of the pretraining classes, b) show conditions under which invariance can harm the ability to transfer representations and c) explore how transferable invariance is between tasks. The code is available at \url{https://github.com/tillspeicher/representation-invariance-transfer}.
翻訳日:2024-07-08 14:09:46 公開日:2024-07-05
# LMSeg:大規模3次元ランドスケープメッシュの効率的かつ正確なセマンティックセグメンテーションのためのディープグラフメッセージパッシングネットワーク

LMSeg: A deep graph message-passing network for efficient and accurate semantic segmentation of large-scale 3D landscape meshes ( http://arxiv.org/abs/2407.04326v1 )

ライセンス: Link先を確認
Zexian Huang, Kourosh Khoshelham, Gunditj Mirring Traditional Owners Corporation, Martin Tomko, (参考訳) 大規模3次元ランドスケープメッシュのセマンティックセグメンテーションは,空間解析や自動マッピング,対象物体の局所化,都市計画・開発など,様々な地理空間的応用において重要である。 これは、現実世界の環境を理解し分析するために、効率的で正確な3D認識システムを必要とする。 しかし、従来のメッシュセグメンテーション手法は、3Dスケープメッシュデータセットの複雑さと大きすぎるため、小さなオブジェクトを正確にセグメンテーションし、計算効率を維持するという課題に直面している。 本稿では,大規模3次元ランドスケープメッシュ上でのセマンティックセマンティックセグメンテーションを効率的かつ正確に行うために,エンドツーエンドのディープグラフメッセージパッシングネットワークであるLMSegを提案する。 提案手法は、メッシュのバリセントリックな双対グラフを入力とし、ディープメッセージパスニューラルネットワークを用いて、バリセントリックなグラフ構造から幾何学的および空間的特徴を階層的に捉え、テクスチャ化されたメッシュから複雑な意味情報を学習する。 偏心グラフの階層的および局所的なプーリングは、LMSegの効果的な幾何集約モジュールとともに、様々な複雑な風景において、小さくて不規則なメッシュオブジェクトの高速な推論と正確なセグメンテーションを可能にする。 2つのベンチマークデータセット(自然景観と都市景観)の大規模な実験により、LMSegは既存の学習ベースセグメンテーション手法よりも、オブジェクトセグメンテーションの精度と計算効率において著しく優れていることが示された。 さらに,本手法は多様な景観にまたがる強力な一般化能力を示し,メッシュ密度や景観トポロジに対する堅牢なレジリエンスを示す。

Semantic segmentation of large-scale 3D landscape meshes is pivotal for various geospatial applications, including spatial analysis, automatic mapping and localization of target objects, and urban planning and development. This requires an efficient and accurate 3D perception system to understand and analyze real-world environments. However, traditional mesh segmentation methods face challenges in accurately segmenting small objects and maintaining computational efficiency due to the complexity and large size of 3D landscape mesh datasets. This paper presents an end-to-end deep graph message-passing network, LMSeg, designed to efficiently and accurately perform semantic segmentation on large-scale 3D landscape meshes. The proposed approach takes the barycentric dual graph of meshes as inputs and applies deep message-passing neural networks to hierarchically capture the geometric and spatial features from the barycentric graph structures and learn intricate semantic information from textured meshes. The hierarchical and local pooling of the barycentric graph, along with the effective geometry aggregation modules of LMSeg, enable fast inference and accurate segmentation of small-sized and irregular mesh objects in various complex landscapes. Extensive experiments on two benchmark datasets (natural and urban landscapes) demonstrate that LMSeg significantly outperforms existing learning-based segmentation methods in terms of object segmentation accuracy and computational efficiency. Furthermore, our method exhibits strong generalization capabilities across diverse landscapes and demonstrates robust resilience against varying mesh densities and landscape topologies.
翻訳日:2024-07-08 14:09:46 公開日:2024-07-05
# TF-SASM:マルチオブジェクト追跡のための訓練不要空間認識スパースメモリ

TF-SASM: Training-free Spatial-aware Sparse Memory for Multi-object Tracking ( http://arxiv.org/abs/2407.04327v1 )

ライセンス: Link先を確認
Thuc Nguyen-Quang, Minh-Triet Tran, (参考訳) コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)は依然として重要な課題であり、ビデオシーケンス内の複数のオブジェクトの正確な位置決めと連続的な追跡が必要である。 このタスクは、行動認識や行動分析など、様々な用途に不可欠である。 主な課題は、隠蔽、再識別、高速移動物体の追跡、カメラモーションアーティファクトの処理である。 過去の研究では、トランスフォーマーアーキテクチャを利用したトラッキング・バイ・アテンション・アプローチに注目しながら、トラッキング・バイ・検出法とエンドツーエンド・モデルについて検討してきた。 DanceTrackのような堅牢な再識別を強調するデータセットの出現は、効果的なソリューションの必要性を強調している。 メモリベースのアプローチは将来性を示しているが、高い計算複雑性とメモリ使用量に悩まされることが多い。 本稿では,オブジェクトの動きと重なり合う認識に基づいて重要な特徴を選択的に記憶し,冗長性を最小化しながら効率を向上する新しいスパースメモリ手法を提案する。 トラッキング・バイ・アテンションとトラッキング・バイ・検出のハイブリッドであるMOTRv2モデルに基づいて、再識別能力を高め、モデルの柔軟性を維持するために設計されたトレーニング不要メモリを導入する。 メモリアプローチは、DanceTrackテストセットのMOTRv2よりも大幅に改善され、HOTAメトリクスの1.1\%、IDF1スコアの2.1\%が向上した。

Multi-object tracking (MOT) in computer vision remains a significant challenge, requiring precise localization and continuous tracking of multiple objects in video sequences. This task is crucial for various applications, including action recognition and behavior analysis. Key challenges include occlusion, reidentification, tracking fast-moving objects, and handling camera motion artifacts. Past research has explored tracking-by-detection methods and end-to-end models, with recent attention on tracking-by-attention approaches leveraging transformer architectures. The emergence of data sets that emphasize robust reidentification, such as DanceTrack, has highlighted the need for effective solutions. While memory-based approaches have shown promise, they often suffer from high computational complexity and memory usage. We propose a novel sparse memory approach that selectively stores critical features based on object motion and overlapping awareness, aiming to enhance efficiency while minimizing redundancy. Building upon the MOTRv2 model, a hybrid of tracking-by-attention and tracking-by-detection, we introduce a training-free memory designed to bolster reidentification capabilities and preserve the model's flexibility. Our memory approach achieves significant improvements over MOTRv2 in the DanceTrack test set, demonstrating a gain of 1.1\% in HOTA metrics and 2.1\% in IDF1 score.
翻訳日:2024-07-08 14:09:46 公開日:2024-07-05
# EAGERx:Sim2real Robot Learningのためのグラフベースのフレームワーク

EAGERx: Graph-Based Framework for Sim2real Robot Learning ( http://arxiv.org/abs/2407.04328v1 )

ライセンス: Link先を確認
Bas van der Heijden, Jelle Luijkx, Laura Ferranti, Jens Kober, Robert Babuska, (参考訳) Sim2realは、複雑なタスクを効率的に処理できる可能性から、ロボット工学への関心が高まっている分野だ。 sim2realアプローチは、シミュレーションと現実のミスマッチによる課題に直面している。 これらの相違は、物理現象のモデリングや非同期制御における不正確さから生じる。 この目的のために,実・模擬ロボット学習のための統合ソフトウェアパイプラインを備えたフレームワークであるEAGERxを紹介する。 学習を容易にするために、さまざまなシミュレータや、状態、アクション、時間スケールの抽象化の統合を支援することができる。 EAGERxの統合遅延シミュレーション、ドメインランダム化機能、および提案した同期アルゴリズムは、sim2realのギャップを狭めるのに寄与する。 本研究では,多種多様なロボットシステムを収容し,一貫したシミュレーション動作を維持する上で,EAGERxの有効性を(ロボット学習などにおいて)実証する。 EAGERxはオープンソースで、そのコードはhttps://eagerx.readthedocs.ioで公開されている。

Sim2real, that is, the transfer of learned control policies from simulation to real world, is an area of growing interest in robotics due to its potential to efficiently handle complex tasks. The sim2real approach faces challenges due to mismatches between simulation and reality. These discrepancies arise from inaccuracies in modeling physical phenomena and asynchronous control, among other factors. To this end, we introduce EAGERx, a framework with a unified software pipeline for both real and simulated robot learning. It can support various simulators and aids in integrating state, action and time-scale abstractions to facilitate learning. EAGERx's integrated delay simulation, domain randomization features, and proposed synchronization algorithm contribute to narrowing the sim2real gap. We demonstrate (in the context of robot learning and beyond) the efficacy of EAGERx in accommodating diverse robotic systems and maintaining consistent simulation behavior. EAGERx is open source and its code is available at https://eagerx.readthedocs.io.
翻訳日:2024-07-08 14:09:46 公開日:2024-07-05
# MuseBarControl:事前学習と非現実的損失によるシンボリック音楽生成における微粒化制御の強化

MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss ( http://arxiv.org/abs/2407.04331v1 )

ライセンス: Link先を確認
Yangyang Shu, Haiming Xu, Ziqin Zhou, Anton van den Hengel, Lingqiao Liu, (参考訳) 特定の人間の要求に合わせたシンボリック音楽の楽譜を自動生成することは、ミュージシャンや愛好家にとって非常に有益である。 最近の研究では、広範なデータセットと高度なトランスフォーマーアーキテクチャを用いた有望な結果が示されている。 しかし、これらの最先端モデルは一般的に、テンポや構成全体のスタイルのような側面に対する基本的な制御しか提供せず、個々のバーのレベルでの制御のような細部を管理する能力が欠如している。 事前学習したシンボリック音楽生成モデルを微調整することは、この微調整を実現するための簡単な方法のように思えるが、本研究はこのアプローチの課題を示唆している。 モデルは、しばしば新しいきめ細かいバーレベルの制御信号に適切に応答しない。 この問題に対処するため、我々は2つの革新的な解決策を提案する。 まず、制御信号と対応する音符を直接リンクする事前学習タスクを導入し、その後の微調整においてより効果的な初期化を実現する。 第2に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。 これらの技術は,従来の手法に比べて13.06倍の音質向上を示すとともに,バーレベルでの音楽生成を制御する能力を大幅に向上させた。 我々の主観評価は、この強化された制御が、元の事前学習された生成モデルの音質を損なわないことも確認した。

Automatically generating symbolic music-music scores tailored to specific human needs-can be highly beneficial for musicians and enthusiasts. Recent studies have shown promising results using extensive datasets and advanced transformer architectures. However, these state-of-the-art models generally offer only basic control over aspects like tempo and style for the entire composition, lacking the ability to manage finer details, such as control at the level of individual bars. While fine-tuning a pre-trained symbolic music generation model might seem like a straightforward method for achieving this finer control, our research indicates challenges in this approach. The model often fails to respond adequately to new, fine-grained bar-level control signals. To address this, we propose two innovative solutions. First, we introduce a pre-training task designed to link control signals directly with corresponding musical tokens, which helps in achieving a more effective initialization for subsequent fine-tuning. Second, we implement a novel counterfactual loss that promotes better alignment between the generated music and the control prompts. Together, these techniques significantly enhance our ability to control music generation at the bar level, showing a 13.06\% improvement over conventional methods. Our subjective evaluations also confirm that this enhanced control does not compromise the musical quality of the original pre-trained generative model.
翻訳日:2024-07-08 14:09:46 公開日:2024-07-05
# グラフメッセージパッシングニューラルネットワークを用いたベクトルポリゴンの分類のための幾何学的不変性学習

Learning Geometric Invariant Features for Classification of Vector Polygons with Graph Message-passing Neural Network ( http://arxiv.org/abs/2407.04334v1 )

ライセンス: Link先を確認
Zexian Huang, Kourosh Khoshelham, Martin Tomko, (参考訳) ベクトル多角形の幾何学的形状分類は、空間解析において非自明な学習課題である。 従来の研究では、ラスタ化ベクトル多角形の表現学習のための深層学習アプローチの開発に主に焦点が当てられていたが、ポリゴンの離散表現とその後の深層学習アプローチの研究は、完全には研究されていない。 本研究では,ベクトル多角形のグラフ表現について検討し,多角形の形状分類のための幾何学的不変性を学ぶために,新しいグラフメッセージパッシングニューラルネットワーク(PolyMP)を提案する。 広範にわたる実験により,多角形のグラフ表現と置換不変なグラフメッセージパッシングニューラルネットワークが,ベンチマークデータセット(合成グリフおよび実世界の構築フットプリントデータセット)において,ベースライン手法と比較して高い堅牢性を実現することを示す。 提案したグラフベースPolyMPネットワークは,ポリゴンの幾何変換に不変な表現幾何学的特徴(翻訳,回転,スケーリング,せん断)の学習を可能にし,ポリゴンの自明な頂点除去に頑健であることを示す。 さらに、合成グリフ多角形から実世界の建築フットプリントまで、学習した幾何学的特徴を一般化できるPolyMPの強い一般化性を示す。

Geometric shape classification of vector polygons remains a non-trivial learning task in spatial analysis. Previous studies mainly focus on devising deep learning approaches for representation learning of rasterized vector polygons, whereas the study of discrete representations of polygons and subsequent deep learning approaches have not been fully investigated. In this study, we investigate a graph representation of vector polygons and propose a novel graph message-passing neural network (PolyMP) to learn the geometric-invariant features for shape classification of polygons. Through extensive experiments, we show that the graph representation of polygons combined with a permutation-invariant graph message-passing neural network achieves highly robust performances on benchmark datasets (i.e., synthetic glyph and real-world building footprint datasets) as compared to baseline methods. We demonstrate that the proposed graph-based PolyMP network enables the learning of expressive geometric features invariant to geometric transformations of polygons (i.e., translation, rotation, scaling and shearing) and is robust to trivial vertex removals of polygons. We further show the strong generalizability of PolyMP, which enables generalizing the learned geometric features from the synthetic glyph polygons to the real-world building footprints.
翻訳日:2024-07-08 14:09:46 公開日:2024-07-05
# 幾何学的インスパイアされたカーネルマシンによるグラディエント・ディフレッシュを超える協調学習

Geometrically Inspired Kernel Machines for Collaborative Learning Beyond Gradient Descent ( http://arxiv.org/abs/2407.04335v1 )

ライセンス: Link先を確認
Mohit Kumar, Alexander Valentinitsch, Magdalena Fuchs, Mathias Brucker, Juliana Bowles, Adnan Husakovic, Ali Abbas, Bernhard A. Moser, (参考訳) 本稿では, 一般化や近似誤差, サンプル複雑性の限界に関する記述を含む幾何学的インスパイアされたカーネルマシンを用いて, 協調学習のための新しい数学的枠組みを開発する。 分類問題に対して,本手法は与えられたデータ点の周囲に有界な幾何学的構造を学習し,RKHSにおける関連する最適化問題の凸性を利用して,グローバルモデル学習問題を効率的に解く。 このようにして分類問題を減らし、与えられたデータポイントから最も近い有界な幾何学構造を決定する。 我々のソリューションがもたらすもう1つの利点は、クライアントが確率的勾配勾配勾配を使って局所最適化の複数のエポックを実行したり、グローバルモデルを最適化するためにクライアント/サーバ間の通信のラウンドを必要としないことです。 我々は,提案手法が最先端技術に代わる競合的な方法であることを示す実験が数多く行われていることを強調した。

This paper develops a novel mathematical framework for collaborative learning by means of geometrically inspired kernel machines which includes statements on the bounds of generalisation and approximation errors, and sample complexity. For classification problems, this approach allows us to learn bounded geometric structures around given data points and hence solve the global model learning problem in an efficient way by exploiting convexity properties of the related optimisation problem in a Reproducing Kernel Hilbert Space (RKHS). In this way, we can reduce classification problems to determining the closest bounded geometric structure from a given data point. Further advantages that come with our solution is that our approach does not require clients to perform multiple epochs of local optimisation using stochastic gradient descent, nor require rounds of communication between client/server for optimising the global model. We highlight that numerous experiments have shown that the proposed method is a competitive alternative to the state-of-the-art.
翻訳日:2024-07-08 14:09:46 公開日:2024-07-05
# 高速鉄道通信におけるAIベースビームレベルとセルレベルモビリティ管理

AI-Based Beam-Level and Cell-Level Mobility Management for High Speed Railway Communications ( http://arxiv.org/abs/2407.04336v1 )

ライセンス: Link先を確認
Wen Li, Wei Chen, Shiyue Wang, Yuanyuan Zhang, Michail Matthaiou, Bo Ai, (参考訳) 高速鉄道(英語版) (HSR) の通信は、鉄道安全、運行、保守、旅客情報の提供を確実にするために重要である。 高速列車は、高速で時間変化の速い無線チャネルを生成し、信号のオーバーヘッドを増大させ、システムのスループットを低下させ、HSRアプリケーションの成長と厳しいニーズを満たすのが困難になる。 本稿では、AIモデルのユースケース、入力、出力、キーパフォーマンス指標(KPI)を含む、HSR通信に適したAIベースのビームレベルおよびセルレベルモビリティ管理について検討する。 特に、従来のダウンサンプリング型空間ビーム測定と比較して、圧縮センシングによる圧縮空間マルチビーム測定が空間時空間ビーム予測の改善につながることを示す。 さらに,従来の移動体ハンドオーバ機構に対するAI支援セルハンドオーバの性能向上を示す。 さらに, 従来手法では全セルのビーム計測を全て必要としていたが, 従来手法では50%のビーム計測オーバーヘッドを削減できた。

High-speed railway (HSR) communications are pivotal for ensuring rail safety, operations, maintenance, and delivering passenger information services. The high speed of trains creates rapidly time-varying wireless channels, increases the signaling overhead, and reduces the system throughput, making it difficult to meet the growing and stringent needs of HSR applications. In this article, we explore artificial intelligence (AI)-based beam-level and cell-level mobility management suitable for HSR communications, including the use cases, inputs, outputs, and key performance indicators (KPI)s of AI models. Particularly, in comparison to traditional down-sampling spatial beam measurements, we show that the compressed spatial multi-beam measurements via compressive sensing lead to improved spatial-temporal beam prediction. Moreover, we demonstrate the performance gains of AI-assisted cell handover over traditional mobile handover mechanisms. In addition, we observe that the proposed approaches to reduce the measurement overhead achieve comparable radio link failure performance with the traditional approach that requires all the beam measurements of all cells, while the former methods can save 50% beam measurement overhead.
翻訳日:2024-07-08 14:09:46 公開日:2024-07-05
# 任意の量子ネットワークにおける量子ウォークに基づく絡み合い分布

Entanglement distribution based on quantum walk in arbitrary quantum networks ( http://arxiv.org/abs/2407.04338v1 )

ライセンス: Link先を確認
Tianen Chen, Yun Shang, Chitong Chen, Heng Fan, (参考訳) 大規模量子ネットワークでは、長距離および複雑な量子通信を実現するために、選択ノード間での多粒子絡み合った状態の分散が不可欠である。 量子リピータは、遠方のノード間の絡み合いを効率的に生成する方法を提供する。 しかし、既存の実験では量子リピータプロトコルを高次元量子状態に拡張することは困難である。 本稿では,量子ウォークを用いて高次元の絡み合った状態を生成するための一連のスキームを開発した。 さらに、上述の理論的枠組みに従って、任意の量子ネットワーク上での絡み合い分布スキームを提案する。 応用として、$d$次元GHZ状態に基づく量子フラクタルネットワークと多人数量子秘密共有プロトコルを構築する。 最後に,リピータをベースとした多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多様・多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多 我々の研究は、より大規模で複雑な量子ネットワークを構築するためのビルディングブロックとして機能する。

In large-scale quantum networks, distributing the multi-particle entangled state among selected nodes is crucial for realizing long-distance and complicated quantum communication. Quantum repeaters provides an efficient method to generate entanglement between distant nodes. However, it is difficult to extend quantum repeater protocols to high-dimensional quantum states in existing experiments. Here we develop a series of scheme for generating high-dimensional entangled states via quantum walks with multiple coins or single coin by quantum repeaters, including $d$-dimensional Bell states, multi-particle high dimensional GHZ states etc.. Furthermore, we give entanglement distribution schemes on arbitrary quantum networks according to the above theoretical framework. As applications, we construct quantum fractal networks and multiparty quantum secret sharing protocols based on $d$-dimensional GHZ states. In the end, we give the experiment implementing of various 2-party or 3-party entanglement generation schemes based on repeaters. Our work can serve as a building block for constructing larger and more complex quantum networks.
翻訳日:2024-07-08 14:09:46 公開日:2024-07-05
# 表現型遮蔽による都市交通環境の自律型エージェントの安全性向上

Enhancing Safety for Autonomous Agents in Partly Concealed Urban Traffic Environments Through Representation-Based Shielding ( http://arxiv.org/abs/2407.04343v1 )

ライセンス: Link先を確認
Pierre Haritz, David Wanke, Thomas Liebig, (参考訳) 都市環境における信号のない交差点の航行は、視界妨害、予測不可能な歩行者横断、多様な交通参加者が衝突防止に多大な注力を求めるなど、自動運転車にとって複雑な課題となる。 本稿では、自律エージェントが知覚できる情報を中心にしたRL(Reinforcement Learning)エージェントの状態表現を提案する。 提案手法は,安全性とエネルギー消費の指標から,いくつかのベースラインモデルに比例する。 これらの改善は、競争平均走行速度を維持しながら達成される。 我々の発見は、より堅牢で信頼性の高い自律航法戦略、より安全で効率的な都市交通環境を実現するための道を開いた。

Navigating unsignalized intersections in urban environments poses a complex challenge for self-driving vehicles, where issues such as view obstructions, unpredictable pedestrian crossings, and diverse traffic participants demand a great focus on crash prevention. In this paper, we propose a novel state representation for Reinforcement Learning (RL) agents centered around the information perceivable by an autonomous agent, enabling the safe navigation of previously uncharted road maps. Our approach surpasses several baseline models by a sig nificant margin in terms of safety and energy consumption metrics. These improvements are achieved while maintaining a competitive average travel speed. Our findings pave the way for more robust and reliable autonomous navigation strategies, promising safer and more efficient urban traffic environments.
翻訳日:2024-07-08 14:09:46 公開日:2024-07-05
# CanonicalFusion: 複数の画像から再現可能な3Dアバターを生成する

CanonicalFusion: Generating Drivable 3D Human Avatars from Multiple Images ( http://arxiv.org/abs/2407.04345v1 )

ライセンス: Link先を確認
Jisu Shin, Junmyeong Lee, Seongmin Lee, Min-Gyu Park, Ju-Mi Kang, Ju Hong Yoon, Hae-Gon Jeon, (参考訳) カノニカルフュージョン(CanonicalFusion)と呼ばれる複数の画像からアニマタブルなヒトアバターを再構成するための新しい枠組みを提案する。 我々の中心的な概念は、個々の再構成結果を標準空間に統合することである。 具体的には,まず線形ブレンドスキニング(LBS)重みマップと深度マップを共有エンコーダ・デュアルデコーダネットワークを用いて予測し,予測深度マップから3Dメッシュを直接正規化する。 ここでは、高次元スキンウェイトを予測する代わりに、プレトレーニングMLPネットワークの助けを借りて、圧縮スキンウェイト、すなわち3次元ベクターを推定する。 また、複数画像から再構成した結果をマージするために、前方スキンベースの微分可能レンダリング方式も導入する。 このスキームは、前方スキンニングによる標準メッシュの再現と、レンダリング結果と予測結果との間の測光的および幾何学的誤差を最小化することにより、初期メッシュを洗練する。 最適化手法では,頂点の位置と色,および各画像の関節角を考慮し,ポーズエラーの負の効果を緩和する。 提案手法の有効性を実証するために広範囲な実験を行い,CanonicalFusionと最先端の手法との比較を行った。 ソースコードはhttps://github.com/jsshin98/CanonicalFusion.comで公開されています。

We present a novel framework for reconstructing animatable human avatars from multiple images, termed CanonicalFusion. Our central concept involves integrating individual reconstruction results into the canonical space. To be specific, we first predict Linear Blend Skinning (LBS) weight maps and depth maps using a shared-encoder-dual-decoder network, enabling direct canonicalization of the 3D mesh from the predicted depth maps. Here, instead of predicting high-dimensional skinning weights, we infer compressed skinning weights, i.e., 3-dimensional vector, with the aid of pre-trained MLP networks. We also introduce a forward skinning-based differentiable rendering scheme to merge the reconstructed results from multiple images. This scheme refines the initial mesh by reposing the canonical mesh via the forward skinning and by minimizing photometric and geometric errors between the rendered and the predicted results. Our optimization scheme considers the position and color of vertices as well as the joint angles for each image, thereby mitigating the negative effects of pose errors. We conduct extensive experiments to demonstrate the effectiveness of our method and compare our CanonicalFusion with state-of-the-art methods. Our source codes are available at https://github.com/jsshin98/CanonicalFusion.
翻訳日:2024-07-08 14:09:46 公開日:2024-07-05
# MobileFlow:モバイルGUIエージェントのためのマルチモーダルLLM

MobileFlow: A Multimodal LLM For Mobile GUI Agent ( http://arxiv.org/abs/2407.04346v1 )

ライセンス: Link先を確認
Songqin Nong, Jiali Zhu, Rui Wu, Jiongchao Jin, Shuo Shan, Xiutian Huang, Wenhao Xu, (参考訳) 現在、モバイルグラフィカルユーザインタフェース(GUI)の統合は、ほとんどの人の日常生活に広く浸透している。 また,GPT-4vやQwen-VL-Maxといったマルチモーダル大規模モデルの進化により,GUI理解能力とユーザ行動分析能力が大きく向上し,知的GUIアシスタントの可能性を示している。 しかし、現在のGUIエージェントは、しばしばページレイアウト情報に呼び出しシステムAPIを通してアクセスする必要があるため、プライバシー上のリスクが生じる可能性がある。 GUI(例えばモバイルインターフェース)をある程度の低解像度に固定すると、微細な画像の詳細が失われる可能性がある。 同時に、GUI Agents用に構築されたマルチモーダルな大規模モデルは、現在、中国のGUIインターフェースに対する理解と意思決定能力に乏しいため、多数の中国アプリに適用することは困難である。 本稿では,モバイルGUIエージェント用のマルチモーダルな大規模言語モデルであるMobileFlowを紹介する。 オープンソースのQwen-VL-ChatからGUIドメインに変換されるMobileFlowは、約21億のパラメータを含み、新しいハイブリッドビジュアルエンコーダを備えており、画像入力の可変解像度と多言語GUIのサポートが可能である。 Mixture of Experts (MoE)の拡張とアライメントトレーニング戦略のパイオニア化によって、MobileFlowは、画像データを完全に解釈し、GUIインタラクションタスクのユーザインストラクションを理解する能力を持つ。 最後に、MobileFlowは、公開および提案した評価指標の両方においてGUIエージェントによるタスク実行の観点からQwen-VL-MaxとGPT-4vを上回り、実世界のビジネス環境でのデプロイに成功した。

Currently, the integration of mobile Graphical User Interfaces (GUIs) is ubiquitous in most people's daily lives. And the ongoing evolution of multimodal large-scale models, such as GPT-4v, Qwen-VL-Max, has significantly bolstered the capabilities of GUI comprehension and user action analysis, showcasing the potentiality of intelligent GUI assistants. However, current GUI Agents often need to access page layout information through calling system APIs, which may pose privacy risks. Fixing GUI (such as mobile interfaces) to a certain low resolution might result in the loss of fine-grained image details. At the same time, the multimodal large models built for GUI Agents currently have poor understanding and decision-making abilities for Chinese GUI interfaces, making them difficult to apply to a large number of Chinese apps. This paper introduces MobileFlow, a multimodal large language model meticulously crafted for mobile GUI agents. Transforming from the open-source model Qwen-VL-Chat into GUI domain, MobileFlow contains approximately 21 billion parameters and is equipped with novel hybrid visual encoders, making it possible for variable resolutions of image inputs and good support for multilingual GUI. By incorporating Mixture of Experts (MoE) expansions and pioneering alignment training strategies, MobileFlow has the capacity to fully interpret image data and comprehend user instructions for GUI interaction tasks. Finally, MobileFlow outperforms Qwen-VL-Max and GPT-4v in terms of task execution by GUI agents on both public and our proposed evaluation metrics, and has been successfully deployed in real-world business contexts, proving its effectiveness for practical applications.
翻訳日:2024-07-08 14:09:46 公開日:2024-07-05
# 一時的指紋: 完全に暗号化されたドメイン間でのIDマッチング

Temporal fingerprints: Identity matching across fully encrypted domain ( http://arxiv.org/abs/2407.04350v1 )

ライセンス: Link先を確認
Shahar Somin, Keeley Erhardt, Alex 'Sandy' Pentland, (参考訳) 技術進歩はコミュニケーションのパターンを大きく変え、多様なオンラインプラットフォームを導入し、個人が異なるドメインや目的のために複数のプロファイルを使用するように促した。 クロスドメインIDマッチング能力の理解を強化することは、商業戦略やサイバーセキュリティ対策といった実践的なアプリケーションだけでなく、データ開示のプライバシーへの影響に関する理論的洞察にも不可欠である。 本研究では、時間間分布の形で個々の時間的データが個々の時間的フィンガープリントを構成することを実証し、異なるドメイン間のプロファイルを関連付けられた実世界エンティティに戻すことを可能にする。 Ethereum Blockchain内の暗号化デジタルトレーディングプラットフォーム上での方法論を評価し、これらのプライバシ保護ドメイン間でのIDのマッチングにおいて印象的な結果を示すとともに、これまで提案されていたモデルよりも優れています。 我々の研究結果は、個人がいつアクティブであるかを知ることは、たとえ誰と話し、何について議論しているかに関する情報が足りないとしても、ユーザーのプライバシーにリスクをもたらし、今日のデジタルランドスケープにおけるプライバシー保護の固有の課題を浮き彫りにすることを示している。

Technological advancements have significantly transformed communication patterns, introducing a diverse array of online platforms, thereby prompting individuals to use multiple profiles for different domains and objectives. Enhancing the understanding of cross domain identity matching capabilities is essential, not only for practical applications such as commercial strategies and cybersecurity measures, but also for theoretical insights into the privacy implications of data disclosure. In this study, we demonstrate that individual temporal data, in the form of inter-event times distribution, constitutes an individual temporal fingerprint, allowing for matching profiles across different domains back to their associated real-world entity. We evaluate our methodology on encrypted digital trading platforms within the Ethereum Blockchain and present impressing results in matching identities across these privacy-preserving domains, while outperforming previously suggested models. Our findings indicate that simply knowing when an individual is active, even if information about who they talk to and what they discuss is lacking, poses risks to users' privacy, highlighting the inherent challenges in preserving privacy in today's digital landscape.
翻訳日:2024-07-08 14:09:46 公開日:2024-07-05
# UpStory:Uppsalaストーリーテリングデータセット

UpStory: the Uppsala Storytelling dataset ( http://arxiv.org/abs/2407.04352v1 )

ライセンス: Link先を確認
Marc Fraile, Natalia Calvo-Barajas, Anastasia Sophia Apeiron, Giovanna Varni, Joakim Lindblad, Nataša Sladoje, Ginevra Castellano, (参考訳) 友人関係とラプポートは、建設的な社会的相互作用の形成において重要な役割を担い、学生の成果に影響を及ぼすため、教育現場で広く研究されてきた。 機械学習(ML)を通じて、このような現象の分析を自動化することへの関心が高まっていることを考えると、注釈付きインタラクションデータセットへのアクセスは非常に貴重である。 しかしながら、ラプポートを明示的にキャプチャするダイズ児童の相互作用に関するデータセットは現存していない。 さらに、人間の行動の自動分析の進歩にもかかわらず、教育環境における児童と児童のダイアドの相互作用におけるラプポートの予測には、これまでの研究は対応していない。 UpStory - Uppsala Storytelling data: a novel dataset of naturalistic dyadic interaction between primary school old children, with a experimental operation of rapport。 8歳から10歳までの子どもたちのペアは、ストーリーを一緒にデザインし、プレイエリア内での自由な移動を許可するタスク指向の活動に参加します。 自己申告された友情は、友情ネットワークにおけるペア分離の最小化または最大化のいずれにおいても、それぞれの子どもを2度にペアリングするために使用される。 データセットには35対のデータが含まれており、合計3時間40mのオーディオとビデオが記録される。 プレイエリアをカバーしている2つのビデオソースと、子供ごとに別々の音声録音が含まれている。 データセットの匿名化バージョンが公開されており、フレーム単位のヘッドポーズ、ボディポーズ、顔の特徴、ラプポートのレベルを含むペアごとの情報が含まれている。 最後に,ラプポート予測のためのMLベースラインを提供する。

Friendship and rapport play an important role in the formation of constructive social interactions, and have been widely studied in educational settings due to their impact on student outcomes. Given the growing interest in automating the analysis of such phenomena through Machine Learning (ML), access to annotated interaction datasets is highly valuable. However, no dataset on dyadic child-child interactions explicitly capturing rapport currently exists. Moreover, despite advances in the automatic analysis of human behaviour, no previous work has addressed the prediction of rapport in child-child dyadic interactions in educational settings. We present UpStory -- the Uppsala Storytelling dataset: a novel dataset of naturalistic dyadic interactions between primary school aged children, with an experimental manipulation of rapport. Pairs of children aged 8-10 participate in a task-oriented activity: designing a story together, while being allowed free movement within the play area. We promote balanced collection of different levels of rapport by using a within-subjects design: self-reported friendships are used to pair each child twice, either minimizing or maximizing pair separation in the friendship network. The dataset contains data for 35 pairs, totalling 3h 40m of audio and video recordings. It includes two video sources covering the play area, as well as separate voice recordings for each child. An anonymized version of the dataset is made publicly available, containing per-frame head pose, body pose, and face features; as well as per-pair information, including the level of rapport. Finally, we provide ML baselines for the prediction of rapport.
翻訳日:2024-07-08 14:09:46 公開日:2024-07-05
# 医用画像のセグメンテーション:UNetからRes-UNetとnnUNetへ

Segmenting Medical Images: From UNet to Res-UNet and nnUNet ( http://arxiv.org/abs/2407.04353v1 )

ライセンス: Link先を確認
Lina Huang, Alina Miron, Kate Hone, Yongmin Li, (参考訳) 本研究では、UNet、Res-UNet、Attention Res-UNet、nnUNetを含むディープラーニングモデルの比較分析を行い、脳腫瘍、ポリプ、マルチクラスの心臓セグメンテーションタスクにおけるそれらのパフォーマンスを評価する。 この分析は、その臨床応用性を評価するために、精度、精度、リコール、Dice similarity Coefficient(DSC)、Intersection over Union(IoU)に焦点を当てている。 脳腫瘍のセグメンテーションでは、Res-UNetとnnUNetはUNetよりも優れ、Res-UNetはDSCとIoUのスコアでリードし、腫瘍のデライン化の精度が向上した。 一方、nnUNetはリコールと精度に優れており、臨床診断と計画において確実な腫瘍検出に不可欠である。 ポリプ検出では、nnUNetが最も効果的で、すべてのカテゴリで最高の測定値を獲得し、内視鏡の信頼性の高い診断ツールとして自身を証明した。 心臓セグメンテーションの複雑なタスクでは、Res-UNetとAttention Res-UNetは左心室の描写に優れ、Res-UNetは右心室セグメンテーションも導いた。 nnUNetは心筋セグメンテーションに適合せず、精度、リコール、DSC、IoUでトップスコアを獲得した。 結論として、Res-UNetは特定のメトリクスでnnUNetを上回っている場合もありますが、違いはかなり小さいです。 さらに、nnUNetは実験全体で優れた全体的なパフォーマンスを示している。 特に、診断ミスを最小限に抑え、タイムリーな治療を確実にするための臨床的設定において重要な、高いリコールと正確性のために、nnUNetのすべてのテストされたカテゴリにおける重要な指標における堅牢なパフォーマンスは、これらの多様性と複雑なセグメンテーションタスクの最も効果的なモデルとして確立している。

This study provides a comparative analysis of deep learning models including UNet, Res-UNet, Attention Res-UNet, and nnUNet, and evaluates their performance in brain tumour, polyp, and multi-class heart segmentation tasks. The analysis focuses on precision, accuracy, recall, Dice Similarity Coefficient (DSC), and Intersection over Union (IoU) to assess their clinical applicability. In brain tumour segmentation, Res-UNet and nnUNet significantly outperformed UNet, with Res-UNet leading in DSC and IoU scores, indicating superior accuracy in tumour delineation. Meanwhile, nnUNet excelled in recall and accuracy, which are crucial for reliable tumour detection in clinical diagnosis and planning. In polyp detection, nnUNet was the most effective, achieving the highest metrics across all categories and proving itself as a reliable diagnostic tool in endoscopy. In the complex task of heart segmentation, Res-UNet and Attention Res-UNet were outstanding in delineating the left ventricle, with Res-UNet also leading in right ventricle segmentation. nnUNet was unmatched in myocardium segmentation, achieving top scores in precision, recall, DSC, and IoU. The conclusion notes that although Res-UNet occasionally outperforms nnUNet in specific metrics, the differences are quite small. Moreover, nnUNet consistently shows superior overall performance across the experiments. Particularly noted for its high recall and accuracy, which are crucial in clinical settings to minimize misdiagnosis and ensure timely treatment, nnUNet's robust performance in crucial metrics across all tested categories establishes it as the most effective model for these varied and complex segmentation tasks.
翻訳日:2024-07-08 14:00:02 公開日:2024-07-05
# 医用画像登録のためのデータ駆動組織と被験者の弾性規則化

Data-Driven Tissue- and Subject-Specific Elastic Regularization for Medical Image Registration ( http://arxiv.org/abs/2407.04355v1 )

ライセンス: Link先を確認
Anna Reithmeir, Lina Felsner, Rickmer Braren, Julia A. Schnabel, Veronika A. Zimmer, (参考訳) 解剖学的構造の生体力学的特性を効果的に捉えることができるため, 患者内画像登録には物理刺激による正則化が望まれる。 しかし、大きな課題は物理的パラメータへの依存にある: パラメータ推定は文献によって大きく異なり、物理的特性自体が本質的に主観的特有である。 本研究では, 弾性正則化器の組織依存弾性パラメータの学習にハイパーネットを利用する新しいデータ駆動手法を提案する。 特に本手法は,ネットワークの再トレーニングを必要とせず,患者固有のパラメータの推定を容易にする。 本手法は,3種類の3Dおよび3D肺CTおよび心MRデータセットを用いて検討した。 提案する対象特異的組織依存正則化では,グローバル正則化を用いた場合と比較して,すべてのデータセットに対して高い登録品質が得られることがわかった。 コードはhttps://github.com/compai-lab/2024-miccai-reithmeirで公開されている。

Physics-inspired regularization is desired for intra-patient image registration since it can effectively capture the biomechanical characteristics of anatomical structures. However, a major challenge lies in the reliance on physical parameters: Parameter estimations vary widely across the literature, and the physical properties themselves are inherently subject-specific. In this work, we introduce a novel data-driven method that leverages hypernetworks to learn the tissue-dependent elasticity parameters of an elastic regularizer. Notably, our approach facilitates the estimation of patient-specific parameters without the need to retrain the network. We evaluate our method on three publicly available 2D and 3D lung CT and cardiac MR datasets. We find that with our proposed subject-specific tissue-dependent regularization, a higher registration quality is achieved across all datasets compared to using a global regularizer. The code is available at https://github.com/compai-lab/2024-miccai-reithmeir.
翻訳日:2024-07-08 14:00:02 公開日:2024-07-05
# 非負ガウスニュートンステップサイズをもつ適応確率勾配法

An Adaptive Stochastic Gradient Method with Non-negative Gauss-Newton Stepsizes ( http://arxiv.org/abs/2407.04358v1 )

ライセンス: Link先を確認
Antonio Orvieto, Lin Xiao, (参考訳) 多数の滑らかだが非凸関数の平均を最小化する問題を考える。 ほとんどの機械学習アプリケーションの文脈では、各損失関数は非負であり、従って平方根とその実数値平方根の合成として表すことができる。 この再構成により、二次正則化を加える際にガウス・ニュートン法やレバンス・マルカルト法を適用することができる。 得られたアルゴリズムは、バニラ確率勾配法と同等に計算効率が良いが、適応性が高く、非負のロスランドスケープを追尾しながら、有効段差を自動的にウォームアップして減衰させることができる。 我々は、確率凸および非凸設定において、新しい手法を活用する厳密な収束解析を提供する。 特に凸の場合、この方法は収束のために勾配リプシッツ定数へのアクセスを必要とせず、決して分岐しないことが保証される。 収束率と経験的評価は、古典的(確率的な)勾配法や、他のいくつかの適応法と好意的に比較できる。

We consider the problem of minimizing the average of a large number of smooth but possibly non-convex functions. In the context of most machine learning applications, each loss function is non-negative and thus can be expressed as the composition of a square and its real-valued square root. This reformulation allows us to apply the Gauss-Newton method, or the Levenberg-Marquardt method when adding a quadratic regularization. The resulting algorithm, while being computationally as efficient as the vanilla stochastic gradient method, is highly adaptive and can automatically warmup and decay the effective stepsize while tracking the non-negative loss landscape. We provide a tight convergence analysis, leveraging new techniques, in the stochastic convex and non-convex settings. In particular, in the convex case, the method does not require access to the gradient Lipshitz constant for convergence, and is guaranteed to never diverge. The convergence rates and empirical evaluations compare favorably to the classical (stochastic) gradient method as well as to several other adaptive methods.
翻訳日:2024-07-08 14:00:02 公開日:2024-07-05
# ADSのダンス: 歴史的にインフォームドされたシナリオファジィングによる失敗のオーケストレーション

Dance of the ADS: Orchestrating Failures through Historically-Informed Scenario Fuzzing ( http://arxiv.org/abs/2407.04359v1 )

ライセンス: Link先を確認
Tong Wang, Taotao Gu, Huan Deng, Hu Li, Xiaohui Kuang, Gang Zhao, (参考訳) 自律運転システム(ADS)がより高いレベルの自律性に向かって進むにつれ、安全確認の組織化はますます複雑化する。 本稿では,シナリオベースのファジテスト手法であるScenarioFuzzを紹介する。 過去のパフォーマンスを理解する振付師のように設計され、事前定義されたシナリオの欠如なしに、ADSの脆弱性を明らかにする。 OPENDRIVEなどの地図道路網を活用して,基本シナリオのシードコーパスを形成する。 関連する情報に富んだこのコーパスは、起動シナリオがない場合にファズテストに必要な境界を提供する。 提案手法では,グラフニューラルネットワークモデルと組み合わせて,リスクの高いシナリオシードの予測とフィルタリングを行い,過去のテストデータを用いてファジィ処理を最適化する。 他の手法と比較して、我々の手法は時間コストを平均60.3%削減する一方、単位時間当たりのエラーシナリオの数は103%増加した。 さらに,ADS故障の原因となる54の高リスクシナリオを同定・要約する自己教師型衝突軌道クラスタリング手法を提案する。 実験では、6つのテストシステムで58のバグを発見し、ADSの重要な安全性上の懸念を強調した。

As autonomous driving systems (ADS) advance towards higher levels of autonomy, orchestrating their safety verification becomes increasingly intricate. This paper unveils ScenarioFuzz, a pioneering scenario-based fuzz testing methodology. Designed like a choreographer who understands the past performances, it uncovers vulnerabilities in ADS without the crutch of predefined scenarios. Leveraging map road networks, such as OPENDRIVE, we extract essential data to form a foundational scenario seed corpus. This corpus, enriched with pertinent information, provides the necessary boundaries for fuzz testing in the absence of starting scenarios. Our approach integrates specialized mutators and mutation techniques, combined with a graph neural network model, to predict and filter out high-risk scenario seeds, optimizing the fuzzing process using historical test data. Compared to other methods, our approach reduces the time cost by an average of 60.3%, while the number of error scenarios discovered per unit of time increases by 103%. Furthermore, we propose a self-supervised collision trajectory clustering method, which aids in identifying and summarizing 54 high-risk scenario categories prone to inducing ADS faults. Our experiments have successfully uncovered 58 bugs across six tested systems, emphasizing the critical safety concerns of ADS.
翻訳日:2024-07-08 14:00:02 公開日:2024-07-05
# Harmonic Beltrami Signature による形状優先分割法

Shape Prior Segmentation Guided by Harmonic Beltrami Signature ( http://arxiv.org/abs/2407.04360v1 )

ライセンス: Link先を確認
Chenran Lin, Lok Ming Lui, (参考訳) 本稿では,ハーモニック・ベルトラミ・シグナチャ (HBS) によって導かれる新しい形状先行セグメンテーション法を提案する。 HBSは2Dの単純な連結形状を完全に捉えた形状表現であり、摂動と翻訳、回転、スケーリングに対する不変性を示す。 提案手法は,HBSを半コンフォーマルなトポロジ保存セグメンテーションフレームワークに統合し,形状の事前知識を活用してセグメンテーション性能を大幅に向上させる。 鍵となるイノベーションは、最適化プロセスが2つの反復的な段階に分岐することにある。 1) 画像データやその他の正規化用語によって駆動される単位ディスクを対象セグメント化領域に変換する準等角変形写像の計算 2)次の改良はベルトラミ係数と基準HBSとの$L_2$距離を最小化するときに行われる。 この形状制約のある改良により、セグメント化は、HBSが持つ固有の不変性、堅牢性、識別可能な形状識別能力を活用することにより、参照形状(s)に固執する。 合成および実世界の画像に関する大規模な実験は、ベースラインよりもセグメンテーションの精度を向上し、事前処理の要求を排除し、ノイズの破損を防ぎ、柔軟に形状の事前を取得して適用する手法の能力を検証している。 全体として、HBSセグメンテーションフレームワークは、事前知識の形状をしっかりと取り入れ、重要な低レベル視覚タスクを進行させる効率的な戦略を提供する。

This paper presents a novel shape prior segmentation method guided by the Harmonic Beltrami Signature (HBS). The HBS is a shape representation fully capturing 2D simply connected shapes, exhibiting resilience against perturbations and invariance to translation, rotation, and scaling. The proposed method integrates the HBS within a quasi-conformal topology preserving segmentation framework, leveraging shape prior knowledge to significantly enhance segmentation performance, especially for low-quality or occluded images. The key innovation lies in the bifurcation of the optimization process into two iterative stages: 1) The computation of a quasi-conformal deformation map, which transforms the unit disk into the targeted segmentation area, driven by image data and other regularization terms; 2) The subsequent refinement of this map is contingent upon minimizing the $L_2$ distance between its Beltrami coefficient and the reference HBS. This shape-constrained refinement ensures that the segmentation adheres to the reference shape(s) by exploiting the inherent invariance, robustness, and discerning shape discriminative capabilities afforded by the HBS. Extensive experiments on synthetic and real-world images validate the method's ability to improve segmentation accuracy over baselines, eliminate preprocessing requirements, resist noise corruption, and flexibly acquire and apply shape priors. Overall, the HBS segmentation framework offers an efficient strategy to robustly incorporate the shape prior knowledge, thereby advancing critical low-level vision tasks.
翻訳日:2024-07-08 14:00:02 公開日:2024-07-05
# 色覚障害に対するコンテキスト認識支援に向けて:LLMとARを統合したアプローチ

Towards Context-aware Support for Color Vision Deficiency: An Approach Integrating LLM and AR ( http://arxiv.org/abs/2407.04362v1 )

ライセンス: Link先を確認
Shogo Morita, Yan Zhang, Takuto Yamauchi, Sinan Chen, Jialong Li, Kenji Tei, (参考訳) 色覚障害を持つ人は、赤や緑などの色を区別する上で困難に直面することが多く、日々の作業が複雑になり、補助具や環境調整が必要とされる。 現在のサポートツールは、主にiPhoneのアクセシビリティ設定にある色覚モードなど、プレゼンテーションベースの支援に焦点を当てている。 しかしながら、タスク固有のソリューションがすべてのシナリオに対して費用対効果がないため、肉の完成度を示すようなコンテキスト対応のサポートの提供は依然として課題である。 そこで本稿では,文脈的・自律的な支援を行うアプリケーションを提案する。 この用途は主に以下の通りである。 (i)コンテキストを効率的にキャプチャする拡張現実インターフェース、及び (二) 文脈を認識し、適切なサポート内容について推論する多モーダルな大規模言語モデルに基づく推論器。 5つのシナリオにまたがる2つの色覚欠損ユーザによる予備的なユーザ実験により、アプリケーションの有効性と普遍性を実証した。

People with color vision deficiency often face challenges in distinguishing colors such as red and green, which can complicate daily tasks and require the use of assistive tools or environmental adjustments. Current support tools mainly focus on presentation-based aids, like the color vision modes found in iPhone accessibility settings. However, offering context-aware support, like indicating the doneness of meat, remains a challenge since task-specific solutions are not cost-effective for all possible scenarios. To address this, our paper proposes an application that provides contextual and autonomous assistance. This application is mainly composed of: (i) an augmented reality interface that efficiently captures context; and (ii) a multi-modal large language model-based reasoner that serves to cognitize the context and then reason about the appropriate support contents. Preliminary user experiments with two color vision deficient users across five different scenarios have demonstrated the effectiveness and universality of our application.
翻訳日:2024-07-08 14:00:02 公開日:2024-07-05
# AriGraph: LLMエージェントのエピソードメモリを用いた知識グラフワールドモデル学習

AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents ( http://arxiv.org/abs/2407.04363v1 )

ライセンス: Link先を確認
Petr Anokhin, Nikita Semenov, Artyom Sorokin, Dmitry Evseev, Mikhail Burtsev, Evgeny Burnaev, (参考訳) 生成AIの進歩は、自律エージェントの開発におけるLarge Language Models(LLM)の潜在的な応用を拡大した。 真の自律を達成するには、環境との相互作用から得られた知識を蓄積し、更新し、効果的に活用する必要がある。 現在のLCMベースのアプローチは、観測、要約、または検索拡張の完全な履歴を利用して過去の経験を活用する。 しかし、これらの非構造化メモリ表現は、複雑な意思決定に不可欠な推論や計画を促進するものではない。 本研究では,環境を探索しながらセマンティックメモリとエピソードメモリを統合したメモリグラフを構築する新しい手法であるAriGraphを紹介する。 このグラフ構造は、エージェントの現在の状態と目標に関連する相互接続された概念の効率的な連想的検索を促進し、エージェントの探索と計画能力を高める効果的な環境モデルとして機能する。 提案するメモリアーキテクチャと計画と意思決定を統合したAriadne LLMエージェントが,TextWorld環境において,複雑なタスクをゼロショットベースで効果的に処理できることを実証した。 提案手法は,第1回テキストワールドコンペティションの調理課題や,家の清掃やパズルの宝探しといった新しいタスクなど,多種多様なタスクにおいて,フルヒストリーや要約,検索生成といった手法よりも優れていた。

Advancements in generative AI have broadened the potential applications of Large Language Models (LLMs) in the development of autonomous agents. Achieving true autonomy requires accumulating and updating knowledge gained from interactions with the environment and effectively utilizing it. Current LLM-based approaches leverage past experiences using a full history of observations, summarization or retrieval augmentation. However, these unstructured memory representations do not facilitate the reasoning and planning essential for complex decision-making. In our study, we introduce AriGraph, a novel method wherein the agent constructs a memory graph that integrates semantic and episodic memories while exploring the environment. This graph structure facilitates efficient associative retrieval of interconnected concepts, relevant to the agent's current state and goals, thus serving as an effective environmental model that enhances the agent's exploratory and planning capabilities. We demonstrate that our Ariadne LLM agent, equipped with this proposed memory architecture augmented with planning and decision-making, effectively handles complex tasks on a zero-shot basis in the TextWorld environment. Our approach markedly outperforms established methods such as full-history, summarization, and Retrieval-Augmented Generation in various tasks, including the cooking challenge from the First TextWorld Problems competition and novel tasks like house cleaning and puzzle Treasure Hunting.
翻訳日:2024-07-08 14:00:02 公開日:2024-07-05
# Inchworm法による外対角カップリングによるスピン鎖のシミュレーション

Simulation of Spin Chains with off-diagonal Coupling Using Inchworm Method ( http://arxiv.org/abs/2407.04365v1 )

ライセンス: Link先を確認
Yixiao Sun, Geshuo Wang, Zhenning Cai, (参考訳) 本研究では, 閉量子スピン鎖と近接結合の動的シミュレーションを行い, チェーン内の各スピンとハーモニックバスの関連性について検討した。 これは、inchworm法の適用と、対角連結ケースから対角連結ケースへのモジュラーパス積分の技法を一般化することにより、これまでの研究(G. Wang and Z. Cai, J. Chem. Theory Comput., 19, 8523--8540, 2023)の拡張である。 さらに, 長期シミュレーションにおける計算コストとメモリコストの低減のために, スピン鎖の密度行列を効率的に表現するためにテンソルトレイン表現を適用し, 時間に対する計算コストの指数的増大を回避するために転送テンソル法(TTM)を用いる。 本手法の有効性を検証するために, 基礎的な数値実験を行った。

We study the dynamical simulation of open quantum spin chain with nearest neighboring coupling, where each spin in the chain is associated with a harmonic bath. This is an extension of our previous work [G. Wang and Z. Cai, J. Chem. Theory Comput., 19, 8523--8540, 2023] by generalizing the application of the inchworm method and the technique of modular path integrals from diagonally coupled cases to off-diagonally coupled cases. Additionally, to reduce computational and memory cost in long time simulation, we apply tensor-train representation to efficiently represent the reduced density matrix of the spin chains, and employ the transfer tensor method (TTM) to avoid exponential growth of computational cost with respect to time. Abundant numerical experiments are performed to validate our method.
翻訳日:2024-07-08 14:00:02 公開日:2024-07-05
# マルチ言語ASRのためのロミゼーション符号化

Romanization Encoding For Multilingual ASR ( http://arxiv.org/abs/2407.04368v1 )

ライセンス: Link先を確認
Wen Ding, Fei Jia, Hainan Xu, Yu Xi, Junjie Lai, Boris Ginsburg, (参考訳) 本稿では,多言語およびコードスイッチング自動音声認識(ASR)システムを最適化するために,スクリプト重言語に対するロマネライズ符号化を導入する。 Roman2Charモジュールを備えたFastConformer-RNNTフレームワークにおいて,バランスの取れたコンカニケータとともにローマン化符号化を採用することにより,語彙と出力次元を著しく削減し,より大きなトレーニングバッチを可能にし,メモリ消費を削減した。 本手法は,音響モデルと言語モデリングを分離し,システムの柔軟性と適応性を向上する。 本研究では, この手法をマンダリン英語ASRに適用することにより, SEAMEコードスイッチングベンチマークにおいて, 63.51%の語彙が顕著に減少し, 13.72%, 15.03%の顕著な性能向上が得られた。 マンダリン-韓国語とマンダリン-日本語のアブレーション研究は、他のスクリプト重言語の複雑さに対処する我々の手法の強みを強調し、より多言語的で効果的な多言語ASRシステムへの道を開いた。

We introduce romanization encoding for script-heavy languages to optimize multilingual and code-switching Automatic Speech Recognition (ASR) systems. By adopting romanization encoding alongside a balanced concatenated tokenizer within a FastConformer-RNNT framework equipped with a Roman2Char module, we significantly reduce vocabulary and output dimensions, enabling larger training batches and reduced memory consumption. Our method decouples acoustic modeling and language modeling, enhancing the flexibility and adaptability of the system. In our study, applying this method to Mandarin-English ASR resulted in a remarkable 63.51% vocabulary reduction and notable performance gains of 13.72% and 15.03% on SEAME code-switching benchmarks. Ablation studies on Mandarin-Korean and Mandarin-Japanese highlight our method's strong capability to address the complexities of other script-heavy languages, paving the way for more versatile and effective multilingual ASR systems.
翻訳日:2024-07-08 14:00:02 公開日:2024-07-05
# ZARRIO @Ego4D Short Term Object Interaction Precipation Challenge: Leveraging Affordances and Attention-based Model for STA

ZARRIO @ Ego4D Short Term Object Interaction Anticipation Challenge: Leveraging Affordances and Attention-based models for STA ( http://arxiv.org/abs/2407.04369v1 )

ライセンス: Link先を確認
Lorenzo Mur-Labadia, Ruben Martinez-Cantin, Josechu Guerrero-Campo, Giovanni Maria Farinella, (参考訳) STA(Short-Term Object-Interaction Precipation)は、次のアクティブなオブジェクトの位置、対話の名詞と動詞のカテゴリ、および自我中心のビデオの観察から接触する時間を検出することで構成される。 STAformerは、フレーム誘導時間プーリング、デュアルイメージビデオアテンション、マルチスケール機能融合を統合し、画像入力ビデオペアからのSTA予測をサポートする新しいアテンションベースアーキテクチャである。 さらに,2つの新しいモジュールを導入し,人間の行動に対するSTA予測をモデル化する。 まず、特定の物理的場面で起こりうる相互作用の永続記憶として機能する環境割当モデルを統合する。 第2に、手と物体の軌跡の観測から相互作用ホットスポットを予測し、ホットスポット周辺に局在したSTA予測に対する信頼性を高める。 テストセットでは,最終33.5 N mAP, 17.25 N+V mAP, 11.77 N+{\delta} mAP, 6.75 総合トップ5 mAP測定値を得た。

Short-Term object-interaction Anticipation (STA) consists of detecting the location of the next-active objects, the noun and verb categories of the interaction, and the time to contact from the observation of egocentric video. We propose STAformer, a novel attention-based architecture integrating frame-guided temporal pooling, dual image-video attention, and multi-scale feature fusion to support STA predictions from an image-input video pair. Moreover, we introduce two novel modules to ground STA predictions on human behavior by modeling affordances. First, we integrate an environment affordance model which acts as a persistent memory of interactions that can take place in a given physical scene. Second, we predict interaction hotspots from the observation of hands and object trajectories, increasing confidence in STA predictions localized around the hotspot. On the test set, our results obtain a final 33.5 N mAP, 17.25 N+V mAP, 11.77 N+{\delta} mAP and 6.75 Overall top-5 mAP metric when trained on the v2 training dataset.
翻訳日:2024-07-08 14:00:01 公開日:2024-07-05
# Smoothing Input Marginal density による非破壊特性のモデル信頼度制御

Regulating Model Reliance on Non-Robust Features by Smoothing Input Marginal Density ( http://arxiv.org/abs/2407.04370v1 )

ライセンス: Link先を確認
Peiyu Yang, Naveed Akhtar, Mubarak Shah, Ajmal Mian, (参考訳) 信頼できる機械学習は、非ロバストな特徴に依存するモデルの厳密な規制を必要とする。 本稿では,モデル予測を入力に関連付けることによって,そのような特徴を記述・規制するフレームワークを提案する。 我々のアプローチでは、頑健な特徴属性は一定の一貫性を示すが、非ロバストな特徴属性は変動の影響を受けやすい。 この挙動により、モデル依存が非破壊的特徴と入力サンプルの辺縁密度の滑らかさとを関連付けることができる。 したがって、入力特徴である強靭性の辺密度 w.r.t の勾配を一意に正規化する。 また、最適化プロセスの潜在的な数値不安定性に対処するために、正規化の効率的な実装を考案する。 さらに, 境界密度の平滑化とは対照的に, 入力勾配正規化が条件あるいは結合密度を円滑化させ, 剛性に制限を与える可能性があることを解析的に明らかにした。 提案手法の有効性を検証し,特徴漏洩問題に対処し,突発的相関を緩和できることを示す。 さらに, この手法により, 画素値, 入力勾配, 密度の摂動に対して頑健性を示すことができることを示す。

Trustworthy machine learning necessitates meticulous regulation of model reliance on non-robust features. We propose a framework to delineate and regulate such features by attributing model predictions to the input. Within our approach, robust feature attributions exhibit a certain consistency, while non-robust feature attributions are susceptible to fluctuations. This behavior allows identification of correlation between model reliance on non-robust features and smoothness of marginal density of the input samples. Hence, we uniquely regularize the gradients of the marginal density w.r.t. the input features for robustness. We also devise an efficient implementation of our regularization to address the potential numerical instability of the underlying optimization process. Moreover, we analytically reveal that, as opposed to our marginal density smoothing, the prevalent input gradient regularization smoothens conditional or joint density of the input, which can cause limited robustness. Our experiments validate the effectiveness of the proposed method, providing clear evidence of its capability to address the feature leakage problem and mitigate spurious correlations. Extensive results further establish that our technique enables the model to exhibit robustness against perturbations in pixel values, input gradients, and density.
翻訳日:2024-07-08 14:00:01 公開日:2024-07-05
# 量子ニューラルネットワークとパーセプトロンの等価性の爆発

Exploiting the equivalence between quantum neural networks and perceptrons ( http://arxiv.org/abs/2407.04371v1 )

ライセンス: Link先を確認
Chris Mingard, Jessica Pointing, Charles London, Yoonsoo Nam, Ard A. Louis, (参考訳) 量子ニューラルネットワーク(QNN)とも呼ばれるパラメタライズド量子回路に基づく量子機械学習モデルは、短期量子デバイスへの応用において最も有望な候補であると考えられている。 ここでは、QNNの表現率と帰納バイアスについて、$x$から$x \otimes x$(複素入力に一般化)に作用する古典的パーセプトロンへの入力を、QNNから正確にマッピングすることで検討する。 パーセプトロンアーキテクチャの単純さにより、現在のQNNモデルの欠点と、それらが直面する多くの障壁が、有用な汎用学習アルゴリズムとなるための明確な例を提供することができる。 例えば、振幅エンコーディングを持つQNNは、$n\geq 3$のブールパリティ関数を表現できない。 QNNを古典的なパーセプトロンにマッピングすることで、トレーニングを単純化し、Booleanデータ上の他のより表現力のある埋め込みの帰納的バイアスを体系的に研究することができる。 いくつかの一般的な埋め込みは、主にクラスバランスの低い関数に対する帰納的バイアスを生じさせ、よりリッチな帰納的バイアスを示すディープニューラルネットワークアーキテクチャと比較して一般化性能を低下させる。 標準QNNを超越した2つの戦略を探求する。 まず最初に、従来のDNNにインスパイアされたカーネルを生成するのにQNNを使用します。 二つ目は、ディープニューラルネットワークの階層構造に類似し、ブーリアンデータに完全に表現可能な層状非線形QNNを構築すると同時に、単純なQNNよりも豊かな帰納バイアスを示す。 最後に,古典的データ上での深層学習アルゴリズムよりも量子的優位性を実現することがいかに難しいかを明らかにするQNN文献の特徴について論じる。

Quantum machine learning models based on parametrized quantum circuits, also called quantum neural networks (QNNs), are considered to be among the most promising candidates for applications on near-term quantum devices. Here we explore the expressivity and inductive bias of QNNs by exploiting an exact mapping from QNNs with inputs $x$ to classical perceptrons acting on $x \otimes x$ (generalised to complex inputs). The simplicity of the perceptron architecture allows us to provide clear examples of the shortcomings of current QNN models, and the many barriers they face to becoming useful general-purpose learning algorithms. For example, a QNN with amplitude encoding cannot express the Boolean parity function for $n\geq 3$, which is but one of an exponential number of data structures that such a QNN is unable to express. Mapping a QNN to a classical perceptron simplifies training, allowing us to systematically study the inductive biases of other, more expressive embeddings on Boolean data. Several popular embeddings primarily produce an inductive bias towards functions with low class balance, reducing their generalisation performance compared to deep neural network architectures which exhibit much richer inductive biases. We explore two alternate strategies that move beyond standard QNNs. In the first, we use a QNN to help generate a classical DNN-inspired kernel. In the second we draw an analogy to the hierarchical structure of deep neural networks and construct a layered non-linear QNN that is provably fully expressive on Boolean data, while also exhibiting a richer inductive bias than simple QNNs. Finally, we discuss characteristics of the QNN literature that may obscure how hard it is to achieve quantum advantage over deep learning algorithms on classical data.
翻訳日:2024-07-08 14:00:01 公開日:2024-07-05
# 製造業におけるエネルギー効率向上のためのエキスパートシステムに関する体系的考察

A systematic review on expert systems for improving energy efficiency in the manufacturing industry ( http://arxiv.org/abs/2407.04377v1 )

ライセンス: Link先を確認
Borys Ioshchikhes, Michael Frank, Matthias Weigold, (参考訳) 2050年までに気候中立を達成するという欧州連合のコミットメントを背景に、エネルギー効率を改善する努力が激化している。 製造業は、最終的な電気エネルギー需要の高さと、確立された目標達成に不可欠な熟練労働者の不足により、これらの取り組みの焦点となっている。 エキスパートシステム(ES)は、潜在的なエネルギー効率の改善を自動的に特定し、電力消費を減らす上で重要な役割を果たすことにより、この課題を克服する機会を提供する。 本稿では,産業におけるエネルギー効率向上を目的としたESの最先端的アプローチを,製造に焦点をあてて体系的に検討する。 文献検索の結果は1692で、そのうち1987年から2023年の間に発行された54の論文が詳細に分析されている。 これらの出版物は、システムの境界、製造タイプ、アプリケーションパースペクティブ、アプリケーション目的、ESタイプ、業界によって分類される。 さらに, この文脈におけるESの構造, 実装, 利用, 開発について検討する。 この分析を通じて,今後の研究に期待できるトピックをめざして,研究のギャップを明らかにする。

Against the backdrop of the European Union's commitment to achieve climate neutrality by 2050, efforts to improve energy efficiency are being intensified. The manufacturing industry is a key focal point of these endeavors due to its high final electrical energy demand, while simultaneously facing a growing shortage of skilled workers crucial for meeting established goals. Expert systems (ESs) offer the chance to overcome this challenge by automatically identifying potential energy efficiency improvements and thereby playing a significant role in reducing electricity consumption. This paper systematically reviews state-of-the-art approaches of ESs aimed at improving energy efficiency in industry, with a focus on manufacturing. The literature search yields 1692 results, of which 54 articles published between 1987 and 2023 are analyzed in depth. These publications are classified according to the system boundary, manufacturing type, application perspective, application purpose, ES type, and industry. Furthermore, we examine the structure, implementation, utilization, and development of ESs in this context. Through this analysis, the review reveals research gaps, pointing toward promising topics for future research.
翻訳日:2024-07-08 14:00:01 公開日:2024-07-05
# 高精度物体検出のための再パラメータ化ヘテロジニアス畳み込み型マルチブランチ補助核融合

Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection ( http://arxiv.org/abs/2407.04381v1 )

ライセンス: Link先を確認
Zhiqiang Yang, Qiu Guan, Keer Zhao, Jianmin Yang, Xinli Xu, Haixia Long, Ying Tang, (参考訳) マルチスケール機能融合の有効な性能のため、PAFPN(Path Aggregation FPN)はYOLO検出器に広く用いられている。 しかし,高レベルの意味情報と低レベルの空間情報とを同時に効率的に,かつ適応的に統合することはできない。 本稿では,多分岐補助FPN(Multi-Branch Auxiliary FPN,MAFPN)という,多機能ネックを持つ新しいオブジェクト検出フレームワークであるMAF-YOLOを提案する。 MAFPN内では、SAFモジュールは、バックボーンの出力とネックの出力を結合するように設計されており、学習を促進するために最適な浅層情報を保持する。 一方、AAF(Advanced Assisted Fusion)モジュールは、より多様な勾配情報を出力層に伝達する。 さらに,提案したRe-parameterized Heterogeneous Efficient Layer Aggregation Network (RepHELAN)モジュールは,モデルアーキテクチャ全体と畳み込み設計の両方が異種大規模畳み込みカーネルの利用を確実にする。 これにより、マルチスケールの受容領域を同時に達成しつつ、小さなターゲットに関する情報の保存が保証される。 最後に、MAF-YOLOのナノバージョンを例にとると、3.76Mの学習可能なパラメータと10.51GのFLOPでCOCO上の42.4%のAPを達成でき、YOLOv8nを約5.1%上回る。 この作業のソースコードは、https://github.com/yang-0201/MAF-YOLOで公開されている。

Due to the effective performance of multi-scale feature fusion, Path Aggregation FPN (PAFPN) is widely employed in YOLO detectors. However, it cannot efficiently and adaptively integrate high-level semantic information with low-level spatial information simultaneously. We propose a new model named MAF-YOLO in this paper, which is a novel object detection framework with a versatile neck named Multi-Branch Auxiliary FPN (MAFPN). Within MAFPN, the Superficial Assisted Fusion (SAF) module is designed to combine the output of the backbone with the neck, preserving an optimal level of shallow information to facilitate subsequent learning. Meanwhile, the Advanced Assisted Fusion (AAF) module deeply embedded within the neck conveys a more diverse range of gradient information to the output layer. Furthermore, our proposed Re-parameterized Heterogeneous Efficient Layer Aggregation Network (RepHELAN) module ensures that both the overall model architecture and convolutional design embrace the utilization of heterogeneous large convolution kernels. Therefore, this guarantees the preservation of information related to small targets while simultaneously achieving the multi-scale receptive field. Finally, taking the nano version of MAF-YOLO for example, it can achieve 42.4% AP on COCO with only 3.76M learnable parameters and 10.51G FLOPs, and approximately outperforms YOLOv8n by about 5.1%. The source code of this work is available at: https://github.com/yang-0201/MAF-YOLO.
翻訳日:2024-07-08 14:00:01 公開日:2024-07-05
# 逆攻撃検出のための自己教師付き表現学習

Self-Supervised Representation Learning for Adversarial Attack Detection ( http://arxiv.org/abs/2407.04382v1 )

ライセンス: Link先を確認
Yi Li, Plamen Angelov, Neeraj Suri, (参考訳) 教師付き学習ベース対向攻撃検出手法は、多数のラベル付きデータに依存し、トレーニングされたモデルを新しいドメインに適用する場合、大幅な性能低下を被る。 本稿では,この欠点に対処するために,敵攻撃検出タスクのための自己教師型表現学習フレームワークを提案する。 まず、拡張入力画像のピクセルを埋め込み空間にマッピングする。 そこで本研究では,クラスタのプロトタイプを潜在変数として,プロトタイプのコントラスト推定損失を用いる。 さらに、メモリバンクの概念からインスピレーションを得て、同一または類似のプロトタイプを共有する個々のインスタンスの表現を識別し、学習するための識別バンクを導入し、インスタンスと関連するプロトタイプ間の接続を確立する。 注意マップの高さ・幅軸を並列トレーニングすることでトレーニングプロセスを容易にする並列軸アテンション(PAA)ベースのエンコーダを提案する。 実験結果から,様々なベンチマークによる自己教師型視覚学習モデルや教師型対人攻撃検出手法と比較して,幅広い画像を対象とした対人攻撃検出タスクの最先端性能が得られた。

Supervised learning-based adversarial attack detection methods rely on a large number of labeled data and suffer significant performance degradation when applying the trained model to new domains. In this paper, we propose a self-supervised representation learning framework for the adversarial attack detection task to address this drawback. Firstly, we map the pixels of augmented input images into an embedding space. Then, we employ the prototype-wise contrastive estimation loss to cluster prototypes as latent variables. Additionally, drawing inspiration from the concept of memory banks, we introduce a discrimination bank to distinguish and learn representations for each individual instance that shares the same or a similar prototype, establishing a connection between instances and their associated prototypes. We propose a parallel axial-attention (PAA)-based encoder to facilitate the training process by parallel training over height- and width-axis of attention maps. Experimental results show that, compared to various benchmark self-supervised vision learning models and supervised adversarial attack detection methods, the proposed model achieves state-of-the-art performance on the adversarial attack detection task across a wide range of images.
翻訳日:2024-07-08 14:00:01 公開日:2024-07-05
# オンラインゲームにおけるリアルタイム毒性検出の課題

Challenges for Real-Time Toxicity Detection in Online Games ( http://arxiv.org/abs/2407.04383v1 )

ライセンス: Link先を確認
Lynnette Hui Xian Ng, Adrian Xuan Wei Lim, Michael Miller Yoder, (参考訳) League of Legends、Counter Strike、Skribbl.ioのようなオンラインマルチプレイヤーゲームは、コミュニティの交流を通じて体験を生み出す。 複数のモードで相互に対話する能力を持つプレイヤーを提供することもPandoraボックスを開く。 有害な行為や悪意のあるプレイヤーは経験を台無しにし、プレイヤーベースを減らし、ゲームやスタジオの成功を損なう可能性がある。 本稿では,テキスト,音声および画像処理問題,行動毒性の観点から,有害なコンテンツ検出に直面する課題について概説する。 また、企業指向およびユーザ指向のコンテンツ検出における現在の実践についても論じ、人工知能時代における自動コンテンツ検出の価値と限界について論じる。

Online multiplayer games like League of Legends, Counter Strike, and Skribbl.io create experiences through community interactions. Providing players with the ability to interact with each other through multiple modes also opens a Pandora box. Toxic behaviour and malicious players can ruin the experience, reduce the player base and potentially harming the success of the game and the studio. This article will give a brief overview of the challenges faced in toxic content detection in terms of text, audio and image processing problems, and behavioural toxicity. It also discusses the current practices in company-directed and user-directed content detection and discuss the values and limitations of automated content detection in the age of artificial intelligence.
翻訳日:2024-07-08 13:50:07 公開日:2024-07-05
# 物体中心映像からのカテゴリーレベル3次元画像の教師なし学習

Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos ( http://arxiv.org/abs/2407.04384v1 )

ライセンス: Link先を確認
Leonhard Sommer, Artur Jesslen, Eddy Ilg, Adam Kortylewski, (参考訳) カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボティクスにおいて、例えばエンボディエージェントや3D生成モデルのトレーニングにおいて、根本的な重要な問題である。 しかし,分類レベルのオブジェクトのポーズを推定するには,大量のアノテーション,CADモデル,あるいはRGB-Dセンサからの入力が必要である。 対照的に、我々は、人間の監督なしに、カジュアルに撮られた対象中心の動画からのみ、カテゴリーレベルの3Dポーズを推定する学習の課題に取り組む。 まず、再構成された粗いメッシュとDINOv2特徴を用いた幾何学的および外観整合のための、新規で堅牢な環状距離の定式化により、ビデオ間での標準カメラのポーズを決定する多視点アライメント手順を提案する。 2番目のステップでは、標準ポーズと再構成メッシュにより、1つの画像から3次元ポーズ推定のためのモデルを訓練することができる。 特に,2次元画像の各画素について,テンプレートメッシュ内の対応する頂点の特徴ベクトルを予測することにより,画像と原型3次元テンプレートとの密接な対応を推定する。 提案手法は,対象中心ビデオの教師なしアライメントにおいて,大きなマージンで全てのベースラインを上回り,忠実で堅牢な予測を提供することを示す。 私たちのコードとデータはhttps://github.com/GenIntel/uns-obj-pose3dで公開されています。

Category-level 3D pose estimation is a fundamentally important problem in computer vision and robotics, e.g. for embodied agents or to train 3D generative models. However, so far methods that estimate the category-level object pose require either large amounts of human annotations, CAD models or input from RGB-D sensors. In contrast, we tackle the problem of learning to estimate the category-level 3D pose only from casually taken object-centric videos without human supervision. We propose a two-step pipeline: First, we introduce a multi-view alignment procedure that determines canonical camera poses across videos with a novel and robust cyclic distance formulation for geometric and appearance matching using reconstructed coarse meshes and DINOv2 features. In a second step, the canonical poses and reconstructed meshes enable us to train a model for 3D pose estimation from a single image. In particular, our model learns to estimate dense correspondences between images and a prototypical 3D template by predicting, for each pixel in a 2D image, a feature vector of the corresponding vertex in the template mesh. We demonstrate that our method outperforms all baselines at the unsupervised alignment of object-centric videos by a large margin and provides faithful and robust predictions in-the-wild. Our code and data is available at https://github.com/GenIntel/uns-obj-pose3d.
翻訳日:2024-07-08 13:50:07 公開日:2024-07-05
# シュレーディンガーの猫の独身死亡

Unitary death of Schrödinger's cat ( http://arxiv.org/abs/2407.04389v1 )

ライセンス: Link先を確認
Pavel Stránský, Pavel Cejnar, Radim Filip, (参考訳) 我々は,1つの軟モード発振器とキュービットの相互作用を記述するRabiモデルのダイナミクスを解析した。 本研究では, 振動子の対称なSchr{\「o}dinger cat状態が, 測定誘起波動関数崩壊に類似した自発一元化過程で突然消失することを示す。 この効果は、例えば、閉じ込められたイオン、マクロメカニカル発振器、超伝導回路で実験的に試験するには十分に堅牢である。

We analyze dynamics of the Rabi model describing interactions of a qubit with a single soft-mode oscillator. We show that the model with a slightly violated parity generates symmetric Schr{\"o}dinger cat states of the oscillator, which suddenly perish in a spontaneous unitary process similar to the measurement-induced wave-function collapse. The effect is sufficiently robust to be tested experimentally, e.g., with trapped ions, macroscopic mechanical oscillators or superconducting circuits.
翻訳日:2024-07-08 13:50:07 公開日:2024-07-05
# 有限量子資源の存在下でのリレーショナル客観性

Relational objectivity in presence of finite quantum resources ( http://arxiv.org/abs/2407.04391v1 )

ライセンス: Link先を確認
Luis C. Barbado, Časlav Brukner, (参考訳) ベルとコーシェンとスペクターのノーゴーの定理は、システムの概念と実験的な文脈が根本的に分離できないことを暗示していると解釈できる。 この解釈において、「スピンは方向に沿って'アップ'される」というような文は、スピンによって媒介され、スピンの内在的な性質ではなく、スピンによって媒介されるマクロデバイスの構成に関する関係文である。 これらのステートメントの操作的意味は、3次元空間における方向の概念を定義するのに役立つマクロ装置の事実上無限の資源によって提供される。 これは「教科書量子力学」の主題であり、実験的な文脈に関する量子システムの記述である。 と。 それを超えることはできますか。 リレーショナル量子力学は、マクロ的な装置を介さずに、あらゆる量子システム間のリレーショナル記述を提供する試みである。 しかし、そのような状況に「教科書量子力学」を適用することで、実験的な文脈を定義する能力を持たないスピンのような単純な量子系であっても、無限の資源を暗黙的に仮定する。 これは概念上の困難に繋がる。 我々は、ペンローズのスピンネットワークの提案を、教科書の枠組みを超えた量子理論の潜在的形式化として分析する。

The no-go theorems of Bell and Kochen and Specker could be interpreted as implying that the notions of system and experimental context are fundamentally inseparable. In this interpretation, statements such as "spin is 'up' along direction $x$" are relational statements about the configurations of macroscopic devices which are mediated by the spin and not about any intrinsic properties of the spin. The operational meaning of these statements is provided by the practically infinite resources of macroscopic devices that serve to define the notion of a direction in three-dimensional space. This is the subject of "textbook quantum mechanics": The description of quantum systems in relation to an experimental context.. Can one go beyond that? Relational quantum mechanics endeavors to provide a relational description between any quantum systems without the necessity of involving macroscopic devices. However, by applying "textbook quantum mechanics" in such situations, it implicitly assumes infinite resources, even for simple quantum systems such as spins, which have no capacity to define an experimental context. This leads to conceptual difficulties. We analyse Penrose's spin network proposal as a potential formalisation of quantum theory that goes beyond the textbook framework: A description in presence of finite resources, which is inherently relational and inseparable in the system-context entity.
翻訳日:2024-07-08 13:50:07 公開日:2024-07-05
# 連続変数最適化問題における精密ファクトリゼーションマシンの正則化の関数平滑化

Function Smoothing Regularization for Precision Factorization Machine Annealing in Continuous Variable Optimization Problems ( http://arxiv.org/abs/2407.04393v1 )

ライセンス: Link先を確認
Katsuhiro Endo, Kazuaki Z. Takahashi, (参考訳) 因子化マシン量子アニール(FMQA)による連続変数最適化問題の解法は、整数および実最適化問題の解法としてIsingマシンが拡張される可能性を示している。 しかし、因子化機械(FM)により得られたハミルトン関数面の詳細は見過ごされている。 この研究は、実数が二変数の組合せで表されるような広く一般的な場合、FMによって得られるハミルトニアン函数曲面は非常にうるさいことを示している。 このノイズは、量子アニールの固有の能力に干渉し、FMQA性能の限界により以前は解決不可能と考えられていた問題の実質的な原因となる。 ノイズの発生源を同定し,その発生を防止するための簡易な一般化手法を提案する。 提案手法の一般化性能と実用上の課題を解く能力を示す。

Solving continuous variable optimization problems by factorization machine quantum annealing (FMQA) demonstrates the potential of Ising machines to be extended as a solver for integer and real optimization problems. However, the details of the Hamiltonian function surface obtained by factorization machine (FM) have been overlooked. This study shows that in the widely common case where real numbers are represented by a combination of binary variables, the function surface of the Hamiltonian obtained by FM can be very noisy. This noise interferes with the inherent capabilities of quantum annealing and is likely to be a substantial cause of problems previously considered unsolvable due to the limitations of FMQA performance. The origin of the noise is identified and a simple, general method is proposed to prevent its occurrence. The generalization performance of the proposed method and its ability to solve practical problems is demonstrated.
翻訳日:2024-07-08 13:50:07 公開日:2024-07-05
# 眼底写真を用いた緑内障診断のためのグラフガイドテスト時間適応

Graph-Guided Test-Time Adaptation for Glaucoma Diagnosis using Fundus Photography ( http://arxiv.org/abs/2407.04396v1 )

ライセンス: Link先を確認
Qian Zeng, Fan Zhang, (参考訳) 緑内障は世界中で不可逆的な盲目の原因となっている。 眼底画像を用いたディープラーニングアプローチは緑内障の早期診断を大幅に改善してきたが、異なるデバイスや場所(ドメインシフトとして知られる)の画像の変化は、実世界の環境で事前訓練されたモデルの使用に挑戦している。 そこで我々は,緑内障の診断モデルを未知のテスト環境に一般化するための新しいグラフ誘導テスト時間適応(GTTA)フレームワークを提案する。 GTTAは、基礎画像のトポロジ的情報をモデルトレーニングに統合し、モデルの転送可能性を高め、スプリアス相関の学習リスクを低減する。 推論中、GTTAは、信頼性の高いクラス条件推定と整合性正規化によって、ソーストレーニングされた分類器をターゲットパターンに段階的に適応させる、新しいテストタイムトレーニング目標を導入した。 クロスドメイン緑内障診断ベンチマークの実験は、異なるバックボーンネットワーク下での全体的なフレームワークと個々のコンポーネントの優位性を実証している。

Glaucoma is a leading cause of irreversible blindness worldwide. While deep learning approaches using fundus images have largely improved early diagnosis of glaucoma, variations in images from different devices and locations (known as domain shifts) challenge the use of pre-trained models in real-world settings. To address this, we propose a novel Graph-guided Test-Time Adaptation (GTTA) framework to generalize glaucoma diagnosis models to unseen test environments. GTTA integrates the topological information of fundus images into the model training, enhancing the model's transferability and reducing the risk of learning spurious correlation. During inference, GTTA introduces a novel test-time training objective to make the source-trained classifier progressively adapt to target patterns with reliable class conditional estimation and consistency regularization. Experiments on cross-domain glaucoma diagnosis benchmarks demonstrate the superiority of the overall framework and individual components under different backbone networks.
翻訳日:2024-07-08 13:50:07 公開日:2024-07-05
# グラディエントルーティングを用いた内視鏡画像処理のためのハードアテンションゲート

Hard-Attention Gates with Gradient Routing for Endoscopic Image Computing ( http://arxiv.org/abs/2407.04400v1 )

ライセンス: Link先を確認
Giorgio Roffo, Carlo Biffi, Pietro Salvagnini, Andrea Cherubini, (参考訳) 胃腸科ポリプサイズ評価におけるモデル一般化の過度な適合と向上のために,動的特徴選択のためのグラディエント・ルーティング(GR)と並行して,FSG (Feature-Selection Gates) またはHAG (Hard-Attention Gates) を導入する。 この技術は、スパース接続を促進することにより、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)を強化し、オーバーフィットを低減し、一般化を促進することを目的としている。 HAGは、学習可能なウェイトでスパース化することでこれを達成し、正規化戦略として機能する。 GRは、メインモデルから独立してデュアルフォワードパスを介してHAGパラメータを最適化し、機能の再重み付けを改善することで、このプロセスをさらに洗練する。 CIFAR-100を対象とし,370,000フレーム以上で200個以上のポリープをカバーし,ポリプサイズ推定に重点を置く内視鏡的データセット(REAL-Colon, Misawa, SUN)について検討した。 以上の結果から,HAGにより強化されたネットワークは,ポリプサイズに関連する二分分類タスクと三分分類タスクの両方において,性能を著しく向上させることが示唆された。 具体的には、CNNはF1スコアを87.8%に改善し、3クラス分類ではVT-Tモデルが76.5%に達し、従来のCNNやVT-Tモデルを上回った。 さらなる研究を容易にするため、CNN、マルチストリームCNN、ViT、HAG拡張型の実装を含むコードベースをリリースしています。 このリソースは、内視鏡的データセットの使用を標準化することを目的としており、胃腸科ポリプサイズ推定における信頼性と同等の研究のために、公開トレーニングバリデーションテストスプリットを提供する。 コードベースはgithub.com/cosmoimd/feature-selection-gatesで入手できる。

To address overfitting and enhance model generalization in gastroenterological polyp size assessment, our study introduces Feature-Selection Gates (FSG) or Hard-Attention Gates (HAG) alongside Gradient Routing (GR) for dynamic feature selection. This technique aims to boost Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) by promoting sparse connectivity, thereby reducing overfitting and enhancing generalization. HAG achieves this through sparsification with learnable weights, serving as a regularization strategy. GR further refines this process by optimizing HAG parameters via dual forward passes, independently from the main model, to improve feature re-weighting. Our evaluation spanned multiple datasets, including CIFAR-100 for a broad impact assessment and specialized endoscopic datasets (REAL-Colon, Misawa, and SUN) focusing on polyp size estimation, covering over 200 polyps in more than 370,000 frames. The findings indicate that our HAG-enhanced networks substantially enhance performance in both binary and triclass classification tasks related to polyp sizing. Specifically, CNNs experienced an F1 Score improvement to 87.8% in binary classification, while in triclass classification, the ViT-T model reached an F1 Score of 76.5%, outperforming traditional CNNs and ViT-T models. To facilitate further research, we are releasing our codebase, which includes implementations for CNNs, multistream CNNs, ViT, and HAG-augmented variants. This resource aims to standardize the use of endoscopic datasets, providing public training-validation-testing splits for reliable and comparable research in gastroenterological polyp size estimation. The codebase is available at github.com/cosmoimd/feature-selection-gates.
翻訳日:2024-07-08 13:50:07 公開日:2024-07-05
# 並列木探索による記号表現の発見

Discovering symbolic expressions with parallelized tree search ( http://arxiv.org/abs/2407.04405v1 )

ライセンス: Link先を確認
Kai Ruan, Ze-Feng Gao, Yike Guo, Hao Sun, Ji-Rong Wen, Yang Liu, (参考訳) 記号回帰は、データから簡潔で解釈可能な数学的表現を発見する能力のおかげで、現代の科学研究において重要な役割を担っている。 大きな課題は、訓練データに適合する一方で、無限の探索空間において、同相で一般化可能な数学的公式の厳密な探索にある。 既存のアルゴリズムは、複雑性の問題を扱う際に10年以上にわたって正確性と効率性の重大なボトルネックに直面してきた。 そこで本研究では,限られたデータから汎用数学的表現を効率的に抽出する並列木探索(PTS)モデルを提案する。 80以上の合成および実験データセット上での最先端のベースラインモデル(例えば、最大99%の精度向上と1桁の階数高速化)を大幅に上回る、方程式探索のためのPTSの精度と効率を実証した。 PTSは、記号的、解釈可能なモデル(例えば、基礎となる物理法則)の正確で効率的なデータ駆動型発見において重要な進歩であり、スケーラブルな記号学習への重要な転換点である。

Symbolic regression plays a crucial role in modern scientific research thanks to its capability of discovering concise and interpretable mathematical expressions from data. A grand challenge lies in the arduous search for parsimonious and generalizable mathematical formulas, in an infinite search space, while intending to fit the training data. Existing algorithms have faced a critical bottleneck of accuracy and efficiency over a decade when handling problems of complexity, which essentially hinders the pace of applying symbolic regression for scientific exploration across interdisciplinary domains. To this end, we introduce a parallelized tree search (PTS) model to efficiently distill generic mathematical expressions from limited data. Through a series of extensive experiments, we demonstrate the superior accuracy and efficiency of PTS for equation discovery, which greatly outperforms the state-of-the-art baseline models on over 80 synthetic and experimental datasets (e.g., lifting its performance by up to 99% accuracy improvement and one-order of magnitude speed up). PTS represents a key advance in accurate and efficient data-driven discovery of symbolic, interpretable models (e.g., underlying physical laws) and marks a pivotal transition towards scalable symbolic learning.
翻訳日:2024-07-08 13:50:07 公開日:2024-07-05
# 量子チャネル学習について

On Quantum Channel Learning ( http://arxiv.org/abs/2407.04406v1 )

ライセンス: Link先を確認
Mikhail Gennadievich Belov, Victor Victorovich Dubov, Alexey Vladimirovich Filimonov, Vladislav Gennadievich Malyshkin, (参考訳) ヒルベルト空間 $IN$ と $OUT$ の間の最適写像の問題は、一連の密度行列写像の測定に基づいて、$\rho^{(l)} \to \varrho^{(l)}$, $l=1\dots M$ が最適化問題として定式化され、トータルフィデリティ $\mathcal{F}=\sum_{l=1}^{M} \omega^{(l)} F\left(\varrho^{(l)},\sum_s B_s \rho^{(l)} B^{\dagger}_s\right)$ はクラウス作用素 $B_s$ 上の確率保存制約の対象となる。 F(\varrho,\sigma)$ に対し、全忠実度を超算術 $\mathcal{F}=\sum_s\langle B_s\middle|S\middle|B_s \right\rangle$ (正確にも近似としても) で二次形式として表すことができるようなイテレーティブアルゴリズムを開発し、大域的な最大値を求める。 その結果、$N_s$演算子$B_s$は、合計$IN$ to $OUT$量子チャネル$A^{OUT}=\sum_s B_s A^{IN} B_s^{\dagger}$となる。 この研究は、ユニタリラーニングの2つの重要な一般化を紹介している。 1.$IN$/$OUT$状態は密度行列として表される。 2. マッピング自体は一般量子チャネルとして定式化されている。 これは、純粋状態の一般に研究されているユニタリ写像 $\phi_l=\mathcal{U} \psi_l$ から一般的な量子チャネルへの重要な進歩であり、状態とその重畳の確率論的混合を区別することができる。 このアプローチの応用は密度行列写像のユニタリ学習に$\varrho^{(l)}=\mathcal{U} \rho^{(l)} \mathcal{U}^{\dagger}$、この場合、$\mathcal{U}$フィデリティは$\sqrt{\rho^{(l)}} \to \sqrt{\varrho^{(l)}}$マッピングを考えることで構築できる。 このアプローチは、デコヒーレンス効果、自然的コヒーレンス、同期などを研究するために適用することができる。

The problem of an optimal mapping between Hilbert spaces $IN$ and $OUT$, based on a series of density matrix mapping measurements $\rho^{(l)} \to \varrho^{(l)}$, $l=1\dots M$, is formulated as an optimization problem maximizing the total fidelity $\mathcal{F}=\sum_{l=1}^{M} \omega^{(l)} F\left(\varrho^{(l)},\sum_s B_s \rho^{(l)} B^{\dagger}_s\right)$ subject to probability preservation constraints on Kraus operators $B_s$. For $F(\varrho,\sigma)$ in the form that total fidelity can be represented as a quadratic form with superoperator $\mathcal{F}=\sum_s\left\langle B_s\middle|S\middle| B_s \right\rangle$ (either exactly or as an approximation) an iterative algorithm is developed to find the global maximum. The result comprises in $N_s$ operators $B_s$ that collectively form an $IN$ to $OUT$ quantum channel $A^{OUT}=\sum_s B_s A^{IN} B_s^{\dagger}$. The work introduces two important generalizations of unitary learning: 1. $IN$/$OUT$ states are represented as density matrices. 2. The mapping itself is formulated as a general quantum channel. This marks a crucial advancement from the commonly studied unitary mapping of pure states $\phi_l=\mathcal{U} \psi_l$ to a general quantum channel, what allows us to distinguish probabilistic mixture of states and their superposition. An application of the approach is demonstrated on unitary learning of density matrix mapping $\varrho^{(l)}=\mathcal{U} \rho^{(l)} \mathcal{U}^{\dagger}$, in this case a quadratic on $\mathcal{U}$ fidelity can be constructed by considering $\sqrt{\rho^{(l)}} \to \sqrt{\varrho^{(l)}}$ mapping, and on a general quantum channel of Kraus rank $N_s$, where quadratic on $B_s$ fidelity is an approximation -- a quantum channel is then built as a hierarchy of unitary mappings. The approach can be applied to study decoherence effects, spontaneous coherence, synchronizing, etc.
翻訳日:2024-07-08 13:50:07 公開日:2024-07-05
# ランクベースの等式予測セットによる信頼できる分類

Trustworthy Classification through Rank-Based Conformal Prediction Sets ( http://arxiv.org/abs/2407.04407v1 )

ライセンス: Link先を確認
Rui Luo, Zhixin Zhou, (参考訳) 機械学習の分類タスクは、不確実性を捉えるために信頼スコアを持つラベルのセットを予測することの恩恵を受けることが多い。 しかし、既存の手法は、データの高次元的な性質と、現代の分類モデルからのよく校正された確率の欠如に苦慮している。 本稿では,ラベルの順序を正確に予測する分類モデルに適したランクベーススコア関数を用いた新しいコンフォメーション予測手法を提案する。 提案手法は,そのサイズを管理しながら,所望のカバレッジ率を達成する予測セットを構築する。 本稿では、下層の分類器のランク分布に基づいて、共形予測セットの予測サイズを理論的に解析する。 実験により,本手法は様々なデータセット上で既存の手法よりも優れており,信頼性の高い不確実性定量化を実現していることを示す。 コントリビューションには、新しい共形予測法、理論的解析、経験的評価が含まれる。 本研究は,信頼性の高い不確実性定量化を実現することにより,機械学習システムの実践的展開を推し進める。

Machine learning classification tasks often benefit from predicting a set of possible labels with confidence scores to capture uncertainty. However, existing methods struggle with the high-dimensional nature of the data and the lack of well-calibrated probabilities from modern classification models. We propose a novel conformal prediction method that employs a rank-based score function suitable for classification models that predict the order of labels correctly, even if not well-calibrated. Our approach constructs prediction sets that achieve the desired coverage rate while managing their size. We provide a theoretical analysis of the expected size of the conformal prediction sets based on the rank distribution of the underlying classifier. Through extensive experiments, we demonstrate that our method outperforms existing techniques on various datasets, providing reliable uncertainty quantification. Our contributions include a novel conformal prediction method, theoretical analysis, and empirical evaluation. This work advances the practical deployment of machine learning systems by enabling reliable uncertainty quantification.
翻訳日:2024-07-08 13:50:07 公開日:2024-07-05
# Waterfall: 頑丈でスケーラブルなテキスト透かしのためのフレームワーク

Waterfall: Framework for Robust and Scalable Text Watermarking ( http://arxiv.org/abs/2407.04411v1 )

ライセンス: Link先を確認
Gregory Kang Ruey Lau, Xinyuan Niu, Hieu Dao, Jiangwei Chen, Chuan-Sheng Foo, Bryan Kian Hsiang Low, (参考訳) 記事やコードなどのテキストの知的財産権(IP)を保護することは、特に大規模言語モデル(LLM)によるパラフレーズ化や、著作権のあるテキスト上でLLMの非許可トレーニングなど、高度な攻撃が可能となるにつれ、ますます重要になっている。 しかし、既存のテキスト透かし方式はそのような攻撃に対して十分に頑丈ではない。 本稿では,複数のテキストタイプ(記事やコードなど)とLLMがサポートする言語に適用可能な,堅牢でスケーラブルなテキスト透かしのための,最初のトレーニングフリーフレームワークであるWaterfallを提案する。 ウォーターフォールは、最初にLCMをウォーターマーキングのパラフレーズとして使用したことや、驚くほど堅牢な検証性とスケーラビリティを達成するのに驚くほど効果的である新しいテクニックの組み合わせなど、いくつかの重要なイノベーションを含んでいる。 我々は,SOTAの記事テキスト透かし法と比較して,ウォーターフォールがスケーラビリティ,堅牢性,計算効率を著しく向上できることを実証的に証明し,コードの透かしにどのように直接適用できるかを示した。

Protecting intellectual property (IP) of text such as articles and code is increasingly important, especially as sophisticated attacks become possible, such as paraphrasing by large language models (LLMs) or even unauthorized training of LLMs on copyrighted text to infringe such IP. However, existing text watermarking methods are not robust enough against such attacks nor scalable to millions of users for practical implementation. In this paper, we propose Waterfall, the first training-free framework for robust and scalable text watermarking applicable across multiple text types (e.g., articles, code) and languages supportable by LLMs, for general text and LLM data provenance. Waterfall comprises several key innovations, such as being the first to use LLM as paraphrasers for watermarking along with a novel combination of techniques that are surprisingly effective in achieving robust verifiability and scalability. We empirically demonstrate that Waterfall achieves significantly better scalability, robust verifiability, and computational efficiency compared to SOTA article-text watermarking methods, and also showed how it could be directly applied to the watermarking of code.
翻訳日:2024-07-08 13:50:07 公開日:2024-07-05
# スマートフォンセンシングによるオンデバイスLCMのパーソナライズ

Enabling On-Device LLMs Personalization with Smartphone Sensing ( http://arxiv.org/abs/2407.04418v1 )

ライセンス: Link先を確認
Shiquan Zhang, Ying Ma, Le Fang, Hong Jia, Simon D'Alfonso, Vassilis Kostakos, (参考訳) このデモでは、デバイス上の大規模言語モデル(LLM)とスマートフォンセンシング技術を組み合わせて、コンテキスト認識およびパーソナライズされたサービスを実現する、新たなエンドツーエンドフレームワークが紹介されている。 このフレームワークは、プライバシの懸念、レイテンシとコスト、個人センサデータの制限など、クラウドベースのLLMを通じて、現在のパーソナライズソリューションの重要な制限に対処する。 そこで我々は,マルチモーダルセンサデータを用いてスマートフォンにLSMを配置し,プロンプトエンジニアリングをカスタマイズし,プライバシーを確保し,コンテキスト認識によるパーソナライズ性能を向上させることを提案する。 大学生を対象とするケーススタディでは,提案するフレームワークが適切なレコメンデーションを提供する能力を示した。 さらに,提案フレームワークは,オンデバイスとクラウド LLM 間のプライバシー,パフォーマンス,レイテンシ,コスト,バッテリ,エネルギー消費において,最良のトレードオフを実現することを示す。 今後の研究は、より多様なセンサーデータを統合することを目的として、パーソナライゼーションをさらに洗練するために、大規模なユーザスタディを実施することを目的としている。 提案するフレームワークは,医療,生産性,エンターテイメントといったさまざまな分野のユーザエクスペリエンスを,ユーザデバイスに直接,セキュアでコンテキスト対応,効率的なインタラクションを提供することによって,大幅に向上させるものと期待している。

This demo presents a novel end-to-end framework that combines on-device large language models (LLMs) with smartphone sensing technologies to achieve context-aware and personalized services. The framework addresses critical limitations of current personalization solutions via cloud-based LLMs, such as privacy concerns, latency and cost, and limited personal sensor data. To achieve this, we innovatively proposed deploying LLMs on smartphones with multimodal sensor data and customized prompt engineering, ensuring privacy and enhancing personalization performance through context-aware sensing. A case study involving a university student demonstrated the proposed framework's capability to provide tailored recommendations. In addition, we show that the proposed framework achieves the best trade-off in privacy, performance, latency, cost, battery and energy consumption between on-device and cloud LLMs. Future work aims to integrate more diverse sensor data and conduct large-scale user studies to further refine the personalization. We envision the proposed framework could significantly improve user experiences in various domains such as healthcare, productivity, and entertainment by providing secure, context-aware, and efficient interactions directly on users' devices.
翻訳日:2024-07-08 13:50:07 公開日:2024-07-05
# Lex-Leaderを超える対称性の複雑さ

The Complexity of Symmetry Breaking Beyond Lex-Leader ( http://arxiv.org/abs/2407.04419v1 )

ライセンス: Link先を確認
Markus Anders, Sofia Brenner, Gaurav Rattan, (参考訳) 対称性の破れは、SATやMIPのような制約プログラミングにおける問題解決者を強化するために広く使われているアプローチである。 対称性の破れ述語(SBP)は、通常、変数に順序を課し、各割り当ての軌道にレキソグラフィーリーダー(レックスリーダー)を選別する。 完全なレックスリーダーSBPを見つけることはNPハードであるが、実際には不完全なレックスリーダーSBPが広く用いられている。 本稿では,SAT における完全 SBP や lex-leader などの計算の複雑さについて検討する。 本研究の主な成果は,SBPを効率よく計算する上での自然な障壁,すなわちグラフ非同型性の効率的な証明である。 この結果から,行列対称性を持つ行列モデルやグラフ生成問題などの重要なCP問題に対して,短いSBPを得ることの難しさが説明できる。 我々の結果は、SBPが追加変数を導入することを許されたとしても保たれる。 我々は、ある対称性群、すなわち木の自己同型群と効率的なSBPを持つ群のリース積を破るための多項式上界を示す。

Symmetry breaking is a widely popular approach to enhance solvers in constraint programming, such as those for SAT or MIP. Symmetry breaking predicates (SBPs) typically impose an order on variables and single out the lexicographic leader (lex-leader) in each orbit of assignments. Although it is NP-hard to find complete lex-leader SBPs, incomplete lex-leader SBPs are widely used in practice. In this paper, we investigate the complexity of computing complete SBPs, lex-leader or otherwise, for SAT. Our main result proves a natural barrier for efficiently computing SBPs: efficient certification of graph non-isomorphism. Our results explain the difficulty of obtaining short SBPs for important CP problems, such as matrix-models with row-column symmetries and graph generation problems. Our results hold even when SBPs are allowed to introduce additional variables. We show polynomial upper bounds for breaking certain symmetry groups, namely automorphism groups of trees and wreath products of groups with efficient SBPs.
翻訳日:2024-07-08 13:50:07 公開日:2024-07-05
# マルチコアファイバによる絡み合い操作

Entanglement manipulation through multicore fibres ( http://arxiv.org/abs/2407.04423v1 )

ライセンス: Link先を確認
Carlo Marconi, Elena Fanella, Davide Bacco, Alessandro Zavatta, (参考訳) マルチコアファイバーは近年、同じチャネルの異なるコアに沿って複数の量子状態を送信する能力によって、スケーラブルな量子ネットワークの実現に期待できる候補となる量子通信タスクの文脈において、大きな注目を集めている。 本稿では,マルチコアファイバが通信範囲だけでなく,絡み合った状態の生成にも有効であることを示す。 完全正のトレース保存写像の形式性を生かして、マルチコアファイバーの動作を量子チャネルとして記述し、2つのクォーディットの有界絡み状態を実装するためのプロトコルを提案する。 特に、ファイバーのコア間のクロストークの存在は、そのような状態の生成に不可欠である。

Multicore fibres are recently gaining considerable attention in the context of quantum communication tasks, where their capability to transmit multiple quantum states along different cores of the same channel make them a promising candidate for the implementation of scalable quantum networks. Here, we show that multicore fibres can be effectively used not only for the scope of communication but also for the generation of entangled states. By exploiting the formalism of completely positive trace preserving maps, we describe the action of a multicore fibre as a quantum channel and propose a protocol to implement bound entangled states of two qudits. Notably, the presence of crosstalk among the cores of the fibre is fundamental for the generation of such states.
翻訳日:2024-07-08 13:50:07 公開日:2024-07-05
# 光パラメトリック増幅器を用いたマグノメカニクス系におけるファノ共鳴とスロー・ファスト光の制御

Controlling Fano resonance and slow/fast light in a magnomechanical system with an optical parametric amplifier ( http://arxiv.org/abs/2407.04430v1 )

ライセンス: Link先を確認
M'bark Amghar, Noura Chabar, Mohamed Amazioug, (参考訳) マグノメカニカルシステムによって誘導される低速光効果と多透過性について検討した。 このシステムには2つのマグノンが組み込まれており、これは共振器内の縮退した光学パラメトリック増幅器(OPA)と一緒に配置される。 キャビティ内のフォノン、マグノン、光の相互作用は、マグノメカニカル誘導透過(MMIT)とマグノン誘導透過(MIT)という2つの現象を引き起こす。 OPAが光スペクトルの吸収・分散特性をどのように変化させるかを示す。 縮退OPAとマグノン-メカニカルカップリングによるファノ共鳴の観測について述べる。 振動相互作用とOPAをチューニングすることにより、スロー光の改良を実現する。 我々の発見が量子情報処理の進歩の道を開くことを願っている。

We study the slow-fast light effect and multi-transparency induced by magnomechanical systems. The system incorporates two magnons, which are collective magnetic excitations, placed alongside a degenerate optical parametric amplifier (OPA) within a cavity. The interaction between phonons, magnons, and light inside the cavity leads to two phenomena: magnomechanically induced transparency (MMIT) and magnon induced transparency (MIT). We show how an OPA alters the absorption and dispersion characteristics of the light spectrum. The observation of the Fano resonance through magnon-mechanical coupling with the degenerate OPA is discussed. Through tuning vibration interactions and the OPA, we achieve the improvement of slow light. We hope our findings could pave the way for advancements in quantum information processing.
翻訳日:2024-07-08 13:50:07 公開日:2024-07-05
# 拡張基底集合における量子化学問題の効率的なシミュレーション

Efficient simulation of quantum chemistry problems in an enlarged basis set ( http://arxiv.org/abs/2407.04432v1 )

ライセンス: Link先を確認
Maxine Luo, J. Ignacio Cirac, (参考訳) 本稿では,量子化学問題の力学をシミュレートする量子アルゴリズムを提案する。 各トロッターステップに新しいキュービットを追加し、拡張されたシステムにおけるダイナミクスのよりシンプルな実装を可能にする。 各ステップの後、余剰量子ビットはリサイクルされ、プロセス全体が正しいユニタリ進化を正確に近似する。 アプローチの鍵となる要素は、拡張系における単純で対角的なハミルトニアンを元のハミルトニアンに写像する等距離である。 このアイソメトリを計算し、必要な余分な量子ビットの数を最小化する。 我々は、各時間ステップにおける誤差と、O(N^2)$とスケールするゲートの数とを推定する。 この結果は水素鎖とFeMoCo分子の2つの例で紹介する。 水素鎖では、誤差はトロッター誤差と同じ方法でスケールする。 FeMoCoの場合、耐故障性の設定におけるゲートの数を推定する。

We propose a quantum algorithm to simulate the dynamics in quantum chemistry problems. It is based on adding fresh qubits at each Trotter step, which enables a simpler implementation of the dynamics in the extended system. After each step, the extra qubits are recycled, so that the whole process accurately approximates the correct unitary evolution. A key ingredient of the approach is an isometry that maps a simple, diagonal Hamiltonian in the extended system to the original one. We give a procedure to compute this isometry, while minimizing the number of extra qubits required. We estimate the error at each time step, as well as the number of gates, which scales as $O(N^2)$, where $N$ is the number of orbitals. We illustrate our results with two examples: the Hydrogen chain and the FeMoCo molecule. In the Hydrogen chain we observe that the error scales in the same way as the Trotter error. For FeMoCo, we estimate the number of gates in a fault-tolerant setup.
翻訳日:2024-07-08 13:40:23 公開日:2024-07-05
# ショーガールズ」から「パフォーマー」へ:LLMにおけるバイアス低減のためのジェンダー非包摂型言語を用いたファインタニング

From 'Showgirls' to 'Performers': Fine-tuning with Gender-inclusive Language for Bias Reduction in LLMs ( http://arxiv.org/abs/2407.04434v1 )

ライセンス: Link先を確認
Marion Bartl, Susan Leavy, (参考訳) ジェンダーバイアスは、Large Language Models(LLM)とそのトレーニングデータだけでなく、言語自体の構造的側面にもしっかりと浸透している。 したがって、LLMトレーニングデータ内の言語構造を適用してジェンダーインクリシティを促進することで、モデル内のジェンダー表現をより包括的にすることができる。 我々の研究の焦点は英語の「ショーガール」や「マンケーブ」のような性排他的な接尾辞であり、ジェンダーのステレオタイプや二項概念を永続することができる。 LLMトレーニングデータセットを使用して、692の性排他用語のカタログと性別中立な変種をコンパイルし、そこから性排他的な微調整データセット「Tiny Heap」を開発する。 このデータセットを用いて3つの異なるLSMを微調整し、モデル全体での性別のステレオタイピング傾向の全体的な減少を観察する。 本手法は,LPMトレーニングデータにおける性傾向を高めるための実践的手法を提供し,NLPのバイアス軽減研究にキー・フェミニスト言語行動学を取り入れることに寄与する。

Gender bias is not only prevalent in Large Language Models (LLMs) and their training data, but also firmly ingrained into the structural aspects of language itself. Therefore, adapting linguistic structures within LLM training data to promote gender-inclusivity can make gender representations within the model more inclusive. The focus of our work are gender-exclusive affixes in English, such as in 'show-girl' or 'man-cave', which can perpetuate gender stereotypes and binary conceptions of gender. We use an LLM training dataset to compile a catalogue of 692 gender-exclusive terms along with gender-neutral variants and from this, develop a gender-inclusive fine-tuning dataset, the 'Tiny Heap'. Fine-tuning three different LLMs with this dataset, we observe an overall reduction in gender-stereotyping tendencies across the models. Our approach provides a practical method for enhancing gender inclusivity in LLM training data and contributes to incorporating queer-feminist linguistic activism in bias mitigation research in NLP.
翻訳日:2024-07-08 13:40:23 公開日:2024-07-05
# ハミルトン構造とQAOA性能とエネルギー景観をつなぐ

Connecting the Hamiltonian structure to the QAOA performance and energy landscape ( http://arxiv.org/abs/2407.04435v1 )

ライセンス: Link先を確認
Daniel Müssig, Markus Wappler, Steve Lenk, Jörg Lässig, (参考訳) 量子コンピューティングは、最適化のような特殊なアプリケーションにおいて、古典的コンピューティングを上回ることを約束している。 現在のノイズ中間スケール量子(NISQ)デバイスでは、量子交互演算子Ansatz(QAOA)のような変分量子アルゴリズムのみが実行可能である。 QAOAは、トロタライズによる量子アニーリングを近似することにより、二次非拘束バイナリ最適化(QUBO)問題を解決するのに有効である。 NISQデバイスの実装は、変数の数と拡張相互作用行列の空間性の影響を受け、浅い回路を必要とする。 本稿では,QAOAの可溶性を確保するために,拡張相互作用行列に必要な疎度レベルについて検討する。 種々の間隔でマックス・カット問題を解析することにより、ハミルトン密度がQAOA性能にどのように影響するかを洞察する。 より高密度な行列はエネルギー景観を複雑にするが,QAOAの性能は空間変動の影響を受けていないことが示唆された。 本研究は、短期量子デバイスにおけるアルゴリズムの堅牢性と最適化タスクの可能性を強調し、実用化に向けたQAOAの強化に向けた今後の研究の道のりを示唆する。

Quantum computing holds promise for outperforming classical computing in specialized applications such as optimization. With current Noisy Intermediate Scale Quantum (NISQ) devices, only variational quantum algorithms like the Quantum Alternating Operator Ansatz (QAOA) can be practically run. QAOA is effective for solving Quadratic Unconstrained Binary Optimization (QUBO) problems by approximating Quantum Annealing via Trotterization. Successful implementation on NISQ devices requires shallow circuits, influenced by the number of variables and the sparsity of the augmented interaction matrix. This paper investigates the necessary sparsity levels for augmented interaction matrices to ensure solvability with QAOA. By analyzing the Max-Cut problem with varying sparsity, we provide insights into how the Hamiltonian density affects the QAOA performance. Our findings highlight that, while denser matrices complicate the energy landscape, the performance of QAOA remains largely unaffected by sparsity variations. This study emphasizes the algorithm's robustness and potential for optimization tasks on near-term quantum devices, suggesting avenues for future research in enhancing QAOA for practical applications.
翻訳日:2024-07-08 13:40:23 公開日:2024-07-05
# ウェーブレットに基づく時間的注意が交通予測を改善する

Wavelet-based Temporal Attention Improves Traffic Forecasting ( http://arxiv.org/abs/2407.04440v1 )

ライセンス: Link先を確認
Yash Jakhmola, Nitish Kumar Mishra, Kripabandhu Ghosh, Tanujit Chakraborty, (参考訳) 交通フローデータの時空間予測は、機械学習の分野で典型的な問題であり、都市交通管理システムに影響を及ぼす。 従来の統計的および機械学習手法は、これらの複雑なトラフィックフローデータセットにおける時間的および空間的依存関係を適切に扱えない。 この分野で一般的なアプローチは、グラフ畳み込みネットワークと時空間処理のためのマルチヘッドアテンション機構を組み合わせることである。 本稿では,ウェーブレットに基づく動的時空間対応グラフニューラルネットワーク(W-DSTAGNN)を提案する。 いくつかの統計指標を用いたベンチマーク実験により,提案手法は時空間相関を効率よく把握し,実世界の3つのトラフィックデータセット上で10の最先端モデルより優れていることを確認した。 提案手法は,時間的・空間的依存を動的に処理し,長期予測を効率的に行うことができる。

Spatio-temporal forecasting of traffic flow data represents a typical problem in the field of machine learning, impacting urban traffic management systems. Traditional statistical and machine learning methods cannot adequately handle both the temporal and spatial dependencies in these complex traffic flow datasets. A prevalent approach in the field is to combine graph convolutional networks and multi-head attention mechanisms for spatio-temporal processing. This paper proposes a wavelet-based temporal attention model, namely a wavelet-based dynamic spatio-temporal aware graph neural network (W-DSTAGNN), for tackling the traffic forecasting problem. Benchmark experiments using several statistical metrics confirm that our proposal efficiently captures spatio-temporal correlations and outperforms ten state-of-the-art models on three different real-world traffic datasets. Our proposed ensemble data-driven method can handle dynamic temporal and spatial dependencies and make long-term forecasts in an efficient manner.
翻訳日:2024-07-08 13:40:23 公開日:2024-07-05
# GoSurf:Goにおけるソフトウェアサプライチェーンアタックベクターの特定

GoSurf: Identifying Software Supply Chain Attack Vectors in Go ( http://arxiv.org/abs/2407.04442v1 )

ライセンス: Link先を確認
Carmine Cesarano, Vivi Andersson, Roberto Natella, Martin Monperrus, (参考訳) Goでは、オープンソースソフトウェアが広く採用されているため、サードパーティの依存関係のエコシステムが繁栄し、重要なシステムに統合されることが多い。 しかし、依存関係の再利用はサプライチェーンのセキュリティ上の重大なリスクをもたらす。 既存のサプライチェーン攻撃は、攻撃者が悪意のあるコードを隠すために悪用できる言語固有の特徴を見落としている。 本稿では,Go言語とそのパッケージライフサイクルに適した12個の異なる攻撃ベクトルの分類法を提案する。 我々の分類学は、言語固有のGoの特徴が悪用され、サプライチェーンを通じて悪意あるコードを密かに伝播するパターンを識別する。 さらに,提案した分類基準に従って,Goパッケージの攻撃面を分析する静的解析ツールであるGoSurfを紹介する。 広く使われている実世界のGoパッケージのコーパス上でGoSurfを評価する。 私たちの研究は、Goエコシステム内のオープンソースのソフトウェアサプライチェーンを確保するための予備的な洞察を提供する。

In Go, the widespread adoption of open-source software has led to a flourishing ecosystem of third-party dependencies, which are often integrated into critical systems. However, the reuse of dependencies introduces significant supply chain security risks, as a single compromised package can have cascading impacts. Existing supply chain attack taxonomies overlook language-specific features that can be exploited by attackers to hide malicious code. In this paper, we propose a novel taxonomy of 12 distinct attack vectors tailored for the Go language and its package lifecycle. Our taxonomy identifies patterns in which language-specific Go features, intended for benign purposes, can be misused to propagate malicious code stealthily through supply chains. Additionally, we introduce GoSurf, a static analysis tool that analyzes the attack surface of Go packages according to our proposed taxonomy. We evaluate GoSurf on a corpus of widely used, real-world Go packages. Our work provides preliminary insights for securing the open-source software supply chain within the Go ecosystem, allowing developers and security analysts to prioritize code audit efforts and uncover hidden malicious behaviors.
翻訳日:2024-07-08 13:40:23 公開日:2024-07-05
# TokenVerse: Transducer-based ASRによる音声とNLPタスクの統合

TokenVerse: Unifying Speech and NLP Tasks via Transducer-based ASR ( http://arxiv.org/abs/2407.04444v1 )

ライセンス: Link先を確認
Shashi Kumar, Srikanth Madikeri, Juan Zuluaga-Gomez, Iuliia Nigmatulina, Esaú Villatoro-Tello, Sergio Burdisso, Petr Motlicek, Karthik Pandia, Aravind Ganapathiraju, (参考訳) 従来の音声からの会話インテリジェンスでは、音声活動の検出、ダイアリゼーション、転写などのタスクと、セマンティックエンドポイントや名前付きエンティティ認識(NER)といったタスクのための異なるNLPモデルによるその後の処理を含むカスケードパイプラインが使用される。 本稿では,複数のタスクを処理するために設計された単一TransducerベースのモデルであるTokenVerseを紹介する。 これは、ASRモデルのトレーニング中にタスク固有のトークンを参照テキストに統合し、推論を合理化し、別個のNLPモデルの必要性を排除することで実現される。 ASRに加えて、話者変化検出、終端検出、NERという3つの異なるタスクについて実験を行う。 公開およびプライベートデータセットを用いた実験の結果,提案手法は相対的なWERにおいて最大7.7%向上し,個々のタスク性能においてカスケードパイプラインアプローチよりも優れていた。 さらに,既存のTokenVerse内のタスクにタスク転送学習を提案する。

In traditional conversational intelligence from speech, a cascaded pipeline is used, involving tasks such as voice activity detection, diarization, transcription, and subsequent processing with different NLP models for tasks like semantic endpointing and named entity recognition (NER). Our paper introduces TokenVerse, a single Transducer-based model designed to handle multiple tasks. This is achieved by integrating task-specific tokens into the reference text during ASR model training, streamlining the inference and eliminating the need for separate NLP models. In addition to ASR, we conduct experiments on 3 different tasks: speaker change detection, endpointing, and NER. Our experiments on a public and a private dataset show that the proposed method improves ASR by up to 7.7% in relative WER while outperforming the cascaded pipeline approach in individual task performance. Additionally, we present task transfer learning to a new task within an existing TokenVerse.
翻訳日:2024-07-08 13:40:23 公開日:2024-07-05
# マルチモーダルマスクシームスネットワークによる胸部X線表現学習の改善

Multi-modal Masked Siamese Network Improves Chest X-Ray Representation Learning ( http://arxiv.org/abs/2407.04449v1 )

ライセンス: Link先を確認
Saeed Shurrab, Alejandro Guerra-Manzanares, Farah E. Shamout, (参考訳) 医用画像の自己教師付き学習法は、主に事前訓練中の画像のモダリティに依存している。 このようなアプローチは有望な結果をもたらすが、関連する患者やElectronic Health Records(EHR)内で収集されたスキャン情報を活用していない。 そこで本研究では,MSN(Masked Siamese Network)を用いた自己教師付きプレトレーニング中にEHRデータを組み込むことにより,胸部X線表現の質を高めることを提案する。 本研究では, 人口統計, スキャンメタデータ, 入院情報を含む3種類のERHデータについて検討した。 胸部X線データセットMIMIC-CXR,CheXpert,NIH-14について,ViTバックボーン,特にViT-TinyとViT-Smallを用いて検討した。 線形評価による表現の質評価において,提案手法は,バニラMSNや最先端の自己教師型学習ベースラインと比較して有意に改善されている。 本研究は,医用画像の自己教師付き事前トレーニングの可能性を強調した。 コードは、https://github.com/nyuad-cai/CXR-EHR-MSNで公開されている。

Self-supervised learning methods for medical images primarily rely on the imaging modality during pretraining. While such approaches deliver promising results, they do not leverage associated patient or scan information collected within Electronic Health Records (EHR). Here, we propose to incorporate EHR data during self-supervised pretraining with a Masked Siamese Network (MSN) to enhance the quality of chest X-ray representations. We investigate three types of EHR data, including demographic, scan metadata, and inpatient stay information. We evaluate our approach on three publicly available chest X-ray datasets, MIMIC-CXR, CheXpert, and NIH-14, using two vision transformer (ViT) backbones, specifically ViT-Tiny and ViT-Small. In assessing the quality of the representations via linear evaluation, our proposed method demonstrates significant improvement compared to vanilla MSN and state-of-the-art self-supervised learning baselines. Our work highlights the potential of EHR-enhanced self-supervised pre-training for medical imaging. The code is publicly available at: https://github.com/nyuad-cai/CXR-EHR-MSN
翻訳日:2024-07-08 13:40:23 公開日:2024-07-05
# オフライン選好に基づく強化学習のための隠れ選好学習

Hindsight Preference Learning for Offline Preference-based Reinforcement Learning ( http://arxiv.org/abs/2407.04451v1 )

ライセンス: Link先を確認
Chen-Xiao Gao, Shengjun Fang, Chenjun Xiao, Yang Yu, Zongzhang Zhang, (参考訳) オフライン選好に基づく強化学習(RL)は、オフラインデータセットから選択された軌道セグメントのペア間の人間の選好を利用してポリシーを最適化することに焦点を当て、RLアプリケーションのための実用的な方法として登場した。 既存の研究は、累積的マルコフ報酬と相関していると仮定して、軌道的嗜好アノテーションから段階的報酬信号の抽出に依存している。 しかしながら、このような手法は、データアノテーションの全体論的な視点を捉えることに失敗する: 人間は、即時報酬ではなく、全体的な結果を考慮することで、一連のアクションの望ましさを評価する。 この課題に対処するために,我々は,後見情報などの軌跡セグメントの今後の成果を条件とした報酬を用いて,人間の嗜好をモデル化することを提案する。 下流のRL最適化では、各ステップの報酬は、将来的な結果に対する限界化によって計算され、その分布はオフラインデータセットを用いて訓練された変分オートエンコーダによって近似される。 提案手法であるHindsight Preference Learning (HPL) は,大規模な未ラベルデータセットで利用可能な膨大なトラジェクトリデータをフル活用することにより,クレジットの割り当てを容易にする。 総合的な実証研究は、様々な領域で堅牢で有利な報酬を提供する上で、HPLの利点を実証している。 私たちのコードはhttps://github.com/typoverflow/WiseRL.comで公開されています。

Offline preference-based reinforcement learning (RL), which focuses on optimizing policies using human preferences between pairs of trajectory segments selected from an offline dataset, has emerged as a practical avenue for RL applications. Existing works rely on extracting step-wise reward signals from trajectory-wise preference annotations, assuming that preferences correlate with the cumulative Markovian rewards. However, such methods fail to capture the holistic perspective of data annotation: Humans often assess the desirability of a sequence of actions by considering the overall outcome rather than the immediate rewards. To address this challenge, we propose to model human preferences using rewards conditioned on future outcomes of the trajectory segments, i.e. the hindsight information. For downstream RL optimization, the reward of each step is calculated by marginalizing over possible future outcomes, the distribution of which is approximated by a variational auto-encoder trained using the offline dataset. Our proposed method, Hindsight Preference Learning (HPL), can facilitate credit assignment by taking full advantage of vast trajectory data available in massive unlabeled datasets. Comprehensive empirical studies demonstrate the benefits of HPL in delivering robust and advantageous rewards across various domains. Our code is publicly released at https://github.com/typoverflow/WiseRL.
翻訳日:2024-07-08 13:40:23 公開日:2024-07-05
# 多体ハミルトン基底状態における絡み合い検出のための変分量子固有解器のベンチマーク

Benchmarking Variational Quantum Eigensolvers for Entanglement Detection in Many-Body Hamiltonian Ground States ( http://arxiv.org/abs/2407.04453v1 )

ライセンス: Link先を確認
Alexandre Drinko, Guilherme I. Correr, Ivan Medina, Pedro C. Azado, Askery Canabarro, Diogo O. Soares-Pinto, (参考訳) 変分量子アルゴリズム(VQA)は近年、量子優位を得る約束として登場している。 これらのタスク指向アルゴリズムは、量子プロセッサと古典最適化を組み合わせたハイブリッドループで動作する。 変分量子固有解器(VQEs)と呼ばれる特定の種類のVQAを用いて、ハイゼンベルク・ハミルトニアンによって記述された多体系の絡み合った観測と絡み合った基底状態検出において、量子回路をパラメータ化してベンチマークする。 ハミルトニアン相互作用にインスパイアされた構造を持つ量子回路は、問題に依存しない回路よりもコスト関数推定のより良い結果を示した。

Variational quantum algorithms (VQAs) have emerged in recent years as a promise to obtain quantum advantage. These task-oriented algorithms work in a hybrid loop combining a quantum processor and classical optimization. Using a specific class of VQA named variational quantum eigensolvers (VQEs), we choose some parameterized quantum circuits to benchmark them at entanglement witnessing and entangled ground state detection for many-body systems described by Heisenberg Hamiltonian, varying the number of qubits and shots. Quantum circuits whose structure is inspired by the Hamiltonian interactions presented better results on cost function estimation than problem-agnostic circuits.
翻訳日:2024-07-08 13:40:23 公開日:2024-07-05
# 表現デカップリングによるロバストなマルチモーダル学習

Robust Multimodal Learning via Representation Decoupling ( http://arxiv.org/abs/2407.04458v1 )

ライセンス: Link先を確認
Shicai Wei, Yang Luo, Yuji Wang, Chunbo Luo, (参考訳) モダリティの欠如に頑健なマルチモーダル学習はその実用性から注目を集めている。 既存の手法は、異なるモダリティの組み合わせに対して共通の部分空間表現を学習することで、この問題に対処する傾向がある。 しかし,クラス内表現に対する暗黙の制約により,サブ最適であることが判明した。 具体的には、同じクラス内で異なるモジュラリティを持つサンプルは、同じ方向に表現を学ぶことを余儀なくされる。 これにより、モデルがモダリティ固有の情報を取得するのを妨げ、学習が不十分になる。 そこで本稿では,頑健なマルチモーダル学習を支援するために,DMRNet(Decoupled Multimodal Representation Network)を提案する。 具体的には、DMRNetは、異なるモードの組み合わせからの入力を、潜在空間の固定点ではなく確率分布としてモデル化し、予測モジュールの分布からの埋め込みをサンプリングしてタスク損失を算出する。 その結果、損失最小化による方向制約がサンプル表現によってブロックされる。 これにより、推論表現の制約を緩和し、モデルが異なるモダリティの組み合わせに対して特定の情報をキャプチャできるようにする。 さらに、DMRNetがハードモダリティの組み合わせにもっと注意を払うように誘導することで、DMRNetがアンバランスなトレーニングを防止できるハードコンビネーションレギュレータを導入する。 最後に、マルチモーダル分類とセグメンテーションタスクに関する広範な実験により、提案したDMRNetが最先端技術よりも優れていることを示した。

Multimodal learning robust to missing modality has attracted increasing attention due to its practicality. Existing methods tend to address it by learning a common subspace representation for different modality combinations. However, we reveal that they are sub-optimal due to their implicit constraint on intra-class representation. Specifically, the sample with different modalities within the same class will be forced to learn representations in the same direction. This hinders the model from capturing modality-specific information, resulting in insufficient learning. To this end, we propose a novel Decoupled Multimodal Representation Network (DMRNet) to assist robust multimodal learning. Specifically, DMRNet models the input from different modality combinations as a probabilistic distribution instead of a fixed point in the latent space, and samples embeddings from the distribution for the prediction module to calculate the task loss. As a result, the direction constraint from the loss minimization is blocked by the sampled representation. This relaxes the constraint on the inference representation and enables the model to capture the specific information for different modality combinations. Furthermore, we introduce a hard combination regularizer to prevent DMRNet from unbalanced training by guiding it to pay more attention to hard modality combinations. Finally, extensive experiments on multimodal classification and segmentation tasks demonstrate that the proposed DMRNet outperforms the state-of-the-art significantly.
翻訳日:2024-07-08 13:40:23 公開日:2024-07-05
# Generalists vs. Specialists: Urduの大規模言語モデルの評価

Generalists vs. Specialists: Evaluating Large Language Models for Urdu ( http://arxiv.org/abs/2407.04459v1 )

ライセンス: Link先を確認
Samee Arif, Abdul Hameed Azeemi, Agha Ali Raza, Awais Athar, (参考訳) 本稿では,汎用事前学習モデルであるGPT-4-TurboとLlama-3-8b-Instructを,XLM-Roberta-large,mT5-large,Llama-3-8b-Instructといった特殊目的モデルと比較する。 我々は、これらのモデルの性能をウルドゥー語で評価するために、7つの分類と6つの世代タスクに焦点を当てる。 Urduには7000万人のネイティブスピーカーがあるが、Natural Language Processing(NLP)では表現されていない。 LLM(Large Language Models)の頻繁な進歩にもかかわらず、Urduを含む低リソース言語のパフォーマンスを調査する必要がある。 また, GPT-4-Turbo と Llama-3-8b-Instruct による評価結果と比較した。 特殊目的モデルは、様々なタスクにおいて汎用モデルより一貫して優れていることが判明した。 また,生成タスクに対する GPT-4-Turbo による評価は,Llama-3-8b-Instruct による評価に比べ,人間による評価と密接に一致していることがわかった。 本稿では,低リソース言語に対する汎用LLMの有効性に関する知見を提供することで,NLPコミュニティに貢献する。

In this paper, we compare general-purpose pretrained models, GPT-4-Turbo and Llama-3-8b-Instruct with special-purpose models fine-tuned on specific tasks, XLM-Roberta-large, mT5-large, and Llama-3-8b-Instruct. We focus on seven classification and six generation tasks to evaluate the performance of these models on Urdu language. Urdu has 70 million native speakers, yet it remains underrepresented in Natural Language Processing (NLP). Despite the frequent advancements in Large Language Models (LLMs), their performance in low-resource languages, including Urdu, still needs to be explored. We also conduct a human evaluation for the generation tasks and compare the results with the evaluations performed by GPT-4-Turbo and Llama-3-8b-Instruct. We find that special-purpose models consistently outperform general-purpose models across various tasks. We also find that the evaluation done by GPT-4-Turbo for generation tasks aligns more closely with human evaluation compared to the evaluation by Llama-3-8b-Instruct. This paper contributes to the NLP community by providing insights into the effectiveness of general and specific-purpose LLMs for low-resource languages.
翻訳日:2024-07-08 13:40:23 公開日:2024-07-05
# スマートサンプリング: 分散学習のためのフレンドリーな隣人の支援

Smart Sampling: Helping from Friendly Neighbors for Decentralized Federated Learning ( http://arxiv.org/abs/2407.04460v1 )

ライセンス: Link先を確認
Lin Wang, Yang Chen, Yongxin Guo, Xiaoying Tang, (参考訳) フェデレートラーニング(FL)は、プライバシの保護と通信コストの削減を図りながら知識を共有する能力に広く関心を集めている。 中央集権FLとは異なり、DFL(Decentralized FL)は中央サーバーの必要性を排除し、クライアント間の直接通信を可能にし、通信リソースの節約に繋がるネットワークアーキテクチャを採用している。 しかし、データの不均一性のため、近隣の全てのノードがローカルクライアントのモデル性能の向上に寄与するわけではない。 本研究では,クライアントのモデル性能を向上させるために協調を活用することを目的とした,DFL内の近隣住民のサンプリングと集約のための,シンプルで効率的なアルゴリズムである \textbf{\emph{AFIND+}} を紹介する。 AFIND+は有用な隣人を識別し、選択された隣人の数を適応的に調整し、その貢献に基づいてサンプルされた隣人のモデルを戦略的に集約する。 多様なデータ分割を持つ実世界のデータセットの数値結果から、AFIND+はDFLの他のサンプリングアルゴリズムよりも優れており、既存のDFL最適化アルゴリズムと互換性があることが示された。

Federated Learning (FL) is gaining widespread interest for its ability to share knowledge while preserving privacy and reducing communication costs. Unlike Centralized FL, Decentralized FL (DFL) employs a network architecture that eliminates the need for a central server, allowing direct communication among clients and leading to significant communication resource savings. However, due to data heterogeneity, not all neighboring nodes contribute to enhancing the local client's model performance. In this work, we introduce \textbf{\emph{AFIND+}}, a simple yet efficient algorithm for sampling and aggregating neighbors in DFL, with the aim of leveraging collaboration to improve clients' model performance. AFIND+ identifies helpful neighbors, adaptively adjusts the number of selected neighbors, and strategically aggregates the sampled neighbors' models based on their contributions. Numerical results on real-world datasets with diverse data partitions demonstrate that AFIND+ outperforms other sampling algorithms in DFL and is compatible with most existing DFL optimization algorithms.
翻訳日:2024-07-08 13:40:23 公開日:2024-07-05
# VCDテクスチャ:テキストガイドテクスチャのための可変アライメントに基づく3D-2Dコノイング

VCD-Texture: Variance Alignment based 3D-2D Co-Denoising for Text-Guided Texturing ( http://arxiv.org/abs/2407.04461v1 )

ライセンス: Link先を確認
Shang Liu, Chaohui Yu, Chenjie Cao, Wen Qian, Fan Wang, (参考訳) 3次元形状のテクスチャ合成に関する最近の研究は、インペイントベースや最適化ベースのアプローチを含む、劇的に発達した2次元テキスト・画像拡散モデルから多くの恩恵を受けている。 しかし、これらの手法は、主に3次元オブジェクトを2次元画像に描画し、各画像のテクスチャを分離する2次元拡散モデルと3次元オブジェクトとのモードギャップを無視する。 本稿では,テクスチャ合成を再考し,これらの問題に対処するため,VCD-Textureと呼ばれる3D-2Dコラボレーティブ・デノケーション・フレームワークを提案する。 まず,拡散自己注意モジュールにおける2次元と3次元の潜在特徴学習を3次元の注意受容場に再投影して統合する。 その後、マルチビュー2D潜在特徴を3次元空間に集約し、さらに一貫した2D予測を定式化するためにラスタ化する。 しかし, ラスタ化過程は, 高忠実なテクスチャ合成を実現するため, 理論上は分散アライメントによって対処される, 難解な分散バイアスに悩まされる。 さらに,対立する地域との密接な関係をさらに改善するため,環境改善を図った。 特に、テクスチャ合成を評価するためのベンチマークは公開されていないため、開発を妨げている。 そこで我々は,3つのオープンソース3Dデータセット上に構築された新しい評価セットを構築し,テクスチャ性能を徹底的に検証する4つの指標を提案する。 総合的な実験により、VCD-Textureは他のものよりも優れた性能を発揮することが示された。

Recent research on texture synthesis for 3D shapes benefits a lot from dramatically developed 2D text-to-image diffusion models, including inpainting-based and optimization-based approaches. However, these methods ignore the modal gap between the 2D diffusion model and 3D objects, which primarily render 3D objects into 2D images and texture each image separately. In this paper, we revisit the texture synthesis and propose a Variance alignment based 3D-2D Collaborative Denoising framework, dubbed VCD-Texture, to address these issues. Formally, we first unify both 2D and 3D latent feature learning in diffusion self-attention modules with re-projected 3D attention receptive fields. Subsequently, the denoised multi-view 2D latent features are aggregated into 3D space and then rasterized back to formulate more consistent 2D predictions. However, the rasterization process suffers from an intractable variance bias, which is theoretically addressed by the proposed variance alignment, achieving high-fidelity texture synthesis. Moreover, we present an inpainting refinement to further improve the details with conflicting regions. Notably, there is not a publicly available benchmark to evaluate texture synthesis, which hinders its development. Thus we construct a new evaluation set built upon three open-source 3D datasets and propose to use four metrics to thoroughly validate the texturing performance. Comprehensive experiments demonstrate that VCD-Texture achieves superior performance against other counterparts.
翻訳日:2024-07-08 13:40:23 公開日:2024-07-05
# LLMを用いたCIViCエビデンスモデルによる医療論文のラベル付け

Using LLMs to label medical papers according to the CIViC evidence model ( http://arxiv.org/abs/2407.04466v1 )

ライセンス: Link先を確認
Markus Hisch, Xing David Wang, (参考訳) 医学NLP分野におけるシーケンス分類問題CIViCエビデンスについて紹介する。 CIViCエビデンス(CIViC Evidence)は、ゲノム変異、がんの種類、治療アプローチの様々な組み合わせを調査した科学論文の要約に臨床証拠のラベルを割り当てる多ラベル分類問題である。 私たちは、CIViC Evidenceデータセット上でBERTとRoBERTaの事前トレーニング済みチェックポイントを微調整し、ドメイン固有のテキストで事前トレーニングされた同じアーキテクチャのモデルでそれらのパフォーマンスに挑戦します。 この文脈では、BiomedBERTとBioLinkBERTはCIViCエビデンスにおいてBERTを上回り(クラス支援重み付きF1スコアでは+0.8%、+0.9%)。 すべてのトランスフォーマーベースのモデルは、Bigram tf-idfスコア(+1.5 - 2.7%改良されたF1スコア)でトレーニングされたロジスティック回帰と比較すると、明確なパフォーマンスエッジを示す。 上記のBERTライクなモデルとOpenAIのGPT-4を(最初のテストデータセットのごく一部で)数ショットで比較し、追加のプロンプトエンジニアリングや微調整なしでは、GPT-4がCIViCエビデンス(最高の微調整モデルでは71.8%と、66.1%の重み付きF1スコア)よりも悪くなることを示した。 しかし、性能はBigram tf-idfスコア(67.7%の重み付きF1スコア)でトレーニングされたロジスティック回帰モデルのベンチマークにかなり近い。

We introduce the sequence classification problem CIViC Evidence to the field of medical NLP. CIViC Evidence denotes the multi-label classification problem of assigning labels of clinical evidence to abstracts of scientific papers which have examined various combinations of genomic variants, cancer types, and treatment approaches. We approach CIViC Evidence using different language models: We fine-tune pretrained checkpoints of BERT and RoBERTa on the CIViC Evidence dataset and challenge their performance with models of the same architecture which have been pretrained on domain-specific text. In this context, we find that BiomedBERT and BioLinkBERT can outperform BERT on CIViC Evidence (+0.8% and +0.9% absolute improvement in class-support weighted F1 score). All transformer-based models show a clear performance edge when compared to a logistic regression trained on bigram tf-idf scores (+1.5 - 2.7% improved F1 score). We compare the aforementioned BERT-like models to OpenAI's GPT-4 in a few-shot setting (on a small subset of our original test dataset), demonstrating that, without additional prompt-engineering or fine-tuning, GPT-4 performs worse on CIViC Evidence than our six fine-tuned models (66.1% weighted F1 score compared to 71.8% for the best fine-tuned model). However, performance gets reasonably close to the benchmark of a logistic regression model trained on bigram tf-idf scores (67.7% weighted F1 score).
翻訳日:2024-07-08 13:40:23 公開日:2024-07-05
# 大規模言語モデルは戦略的意思決定者か? : 2プレイヤーノンゼロサムゲームのパフォーマンスとバイアスに関する研究

Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games ( http://arxiv.org/abs/2407.04467v1 )

ライセンス: Link先を確認
Nathan Herr, Fernando Acero, Roberta Raileanu, María Pérez-Ortiz, Zhibin Li, (参考訳) 大規模言語モデル(LLM)は、現実世界での利用が増えているが、その戦略能力はほとんど解明されていない。 ゲーム理論は、他のエージェントとの相互作用におけるLSMの意思決定能力を評価するための優れたフレームワークを提供する。 以前の研究では、LSMは慎重に計算されたプロンプトでこれらのタスクを解くことができるが、問題の設定やプロンプトが変わると失敗する。 本研究では,戦略ゲームにおける LLM の動作,Stag Hunt と Prisoner Dilemma について検討し,異なる設定とプロンプト下での性能変動を分析した。 以上の結果から,(1)位置バイアス,(2)支払いバイアス,(3)行動バイアスの少なくとも1つが評価された。 その結果,ゲーム構成が影響するバイアスと一致していない場合,LLMの性能は低下することがわかった。 パフォーマンスは正しいアクションの選択に基づいて評価される。 アライメント(Alignment)とは、LLMのバイアスが正しい動作と一致しているかどうかをいう。 例えば、GPT-4oの平均性能は、不一致時に34%低下する。 さらに、GPT-4o(現在の最高の性能のLCM)が最大の性能低下を被る「より大きく新しいもの」という現在の傾向は、上記のようには保たない。 最後に、チェーン・オブ・ソート・プロンプトは、ほとんどのモデルにおけるバイアスの影響を減少させるが、根本的なレベルでの問題解決には程遠いことに留意する。

Large Language Models (LLMs) have been increasingly used in real-world settings, yet their strategic abilities remain largely unexplored. Game theory provides a good framework for assessing the decision-making abilities of LLMs in interactions with other agents. Although prior studies have shown that LLMs can solve these tasks with carefully curated prompts, they fail when the problem setting or prompt changes. In this work we investigate LLMs' behaviour in strategic games, Stag Hunt and Prisoner Dilemma, analyzing performance variations under different settings and prompts. Our results show that the tested state-of-the-art LLMs exhibit at least one of the following systematic biases: (1) positional bias, (2) payoff bias, or (3) behavioural bias. Subsequently, we observed that the LLMs' performance drops when the game configuration is misaligned with the affecting biases. Performance is assessed based on the selection of the correct action, one which agrees with the prompted preferred behaviours of both players. Alignment refers to whether the LLM's bias aligns with the correct action. For example, GPT-4o's average performance drops by 34% when misaligned. Additionally, the current trend of "bigger and newer is better" does not hold for the above, where GPT-4o (the current best-performing LLM) suffers the most substantial performance drop. Lastly, we note that while chain-of-thought prompting does reduce the effect of the biases on most models, it is far from solving the problem at the fundamental level.
翻訳日:2024-07-08 13:40:23 公開日:2024-07-05
# Silosへのドリルの方法 - データ対象アクセスパッケージのフリーユースデータセットの作成

How to Drill Into Silos: Creating a Free-to-Use Dataset of Data Subject Access Packages ( http://arxiv.org/abs/2407.04470v1 )

ライセンス: Link先を確認
Nicola Leschke, Daniela Pöhn, Frank Pallas, (参考訳) 欧州連合の一般データ保護規則(GDPR)は、個人(データ主体)に対するいくつかの権利を強化した。 ひとつは、データ主体がサービス(データコントローラ)によって収集された個人情報にアクセスする権利であり、データポータビリティに対する新しい権利を補完するものである。 これらに基づいて、データコントローラは、各データを提供し、データ対象が自身の判断で使用できるようにする義務を負う。 しかし, 実際にデータを利用したり活用したりする可能性は, 今のところ極めて限られている。 その他の理由としては、コントローラが提供する対象アクセス要求パッケージ(SARP)の実際の使用に関する研究が不足していることが挙げられる。 このような研究を開放し、促進するために、さまざまなプロバイダのSARPを生成し、前処理し、公開し、最終的に使用する一般的な高レベルな方法を概説する。 さらに,5つのサービスから2人のユーザのSARPからなる現実的なデータセットを構築した。 このデータセットは一般に提供され、将来、SARPの実用的利用のための新しいアプローチを研究・比較するための出発点および参照点として機能する。

The European Union's General Data Protection Regulation (GDPR) strengthened several rights for individuals (data subjects). One of these is the data subjects' right to access their personal data being collected by services (data controllers), complemented with a new right to data portability. Based on these, data controllers are obliged to provide respective data and allow data subjects to use them at their own discretion. However, the subjects' possibilities for actually using and harnessing said data are severely limited so far. Among other reasons, this can be attributed to a lack of research dedicated to the actual use of controller-provided subject access request packages (SARPs). To open up and facilitate such research, we outline a general, high-level method for generating, pre-processing, publishing, and finally using SARPs of different providers. Furthermore, we establish a realistic dataset comprising two users' SARPs from five services. This dataset is publicly provided and shall, in the future, serve as a starting and reference point for researching and comparing novel approaches for the practically viable use of SARPs.
翻訳日:2024-07-08 13:30:37 公開日:2024-07-05
# EventChat:中小企業におけるレジャーイベント探索のための大規模言語モデル駆動型会話推薦システムの実装とユーザ中心評価

EventChat: Implementation and user-centric evaluation of a large language model-driven conversational recommender system for exploring leisure events in an SME context ( http://arxiv.org/abs/2407.04472v1 )

ライセンス: Link先を確認
Hannes Kunstmann, Joseph Ollier, Joel Persson, Florian von Wangenheim, (参考訳) 大規模言語モデル (LLM) は、対話レコメンデーションシステム (CRS) の戦略的ポテンシャルにおいて大きな進化をもたらす。 しかし、これまでの研究は、特に世界経済の基盤となる中小企業(中小企業)の観点から、エンドユーザー評価や戦略的意味ではなく、LCM主導のCRSを実装するための技術的な枠組みに重点を置いてきた。 本稿では,LCM駆動型CRSを中小企業環境で設計し,それに続く性能を客観的システムメトリクスと主観的ユーザ評価の両方を用いて詳述する。 さらに,LLM駆動型CRSを評価するために,短時間で改良されたResQueモデルについて概説する。 ユーザエクスペリエンスの観点からは,システムパフォーマンスが良好であること(推奨精度85.5%)は明らかだが,ビジネスの生存性に疑問を呈するレイテンシ,コスト,品質の面では過小評価されている。 特に、インタラクション毎の中央値が0.04ドル、レイテンシが5.7sであり、よりユーザフレンドリーで経済的に実行可能なLCM駆動の中小企業向けCRSを実現するための重要な領域として、コスト効率と応答時間が現れる。 これらのコストの1つの主要な要因は、検索強化世代(RAG)技術において、高度なLCMをローダとして使用することである。 また,本研究の結果は,ChatGPTを基盤としたPromptベースの学習のようなアプローチにのみ依存することで,生産環境における満足度の向上が困難であることを示唆している。 LLM駆動型CRSを配備する中小企業の戦略的考察について概説する。

Large language models (LLMs) present an enormous evolution in the strategic potential of conversational recommender systems (CRS). Yet to date, research has predominantly focused upon technical frameworks to implement LLM-driven CRS, rather than end-user evaluations or strategic implications for firms, particularly from the perspective of a small to medium enterprises (SME) that makeup the bedrock of the global economy. In the current paper, we detail the design of an LLM-driven CRS in an SME setting, and its subsequent performance in the field using both objective system metrics and subjective user evaluations. While doing so, we additionally outline a short-form revised ResQue model for evaluating LLM-driven CRS, enabling replicability in a rapidly evolving field. Our results reveal good system performance from a user experience perspective (85.5% recommendation accuracy) but underscore latency, cost, and quality issues challenging business viability. Notably, with a median cost of $0.04 per interaction and a latency of 5.7s, cost-effectiveness and response time emerge as crucial areas for achieving a more user-friendly and economically viable LLM-driven CRS for SME settings. One major driver of these costs is the use of an advanced LLM as a ranker within the retrieval-augmented generation (RAG) technique. Our results additionally indicate that relying solely on approaches such as Prompt-based learning with ChatGPT as the underlying LLM makes it challenging to achieve satisfying quality in a production environment. Strategic considerations for SMEs deploying an LLM-driven CRS are outlined, particularly considering trade-offs in the current technical landscape.
翻訳日:2024-07-08 13:30:37 公開日:2024-07-05
# Point Cloud Upsamplingのためのデータ入力の再考

Rethinking Data Input for Point Cloud Upsampling ( http://arxiv.org/abs/2407.04476v1 )

ライセンス: Link先を確認
Tongxu Zhang, (参考訳) 近年,3次元再構成や表面生成などの分野において,点雲のアップサンプリングが広く行われている。 しかし、既存のポイントクラウドアップサンプリングインプットはすべてパッチベースであり、ポイントクラウドモデルフルインプットとパッチベースインプットの違いと原則について議論する研究はない。 本稿では、パッチベースの点クラウド入力と比較するため、PU-GCNのトレーニング中に全点クラウドモデルを分割して形状整合性を確保する新しいデータ入力手法を提案する。 本稿はPU1KとABCのデータセットで検証したが、Patchベースの性能はモデルベースの完全入力(平均セグメント入力)よりも優れていることが示された。 そこで本稿では,点雲のアップサンプリング結果に影響を与えるデータ入力要因とモデルモジュールについて検討する。

In recent years, point cloud upsampling has been widely applied in fields such as 3D reconstruction and surface generation. However, existing point cloud upsampling inputs are all patch based, and there is no research discussing the differences and principles between point cloud model full input and patch based input. In order to compare with patch based point cloud input, this article proposes a new data input method, which divides the full point cloud model to ensure shape integrity while training PU-GCN. This article was validated on the PU1K and ABC datasets, but the results showed that Patch based performance is better than model based full input i.e. Average Segment input. Therefore, this article explores the data input factors and model modules that affect the upsampling results of point clouds.
翻訳日:2024-07-08 13:30:37 公開日:2024-07-05
# 自己随伴トレースクラス作用素の最小固有値推定

Minimal eigenvalue estimates for self-adjoint trace-class operators ( http://arxiv.org/abs/2407.04478v1 )

ライセンス: Link先を確認
Richárd Balka, Gábor Homa, András Csordás, (参考訳) 有界線型作用素のスペクトル特性は数学や物理学のいくつかの分野において重要な役割を果たすが、最も重要なものは正の半定値である。 各自己随伴するトレースクラス演算子$O$に対して、最小固有値$\lambda_{\min}$が正半定値でなければ$0$となるような単調増加列$q_n$を構築する。 このシーケンスは、$O$のモーメントと、その$$-normの具体的な上限推定にのみ依存する。 副産物として、$O$の1ドルノームの計算可能な見積もりを得る。 まず、$O$ が正半定値であると仮定する。 残念なことに、実証テストは有限のステップでこれを証明できない。 しかし、$q_n$は、すべての固有値に対してより低い見積もりを増大させる厳密で単調な単調な値を与える。 この場合収束速度は$q_n\approx -\frac cn$である。 ここで、$O$ は正半定値でないと仮定する。 すると$q_n$は超指数速度で$\lambda_{\min}$に単調収束する。 したがって、$q_n$ が負の値で安定化すると、$O$ は正の半定値ではないという強い示唆が得られる。 また、計算が容易な$q_{n,0}$は単調にならないが、$\lambda_{\min}<0$高速に収束し、非正の指標としてさらに優れたものを提供する。

Spectral properties of bounded linear operators play a crucial role in several areas of mathematics and physics, and arguably the most important one is being positive semidefinite. For each self-adjoint, trace-class operator $O$ we construct a monotone increasing sequence $q_n$ which tends to the minimal eigenvalue $\lambda_{\min}$ if $O$ is not positive semidefinite, and to $0$ otherwise. This sequence only depends on the moments of $O$ and a concrete upper estimate of its $1$-norm; we also demonstrate that it can be effectively calculated for a large class of physically relevant operators. As a by-product, we obtain computable estimates for the $1$-norm of $O$, too. First assume that $O$ is positive semidefinite. Unfortunately, positivity tests fail to prove this in finitely many steps. However, $q_n$ gives a rigorous, monotone increasing lower estimate for all eigenvalues, providing a quantitative way of measuring positivity. In this case the speed of convergence is $q_n\approx -\frac cn$. Now suppose that $O$ is not positive semidefinite. Then $q_n$ monotonically converges to $\lambda_{\min}$ with super-exponential speed. Hence if $q_n$ stabilizes at a negative value, we obtain a strong indication that $O$ is in fact not positive semidefinite. We also construct an easier computable sequence $q_{n,0}$ which fails to be monotone, but converges to $\lambda_{\min}<0$ faster, providing an even better indicator of non-positivity.
翻訳日:2024-07-08 13:30:37 公開日:2024-07-05
# LoCo:大規模モデルトレーニングのための低ビット通信アダプタ

LoCo: Low-Bit Communication Adaptor for Large-scale Model Training ( http://arxiv.org/abs/2407.04480v1 )

ライセンス: Link先を確認
Xingyu Xie, Zhijie Lin, Kim-Chuan Toh, Pan Zhou, (参考訳) 大規模モデルを効率的に訓練するために、低ビット勾配通信は、局所GPUノードの完全精度勾配を低精度に圧縮し、GPUノード間の勾配同期効率を向上する。 しかし、圧縮情報損失により、トレーニング品質が劣化することが多い。 そこで本稿では,圧縮前のローカルGPUノードの勾配を補償するLoCo(Lo-bit Communication Adaptor)を提案する。 特に、LoCoは、同時圧縮エラーを安定して推定するために、歴史的な補償誤差の移動平均を設計し、それを並列勾配圧縮を補償するために採用し、損失の少ない圧縮をもたらす。 このメカニズムにより、Adamのような一般的なオプティマイザやFSDPのようなシャーディング戦略と互換性がある。 理論的解析によると、AdamやSGDのような完全精度最適化器にLoCoを組み込むことは、非凸問題に対する収束速度を損なうことはない。 実験結果から,Megatron-LMやPyTorchのFSDPといった大規模モデルトレーニングフレームワークにおいて,LoCoは通信効率を大幅に向上し,LLAMAやMoEのような大規模言語モデルの性能劣化を伴わずに,Adamのトレーニング速度を14%から40%向上させることができた。

To efficiently train large-scale models, low-bit gradient communication compresses full-precision gradients on local GPU nodes into low-precision ones for higher gradient synchronization efficiency among GPU nodes. However, it often degrades training quality due to compression information loss. To address this, we propose the Low-bit Communication Adaptor (LoCo), which compensates gradients on local GPU nodes before compression, ensuring efficient synchronization without compromising training quality. Specifically, LoCo designs a moving average of historical compensation errors to stably estimate concurrent compression error and then adopts it to compensate for the concurrent gradient compression, yielding a less lossless compression. This mechanism allows it to be compatible with general optimizers like Adam and sharding strategies like FSDP. Theoretical analysis shows that integrating LoCo into full-precision optimizers like Adam and SGD does not impair their convergence speed on nonconvex problems. Experimental results show that across large-scale model training frameworks like Megatron-LM and PyTorch's FSDP, LoCo significantly improves communication efficiency, e.g., improving Adam's training speed by 14% to 40% without performance degradation on large language models like LLAMAs and MoE.
翻訳日:2024-07-08 13:30:37 公開日:2024-07-05
# 強化学習課題の統合制約機構としてのペトリネットの利用

Using Petri Nets as an Integrated Constraint Mechanism for Reinforcement Learning Tasks ( http://arxiv.org/abs/2407.04481v1 )

ライセンス: Link先を確認
Timon Sachweh, Pierre Haritz, Thomas Liebig, (参考訳) アルゴリズムへの信頼の欠如は、生産プラント、自動運転車、交通関連インフラなどの現実世界のドメインの制御に強化学習(RL)エージェントを使用する場合、部分的にはモデル自体の妥当性の欠如によって問題となる。 このようなシナリオでは、ペトリネット(PN)はフローチャートやプロセスステップで利用でき、汎用的で標準化されている。 RLモデルの統合を容易にし、AIの信頼性を高めるためのステップとして、典型的なRLアプローチよりも3つの大きな利点を持つPNを使用するアプローチを提案する。 第二に、本質的なPNモデルにより、状態依存アクションの制約を強制することができる。 最後に,モデル検査などの手法を用いてPN特性を検証することにより信頼性を向上させることができる。 我々は、典型的な4方向交差点の信号機制御設定にアプローチを試行し、サイクルベースラインを上回り、その結果を提示する。

The lack of trust in algorithms is usually an issue when using Reinforcement Learning (RL) agents for control in real-world domains such as production plants, autonomous vehicles, or traffic-related infrastructure, partly due to the lack of verifiability of the model itself. In such scenarios, Petri nets (PNs) are often available for flowcharts or process steps, as they are versatile and standardized. In order to facilitate integration of RL models and as a step towards increasing AI trustworthiness, we propose an approach that uses PNs with three main advantages over typical RL approaches: Firstly, the agent can now easily be modeled with a combined state including both external environmental observations and agent-specific state information from a given PN. Secondly, we can enforce constraints for state-dependent actions through the inherent PN model. And lastly, we can increase trustworthiness by verifying PN properties through techniques such as model checking. We test our approach on a typical four-way intersection traffic light control setting and present our results, beating cycle-based baselines.
翻訳日:2024-07-08 13:30:37 公開日:2024-07-05
# ウィスパーの制御:音声基礎モデル制御のための普遍的音響対立攻撃

Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models ( http://arxiv.org/abs/2407.04482v1 )

ライセンス: Link先を確認
Vyas Raina, Mark Gales, (参考訳) 音声認識に基づくフレキシブルな音声認識システムや、音声プロンプト付き大規模言語モデル(LLM)の形で、音声認識可能な基礎モデルがますます人気を博している。 これらのモデルの興味深い側面の1つは、適切なプロンプトを用いて自動音声認識(ASR)以外のタスクを実行する能力である。 例えば、OpenAI Whisperモデルは、音声の書き起こしと音声翻訳の両方を実行することができる。 オーディオ・プロンプテッド LLM の開発により、さらに大きな制御オプションが生まれる可能性がある。 この研究では、この柔軟性により、システムはモデル制御の敵攻撃の影響を受けやすいことを実証する。 モデルへのアクセスがなければ、適切な音声入力を変更することでシステムの動作を変更することができる。 このリスクを説明するために、入力音声信号に短い普遍的対角音響セグメントを付加して、ASR基礎モデルの迅速な設定を上書きできることを実証する。 具体的には、音声の書き起こしを設定されているにもかかわらず、Whisperが常に音声翻訳を行うように制御するために、普遍的な対角音響セグメントをうまく利用した。 全体として、本研究は、この形態のモデルが展開される前に考慮すべき基礎モデルに対して、新しい形態の敵攻撃を示すものである。

Speech enabled foundation models, either in the form of flexible speech recognition based systems or audio-prompted large language models (LLMs), are becoming increasingly popular. One of the interesting aspects of these models is their ability to perform tasks other than automatic speech recognition (ASR) using an appropriate prompt. For example, the OpenAI Whisper model can perform both speech transcription and speech translation. With the development of audio-prompted LLMs there is the potential for even greater control options. In this work we demonstrate that with this greater flexibility the systems can be susceptible to model-control adversarial attacks. Without any access to the model prompt it is possible to modify the behaviour of the system by appropriately changing the audio input. To illustrate this risk, we demonstrate that it is possible to prepend a short universal adversarial acoustic segment to any input speech signal to override the prompt setting of an ASR foundation model. Specifically, we successfully use a universal adversarial acoustic segment to control Whisper to always perform speech translation, despite being set to perform speech transcription. Overall, this work demonstrates a new form of adversarial attack on multi-tasking speech enabled foundation models that needs to be considered prior to the deployment of this form of model.
翻訳日:2024-07-08 13:30:37 公開日:2024-07-05
# 熱赤外領域における歩行者検出のための画像補正パイプラインの最適化

Optimizing the image correction pipeline for pedestrian detection in the thermal-infrared domain ( http://arxiv.org/abs/2407.04484v1 )

ライセンス: Link先を確認
Christophe Karam, Jessy Matias, Xavier Breniere, Jocelyn Chanussot, (参考訳) 赤外線画像は霧や低照度のシナリオのような低視認性状況に役立ちうるが、熱雑音にかかりやすいため、さらなる処理と修正が必要である。 本研究では,異なる赤外線処理パイプラインが都市環境における歩行者検出性能に与える影響について検討する。 赤外線画像の検出は、可視画像よりも優れているが、モデルが生の赤外線画像から情報を抽出できないため、赤外線補正パイプラインが不可欠である。 2つの熱補正パイプライン、シャッターとシャッターレスパイプについて検討した。 実験により、人間の観察者にとって視覚的品質が向上しても、空間認知のような補正アルゴリズムは性能に有害であることが示された。 切り離しや時間分解のような他のアルゴリズムは、計算時間を増加させるが、検出精度を高めるためにいくつかの役割を担っている。 現状では、スピードと正確性のための最適なトレードオフは、トネマッピングアルゴリズムのみを備えたシャッターレスパイプを、様々な環境における自動運転アプリケーションに使用することだ。

Infrared imagery can help in low-visibility situations such as fog and low-light scenarios, but it is prone to thermal noise and requires further processing and correction. This work studies the effect of different infrared processing pipelines on the performance of a pedestrian detection in an urban environment, similar to autonomous driving scenarios. Detection on infrared images is shown to outperform that on visible images, but the infrared correction pipeline is crucial since the models cannot extract information from raw infrared images. Two thermal correction pipelines are studied, the shutter and the shutterless pipes. Experiments show that some correction algorithms like spatial denoising are detrimental to performance even if they increase visual quality for a human observer. Other algorithms like destriping and, to a lesser extent, temporal denoising, increase computational time, but have some role to play in increasing detection accuracy. As it stands, the optimal trade-off for speed and accuracy is simply to use the shutterless pipe with a tonemapping algorithm only, for autonomous driving applications within varied environments.
翻訳日:2024-07-08 13:30:37 公開日:2024-07-05
# 大規模言語モデルにおける幻覚検出のためのグラフ構造の活用

Leveraging Graph Structures to Detect Hallucinations in Large Language Models ( http://arxiv.org/abs/2407.04485v1 )

ライセンス: Link先を確認
Noa Nonkes, Sergei Agaronian, Evangelos Kanoulas, Roxana Petcu, (参考訳) 大規模言語モデルは、カスタマーサポート、コンテンツ作成、教育指導、財務指導など、幅広いタスクに広く適用されている。 しかし、よく知られた欠点は幻覚を発生させる前兆である。 これにより、これらのモデルが提供する情報の信頼性が損なわれ、意思決定やユーザの信頼に影響を与えます。 本研究では,潜伏空間の構造を調べ,幻覚・非幻覚世代内の関連を見出すことにより幻覚を検出する手法を提案する。 埋め込み空間に近くにある世代を接続するグラフ構造を作成します。 さらに,隣接ノードからの情報を集約するためにメッセージパッシングを利用したグラフアテンションネットワークを用い,その関連性に基づいて各ノードに様々な重要度を割り当てる。 以上の結果から 1) 潜在空間には、幻覚的世代と非幻覚的世代を区別する構造が存在する。 2)グラフ注意ネットワークは、この構造を学習し、それを目に見えない世代に一般化し、 3) コントラスト学習を取り入れた場合, 本手法の頑健さが向上する。 また,エビデンスベースのベンチマークに対して評価を行う場合,検索手法を使わずに同様の動作を行う。

Large language models are extensively applied across a wide range of tasks, such as customer support, content creation, educational tutoring, and providing financial guidance. However, a well-known drawback is their predisposition to generate hallucinations. This damages the trustworthiness of the information these models provide, impacting decision-making and user confidence. We propose a method to detect hallucinations by looking at the structure of the latent space and finding associations within hallucinated and non-hallucinated generations. We create a graph structure that connects generations that lie closely in the embedding space. Moreover, we employ a Graph Attention Network which utilizes message passing to aggregate information from neighboring nodes and assigns varying degrees of importance to each neighbor based on their relevance. Our findings show that 1) there exists a structure in the latent space that differentiates between hallucinated and non-hallucinated generations, 2) Graph Attention Networks can learn this structure and generalize it to unseen generations, and 3) the robustness of our method is enhanced when incorporating contrastive learning. When evaluated against evidence-based benchmarks, our model performs similarly without access to search-based methods.
翻訳日:2024-07-08 13:30:37 公開日:2024-07-05
# 癌プロファイルのコード化と薬物応答予測のための変分ニューラルネットワーク

Variational and Explanatory Neural Networks for Encoding Cancer Profiles and Predicting Drug Responses ( http://arxiv.org/abs/2407.04486v1 )

ライセンス: Link先を確認
Tianshu Feng, Rohan Gnanaolivu, Abolfazl Safikhani, Yuanhang Liu, Jun Jiang, Nicholas Chia, Alexander Partin, Priyanka Vasanthakumari, Yitan Zhu, Chen Wang, (参考訳) ヒトのがんは公衆衛生上の重大な課題を呈し、翻訳研究を通じて新しい薬物の発見を必要とする。 腫瘍および癌細胞株の分子活性を記述した転写学的プロファイリングデータは、抗がん剤の反応を予測するために広く利用されている。 しかし、既存のAIモデルは、転写学データのノイズと生物学的解釈性の欠如により、課題に直面している。 この制限を克服するため, VETE (Variational and Explanatory Transcriptomics Encoder) を導入し, ノイズ効果を緩和するための変動成分を組み込んだ新しいニューラルネットワークフレームワークを開発した。 主なイノベーションは、オントロジーパスを識別する局所的解釈可能性誘導法、薬物応答の生物学的メカニズムを解明する可視化ツール、および集中型大規模ハイパーパラメーター最適化の適用である。 VETEは癌細胞株の分類と薬剤反応予測において堅牢な精度を示した。 さらに、両方のタスクにトレース可能な生物学的説明を提供し、その予測の基礎となるメカニズムに関する洞察を提供する。 VETEは、AIによる予測と、がん研究における生物学的に意味のある洞察のギャップを埋める。

Human cancers present a significant public health challenge and require the discovery of novel drugs through translational research. Transcriptomics profiling data that describes molecular activities in tumors and cancer cell lines are widely utilized for predicting anti-cancer drug responses. However, existing AI models face challenges due to noise in transcriptomics data and lack of biological interpretability. To overcome these limitations, we introduce VETE (Variational and Explanatory Transcriptomics Encoder), a novel neural network framework that incorporates a variational component to mitigate noise effects and integrates traceable gene ontology into the neural network architecture for encoding cancer transcriptomics data. Key innovations include a local interpretability-guided method for identifying ontology paths, a visualization tool to elucidate biological mechanisms of drug responses, and the application of centralized large scale hyperparameter optimization. VETE demonstrated robust accuracy in cancer cell line classification and drug response prediction. Additionally, it provided traceable biological explanations for both tasks and offers insights into the mechanisms underlying its predictions. VETE bridges the gap between AI-driven predictions and biologically meaningful insights in cancer research, which represents a promising advancement in the field.
翻訳日:2024-07-08 13:30:37 公開日:2024-07-05
# Dude:大型ビジョンランゲージモデルのための二元分布対応コンテキストプロンプト学習

Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model ( http://arxiv.org/abs/2407.04489v1 )

ライセンス: Link先を確認
Duy M. H. Nguyen, An T. Le, Trung Q. Nguyen, Nghiem T. Diep, Tai Nguyen, Duy Duong-Tran, Jan Peters, Li Shen, Mathias Niepert, Daniel Sonntag, (参考訳) 事前学習された文脈知識と最小限のトレーニングデータを用いて、大規模視覚言語モデルを新しいドメインにカスタマイズする能力により、プロンプト学習手法が注目されている。 しかし、既存の研究は通常、統一的なインプットの最適化に依存しており、しばしば識別的属性が不十分なため、きめ細かい分類作業に苦しむ。 そこで本研究では,GPTのような大規模言語モデル(LLM)によって生成されるドメイン共有コンテキストとクラス固有コンテキストの2つのコンテキストに基づく新しいフレームワークについて考察する。 このような二重プロンプト法は、LLMの知識に符号化された暗黙的および明示的な要素を結合することによって、モデルの特徴表現を強化する。 さらに、構築されたプロンプトと視覚トークンの関係を定量化するために、不均衡最適輸送(UOT)理論を定式化する。 部分的マッチングにより、UOTは個別の視覚トークンの集合を適切に調整し、異なる質量分布下で埋め込みを促すことができ、これは特に無関係またはノイズな要素を扱うのに有用であり、質量の保存が輸送溶液を制限しないことを保証する。 さらに、UOTの特徴は画像拡張とシームレスに統合され、摂動画像と入力の適切な距離を維持しながらトレーニングサンプルプールが拡張される。 数ショットの分類とアダプタ設定による大規模な実験は、現在の最先端のベースラインよりも、我々のモデルの優位性を裏付けるものだ。

Prompt learning methods are gaining increasing attention due to their ability to customize large vision-language models to new domains using pre-trained contextual knowledge and minimal training data. However, existing works typically rely on optimizing unified prompt inputs, often struggling with fine-grained classification tasks due to insufficient discriminative attributes. To tackle this, we consider a new framework based on a dual context of both domain-shared and class-specific contexts, where the latter is generated by Large Language Models (LLMs) such as GPTs. Such dual prompt methods enhance the model's feature representation by joining implicit and explicit factors encoded in LLM knowledge. Moreover, we formulate the Unbalanced Optimal Transport (UOT) theory to quantify the relationships between constructed prompts and visual tokens. Through partial matching, UOT can properly align discrete sets of visual tokens and prompt embeddings under different mass distributions, which is particularly valuable for handling irrelevant or noisy elements, ensuring that the preservation of mass does not restrict transport solutions. Furthermore, UOT's characteristics integrate seamlessly with image augmentation, expanding the training sample pool while maintaining a reasonable distance between perturbed images and prompt inputs. Extensive experiments across few-shot classification and adapter settings substantiate the superiority of our model over current state-of-the-art baselines.
翻訳日:2024-07-08 13:30:37 公開日:2024-07-05
# 学習可能な問合せ点を用いた微小位置オンライン認識

Micro-gesture Online Recognition using Learnable Query Points ( http://arxiv.org/abs/2407.04490v1 )

ライセンス: Link先を確認
Pengyu Liu, Fei Wang, Kun Li, Guoliang Chen, Yanyan Wei, Shengeng Tang, Zhiliang Wu, Dan Guo, (参考訳) 本稿では,IJCAI 2024におけるMiGAチャレンジにおいて,我々のチームであるHFUT-VUTのマイクロジェスチャーオンライン認識トラックに対するソリューションを簡潔に紹介する。 Micro-gesture Online Recognitionタスクでは、ビデオクリップ内のカテゴリを特定し、micro-gestureの開始時刻と終了時刻を特定する。 典型的な時間的行動検出タスクと比較して、マイクロジェスチャオンライン認識タスクは、マイクロジェスチャの区別と、アクションの開始時刻と終了時刻のピンポイントに重点を置いている。 弊社のソリューションは、Micro-gesture Online Recognition trackの2位にランクインしている。

In this paper, we briefly introduce the solution developed by our team, HFUT-VUT, for the Micro-gesture Online Recognition track in the MiGA challenge at IJCAI 2024. The Micro-gesture Online Recognition task involves identifying the category and locating the start and end times of micro-gestures in video clips. Compared to the typical Temporal Action Detection task, the Micro-gesture Online Recognition task focuses more on distinguishing between micro-gestures and pinpointing the start and end times of actions. Our solution ranks 2nd in the Micro-gesture Online Recognition track.
翻訳日:2024-07-08 13:30:37 公開日:2024-07-05
# デフォルトによる改善: タブラルデータ上での強い事前調整されたMLPとブーストツリー

Better by Default: Strong Pre-Tuned MLPs and Boosted Trees on Tabular Data ( http://arxiv.org/abs/2407.04491v1 )

ライセンス: Link先を確認
David Holzmüller, Léo Grinsztajn, Ingo Steinwart, (参考訳) 表形式のデータに対する分類と回帰に関して、勾配型決定木(GBDT)の優位性は、広範にハイパーパラメーターをチューニングしたより遅い深層学習手法によって最近問題視されている。 私たちはこの不一致に対処する。 (a)RealMLP、改良された多層パーセプトロン(MLP)および (b)GBDTとRealMLPのデフォルトパラメータを改善した。 71の分類と47の回帰データセットを持つメタトレインベンチマークのRealMLPとデフォルトパラメータを調整し、48の分類と42の回帰データセットを持つ非結合メタテストベンチマークのハイパーパラメータ最適化バージョンと、Grinsztajn氏らによるGBDTフレンドリなベンチマーク(2022年)と比較する。 ベンチマークの結果,RealMLPは他のニューラルネットよりも時間精度のトレードオフが優れ,GBDTと競合することがわかった。 さらに、RealMLPとGBDTの組み合わせによって、ハイパーパラメータチューニングなしで中規模の表型データセット(1K-500Kサンプル)において優れた結果が得られる。

For classification and regression on tabular data, the dominance of gradient-boosted decision trees (GBDTs) has recently been challenged by often much slower deep learning methods with extensive hyperparameter tuning. We address this discrepancy by introducing (a) RealMLP, an improved multilayer perceptron (MLP), and (b) improved default parameters for GBDTs and RealMLP. We tune RealMLP and the default parameters on a meta-train benchmark with 71 classification and 47 regression datasets and compare them to hyperparameter-optimized versions on a disjoint meta-test benchmark with 48 classification and 42 regression datasets, as well as the GBDT-friendly benchmark by Grinsztajn et al. (2022). Our benchmark results show that RealMLP offers a better time-accuracy tradeoff than other neural nets and is competitive with GBDTs. Moreover, a combination of RealMLP and GBDTs with improved default parameters can achieve excellent results on medium-sized tabular datasets (1K--500K samples) without hyperparameter tuning.
翻訳日:2024-07-08 13:30:37 公開日:2024-07-05
# 多目的生成のためのPaRetO-gUided Diffusion Model

PROUD: PaRetO-gUided Diffusion Model for Multi-objective Generation ( http://arxiv.org/abs/2407.04493v1 )

ライセンス: Link先を確認
Yinghua Yao, Yuangang Pan, Jing Li, Ivor Tsang, Xin Yao, (参考訳) 深層生成モデルの領域における最近の進歩は、複数の望ましい性質を満たすサンプルの生成に焦点を当てている。 しかし、一般的なアプローチはこれらの特性関数を独立に最適化し、それらの間のトレードオフを省略する。 さらに、プロパティ最適化はしばしば生成モデルに不適切に統合され、生成の品質(すなわち生成されたサンプルの品質)に不必要な妥協をもたらす。 これらの問題に対処するため、制約付き最適化問題を定式化する。 生成したサンプルが複数のプロパティ目標のParetoフロントに存在することを保証すると同時に、生成品質の最適化を目指している。 このような定式化は、矛盾する特性関数を同時に改善できないサンプルの生成を可能にし、生成したサンプルの品質を保っている。 この定式化に基づいて,PaRetO-gUided Diffusion Model (PROUD)を導入する。 画像生成タスクとタンパク質生成タスクの実験的評価は,Puretoの最適性にアプローチしながら,Puretoの優れた生成品質を維持できることを示す。

Recent advancements in the realm of deep generative models focus on generating samples that satisfy multiple desired properties. However, prevalent approaches optimize these property functions independently, thus omitting the trade-offs among them. In addition, the property optimization is often improperly integrated into the generative models, resulting in an unnecessary compromise on generation quality (i.e., the quality of generated samples). To address these issues, we formulate a constrained optimization problem. It seeks to optimize generation quality while ensuring that generated samples reside at the Pareto front of multiple property objectives. Such a formulation enables the generation of samples that cannot be further improved simultaneously on the conflicting property functions and preserves good quality of generated samples. Building upon this formulation, we introduce the PaRetO-gUided Diffusion model (PROUD), wherein the gradients in the denoising process are dynamically adjusted to enhance generation quality while the generated samples adhere to Pareto optimality. Experimental evaluations on image generation and protein generation tasks demonstrate that our PROUD consistently maintains superior generation quality while approaching Pareto optimality across multiple property functions compared to various baselines.
翻訳日:2024-07-08 13:30:37 公開日:2024-07-05
# 極非定常光波の量子相:ステップ相の進化とその効果

Quantal phase of extreme nonstatic light waves: Step-phase evolution and its effects ( http://arxiv.org/abs/2407.04494v1 )

ライセンス: Link先を確認
Jeong Ryeol Choi, (参考訳) 位相は、量子重ね合わせ、波動干渉、光-物質相互作用などの様々な光学現象の結果に影響を与える主要な要因である。 光波が非定常になると、幾何学的位相と呼ばれる追加の位相が進化する。 そして、この位相により、量子波関数全体の位相は時間とともに非線形に変化する。 興味深いことに、非定常性の測度が極端に高い場合、位相はステップのような進化を示す。 このような異常な位相変化は、この研究における波の非定常性をよりよく理解するために詳細に解析される。 波の非定常化が進むにつれて、電磁波の位相係数は長方形に変化する。 しかし、電磁波の形状は、波の振幅の補償変化を考慮すると、まだ正弦波形である。 この場合の電磁場は、定常波の電磁場と非常によく似ている。 波動干渉プロファイルの変化や確率分布の変化などの段階進化に伴う影響を解析し,その影響を解説する。

The phases are the main factor that affects the outcome of various optical phenomena, such as quantum superposition, wave interference, and light-matter interaction. As a light wave becomes nonstatic, an additional phase, the so-called geometric phase, takes place in its evolution. Then, due to this phase, the overall phase of the quantum wave function varies in a nonlinear way with time. Interestingly, the phase exhibits a step-like evolution if the measure of nonstaticity is extremely high. Such an abnormal phase variation is analyzed in detail for better understanding of wave nonstaticity in this work. As the wave becomes highly nonstatic, the phase factor of the electromagnetic wave evolves in a rectangular manner. However, the shape of the electromagnetic field is still a sinusoidal form on account of the compensational variation of the wave amplitude. The electromagnetic field in this case very much resembles that of a standing wave. The effects accompanying the step-phase evolution, such as modification of the probability distribution and alteration of the wave-interference profile, are analyzed and their implications are illustrated.
翻訳日:2024-07-08 13:30:37 公開日:2024-07-05
# 拡散モデルの速度精度トレードオフ:非平衡熱力学からの知恵と最適輸送

Speed-accuracy trade-off for the diffusion models: Wisdom from nonequlibrium thermodynamics and optimal transport ( http://arxiv.org/abs/2407.04495v1 )

ライセンス: Link先を確認
Kotaro Ikeda, Tomoya Uda, Daisuke Okanohara, Sosuke Ito, (参考訳) 我々は、拡散モデルと呼ばれる生成モデルと、確率的熱力学と呼ばれるフォッカー・プランク方程式の非平衡熱力学との間の関係について論じる。 確率的熱力学の手法に基づき,拡散モデルの速度-精度トレードオフを導出し,拡散モデルにおけるデータ生成の速度と精度のトレードオフ関係を導出する。 その結果,前処理におけるエントロピー生成速度がデータ生成の誤差に影響を与えることが示唆された。 確率的熱力学の観点から、我々の結果は拡散モデルにおけるデータ生成の最良の方法に関する定量的知見を提供する。 最適学習プロトコルは、確率的熱力学における保守的な力と、最適輸送理論における2-ワッサーシュタイン距離による空間の測地によって導入される。 本研究では,コサインスケジュール,条件付き最適輸送,最適輸送など,異なるノイズスケジュールを持つ拡散モデルの速度精度トレードオフの有効性を数値的に説明する。

We discuss a connection between a generative model, called the diffusion model, and nonequilibrium thermodynamics for the Fokker-Planck equation, called stochastic thermodynamics. Based on the techniques of stochastic thermodynamics, we derive the speed-accuracy trade-off for the diffusion models, which is a trade-off relationship between the speed and accuracy of data generation in diffusion models. Our result implies that the entropy production rate in the forward process affects the errors in data generation. From a stochastic thermodynamic perspective, our results provide quantitative insight into how best to generate data in diffusion models. The optimal learning protocol is introduced by the conservative force in stochastic thermodynamics and the geodesic of space by the 2-Wasserstein distance in optimal transport theory. We numerically illustrate the validity of the speed-accuracy trade-off for the diffusion models with different noise schedules such as the cosine schedule, the conditional optimal transport, and the optimal transport.
翻訳日:2024-07-08 13:20:52 公開日:2024-07-05
# 量子近似最適化アルゴリズムにおける最適パラメータの対称性インフォームド転送可能性

Symmetry-informed transferability of optimal parameters in the Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2407.04496v1 )

ライセンス: Link先を確認
Isak Brundin, Laura García-Álvarez, (参考訳) 変動量子アルゴリズムの主な限界の1つは、高次元の非凸変動パラメータランドスケープの古典的な最適化である。 この最適化を簡略化するために、問題対称性と典型的な最適パラメータを集中する初期点として、探索空間を縮小することができる。 本稿では、$d$-regular tree subgraphsを用いたMaxCut問題に対する量子近似最適化アルゴリズムの最適パラメータの典型的な値を考察し、異なるグラフインスタンスで再利用する。 数種類の重み付きグラフと非重み付きグラフの最適化ランドスケープにおける対称性を証明し、複数の最適パラメータの存在を説明する。 しかし、全ての最適集合が問題インスタンス間でうまく転送できるわけではない。 探索空間内で特定の移動可能な領域を見つけ、研究された対称性を用いて最適なパラメータの任意の集合を適切な領域に変換する方法を示す。

One of the main limitations of variational quantum algorithms is the classical optimization of the highly dimensional non-convex variational parameter landscape. To simplify this optimization, we can reduce the search space using problem symmetries and typical optimal parameters as initial points if they concentrate. In this article, we consider typical values of optimal parameters of the Quantum Approximate Optimization Algorithm for the MaxCut problem with $d$-regular tree subgraphs and reuse them in different graph instances. We prove symmetries in the optimization landscape of several kinds of weighted and unweighted graphs, which explains the existence of multiple sets of optimal parameters. However, we observe that not all optimal sets can be successfully transferred between problem instances. We find specific transferable domains in the search space and show how to translate an arbitrary set of optimal parameters into the adequate domain using the studied symmetries.
翻訳日:2024-07-08 13:20:52 公開日:2024-07-05
# カーディナリティに基づく特徴モデルと重み付きオートマタの多重集合セミリング上のマッピング(拡張版)

Mapping Cardinality-based Feature Models to Weighted Automata over Featured Multiset Semirings (Extended Version) ( http://arxiv.org/abs/2407.04499v1 )

ライセンス: Link先を確認
Robert Müller, Mathis Weiß, Malte Lochau, (参考訳) カルディナリティに基づく機能モデルでは、同じ機能の複数のコピーを選択できるため、Booleanの機能サブセットから機能インスタンスのマルチセットまで、製品構成の概念を一般化することができる。 この表現性の向上は a-priori と non-convex の構成空間を形作り、濃度に基づく特徴モデルに不十分なブール存在条件に基づいて確立された解空間写像を描画する。 そこで本稿では,特徴量に基づく特徴モデルのための行動変数モデリング形式として,特徴量付き半集合に対する重み付きオートマトンを提案する。 形式主義は、遷移重みに対する事前定義された意味領域として、特徴上の多重集合を用いる。 これは、任意の代数的構造が多重集合上の適切な半環を形成し、経路に沿って横切る重みを集約し、受理された単語を多重集合の構成にマッピングすることを可能にする。 特に、熱帯半環は、標準解析問題の表現性と計算的トラクタビリティの間の合理的なトレードオフを持つ有望なサブクラスを構成する。 形式主義は、単語の長さに応じて上界の多重度制約を可能にするため、特徴的遷移系よりも厳密に表現的である。 本稿では,行動変数モデルのツール実装と,提案手法の適用性と計算可能性を示す予備実験結果について述べる。

Cardinality-based feature models permit to select multiple copies of the same feature, thus generalizing the notion of product configurations from subsets of Boolean features to multisets of feature instances. This increased expressiveness shapes a-priori infinite and non-convex configuration spaces, which renders established solution-space mappings based on Boolean presence conditions insufficient for cardinality-based feature models. To address this issue, we propose weighted automata over featured multiset semirings as a novel behavioral variability modeling formalism for cardinality-based feature models. The formalism uses multisets over features as a predefined semantic domain for transition weights. It permits to use any algebraic structure forming a proper semiring on multisets to aggregate the weights traversed along paths to map accepted words to multiset configurations. In particular, tropical semirings constitute a promising sub-class with a reasonable trade-off between expressiveness and computational tractability of canonical analysis problems. The formalism is strictly more expressive than featured transition systems, as it enables upper-bound multiplicity constraints depending on the length of words. We provide a tool implementation of the behavioral variability model and present preliminary experimental results showing applicability and computational feasibility of the proposed approach.
翻訳日:2024-07-08 13:20:52 公開日:2024-07-05
# LLMが電話ゲームをするとき: 反復的文化的伝達における累積的変化とトラクター

When LLMs Play the Telephone Game: Cumulative Changes and Attractors in Iterated Cultural Transmissions ( http://arxiv.org/abs/2407.04503v1 )

ライセンス: Link先を確認
Jérémy Perez, Corentin Léger, Grgur Kovač, Cédric Colas, Gaia Molinaro, Maxime Derex, Pierre-Yves Oudeyer, Clément Moulin-Frier, (参考訳) 大規模言語モデル(LLM)が相互に相互作用し、オンラインで大量のテキストを生成するようになると、あるLLMから次のLLMに遷移するにつれて、どのように情報が変換されるかをよりよく理解することが重要になる。 個々のLDMの挙動について重要な研究がなされているが、既存の研究は繰り返しLDMの相互作用から生じる集団的挙動や情報の歪みを概ね見落としている。 単一の出力レベルで無視される小さなバイアスは、反復的な相互作用のリスクを増幅し、コンテンツが魅力のある状態へと進化する可能性がある。 一連の電話ゲーム実験において,人間の文化進化文献から借用した送信チェーン設計を適用した: LLMエージェントは,そのチェーン内の先行エージェントから次のエージェントへのテキストを反復的に受信し,生成し,送信する。 テキスト毒性, 肯定性, 難易度, 伝達鎖間の長さの進化を追跡することにより, バイアスやアトラクタの存在を明らかにし, 初期テキスト, 命令, 言語モデル, モデルサイズへの依存性について検討する。 例えば、よりオープンな指示が、より制約されたタスクよりもより強いアトラクション効果をもたらすことが分かっています。 また、異なるテキスト特性はアトラクション効果に対して異なる感度を示し、毒性は長さよりもアトラクションを強くする。 これらの知見は多段階伝達ダイナミクスの会計の重要性を強調し、LLMの文化的ダイナミクスをより包括的に理解するための第一歩である。

As large language models (LLMs) start interacting with each other and generating an increasing amount of text online, it becomes crucial to better understand how information is transformed as it passes from one LLM to the next. While significant research has examined individual LLM behaviors, existing studies have largely overlooked the collective behaviors and information distortions arising from iterated LLM interactions. Small biases, negligible at the single output level, risk being amplified in iterated interactions, potentially leading the content to evolve towards attractor states. In a series of telephone game experiments, we apply a transmission chain design borrowed from the human cultural evolution literature: LLM agents iteratively receive, produce, and transmit texts from the previous to the next agent in the chain. By tracking the evolution of text toxicity, positivity, difficulty, and length across transmission chains, we uncover the existence of biases and attractors, and study their dependence on the initial text, the instructions, language model, and model size. For instance, we find that more open-ended instructions lead to stronger attraction effects compared to more constrained tasks. We also find that different text properties display different sensitivity to attraction effects, with toxicity leading to stronger attractors than length. These findings highlight the importance of accounting for multi-step transmission dynamics and represent a first step towards a more comprehensive understanding of LLM cultural dynamics.
翻訳日:2024-07-08 13:20:52 公開日:2024-07-05
# Segment any 4D Gaussians

Segment Any 4D Gaussians ( http://arxiv.org/abs/2407.04504v1 )

ライセンス: Link先を確認
Shengxiang Ji, Guanjun Wu, Jiemin Fang, Jiazhong Cen, Taoran Yi, Wenyu Liu, Qi Tian, Xinggang Wang, (参考訳) XR/VRでは、現実世界のモデリング、理解、再構築が不可欠である。 近年,3次元ガウス散乱(3D-GS)法は3次元シーンのモデリングと理解において顕著な成功を収めている。 同様に、様々な4D表現は、4D世界のダイナミクスを捉える能力を示している。 しかし、4次元表現のセグメンテーションに焦点をあてる研究が数多く存在する。 本稿では, 4D ガウスをベースとした 4D デジタル世界において, あらゆるものをセグメント化する最初のフレームワークである Segment Any 4D Gaussians (SA4D) を提案する。 SA4Dでは、ガウスのドリフトを扱うために効率的な時間的アイデンティティ特徴場を導入し、ノイズやスパース入力から正確なアイデンティティ特徴を学習することができる。 さらに, アーティファクトを除去するために, 4次元セグメンテーション精製法を提案する。 われわれのSA4Dは4Dガウスで数秒以内の精度で高品質なセグメンテーションを実現し、高品質なマスクを取り除き、色を変え、構成し、レンダリングする能力を示している。 さらなるデモは、https://jsxzs.github.io/sa4d/.comで公開されている。

Modeling, understanding, and reconstructing the real world are crucial in XR/VR. Recently, 3D Gaussian Splatting (3D-GS) methods have shown remarkable success in modeling and understanding 3D scenes. Similarly, various 4D representations have demonstrated the ability to capture the dynamics of the 4D world. However, there is a dearth of research focusing on segmentation within 4D representations. In this paper, we propose Segment Any 4D Gaussians (SA4D), one of the first frameworks to segment anything in the 4D digital world based on 4D Gaussians. In SA4D, an efficient temporal identity feature field is introduced to handle Gaussian drifting, with the potential to learn precise identity features from noisy and sparse input. Additionally, a 4D segmentation refinement process is proposed to remove artifacts. Our SA4D achieves precise, high-quality segmentation within seconds in 4D Gaussians and shows the ability to remove, recolor, compose, and render high-quality anything masks. More demos are available at: https://jsxzs.github.io/sa4d/.
翻訳日:2024-07-08 13:20:52 公開日:2024-07-05
# 電気・電子機器同定(WEEE)による廃棄物のハイパースペクトルデータセットと深層学習手法

Hyperspectral Dataset and Deep Learning methods for Waste from Electric and Electronic Equipment Identification (WEEE) ( http://arxiv.org/abs/2407.04505v1 )

ライセンス: Link先を確認
Artzai Picon, Pablo Galan, Arantza Bereciartua-Perez, Leire Benito-del-Valle, (参考訳) ハイパースペクトルイメージングは急速に進歩する分野であり、様々な応用において古典的特徴抽出や分類法に取って代わる深層学習技術の進歩を目撃している。 しかし、多くの研究者は、スペクトル情報と空間情報の相互作用を厳密に分析することなく、ハイパースペクトル画像処理に任意のアーキテクチャを採用している。 この監視は、モデル性能にこれらの2つのモダリティを組み合わせることの意味を無視する。 本稿では,ハイパースペクトル画像分割のための多様なディープラーニングアーキテクチャの性能評価を行う。 我々の分析は、様々なスペクトルと空間の粒度にまたがって異なるアーキテクチャの影響を歪めている。 具体的には、スペクトル分解能(スペクトル情報をキャプチャする)と空間テクスチャ(空間的詳細を探索する)がセグメンテーション結果に及ぼす影響について検討する。 さらに、RGB画像用に設計された大規模な事前学習画像基盤モデルからハイパースペクトル領域への知識の伝達可能性についても検討する。 その結果,空間情報をスペクトルデータと組み合わせることで,分割結果が改善され,スペクトル情報や空間情報を含む新しいアーキテクチャやRGB基盤モデルのハイパースペクトル領域への適応について,さらなる研究が不可欠であることが示唆された。 さらに,Tecnalia WEEE Hyperspectral データセットのクリーニングと公開により,この分野に貢献する。 このデータセットは、銅、ブラス、アルミニウム、ステンレス鋼、白銅を含む廃電気・電子機器(WEEE)の非鉄分を400nmから1000nmの範囲で含む。 これらの結論は、ハイパースペクトルイメージングの分野における新しい研究者を導くことができると期待している。

Hyperspectral imaging, a rapidly evolving field, has witnessed the ascendancy of deep learning techniques, supplanting classical feature extraction and classification methods in various applications. However, many researchers employ arbitrary architectures for hyperspectral image processing, often without rigorous analysis of the interplay between spectral and spatial information. This oversight neglects the implications of combining these two modalities on model performance. In this paper, we evaluate the performance of diverse deep learning architectures for hyperspectral image segmentation. Our analysis disentangles the impact of different architectures, spanning various spectral and spatial granularities. Specifically, we investigate the effects of spectral resolution (capturing spectral information) and spatial texture (conveying spatial details) on segmentation outcomes. Additionally, we explore the transferability of knowledge from large pre-trained image foundation models, originally designed for RGB images, to the hyperspectral domain. Results show that incorporating spatial information alongside spectral data leads to improved segmentation results, and that it is essential to further work on novel architectures comprising spectral and spatial information and on the adaption of RGB foundation models into the hyperspectral domain. Furthermore, we contribute to the field by cleaning and publicly releasing the Tecnalia WEEE Hyperspectral dataset. This dataset contains different non-ferrous fractions of Waste Electrical and Electronic Equipment (WEEE), including Copper, Brass, Aluminum, Stainless Steel, and White Copper, spanning the range of 400 to 1000 nm. We expect these conclusions can guide novel researchers in the field of hyperspectral imaging.
翻訳日:2024-07-08 13:20:52 公開日:2024-07-05
# データ駆動スパースプリミティブを用いたFew-Shot Airway-Tree Modeling

Few-Shot Airway-Tree Modeling using Data-Driven Sparse Priors ( http://arxiv.org/abs/2407.04507v1 )

ライセンス: Link先を確認
Ali Keshavarzi, Elsa Angelini, (参考訳) 医用画像における大きな注釈付きデータセットの欠如は、教師付きディープラーニング(DL)セグメンテーションモデルにおける本質的な負担である。 限られたアノテートデータのみを使用して事前訓練されたモデルを転送するためのコスト効率のよい手法は、ほとんどない。 しかし、このような手法は、特に複雑で多様で、気道のような細い管状構造を分割する場合に、データの多様性が限られているため、過度に適合する傾向にある。 さらに、情報的画像表現の製作は、医学的イメージングにおいて重要な役割を担い、解剖学的詳細の識別的増強を可能にしている。 本稿ではまず,肺CT検査における気道の効率向上を目的として,データ駆動型スペーシフィケーションモジュールを訓練する。 次に、これらのスパース表現を標準教師付きセグメンテーションパイプラインに組み込み、DLモデルの性能を高めるための事前学習ステップとする。 ATMパブリックチャレンジコホートに提示された結果,事前学習におけるスパース事前使用の有効性が示され,フルスケールおよび数ショットの学習シナリオにおいて,セグメンテーションDiceスコアが1%から10%向上した。

The lack of large annotated datasets in medical imaging is an intrinsic burden for supervised Deep Learning (DL) segmentation models. Few-shot learning approaches are cost-effective solutions to transfer pre-trained models using only limited annotated data. However, such methods can be prone to overfitting due to limited data diversity especially when segmenting complex, diverse, and sparse tubular structures like airways. Furthermore, crafting informative image representations has played a crucial role in medical imaging, enabling discriminative enhancement of anatomical details. In this paper, we initially train a data-driven sparsification module to enhance airways efficiently in lung CT scans. We then incorporate these sparse representations in a standard supervised segmentation pipeline as a pretraining step to enhance the performance of the DL models. Results presented on the ATM public challenge cohort show the effectiveness of using sparse priors in pre-training, leading to segmentation Dice score increase by 1% to 10% in full-scale and few-shot learning scenarios, respectively.
翻訳日:2024-07-08 13:20:52 公開日:2024-07-05
# エントロピーコンピューティング:オープン量子システムにおける最適化のパラダイム

Entropy Computing: A Paradigm for Optimization in an Open Quantum System ( http://arxiv.org/abs/2407.04512v1 )

ライセンス: Link先を確認
Lac Nguyen, Mohammad-Ali Miri, R. Joseph Rupert, Wesley Dyk, Sam Wu, Nick Vrahoretis, Irwin Huang, Milan Begliarbekov, Nicholas Chancellor, Uchenna Chukwu, Pranav Mahamuni, Cesar Martinez-Delgado, David Haycraft, Carrie Spear, Mark Campanelli, Russell Huffman, Yong Meng Sua, Yuping Huang, (参考訳) 物質を用いた現代の量子技術は、環境との相互作用から物質を分離するためにクローズド量子システムとして設計されている。 この設計パラダイムはスケーラビリティを著しく制限し、そのようなシステムの実用的な実装を制限します。 本稿では、量子貯水池を条件にすることで、基底状態の安定化を可能にする新しい計算パラダイム、エントロピーコンピューティングを紹介する。 本研究では、計測に基づくフィードバックを用いて非凸最適化問題を解決するハイブリッドフォトニック電子コンピュータを構築することにより、エントロピー計算の実現可能性について実験的に実証する。 このシステムは、時間的フォトニックモードを使用して、光子の時間周波数自由度で確率振幅を符号化するためにクアディットを生成する。 このスキームは、電子配線と組み合わせることで、任意のハミルトニアンをシステムにエンコードし、非凸連続変数と組合せ最適化問題を解くことができる。 提案するエントロピー計算パラダイムは,NP-ハード最適化問題に対処するためのスケーラブルで多用途なプラットフォームとして機能することを示す。

Modern quantum technologies using matter are designed as closed quantum systems to isolate them from interactions with the environment. This design paradigm greatly constrains the scalability and limits practical implementation of such systems. Here, we introduce a novel computing paradigm, entropy computing, that works by conditioning a quantum reservoir thereby enabling the stabilization of a ground state. In this work, we experimentally demonstrate the feasibility of entropy computing by building a hybrid photonic-electronic computer that uses measurement-based feedback to solve non-convex optimization problems. The system functions by using temporal photonic modes to create qudits in order to encode probability amplitudes in the time-frequency degree of freedom of a photon. This scheme, when coupled with electronic interconnects, allows us to encode an arbitrary Hamiltonian into the system and solve non-convex continuous variables and combinatorial optimization problems. We show that the proposed entropy computing paradigm can act as a scalable and versatile platform for tackling a large range of NP-hard optimization problems.
翻訳日:2024-07-08 13:20:52 公開日:2024-07-05
# LayerShuffle:レイヤ実行順序のランダム化による視覚変換器のロバスト性向上

LayerShuffle: Enhancing Robustness in Vision Transformers by Randomizing Layer Execution Order ( http://arxiv.org/abs/2407.04513v1 )

ライセンス: Link先を確認
Matthias Freiberger, Peter Kun, Anders Sundnes Løvlie, Sebastian Risi, (参考訳) アーキテクチャとトレーニング方法のため、人工知能のニューラルネットワークは通常、テスト時にレイヤの切断、置換、シャッフルに対して堅牢ではない。 しかしながら、このような特性は、実行の順序を保証できない分散ニューラルネットワークアーキテクチャや、推論中にネットワークの一部が失敗する可能性のある分散ニューラルネットワークアーキテクチャなど、さまざまなアプリケーションに望ましい。 本研究では,これらの課題に対して,学習時に注目モジュールの実行順序をランダム化する視覚変換器のトレーニング手法を提案する。 提案手法を用いることで、同じモデルサイズで精度の低下(約20倍)を許容すると、視覚変換器はテスト時に任意の層実行順序に適応できることを示す。 また、トレーニングされたモデルをランダムにマージすることで、ソースモデルと比較して性能が失われることなく機能的な(フランケンシュタイン)モデルが得られることもわかりました。 最後に、テスト時にモデルを階層化して、そのパフォーマンスが優雅に低下していることに気付きます。

Due to their architecture and how they are trained, artificial neural networks are typically not robust toward pruning, replacing, or shuffling layers at test time. However, such properties would be desirable for different applications, such as distributed neural network architectures where the order of execution cannot be guaranteed or parts of the network can fail during inference. In this work, we address these issues through a number of proposed training approaches for vision transformers whose most important component is randomizing the execution order of attention modules at training time. We show that with our proposed approaches, vision transformers are indeed capable to adapt to arbitrary layer execution orders at test time assuming one tolerates a reduction (about 20\%) in accuracy at the same model size. We also find that our trained models can be randomly merged with each other resulting in functional ("Frankenstein") models without loss of performance compared to the source models. Finally, we layer-prune our models at test time and find that their performance declines gracefully.
翻訳日:2024-07-08 13:20:52 公開日:2024-07-05
# G-Adaptive Mesh refinement -- グラフニューラルネットワークと微分可能な有限要素ソルバを活用する

G-Adaptive mesh refinement -- leveraging graph neural networks and differentiable finite element solvers ( http://arxiv.org/abs/2407.04516v1 )

ライセンス: Link先を確認
James Rowbottom, Georg Maierhofer, Teo Deveney, Katharina Schratz, Pietro Liò, Carola-Bibiane Schönlieb, Chris Budd, (参考訳) 本稿では,有限要素法(FEM)におけるメッシュ適応性という長年の課題に対して,新しい,効果的なアプローチを提案する。 FEソルバは偏微分方程式(PDE)を解く強力なツールであるが、そのコストと精度はメッシュポイントの選択に大きく依存する。 計算コストを低く抑えるため、メッシュ再配置(r適応性)は固定数のメッシュポイントの位置を最適化し、最高のFEソリューション精度を得る。 この問題に対する古典的なアプローチは、メッシュポイントの位置を見つけるために、別の非線形「メッシング」PDEの解を必要とする。 このことは、特定のアプリオリ仮定と最適メッシュ点位置の誘導ヒューリスティックに頼り、リメッシングのかなりのコストを発生させる。 r適応性に対する最近の機械学習アプローチは、主にそのような古典的手法のための高速なサロゲートの構築に焦点を当てている。 我々の新しいアプローチは、グラフニューラルネットワーク(GNN)によるアーキテクチャと、メッシュポイント位置に関するFEソリューションエラーの直接最小化に基づくトレーニングを組み合わせたものです。 GNNはグラフニューラルネットワーク拡散(GRAND)を採用し、メッシュソリューション空間を古典的なメッシュ手法と密接に整合させ、ヒューリスティックを学習可能な戦略に置き換え、強い帰納バイアスを与える。 これにより、迅速で堅牢なトレーニングが可能になり、結果としてオンラインr-adaptivityに対する極めて効率的で効果的なGNNアプローチが実現される。 この手法は、従来のMLの手法よりも高い高速化を維持しつつ、特に低いFE解誤差を達成することを考えるテスト問題に対して、古典的および先行的なMLアプローチよりも優れたr適応的メッシュ化を実現する。

We present a novel, and effective, approach to the long-standing problem of mesh adaptivity in finite element methods (FEM). FE solvers are powerful tools for solving partial differential equations (PDEs), but their cost and accuracy are critically dependent on the choice of mesh points. To keep computational costs low, mesh relocation (r-adaptivity) seeks to optimise the position of a fixed number of mesh points to obtain the best FE solution accuracy. Classical approaches to this problem require the solution of a separate nonlinear "meshing" PDE to find the mesh point locations. This incurs significant cost at remeshing and relies on certain a-priori assumptions and guiding heuristics for optimal mesh point location. Recent machine learning approaches to r-adaptivity have mainly focused on the construction of fast surrogates for such classical methods. Our new approach combines a graph neural network (GNN) powered architecture, with training based on direct minimisation of the FE solution error with respect to the mesh point locations. The GNN employs graph neural diffusion (GRAND), closely aligning the mesh solution space to that of classical meshing methodologies, thus replacing heuristics with a learnable strategy, and providing a strong inductive bias. This allows for rapid and robust training and results in an extremely efficient and effective GNN approach to online r-adaptivity. This method outperforms classical and prior ML approaches to r-adaptive meshing on the test problems we consider, in particular achieving lower FE solution error, whilst retaining the significant speed-up over classical methods observed in prior ML work.
翻訳日:2024-07-08 13:20:52 公開日:2024-07-05
# 成功か失敗か : 少数ショットセグメンテーションによるセグメンテーションリファインメントの解析

Success or Failure? Analyzing Segmentation Refinement with Few-Shot Segmentation ( http://arxiv.org/abs/2407.04519v1 )

ライセンス: Link先を確認
Seonghyeon Moon, Haein Kong, Muhammad Haris Khan, (参考訳) セグメンテーション改良の目的は、セグメンテーションアルゴリズムによって生成された初期粗いマスクを強化することである。 精製されたマスクは、ターゲットの物体の細部と輪郭を捉えることが期待されている。 セグメンテーション改良の研究は、高品質な初期マスクの必要性に応えて発展してきた。 しかし,我々の知る限り,セグメンテーション改良の成功を判断できる手法は開発されていない。 このような手法は、セグメンテーションの結果が重要であるアプリケーションにおけるセグメンテーションの信頼性を確保し、画像処理技術の革新を促進する。 そこで本研究では,FSSモデルを用いたセグメンテーション改善手法であるJSS~(Judging From Support-set)を提案する。 FSSの従来の目標は、サポートセットから与えられたターゲット情報を利用して、クエリ画像中の対象物を見つけることである。 しかし, 提案手法では, FSSネットワークを新しい手法でセグメント化精細化の評価に用いる。 2つのマスク、粗いマスク、細分化したマスクがある場合、これら2つのマスクは支持マスクとなる。 既存の支持マスクは、粗いマスクよりも精細なセグメンテーションの質が高いかどうかを判定するために、地上の真理マスクとして機能する。 粗いマスクを初めて入手し,SEPL (SAM Enhanced Pseduo-Labels) を用いて改良した。 次に、これらをFSSモデルに入力し、後処理が成功したかどうかを判断する。 JFSはSEPLの最良のケースと最悪のケースで評価され、その有効性を検証する。 JFSはSEPLが成功かどうかを判断できることを示した。

The purpose of segmentation refinement is to enhance the initial coarse masks generated by segmentation algorithms. The refined masks are expected to capture the details and contours of the target objects. Research on segmentation refinement has developed as a response to the need for high-quality initial masks. However, to our knowledge, no method has been developed that can determine the success of segmentation refinement. Such a method could ensure the reliability of segmentation in applications where the outcome of the segmentation is important, and fosters innovation in image processing technologies. To address this research gap, we propose JFS~(Judging From Support-set), a method to identify the success of segmentation refinement leveraging a few-shot segmentation (FSS) model. The traditional goal of the problem in FSS is to find a target object in a query image utilizing target information given by a support set. However, in our proposed method, we use the FSS network in a novel way to assess the segmentation refinement. When there are two masks, a coarse mask and a refined mask from segmentation refinement, these two masks become support masks. The existing support mask works as a ground truth mask to judge whether the quality of the refined segmentation is more accurate than the coarse mask. We first obtained a coarse mask and refined it using SEPL (SAM Enhanced Pseduo-Labels) to get the two masks. Then, these become input to FSS model to judge whether the post-processing was successful. JFS is evaluated on the best and worst cases from SEPL to validate its effectiveness. The results showed that JFS can determine whether the SEPL is a success or not.
翻訳日:2024-07-08 13:20:52 公開日:2024-07-05
# 平均場ゲームと平均場制御問題に対する一貫した連続時間q-ラーニング

Unified continuous-time q-learning for mean-field game and mean-field control problems ( http://arxiv.org/abs/2407.04521v1 )

ライセンス: Link先を確認
Xiaoli Wei, Xiang Yu, Fengyi Yuan, (参考訳) 本稿では,代表エージェントの視点から,平均フィールドジャンプ拡散モデルにおける連続時間q-ラーニングについて検討する。 人口分布が直接観測できない場合の課題を克服するため、分離された形(分離されたIq関数)の統合q関数を導入し、そのマーチンゲール特性を値関数と共に確立し、平均場ゲーム(MFG)と平均場制御(MFC)の両問題に対して統一的なポリシー評価ルールを提供する。 さらに,MFG や MFC の問題を解決するタスクによって,分離した Iq 関数をそれぞれ異なる方法で利用して,平均場均衡政策や平均場最適政策を学習することができる。 その結果,MFGとMFCの両問題に対して,平均場相互作用から生じる全てのテストポリシを活用することにより,一貫したQ-ラーニングアルゴリズムを考案した。 LQフレームワークの内外におけるジャンプ拡散設定におけるいくつかの例では、分離したIq関数と値関数の正確なパラメータ化を求め、代表エージェントの視点からそのアルゴリズムを満足な性能で説明することができる。

This paper studies the continuous-time q-learning in the mean-field jump-diffusion models from the representative agent's perspective. To overcome the challenge when the population distribution may not be directly observable, we introduce the integrated q-function in decoupled form (decoupled Iq-function) and establish its martingale characterization together with the value function, which provides a unified policy evaluation rule for both mean-field game (MFG) and mean-field control (MFC) problems. Moreover, depending on the task to solve the MFG or MFC problem, we can employ the decoupled Iq-function by different means to learn the mean-field equilibrium policy or the mean-field optimal policy respectively. As a result, we devise a unified q-learning algorithm for both MFG and MFC problems by utilizing all test policies stemming from the mean-field interactions. For several examples in the jump-diffusion setting, within and beyond the LQ framework, we can obtain the exact parameterization of the decoupled Iq-functions and the value functions, and illustrate our algorithm from the representative agent's perspective with satisfactory performance.
翻訳日:2024-07-08 13:20:52 公開日:2024-07-05
# 電力グリッドにおけるグラフ強化学習:サーベイ

Graph Reinforcement Learning in Power Grids: A Survey ( http://arxiv.org/abs/2407.04522v1 )

ライセンス: Link先を確認
Mohamed Hassouna, Clara Holzhüter, Pawel Lytaev, Josephine Thomas, Bernhard Sick, Christoph Scholz, (参考訳) 再生可能エネルギーと分散型発電による課題は、電力グリッドのユースケースにおける従来の手法の柔軟性の欠如を克服するために、ディープラーニングアプローチの開発を動機付けている。 GNNの応用は、電力グリッドに存在するグラフ構造化データから学ぶことができるため、特に有望である。 RLと組み合わせることで、リメディカルグリッドアクションを決定する制御アプローチとして機能する。 本稿では,電力グリッド固有のグラフ構造を抽出し,電力グリッドの異なるユースケースにおける表現学習と意思決定を改善するGRLの能力について論じる。 送電網と配電網の共通問題を区別し、RLとGNNのシナジーを探索する。 送電網では、GRLは通常、自動グリッド管理とトポロジー制御に対処するが、配電側では、GRLは電圧制御に集中する。 提案手法は,グラフ構造とGNNモデル,応用RLアルゴリズム,および総合的なコントリビューションに基づいて,選択した論文を解析した。 GRLは予測不可能な事象やノイズや不完全なデータに直面して適応性を示すが、この段階では主に概念実証として機能する。 RLの実際の電力グリッド操作への適用を考える際には、いくつかのオープンな課題と制限が対処する必要がある。

The challenges posed by renewable energy and distributed electricity generation motivate the development of deep learning approaches to overcome the lack of flexibility of traditional methods in power grids use cases. The application of GNNs is particularly promising due to their ability to learn from graph-structured data present in power grids. Combined with RL, they can serve as control approaches to determine remedial grid actions. This review analyses the ability of GRL to capture the inherent graph structure of power grids to improve representation learning and decision making in different power grid use cases. It distinguishes between common problems in transmission and distribution grids and explores the synergy between RL and GNNs. In transmission grids, GRL typically addresses automated grid management and topology control, whereas on the distribution side, GRL concentrates more on voltage regulation. We analyzed the selected papers based on their graph structure and GNN model, the applied RL algorithm, and their overall contributions. Although GRL demonstrate adaptability in the face of unpredictable events and noisy or incomplete data, it primarily serves as a proof of concept at this stage. There are multiple open challenges and limitations that need to be addressed when considering the application of RL to real power grid operation.
翻訳日:2024-07-08 13:20:52 公開日:2024-07-05
# ニューラルネットワークにおける細胞多様性と神経調節シグナルによる学習の強化

Enhancing learning in artificial neural networks through cellular heterogeneity and neuromodulatory signaling ( http://arxiv.org/abs/2407.04525v1 )

ライセンス: Link先を確認
Alejandro Rodriguez-Garcia, Jie Mei, Srikanth Ramaswamy, (参考訳) 人工知能(AI)の最近の進歩は、神経科学の知見、特に人工ニューラルネットワーク(ANN)の開発によってもたらされている。 これにより、視覚や自然言語処理といった複雑な認知タスクの複製が大幅に向上した。 これらの進歩にもかかわらず、ANNは継続的な学習、適応可能な知識伝達、堅牢性、リソース効率に苦慮している。 特に、ANNは脳の機能的および形態的多様性を見落とし、計算能力を妨げていることが多い。 さらに、神経細胞の不均一性を伴うANNに細胞型特異的神経調節効果を組み込むことで、神経レベルでのスパイク行動と回路レベルでのシナプス可塑性の2つの空間スケールでの学習が可能となり、それによって学習能力が向上する可能性がある。 本稿では、最近のバイオインスパイアされたモデル、学習ルール、アーキテクチャを要約し、ANNの強化のための生物学的インフォームド・フレームワークを提案する。 提案手法は, 種々のスパイキング挙動をエミュレートするスパイキングニューラルネットワーク(SNN)や, 神経計算の形態的, 機能的多様性をシミュレートする樹状体コンパートメントの可能性を明らかにするものである。 最後に、提案手法が脳にインスパイアされたコンパートメントモデルとタスク駆動SNNを統合し、バイオインスピレーションと複雑性のバランスをとり、継続的な学習、適応性、堅牢性、リソース効率といったAI課題に対処するためのスケーラブルなソリューションを提供する方法について概説する。

Recent progress in artificial intelligence (AI) has been driven by insights from neuroscience, particularly with the development of artificial neural networks (ANNs). This has significantly enhanced the replication of complex cognitive tasks such as vision and natural language processing. Despite these advances, ANNs struggle with continual learning, adaptable knowledge transfer, robustness, and resource efficiency - capabilities that biological systems handle seamlessly. Specifically, ANNs often overlook the functional and morphological diversity of the brain, hindering their computational capabilities. Furthermore, incorporating cell-type specific neuromodulatory effects into ANNs with neuronal heterogeneity could enable learning at two spatial scales: spiking behavior at the neuronal level, and synaptic plasticity at the circuit level, thereby potentially enhancing their learning abilities. In this article, we summarize recent bio-inspired models, learning rules and architectures and propose a biologically-informed framework for enhancing ANNs. Our proposed dual-framework approach highlights the potential of spiking neural networks (SNNs) for emulating diverse spiking behaviors and dendritic compartments to simulate morphological and functional diversity of neuronal computations. Finally, we outline how the proposed approach integrates brain-inspired compartmental models and task-driven SNNs, balances bioinspiration and complexity, and provides scalable solutions for pressing AI challenges, such as continual learning, adaptability, robustness, and resource-efficiency.
翻訳日:2024-07-08 13:20:52 公開日:2024-07-05
# GPT vs RETRO:検索区間とパラメータ効率の良いファインチューニングの探索

GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2407.04528v1 )

ライセンス: Link先を確認
Aleksander Ficek, Jiaqi Zeng, Oleksii Kuchaiev, (参考訳) パラメータ効率の良いファインチューニング(PEFT)と検索時間拡張生成(RAG)は、計算要求を最小化しながら大規模言語モデルを適応するための一般的な手法となっている。 本稿では, PEFT法 (P-tuning, Adapters, LoRA) を改良型Retrieval-Enhanced Transformer (RETRO) およびベースラインGPTモデルに適用する。 我々は,RETROモデルが,独自の事前学習プロセスによりゼロショット設定でGPTモデルより優れていることを示すが,PEFTではGPTモデルは高い性能を示す。 さらに,本研究では,8Bパラメータモデルがコストと性能の最適バランスと,他のPEFT手法に遅れたPチューニングラグを伴っていることを示唆した。 Instruction-tuned RETROモデルとbase RETROモデルにPEFTを適用する場合の比較分析を行う。 本研究は, GPTモデルとRETROモデルの両方に適用された各種PEFT法とRAGを総合的に比較し, それらの相対的性能を強調した。

Parameter-Efficient Fine-Tuning (PEFT) and Retrieval-Augmented Generation (RAG) have become popular methods for adapting large language models while minimizing compute requirements. In this paper, we apply PEFT methods (P-tuning, Adapters, and LoRA) to a modified Retrieval-Enhanced Transformer (RETRO) and a baseline GPT model across several sizes, ranging from 823 million to 48 billion parameters. We show that RETRO models outperform GPT models in zero-shot settings due to their unique pre-training process but GPT models have higher performance potential with PEFT. Additionally, our study indicates that 8B parameter models strike an optimal balance between cost and performance and P-tuning lags behind other PEFT techniques. We further provide a comparative analysis of between applying PEFT to an Instruction-tuned RETRO model and base RETRO model. This work presents the first comprehensive comparison of various PEFT methods integrated with RAG, applied to both GPT and RETRO models, highlighting their relative performance.
翻訳日:2024-07-08 13:20:52 公開日:2024-07-05
# チュニジア方言における低音源SLUとASRのための音声エンコーダの性能解析

Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect ( http://arxiv.org/abs/2407.04533v1 )

ライセンス: Link先を確認
Salima Mdhaffar, Haroun Elleuch, Fethi Bougares, Yannick Estève, (参考訳) 自己教師付き学習(SSL)によって事前訓練された音声エンコーダは、音声言語理解(SLU)や自動音声認識(ASR)など、様々な下流タスクにおいて顕著な性能を示した。 例えば、このようなタスクのための微調整されたSSLモデルは、大きな可能性を秘めており、挑戦的なデータセット間でSOTAパフォーマンスが改善されている。 既存の研究とは対照的に、本稿はSSLアプローチの有効性を文脈で比較することで貢献する。 (i)低資源のチュニジア・アラビア方言、および (II)低リソースのSLUとASRのシナリオを組み合わせたもので、微調整にはいくつかのセマンティックアノテーションしか利用できない。 我々は、TARIC-SLUデータセット上で、多くのSSL音声エンコーダを用いて実験を行う。 単言語か多言語かのいずれかの音声データに基づいて事前訓練された音声エンコーダを用いる。 そのうちのいくつかは、ドメイン内やチュニジアのデータをマルチモーダル教師/学生のパラダイムに含めずに洗練されている。 本研究は,本論文で論じている多くの重要な知見をもたらす。

Speech encoders pretrained through self-supervised learning (SSL) have demonstrated remarkable performance in various downstream tasks, including Spoken Language Understanding (SLU) and Automatic Speech Recognition (ASR). For instance, fine-tuning SSL models for such tasks has shown significant potential, leading to improvements in the SOTA performance across challenging datasets. In contrast to existing research, this paper contributes by comparing the effectiveness of SSL approaches in the context of (i) the low-resource spoken Tunisian Arabic dialect and (ii) its combination with a low-resource SLU and ASR scenario, where only a few semantic annotations are available for fine-tuning. We conduct experiments using many SSL speech encoders on the TARIC-SLU dataset. We use speech encoders that were pre-trained on either monolingual or multilingual speech data. Some of them have also been refined without in-domain nor Tunisian data through multimodal supervised teacher-student paradigm. This study yields numerous significant findings that we are discussing in this paper.
翻訳日:2024-07-08 13:10:54 公開日:2024-07-05
# インサイド」の流通導入

Introducing 'Inside' Out of Distribution ( http://arxiv.org/abs/2407.04534v1 )

ライセンス: Link先を確認
Teddy Lazebnik, (参考訳) 信頼性の高いモデル性能を保証するため、機械学習(ML)においてOOD(out-of-distriion)サンプルの検出と理解が不可欠である。 現在のOOD研究は、一般的に、特にMLの文脈において、主に補間OOD(外部)に焦点を当て、補間OOD(内)の潜在的なケースを無視している。 本研究は、OODを内外ケースに分割できることを示すことによって、OODに関する新しい視点を紹介する。 さらに,本フレームワークに従えば,データセットの外部OODプロファイルとそのMLモデル性能への影響について検討する。 分析の結果,OODの内面プロファイルの違いがMLモデルの性能低下を招き,これらの2つのケースを区別して効果的な対OD法を開発することの重要性が示唆された。

Detecting and understanding out-of-distribution (OOD) samples is crucial in machine learning (ML) to ensure reliable model performance. Current OOD studies, in general, and in the context of ML, in particular, primarily focus on extrapolatory OOD (outside), neglecting potential cases of interpolatory OOD (inside). This study introduces a novel perspective on OOD by suggesting OOD can be divided into inside and outside cases. In addition, following this framework, we examine the inside-outside OOD profiles of datasets and their impact on ML model performance. Our analysis shows that different inside-outside OOD profiles lead to nuanced declines in ML model performance, highlighting the importance of distinguishing between these two cases for developing effective counter-OOD methods.
翻訳日:2024-07-08 13:10:54 公開日:2024-07-05
# 企業組織におけるブロックチェーンベースのPKI - アドバンテージと課題

Blockchain-based PKI within a Corporate Organization: Advantages and Challenges ( http://arxiv.org/abs/2407.04536v1 )

ライセンス: Link先を確認
Julian Springer, Philipp Haindl, (参考訳) 本研究では、ブロックチェーンベースのPublic Key Infrastructure(PKI)を組織内で使用し、従来のPKIシステムと比較する。 目標は、分散PKIにブロックチェーン技術を採用する可能性を決定するために、両方のアプローチの利点とデメリットを評価することである。 この研究は、サイバーレジリエンス法(CRA)やNIS-2ディレクティブなど、現在の法的枠組みの影響も評価する。 本研究は,セキュリティやパフォーマンス,プラットフォームといった要因に基づいて,ブロックチェーンPKIのさまざまな実装について検討する。 その結果、ブロックチェーンベースのPKIは、トラストアンカーの分散化によって従来のPKIの制限を克服し、セキュリティを高めることが可能であることが示唆された。 ブロックチェーン技術は証明書の不変かつ透過的な管理を可能にし、改ざんを著しく困難にする。 さらに、ブロックチェーンベースのPKIは、証明書の不正行為を特定し、対処するための強化されたメカニズムを提供する。

This research investigates the potential use of a blockchain-based Public Key Infrastructure (PKI) within an organization and compares it to conventional PKI systems. The goal is to assess the advantages and disadvantages of both approaches in order to determine the feasibility of employing blockchain technology for a decentralized PKI. The study will also evaluate the impact of current legal frameworks, such as the Cyber Resilience Act (CRA) and NIS-2 Directive. The study will examine various implementations of blockchain PKIs based on factors such as security, performance, and platform. The results indicate that blockchain-based PKIs can overcome the limitations of conventional PKIs by decentralizing the trust anchor, providing greater security. Blockchain technology allows for the immutable and transparent management of certificates, making tampering significantly more challenging. Additionally, blockchain-based PKIs offer enhanced mechanisms for identifying and addressing certificate misconduct.
翻訳日:2024-07-08 13:10:54 公開日:2024-07-05
# 量子力学による3次元構成空間における粒子の運動量測定結果の制限

Restrictions imposed by quantum mechanics on the results of measuring the momentum of a particle in three-dimensional configuration space ( http://arxiv.org/abs/2407.04537v1 )

ライセンス: Link先を確認
N. L. Chuprikov, (参考訳) 粒子運動量測定結果に対する量子力学の制約について検討した。 現在、三次元の場合を考え、運動エネルギー作用素の場の定義に異なるアプローチをとる。 このアプローチで生じる量子力学的ポテンシャルはボヘミアのものと異なり、構成空間における粒子運動量の値場は常に実数である。

We revised the restrictions imposed by quantum mechanics on the results of particle momentum measurements. Now we consider a three-dimensional case and approach the definition of the field of the kinetic energy operator differently. The quantum mechanical potential that arises in this approach differs from the Bohmian one, and both value fields of particle momentum in the configuration space are always real.
翻訳日:2024-07-08 13:10:54 公開日:2024-07-05
# PDiscoFormer: ビジョントランスフォーマーによるパートディスカバリ制約の緩和

PDiscoFormer: Relaxing Part Discovery Constraints with Vision Transformers ( http://arxiv.org/abs/2407.04538v1 )

ライセンス: Link先を確認
Ananthu Aniraj, Cassio F. Dantas, Dino Ienco, Diego Marcos, (参考訳) 対象部品を明示的に検出するコンピュータビジョン手法は、本質的に解釈可能なモデルへのステップである。 きめ細かな分類タスクによって引き起こされる部分発見を行う既存のアプローチは、発見された部分の幾何学的性質に非常に限定的な仮定をし、それらは小さくてコンパクトであるべきである。 しかし,本稿では,自己監督型DINOv2 ViTのような事前学習型トランスフォーマーベースの視覚モデルにより,これらの制約を緩和できることを示す。 特に、任意の大きさの複数の接続されたコンポーネントを利用できる全変動(TV)が、以前の作業よりも大幅に優れていたことが判明した。 我々は、CUB、PartImageNet、Oxford Flowersの3つの詳細な分類ベンチマークでアプローチを検証し、その結果を以前に公表された手法と比較するとともに、最新の手法であるPDiscoNetをトランスフォーマーベースのバックボーンで再実装した。 自己教師型VTモデルにおける強い帰納バイアスは、教師なしの部品発見に使用できる幾何学的先行性を再考する必要があることを示す。

Computer vision methods that explicitly detect object parts and reason on them are a step towards inherently interpretable models. Existing approaches that perform part discovery driven by a fine-grained classification task make very restrictive assumptions on the geometric properties of the discovered parts; they should be small and compact. Although this prior is useful in some cases, in this paper we show that pre-trained transformer-based vision models, such as self-supervised DINOv2 ViT, enable the relaxation of these constraints. In particular, we find that a total variation (TV) prior, which allows for multiple connected components of any size, substantially outperforms previous work. We test our approach on three fine-grained classification benchmarks: CUB, PartImageNet and Oxford Flowers, and compare our results to previously published methods as well as a re-implementation of the state-of-the-art method PDiscoNet with a transformer-based backbone. We consistently obtain substantial improvements across the board, both on part discovery metrics and the downstream classification task, showing that the strong inductive biases in self-supervised ViT models require to rethink the geometric priors that can be used for unsupervised part discovery.
翻訳日:2024-07-08 13:10:54 公開日:2024-07-05
# 平面多項式による量子ハミルトニアン学習アルゴリズムの改良

Improved algorithms for learning quantum Hamiltonians, via flat polynomials ( http://arxiv.org/abs/2407.04540v1 )

ライセンス: Link先を確認
Shyam Narayanan, (参考訳) 任意の温度で成功できるギブス状態のコピーを量子ハミルトニアンに学習するための改良されたアルゴリズムを提供する。 具体的には,Bakshi,Liu,Moitra,Tang (BLMT24) の作業を改善し,サンプルの複雑性と実行時依存性を2倍の指数関数ではなく,逆温度パラメータで単独で指数関数化する。 我々の主な技術的貢献は指数関数に対する新しい平坦多項式近似であり、[BLMT24]で用いられる平坦多項式近似よりもかなり低次である。

We give an improved algorithm for learning a quantum Hamiltonian given copies of its Gibbs state, that can succeed at any temperature. Specifically, we improve over the work of Bakshi, Liu, Moitra, and Tang [BLMT24], by reducing the sample complexity and runtime dependence to singly exponential in the inverse-temperature parameter, as opposed to doubly exponential. Our main technical contribution is a new flat polynomial approximation to the exponential function, with significantly lower degree than the flat polynomial approximation used in [BLMT24].
翻訳日:2024-07-08 13:10:54 公開日:2024-07-05
# PoPreRo:ルーマニアのReddit投稿の人気予測のための新しいデータセット

PoPreRo: A New Dataset for Popularity Prediction of Romanian Reddit Posts ( http://arxiv.org/abs/2407.04541v1 )

ライセンス: Link先を確認
Ana-Cristina Rogoz, Maria Ilinca Nechita, Radu Tudor Ionescu, (参考訳) Redditから収集されたルーマニア投稿の人気予測のための最初のデータセットであるPoPreRoを紹介する。 PoPreRoデータセットには、ルーマニアの5つの異なるサブレディットからのポストサンプルの様々なコンパイルが含まれており、合計28,107のデータサンプルが含まれている。 新たなデータセットとともに、将来の研究のベースラインとして使用される一連の競争モデルを紹介します。 興味深いことに、トップスコアモデルの精度は61.35%、マクロF1スコアは60.60%であり、PoPreRo上での人気予測タスクは非常に難しい。 ファルコン7Bの大規模言語モデルも同じ方向を向いている。 そこで我々は,PoPreRoがルーマニアにおけるソーシャルメディア投稿の人気予測モデルを評価する上で有用な資源であると信じている。 データセットはhttps://github.com/ana-rogoz/PoPreRoで公開しています。

We introduce PoPreRo, the first dataset for Popularity Prediction of Romanian posts collected from Reddit. The PoPreRo dataset includes a varied compilation of post samples from five distinct subreddits of Romania, totaling 28,107 data samples. Along with our novel dataset, we introduce a set of competitive models to be used as baselines for future research. Interestingly, the top-scoring model achieves an accuracy of 61.35% and a macro F1 score of 60.60% on the test set, indicating that the popularity prediction task on PoPreRo is very challenging. Further investigations based on few-shot prompting the Falcon-7B Large Language Model also point in the same direction. We thus believe that PoPreRo is a valuable resource that can be used to evaluate models on predicting the popularity of social media posts in Romanian. We release our dataset at https://github.com/ana-rogoz/PoPreRo.
翻訳日:2024-07-08 13:10:54 公開日:2024-07-05
# ジェネレーティブAIによるWeb上の画像圧縮の再考

Rethinking Image Compression on the Web with Generative AI ( http://arxiv.org/abs/2407.04542v1 )

ライセンス: Link先を確認
Shayan Ali Hassan, Danish Humair, Ihsan Ayyub Qazi, Zafar Ayyub Qazi, (参考訳) インターネットの急速な成長は、ソーシャルメディア、ウェブブラウジング、ビデオストリーミングによって、画像がWebエクスペリエンスの中心となり、データ転送が大幅に増加し、Webページサイズが増加した。 従来の画像圧縮方式は帯域幅を減らしながら、画質を劣化させることが多い。 本稿では、生成AIを用いて、エッジやクライアント側の画像再構成を行う新しいアプローチについて検討する。 我々は,テキストプロンプトを活用し,キャニーエッジやカラーパレットなどの条件入力をテキスト・ツー・イメージモデルに付加するフレームワークを開発し,最高のケースで99.8%,平均で92.6%の帯域節約を実現し,高い知覚的類似性を維持した。 経験的分析とユーザスタディにより,従来の圧縮法よりも画像の意味と構造を効果的に保存し,帯域幅の削減と画像品質の低下を最小限に抑え,インターネットの可利用性向上を図った。

The rapid growth of the Internet, driven by social media, web browsing, and video streaming, has made images central to the Web experience, resulting in significant data transfer and increased webpage sizes. Traditional image compression methods, while reducing bandwidth, often degrade image quality. This paper explores a novel approach using generative AI to reconstruct images at the edge or client-side. We develop a framework that leverages text prompts and provides additional conditioning inputs like Canny edges and color palettes to a text-to-image model, achieving up to 99.8% bandwidth savings in the best cases and 92.6% on average, while maintaining high perceptual similarity. Empirical analysis and a user study show that our method preserves image meaning and structure more effectively than traditional compression methods, offering a promising solution for reducing bandwidth usage and improving Internet affordability with minimal degradation in image quality.
翻訳日:2024-07-08 13:10:54 公開日:2024-07-05
# 構文変換の事前学習による構造誘導ビアーゼの強化

Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations ( http://arxiv.org/abs/2407.04543v1 )

ライセンス: Link先を確認
Matthias Lindemann, Alexander Koller, Ivan Titov, (参考訳) モデルは、少量のデータから効果的に学習し、トレーニング分布の外で体系的に一般化するために適切な帰納バイアスを必要とする。 Transformerは非常に汎用的で強力だが、Seq2seqタスク、特にアクティブな音声への変換やセマンティックパーシングといった構文変換に関わるタスクに対して、構造的帰納バイアスの強化による恩恵を受けることができる。 本稿では,トランスフォーマーの構造的帰納バイアスを中間的事前学習により強化し,その変換を記述した依存性木を合成的に生成した構文変換を行う。 本実験は,チャンキングなどの構文的タスクの素早い学習を支援するとともに,意味解析のための構造的一般化も向上することを確認した。 分析の結果、中間的事前学習はどの統語変換をどのトークンに適用する必要があるかを追尾するアテンションヘッドとなり、モデルがこれらのアテンションヘッドを下流タスクで活用できることが判明した。

Models need appropriate inductive biases to effectively learn from small amounts of data and generalize systematically outside of the training distribution. While Transformers are highly versatile and powerful, they can still benefit from enhanced structural inductive biases for seq2seq tasks, especially those involving syntactic transformations, such as converting active to passive voice or semantic parsing. In this paper, we propose to strengthen the structural inductive bias of a Transformer by intermediate pre-training to perform synthetically generated syntactic transformations of dependency trees given a description of the transformation. Our experiments confirm that this helps with few-shot learning of syntactic tasks such as chunking, and also improves structural generalization for semantic parsing. Our analysis shows that the intermediate pre-training leads to attention heads that keep track of which syntactic transformation needs to be applied to which token, and that the model can leverage these attention heads on downstream tasks.
翻訳日:2024-07-08 13:10:54 公開日:2024-07-05
# ヒト頭部のガウス固有モデル

Gaussian Eigen Models for Human Heads ( http://arxiv.org/abs/2407.04545v1 )

ライセンス: Link先を確認
Wojciech Zielonka, Timo Bolkart, Thabo Beeler, Justus Thies, (参考訳) 動的3次元ガウスを低次元線形空間に圧縮する新しい手法である人頭用ガウス固有モデル(GEM)を提案する。 我々のアプローチはBranzとVetterの独創的な業績にインスパイアされ、メッシュベースの3D形態素モデル(3DMM)が登録メッシュから構築される。 動的3Dガウスアンに基づいて、ほとんどの3DGSヘッドアバターに適用するプリミティブの低次元表現を作成する。 具体的には、線形固有基底のアンサンブルを用いてメッシュ制御されたUNetガウスアバターの外観を蒸留する方法を提案する。 我々は、CNNベースの重アーキテクチャを1つの線形層に置き換え、速度を改善し、様々なリアルタイムダウンストリームアプリケーションを可能にする。 特定の表情を生成するには、固有係数と蒸留基との間に点積を実行するだけでよい。 この効率的な方法は、テスト中の入力メッシュの要求を除去し、表現生成の単純さとスピードを向上する。 このプロセスは極めて効率的で、標準的なガウススプラッティングの有効性を活用して、日々のデバイスでのリアルタイムレンダリングをサポートする。 さらに、ResNetベースの回帰アーキテクチャを用いて、GEMをどのように制御できるかを示す。 我々は,自己再現と対人再現を最先端の3Dアバター法と比較し,より高い品質と制御性を示す。 リアルタイムのデモでは、GEM表現の適用性を紹介している。

We present personalized Gaussian Eigen Models (GEMs) for human heads, a novel method that compresses dynamic 3D Gaussians into low-dimensional linear spaces. Our approach is inspired by the seminal work of Blanz and Vetter, where a mesh-based 3D morphable model (3DMM) is constructed from registered meshes. Based on dynamic 3D Gaussians, we create a lower-dimensional representation of primitives that applies to most 3DGS head avatars. Specifically, we propose a universal method to distill the appearance of a mesh-controlled UNet Gaussian avatar using an ensemble of linear eigenbasis. We replace heavy CNN-based architectures with a single linear layer improving speed and enabling a range of real-time downstream applications. To create a particular facial expression, one simply needs to perform a dot product between the eigen coefficients and the distilled basis. This efficient method removes the requirement for an input mesh during testing, enhancing simplicity and speed in expression generation. This process is highly efficient and supports real-time rendering on everyday devices, leveraging the effectiveness of standard Gaussian Splatting. In addition, we demonstrate how the GEM can be controlled using a ResNet-based regression architecture. We show and compare self-reenactment and cross-person reenactment to state-of-the-art 3D avatar methods, demonstrating higher quality and better control. A real-time demo showcases the applicability of the GEM representation.
翻訳日:2024-07-08 13:10:54 公開日:2024-07-05
# 微分可能DSPを用いたリアルタイム音色リマッピング

Real-time Timbre Remapping with Differentiable DSP ( http://arxiv.org/abs/2407.04547v1 )

ライセンス: Link先を確認
Jordie Shier, Charalampos Saitis, Andrew Robertson, Andrew McPherson, (参考訳) 音色は様々な音楽的文脈における主要な表現様式である。 しかし、一般的な音声駆動合成法は、主にピッチとラウドネスのエンベロープに依存し、入力から音節表現を効果的にフラットにする。 提案手法は,入力信号からの音節表現をシンセサイザーの制御系にどのようにマッピングするかを,音節類似の概念に基づいて検討する。 微分可能ディジタル信号処理を活用し,新しい特徴差分損失による合成器パラメータの直接最適化を容易にする。 この損失関数は、音楽イベント間の相対的な音節差を学習するために設計され、音節内の音節変調の微妙さを優先し、音節空間における意味のある翻訳を可能にする。 音節表現の中心となるスネアドラム演奏を事例として,ロランドTR-808をモデルとした音響スネアドラムから微分可能なシンセサイザーへのリアルタイム音色リマッピングを実演した。

Timbre is a primary mode of expression in diverse musical contexts. However, prevalent audio-driven synthesis methods predominantly rely on pitch and loudness envelopes, effectively flattening timbral expression from the input. Our approach draws on the concept of timbre analogies and investigates how timbral expression from an input signal can be mapped onto controls for a synthesizer. Leveraging differentiable digital signal processing, our method facilitates direct optimization of synthesizer parameters through a novel feature difference loss. This loss function, designed to learn relative timbral differences between musical events, prioritizes the subtleties of graded timbre modulations within phrases, allowing for meaningful translations in a timbre space. Using snare drum performances as a case study, where timbral expression is central, we demonstrate real-time timbre remapping from acoustic snare drums to a differentiable synthesizer modeled after the Roland TR-808.
翻訳日:2024-07-08 13:10:54 公開日:2024-07-05
# 反復的自己修復における自発的リワードハック

Spontaneous Reward Hacking in Iterative Self-Refinement ( http://arxiv.org/abs/2407.04549v1 )

ライセンス: Link先を確認
Jane Pan, He He, Samuel R. Bowman, Shi Feng, (参考訳) 言語モデルは、自然言語のフィードバックに基づいて出力を反復的に改善し、ユーザ好みのコンテキスト内最適化を可能にする。 人間の代わりに、第2言語モデルは評価器として使用することができ、ジェネレータが最適化しようとする数値評価とともにフィードバックを提供する。 しかし,評価対象がユーザの嗜好を不完全なプロキシにしているため,この最適化は,評価対象のレーティングが向上する一方で,生成品質が停滞している場合や,実際のユーザの嗜好によって判断されるように低下する場合にも,報奨ハックにつながる可能性がある。 報酬ハッキングの懸念は、ジェネレータと評価器が同じ基礎言語モデルを使用する反復的自己修正において高められ、最適化プレッシャーが共有脆弱性を悪用する可能性がある。 本研究は,エッセイ編集タスクを用いて,反復的自己抑制が言語モデル評価器と人的判断のずれを生じさせることを示す。 さらに,報奨ハッキングが発生する条件について検討し,報奨ハッキングの重大性に影響を与える2つの要因について考察する。

Language models are capable of iteratively improving their outputs based on natural language feedback, thus enabling in-context optimization of user preference. In place of human users, a second language model can be used as an evaluator, providing feedback along with numerical ratings which the generator attempts to optimize. However, because the evaluator is an imperfect proxy of user preference, this optimization can lead to reward hacking, where the evaluator's ratings improve while the generation quality remains stagnant or even decreases as judged by actual user preference. The concern of reward hacking is heightened in iterative self-refinement where the generator and the evaluator use the same underlying language model, in which case the optimization pressure can drive them to exploit shared vulnerabilities. Using an essay editing task, we show that iterative self-refinement leads to deviation between the language model evaluator and human judgment, demonstrating that reward hacking can occur spontaneously in-context with the use of iterative self-refinement. In addition, we study conditions under which reward hacking occurs and observe two factors that affect reward hacking severity: model size and context sharing between the generator and the evaluator.
翻訳日:2024-07-08 13:10:54 公開日:2024-07-05
# 相感度非透析状態における量子コヒーレンス

The Quantum Coherence in Terms of Phase-Sensitive Nonadiabatic Dressed States ( http://arxiv.org/abs/2407.04550v1 )

ライセンス: Link先を確認
I. G. Koprinkov, (参考訳) 量子コヒーレンス(quantum coherence)は、位相感受性の非断熱的な状態にあると考えられている。 位相相関は,実数と仮想成分の位相相関と,それらの状態の異なる仮想成分の定常位相相関の2種類がある。

The quantum coherence is considered within phase-sensitive nonadiabatic dressed states. Two types of phase correlations are found: a rapidly changing phase correlation between the real and the virtual components and a stationary phase correlation between different virtual components of these states.
翻訳日:2024-07-08 13:10:54 公開日:2024-07-05
# ハードウェアトロイの木馬の分類と説明能力を備えたAIアーキテクチャ

An AI Architecture with the Capability to Classify and Explain Hardware Trojans ( http://arxiv.org/abs/2407.04551v1 )

ライセンス: Link先を確認
Paul Whitten, Francis Wolff, Chris Papachristou, (参考訳) 機械学習(ML)技術に基づくハードウェアトロイの木馬検出手法は、主に疑わしい回路を識別するが、どのように決定が下されたかを説明する能力は欠如している。 既存のハードウェアトロイの木馬検出機能に基づいて、説明可能な方法論とアーキテクチャを導入する。 トラストハブトロイの木馬ベンチマークを用いて、ネットリスト内のデジタルハードウェアトロイの木馬を説明する結果が提供される。

Hardware trojan detection methods, based on machine learning (ML) techniques, mainly identify suspected circuits but lack the ability to explain how the decision was arrived at. An explainable methodology and architecture is introduced based on the existing hardware trojan detection features. Results are provided for explaining digital hardware trojans within a netlist using trust-hub trojan benchmarks.
翻訳日:2024-07-08 13:10:54 公開日:2024-07-05
# 量子材料候補の発見のための生成モデルにおける構造制約の統合

Structural Constraint Integration in Generative Model for Discovery of Quantum Material Candidates ( http://arxiv.org/abs/2407.04557v1 )

ライセンス: Link先を確認
Ryotaro Okabe, Mouyang Cheng, Abhijatmedhi Chotrattanapituk, Nguyen Tuan Hung, Xiang Fu, Bowen Han, Yao Wang, Weiwei Xie, Robert J. Cava, Tommi S. Jaakkola, Yongqiang Cheng, Mingda Li, (参考訳) 何十億もの有機分子が知られているが、機能的な無機物質のごく一部しか発見されていない。 機械学習に基づく生成モデル(特に拡散モデル)の最近の進歩は、新しい安定した材料を生成する大きな可能性を示している。 しかし、幾何学的パターンを材料生成に統合することは依然として課題である。 本稿では、ジェネレーティブモデル(SCIGEN)における構造制約統合について紹介する。 提案手法は,各拡散ステップに先立って,回折構造を拡散制約構造で戦略的にマスキングすることで,学習した生成拡散モデルを修正し,その生成を制約出力に向けて制御することができる。 さらに,SCIGENは,安定な拘束材料を生成する上で重要な,元の分布からの条件付きサンプリングを効果的に行うことを数学的に証明する。 プロトタイプの制約としてアルキメデス格子を用いて800万の化合物を生成し, 10%以上の安定性が維持されている。 26,000個の生き残った化合物の高スループット密度汎関数理論(DFT)は、50%以上がDFTレベルで構造最適化に合格したことを示している。 量子材料の性質は幾何学的パターンと密接に関連しているため、SCIGENは量子材料候補を生成するための一般的な枠組みを提供することを示す。

Billions of organic molecules are known, but only a tiny fraction of the functional inorganic materials have been discovered, a particularly relevant problem to the community searching for new quantum materials. Recent advancements in machine-learning-based generative models, particularly diffusion models, show great promise for generating new, stable materials. However, integrating geometric patterns into materials generation remains a challenge. Here, we introduce Structural Constraint Integration in the GENerative model (SCIGEN). Our approach can modify any trained generative diffusion model by strategic masking of the denoised structure with a diffused constrained structure prior to each diffusion step to steer the generation toward constrained outputs. Furthermore, we mathematically prove that SCIGEN effectively performs conditional sampling from the original distribution, which is crucial for generating stable constrained materials. We generate eight million compounds using Archimedean lattices as prototype constraints, with over 10% surviving a multi-staged stability pre-screening. High-throughput density functional theory (DFT) on 26,000 survived compounds shows that over 50% passed structural optimization at the DFT level. Since the properties of quantum materials are closely related to geometric patterns, our results indicate that SCIGEN provides a general framework for generating quantum materials candidates.
翻訳日:2024-07-08 13:10:54 公開日:2024-07-05
# カークウッド・ディラック非正のコンベックス屋根

Convex roofs witnessing Kirkwood-Dirac nonpositivity ( http://arxiv.org/abs/2407.04558v1 )

ライセンス: Link先を確認
Christopher Langrenez, Stephan De Bièvre, David R. M. Arvidsson-Shukur, (参考訳) 2つの観測可能な$A$と$B$が与えられたとき、カークウッド・ディラック(KD)準確率分布の全ての量子状態に関連付けることができる。 KD分布は、その状態の非古典的特徴に関連する負あるいは非現実的な値を持つことができること以外は、ジョイント古典的確率のようなものである。 過去10年間、KD分布は量子上の利点や非古典的な現象を研究・構築するための汎用的なツールとして最前線に現れてきた。 KD分布は量子古典的境界を決定するためにも用いられる。 そのためには、ある州がKD非陽性である場合の証人が必要である。 これまでの研究は、純粋な状態の不確かさと$A$と$B$とKDの正の固有基底の関係を確立してきた。 この$\textit{ supported uncertainty}$が大きければ、状態はKD陽性にはならない。 ここでは、一般混合状態に対するKD非正の2つの証人を構築する。 我々の最初の目撃者は支持不確かさの凸屋根であり、忠実ではないが、純粋なKD陽性の凸船体まで伸び、KD陽性と小さな支持不確かさの関係がある。 我々の他の目撃者はKD非正の凸屋根であり、純粋なKD陽性状態の凸殻の忠実な証人となる。 これは、全非正の凸屋根がKD分布の非正の性質を下層の純状態レベルで捉えていることを意味する。

Given two observables $A$ and $B$, one can associate to every quantum state a Kirkwood-Dirac (KD) quasiprobability distribution. KD distributions are like joint classical probabilities except that they can have negative or nonreal values, which are associated to nonclassical features of the state. In the last decade, KD distributions have come to the forefront as a versatile tool to investigate and construct quantum advantages and nonclassical phenomena. KD distributions are also used to determine quantum-classical boundaries. To do so, one must have witnesses for when a state is KD nonpositive. Previous works have established a relation between the uncertainty of a pure state with respect to the eigenbases of $A$ and $B$ and KD positivity. If this $\textit{support uncertainty}$ is large, the state cannot be KD positive. Here, we construct two witnesses for KD nonpositivity for general mixed states. Our first witness is the convex roof of the support uncertainty; it is not faithful, but it extends to the convex hull of pure KD-positive states the relation between KD positivity and small support uncertainty. Our other witness is the convex roof of the total KD nonpositivity, which provides a faithful witness for the convex hull of the pure KD-positive states. This implies that the convex roof of the total nonpositivity captures the nonpositive nature of the KD distribution at the underlying pure state level.
翻訳日:2024-07-08 13:01:09 公開日:2024-07-05
# ストーリー全体ではない:コヒーレンス、グラウンド、反復の測定以上のビジュアルストーリーテリングを評価する必要がある

Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition ( http://arxiv.org/abs/2407.04559v1 )

ライセンス: Link先を確認
Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle, (参考訳) 視覚的なストーリーテリングは、時間順に順序付けられた画像の列が与えられた自然言語のストーリーを生成することで構成される。 このタスクは、モデルにとって難しいだけでなく、ストーリーを「良い」ものにする方法についてのコンセンサスがないため、自動メトリクスで評価するのも非常に難しい。 本稿では,視覚的接地,コヒーレンス,反復性の3つの重要な側面について,人間の類似性の観点から物語の質を測定する新しい手法を提案する。 次に,この手法を用いて複数のモデルから生成されたストーリーを評価することにより,基礎モデルであるLLaVAが最良の結果を得ることを示すが,50倍の小型ビジュアルストーリーテリングモデルであるTAPMに比べてわずかに劣る。 TAPMの視覚的および言語的コンポーネントをアップグレードすると、比較的少ないパラメータで競合性能が得られるモデルが得られる。 最後に、人間の評価研究を行い、その結果から「良い」ストーリーは人間のような視覚的接地、コヒーレンス、反復以上のレベルを必要とする可能性が示唆された。

Visual storytelling consists in generating a natural language story given a temporally ordered sequence of images. This task is not only challenging for models, but also very difficult to evaluate with automatic metrics since there is no consensus about what makes a story 'good'. In this paper, we introduce a novel method that measures story quality in terms of human likeness regarding three key aspects highlighted in previous work: visual grounding, coherence, and repetitiveness. We then use this method to evaluate the stories generated by several models, showing that the foundation model LLaVA obtains the best result, but only slightly so compared to TAPM, a 50-times smaller visual storytelling model. Upgrading the visual and language components of TAPM results in a model that yields competitive performance with a relatively low number of parameters. Finally, we carry out a human evaluation study, whose results suggest that a 'good' story may require more than a human-like level of visual grounding, coherence, and repetition.
翻訳日:2024-07-08 13:01:09 公開日:2024-07-05
# 深層学習を用いた実時間感情分析

Real Time Emotion Analysis Using Deep Learning for Education, Entertainment, and Beyond ( http://arxiv.org/abs/2407.04560v1 )

ライセンス: Link先を確認
Abhilash Khuntia, Shubham Kale, (参考訳) 感情検出の重要性は、教育、エンターテイメント、その他の様々な領域において増大している。 我々は,表情を絵文字に認識・変換して即時フィードバックを提供するシステムを開発しており,このプロジェクトは2つのコンポーネントから構成されている。 最初は、高度な画像処理技術とニューラルネットワークを使って、表情を正確に分類できるディープラーニングモデルを構築します。 次に、デバイス上のカメラを使ってライブビデオを録画する基本アプリケーションを開発する。 このアプリは、洗練されたモデルを利用して、表情を素早く分析し、対応する絵文字を素早く提示する。私たちの目標は、オンライン教育、仮想イベント、ゲーム、ユーザーエクスペリエンスの向上のために、ディープラーニングとリアルタイムのビデオ処理を統合する動的ツールを開発することです。 このツールはインタラクションを強化し、新しい感情知技術を導入します。

The significance of emotion detection is increasing in education, entertainment, and various other domains. We are developing a system that can identify and transform facial expressions into emojis to provide immediate feedback.The project consists of two components. Initially, we will employ sophisticated image processing techniques and neural networks to construct a deep learning model capable of precisely categorising facial expressions. Next, we will develop a basic application that records live video using the camera on your device. The app will utilise a sophisticated model to promptly analyse facial expressions and promptly exhibit corresponding emojis.Our objective is to develop a dynamic tool that integrates deep learning and real-time video processing for the purposes of online education, virtual events, gaming, and enhancing user experience. This tool enhances interactions and introduces novel emotional intelligence technologies.
翻訳日:2024-07-08 13:01:09 公開日:2024-07-05
# 応用医学研究の枠組みとしてのVモデルの利用経験

Experiences in Using the V-Model as a Framework for Applied Doctoral Research ( http://arxiv.org/abs/2407.04563v1 )

ライセンス: Link先を確認
Rodrigo Falcão, Andreas Jedlitschka, Frank Elberzhager, Dieter Rombach, (参考訳) 事実上すべての産業においてソフトウェアが果たす幅広い役割は、ソフトウェア工学における応用研究の発展を継続的に加速させてきた。 本章では,実証ソフトウェア工学における応用研究の実践方法を教えるためのフレームワークとして,Vモデルを使用した経験について紹介する。 V-Modelの基本的な考え方が提示され、研究の枠組みを作るためのガイダンスが提供される。 さらに,Fraunhofer IESEと共同でKaiserslautern大学(RPTU Kaiserslautern)で行った20年近くにわたって,フレームワークのインスタンス化が進んできたことを示す。

The pervasive role played by software in virtually all industries has fostered ever-increasing development of applied research in software engineering. In this chapter, we contribute our experience in using the V-Model as a framework for teaching how to conduct applied research in empirical software engineering. The foundational idea of using the V-Model is presented, and guidance for using it to frame the research is provided. Furthermore, we show how the framework has been instantiated throughout nearly two decades of PhD theses done at the University of Kaiserslautern (RPTU Kaiserslautern) in partnership with Fraunhofer IESE, including the most frequent usage patterns, how the different empirical methods fit into the framework, and the lessons we have learned from this experience.
翻訳日:2024-07-08 13:01:09 公開日:2024-07-05
# VRSD:大規模言語モデルにおける検索の類似性と多様性の再考

VRSD: Rethinking Similarity and Diversity for Retrieval in Large Language Models ( http://arxiv.org/abs/2407.04573v1 )

ライセンス: Link先を確認
Hang Gao, Yongfeng Zhang, (参考訳) ベクトル検索アルゴリズムは,Large Language Models (LLMs) の進化するランドスケープにおいて,セマンティッククエリに不可欠である。 類似性と多様性の両方の基準を同時に満たすベクトルの検索は、LLMベースのエージェントの能力を著しく向上させる。 関連性や多様性の要件を持つ検索シナリオにおいてMMR(Maximal Marginal Relevance)が広く使用されているにもかかわらず、MMR内のパラメータの変動によって引き起こされる変動は、ベクトル空間における最適化軌道の決定を複雑にし、拡張の方向を隠蔽する。 さらに,検索過程における類似性と多様性の制約について,ロバストな理論的解析が欠如している。 本稿では,和ベクトルと問合せベクトルの関係を通して,両制約を特徴付ける新しい手法を提案する。 これらのベクトルの近接は類似性制約に対処する一方で、和ベクトル内の個々のベクトルは、多様性制約を満たすためにクエリベクトルと分岐的に整合する必要がある。 また、その和ベクトルがクエリベクトルと最大整合するような候補の集合から$k$ベクトルを選択することで、新たな組合せ最適化の課題を定式化し、NP完全であることを示す。 このことは、ベクトル検索において、類似性と多様性を同時に追求することの難しさを確立し、さらなる研究のための理論的な基礎を築いた。 さらに,本アルゴリズムでは,最適化目標が決定的であるだけでなく,パラメータの事前設定の必要性も考慮し,MMRと比較して時間的複雑さを緩和する。 実証的な検証により、VRSDが様々なデータセットでMMRを大幅に上回っていることが確認された。

Vector retrieval algorithms are vital for semantic queries in the evolving landscape of Large Language Models (LLMs). Retrieving vectors that simultaneously meet criteria for both similarity and diversity significantly enhances the capabilities of LLM-based agents. Despite the widespread use of the Maximal Marginal Relevance (MMR) in retrieval scenarios with relevance and diversity requirements, fluctuations caused by variations in the parameter $ \lambda $ within the MMR complicate the determination of the optimization trajectory in vector spaces, thus obscuring the direction of enhancement. Moreover, there is a lack of a robust theoretical analysis for the constraints of similarity and diversity in retrieval processes. This paper introduces a novel approach to characterizing both constraints through the relationship between the sum vector and the query vector. The proximity of these vectors addresses the similarity constraint, while necessitating that individual vectors within the sum vector divergently align with the query vector to satisfy the diversity constraint. We also formulate a new combinatorial optimization challenge, taking a selection of $k$ vectors from a set of candidates such that their sum vector maximally aligns with the query vector, a problem we demonstrate to be NP-complete. This establishes the profound difficulty of pursuing similarity and diversity simultaneously in vector retrieval and lays a theoretical groundwork for further research. Additionally, we present the heuristic algorithm Vectors Retrieval with Similarity and Diversity (VRSD) which not only has a definitive optimization goal and eschews the need for preset parameters but also offers a modest reduction in time complexity compared to MMR. Empirical validation further confirm that VRSD significantly surpasses MMR across various datasets.
翻訳日:2024-07-08 13:01:09 公開日:2024-07-05
# 量子化学習とバイナリアクティベーションマップによる資源効率の良い音声品質予測

Resource-Efficient Speech Quality Prediction through Quantization Aware Training and Binary Activation Maps ( http://arxiv.org/abs/2407.04578v1 )

ライセンス: Link先を確認
Mattias Nilsson, Riccardo Miccini, Clément Laroche, Tobias Piechowiak, Friedemann Zenke, (参考訳) モバイル端末やエッジ端末での音声処理が一般的になるにつれて、非侵襲的な音声品質監視の需要が高まっている。 深層学習法は,主観的および主観的音声品質指標の高品質な推定値を提供する。 しかしながら、それらの重要な計算要件は、しばしばリソース制約のあるデバイスでは禁止される。 この問題を解決するために,DNSMOSに基づく畳み込みアーキテクチャを用いた音声品質予測のためのバイナリアクティベーションマップ(BAM)について検討した。 本稿では,量子化を意識した2値アクティベーションモデルとベースラインモデルの予測性能が一致することを示す。 また、他の圧縮技術の使用も可能である。 8ビットの重み量子化と組み合わせることで,ほぼすべてのドット積を和で置き換えつつ,推論中に25倍のメモリ削減を実現した。 本研究は,ハードおよびソフトの混合精度バイナリ乗算をサポートすることにより,資源の大幅な削減に向けた道筋を示すものである。

As speech processing systems in mobile and edge devices become more commonplace, the demand for unintrusive speech quality monitoring increases. Deep learning methods provide high-quality estimates of objective and subjective speech quality metrics. However, their significant computational requirements are often prohibitive on resource-constrained devices. To address this issue, we investigated binary activation maps (BAMs) for speech quality prediction on a convolutional architecture based on DNSMOS. We show that the binary activation model with quantization aware training matches the predictive performance of the baseline model. It further allows using other compression techniques. Combined with 8-bit weight quantization, our approach results in a 25-fold memory reduction during inference, while replacing almost all dot products with summations. Our findings show a path toward substantial resource savings by supporting mixed-precision binary multiplication in hard- and software.
翻訳日:2024-07-08 13:01:09 公開日:2024-07-05
# GOALPlace: 心の中で終わりを告げる

GOALPlace: Begin with the End in Mind ( http://arxiv.org/abs/2407.04579v1 )

ライセンス: Link先を確認
Anthony Agnesina, Rongjian Liang, Geraldo Pradipta, Anand Rajaram, Haoxing Ren, (参考訳) 渋滞を伴う配置を最適化することは高品質な設計を実現するのに不可欠である。 GOALPlaceは,細胞密度を制御して配置の混雑を改善するための新しい学習手法である。 提案手法は,EDAツールのポストルート最適化結果から効率よく学習し,この目標/目標を特定のプレーヤのソリューションに適応させる実証的ベイズ手法を用いて,効果的に目的を念頭に置いて学習する。 ツールのルータとタイミングオプトエンジンの長時間にわたるヒューリスティックと相関性を高めます。 新しい階層的ネットリストクラスタリングによる統計分析により、配置全体にわたって適切な細胞密度ターゲットの密度とポテンシャルが確立される。 提案手法は,学術的なGPU加速グローバルプレースラーのデモとして統合され,商用ツールに匹敵する品質のマクロおよび標準セルプレースメントを一貫して生成することを示す。 我々の経験的ベイズ手法は、最先端の複合型プレーザーに対して、設計規則チェック(DRC)違反を最大10倍も減らし、ワイヤ長を5%減らし、最悪かつ全負のスラック(WNS/TNS)を30%から60%減らし、大幅な品質改善を可能にします。

Co-optimizing placement with congestion is integral to achieving high-quality designs. This paper presents GOALPlace, a new learning-based general approach to improving placement congestion by controlling cell density. Our method efficiently learns from an EDA tool's post-route optimized results and uses an empirical Bayes technique to adapt this goal/target to a specific placer's solutions, effectively beginning with the end in mind. It enhances correlation with the long-running heuristics of the tool's router and timing-opt engine -- while solving placement globally without expensive incremental congestion estimation and mitigation methods. A statistical analysis with a new hierarchical netlist clustering establishes the importance of density and the potential for an adequate cell density target across placements. Our experiments show that our method, integrated as a demonstration inside an academic GPU-accelerated global placer, consistently produces macro and standard cell placements of superior or comparable quality to commercial tools. Our empirical Bayes methodology also allows a substantial quality improvement over state-of-the-art academic mixed-size placers, achieving up to 10x fewer design rule check (DRC) violations, a 5% decrease in wirelength, and a 30% and 60% reduction in worst and total negative slack (WNS/TNS).
翻訳日:2024-07-08 13:01:09 公開日:2024-07-05
# 衛星地上ネットワーク統合のための大規模言語モデルの活用:最近の進歩と今後の方向性

Leveraging Large Language Models for Integrated Satellite-Aerial-Terrestrial Networks: Recent Advances and Future Directions ( http://arxiv.org/abs/2407.04581v1 )

ライセンス: Link先を確認
Shumaila Javaid, Ruhul Amin Khalil, Nasir Saeed, Bin He, Mohamed-Slim Alouini, (参考訳) 統合衛星、航空、地上ネットワーク(ISATN)は、様々な高度とプラットフォーム間のシームレスな接続を確保するために、多様な通信技術の洗練された収束を表現している。 本稿では,Large Language Models(LLM)をISATNに統合し,AI(Advanced Artificial Intelligence)と機械学習(ML)機能を活用してこれらのネットワークを拡張可能な変換可能性について検討する。 我々はISATNの現在のアーキテクチャを概説し、LLMがデータフロー、信号処理、ネットワーク管理を最適化し、先進的な予測アルゴリズムとリアルタイム意思決定を通じて5G/6G通信技術の進歩に果たす重要な役割を強調した。 ISATN コンポーネントの包括的な分析を行い,従来のデータ転送や処理のボトルネックに対して LLM が効果的に対処できるかを評価する。 本論文は、ISATNにおけるネットワーク管理の課題を考察し、様々な条件下でのシームレスな接続性と最適な性能を確保するために、高度なリソース割り当て戦略、トラフィックルーティング、セキュリティ管理の必要性を強調した。 さらに,LLM処理のデータ統合,スケーラビリティ問題,意思決定プロセスのレイテンシ,堅牢でフォールトトレラントなシステムの設計など,ILSNにLLMを統合する際の技術的課題と限界について検討する。 この研究は、ネットワーク信頼性の向上、性能の最適化、真に相互接続されたインテリジェントなグローバルネットワークシステムの実現に不可欠であるISATNにおけるLLM機能を完全に活用するための重要な研究方向性を明らかにした。

Integrated satellite, aerial, and terrestrial networks (ISATNs) represent a sophisticated convergence of diverse communication technologies to ensure seamless connectivity across different altitudes and platforms. This paper explores the transformative potential of integrating Large Language Models (LLMs) into ISATNs, leveraging advanced Artificial Intelligence (AI) and Machine Learning (ML) capabilities to enhance these networks. We outline the current architecture of ISATNs and highlight the significant role LLMs can play in optimizing data flow, signal processing, and network management to advance 5G/6G communication technologies through advanced predictive algorithms and real-time decision-making. A comprehensive analysis of ISATN components is conducted, assessing how LLMs can effectively address traditional data transmission and processing bottlenecks. The paper delves into the network management challenges within ISATNs, emphasizing the necessity for sophisticated resource allocation strategies, traffic routing, and security management to ensure seamless connectivity and optimal performance under varying conditions. Furthermore, we examine the technical challenges and limitations associated with integrating LLMs into ISATNs, such as data integration for LLM processing, scalability issues, latency in decision-making processes, and the design of robust, fault-tolerant systems. The study also identifies key future research directions for fully harnessing LLM capabilities in ISATNs, which is crucial for enhancing network reliability, optimizing performance, and achieving a truly interconnected and intelligent global network system.
翻訳日:2024-07-08 13:01:09 公開日:2024-07-05
# モーダル・アウェア・インタラクティブ・エンハンスメントによるマルチモーダル分類

Multimodal Classification via Modal-Aware Interactive Enhancement ( http://arxiv.org/abs/2407.04587v1 )

ライセンス: Link先を確認
Qing-Yuan Jiang, Zhouyang Chi, Yang Yang, (参考訳) 悪名高いモダリティの不均衡問題のため、マルチモーダル学習(MML)は最適化の不均衡現象を招き、満足な性能を達成するのに苦労する。 近年,優越的・非優越的なモダリティの学習速度を調整するために,各モダリティの最適化を適応的に調整することを中心に,性能向上のための代表的手法が提案されている。 本稿では,モーダル・アウェア・インタラクティブ・エンハンスメント(MIE)と呼ばれる新しいマルチモーダル学習手法を提案する。 具体的には、まず、シャープネス認識最小化(SAM)に基づく最適化戦略を用いて、前フェーズにおける学習目標の円滑化を図る。 そこで, SAMの幾何学的性質の助けを借りて, 逆相における異なるモード間の影響を加味するための勾配修正戦略を提案する。 したがって、一般化能力を改善し、マルチモーダル学習のためのモダリティ忘れ現象を同時に緩和することができる。 広範に使われているデータセットに対する大規模な実験により,提案手法は様々な最先端のベースラインを上回り,最高の性能が得られることを示した。

Due to the notorious modality imbalance problem, multimodal learning (MML) leads to the phenomenon of optimization imbalance, thus struggling to achieve satisfactory performance. Recently, some representative methods have been proposed to boost the performance, mainly focusing on adaptive adjusting the optimization of each modality to rebalance the learning speed of dominant and non-dominant modalities. To better facilitate the interaction of model information in multimodal learning, in this paper, we propose a novel multimodal learning method, called modal-aware interactive enhancement (MIE). Specifically, we first utilize an optimization strategy based on sharpness aware minimization (SAM) to smooth the learning objective during the forward phase. Then, with the help of the geometry property of SAM, we propose a gradient modification strategy to impose the influence between different modalities during the backward phase. Therefore, we can improve the generalization ability and alleviate the modality forgetting phenomenon simultaneously for multimodal learning. Extensive experiments on widely used datasets demonstrate that our proposed method can outperform various state-of-the-art baselines to achieve the best performance.
翻訳日:2024-07-08 13:01:09 公開日:2024-07-05
# 全てを思い出す: 個人化された医療セクターのための機械学習の要点

Remembering Everything Makes You Vulnerable: A Limelight on Machine Unlearning for Personalized Healthcare Sector ( http://arxiv.org/abs/2407.04589v1 )

ライセンス: Link先を確認
Ahan Chatterjee, Sai Anirudh Aryasomayajula, Rajat Chaudhari, Subhajit Paul, Vishwa Mohan Singh, (参考訳) 医療におけるデータ駆動技術の普及が進み、データプライバシやセキュリティに関する懸念がますます高まっている。 この論文は、パーソナライズされた医療モデル、特にECGモニタリングの文脈における、患者のプライバシーを侵害する敵対的攻撃の脆弱性に対処することを目的としている。 本研究では,機械学習モデルに対する露出したデータポイントの影響を緩和し,個々のプライバシを保ちながら,敵攻撃に対するモデル堅牢性を向上する手法"Machine Unlearning"を提案する。 具体的には、臨床用心電図記録のデータセットを用いて、パーソナライズされた心電図モニタリングの文脈における機械学習の有効性について検討する。 本手法では,心電図データに基づく深部神経分類器の訓練と,個々の患者に対するモデルの微調整を行う。 本稿では,FGSM(Fast Gradient Sign Method)のような,個人化されたモデルに付加的なデータポイントを活用できる敵攻撃に対する微調整モデルの感受性を示す。 この脆弱性に対処するために、細調整されたモデルからセンシティブなデータポイントを選択的に除去し、敵の操作に対するモデルのレジリエンスを効果的に向上するマシンアンラーニングアルゴリズムを提案する。 実験により,事前訓練したモデルの精度を維持しつつ,敵攻撃の影響を軽減するためのアプローチの有効性が示された。

As the prevalence of data-driven technologies in healthcare continues to rise, concerns regarding data privacy and security become increasingly paramount. This thesis aims to address the vulnerability of personalized healthcare models, particularly in the context of ECG monitoring, to adversarial attacks that compromise patient privacy. We propose an approach termed "Machine Unlearning" to mitigate the impact of exposed data points on machine learning models, thereby enhancing model robustness against adversarial attacks while preserving individual privacy. Specifically, we investigate the efficacy of Machine Unlearning in the context of personalized ECG monitoring, utilizing a dataset of clinical ECG recordings. Our methodology involves training a deep neural classifier on ECG data and fine-tuning the model for individual patients. We demonstrate the susceptibility of fine-tuned models to adversarial attacks, such as the Fast Gradient Sign Method (FGSM), which can exploit additional data points in personalized models. To address this vulnerability, we propose a Machine Unlearning algorithm that selectively removes sensitive data points from fine-tuned models, effectively enhancing model resilience against adversarial manipulation. Experimental results demonstrate the effectiveness of our approach in mitigating the impact of adversarial attacks while maintaining the pre-trained model accuracy.
翻訳日:2024-07-08 13:01:09 公開日:2024-07-05
# SH17:製造業におけるヒューマンセーフティと個人防護機器検出のためのデータセット

SH17: A Dataset for Human Safety and Personal Protective Equipment Detection in Manufacturing Industry ( http://arxiv.org/abs/2407.04590v1 )

ライセンス: Link先を確認
Hafiz Mughees Ahmad, Afshin Rahimi, (参考訳) 職場事故は、特に建設や製造などの産業において、人間の安全に重大なリスクを及ぼす傾向にあり、PPE(Personal Protective Equipment)の遵守の必要性はますます高まっている。 本研究は, ヘルメット, 安全眼鏡, マスク, 防護服などの各種PPEの適切な使用を検出するための, 物体検出(OD)と畳み込みニューラルネットワーク(CNN)に基づく非侵襲的手法の開発に焦点をあてる。 本研究では,多様な産業環境から収集した17クラスの75,994個のインスタンスを含む8,099個の注釈付き画像からなるSH17データセットを提案する。 ベンチマークのために最先端のODモデルをトレーニングし、最初の結果は、You Only Look Once (YOLO)v9-eモデル変種がPPE検出の70.9%を超える有望な精度を示した。 クロスドメインデータセットにおけるモデル検証のパフォーマンスは、これらの技術を統合することで、安全管理システムを大幅に改善し、人間の安全規制を満たし、労働力を保護するために努力している業界に対して、スケーラブルで効率的なソリューションを提供することを示唆している。 データセットはhttps://github.com/ahmadmughees/sh17datasetで公開されている。

Workplace accidents continue to pose significant risks for human safety, particularly in industries such as construction and manufacturing, and the necessity for effective Personal Protective Equipment (PPE) compliance has become increasingly paramount. Our research focuses on the development of non-invasive techniques based on the Object Detection (OD) and Convolutional Neural Network (CNN) to detect and verify the proper use of various types of PPE such as helmets, safety glasses, masks, and protective clothing. This study proposes the SH17 Dataset, consisting of 8,099 annotated images containing 75,994 instances of 17 classes collected from diverse industrial environments, to train and validate the OD models. We have trained state-of-the-art OD models for benchmarking, and initial results demonstrate promising accuracy levels with You Only Look Once (YOLO)v9-e model variant exceeding 70.9% in PPE detection. The performance of the model validation on cross-domain datasets suggests that integrating these technologies can significantly improve safety management systems, providing a scalable and efficient solution for industries striving to meet human safety regulations and protect their workforce. The dataset is available at https://github.com/ahmadmughees/sh17dataset.
翻訳日:2024-07-08 13:01:09 公開日:2024-07-05
# オンラインサドルポイント問題の近点法

Proximal Point Method for Online Saddle Point Problem ( http://arxiv.org/abs/2407.04591v1 )

ライセンス: Link先を確認
Qing-xin Meng, Jian-wei Liu, (参考訳) 本稿では,2プレイヤの時間変動コンベックス・コンベレーブゲームの連続を含むオンラインサドル点問題に焦点を当てる。 環境の非定常性を考えると、アルゴリズム設計のパフォーマンス指標として双対性ギャップと動的ナッシュ均衡の後悔を採用する。 近点法には3つの変種がある: Online Proximal Point Method~(OPPM), Optimistic OPPM~(OptOPPM), OptOPPM with multiple predictor。 各アルゴリズムは、双対性ギャップと動的ナッシュ平衡の後悔の両方に対して上限を保証し、双対性ギャップに対して測定するとほぼ最適となる。 具体的には、定常的なペイオフ関数の列のような特定の良質な環境では、これらのアルゴリズムはほぼ一定の距離境界を維持している。 実験結果はこれらのアルゴリズムの有効性をさらに検証する。 最後に,動的ナッシュ平衡後悔を性能指標として用いた際の潜在的信頼性の懸念について論じる。

This paper focuses on the online saddle point problem, which involves a sequence of two-player time-varying convex-concave games. Considering the nonstationarity of the environment, we adopt the duality gap and the dynamic Nash equilibrium regret as performance metrics for algorithm design. We present three variants of the proximal point method: the Online Proximal Point Method~(OPPM), the Optimistic OPPM~(OptOPPM), and the OptOPPM with multiple predictors. Each algorithm guarantees upper bounds for both the duality gap and dynamic Nash equilibrium regret, achieving near-optimality when measured against the duality gap. Specifically, in certain benign environments, such as sequences of stationary payoff functions, these algorithms maintain a nearly constant metric bound. Experimental results further validate the effectiveness of these algorithms. Lastly, this paper discusses potential reliability concerns associated with using dynamic Nash equilibrium regret as a performance metric.
翻訳日:2024-07-08 13:01:09 公開日:2024-07-05
# 匂いと感情:匂いにかかわる芸術作品における感情の認識

Smell and Emotion: Recognising emotions in smell-related artworks ( http://arxiv.org/abs/2407.04592v1 )

ライセンス: Link先を確認
Vishal Patoliya, Mathias Zinnen, Andreas Maier, Vincent Christlein, (参考訳) 感情や匂いは、デジタルアートの歴史においてあまり表現されていない。 本研究は, 嗅覚関連美術品から感情を認識することは技術的に実現可能であるが, 改善の余地があることを示す。 スタイル転送とハイパーパラメータ最適化を使用することで、パフォーマンスを向上し、将来の拡張のためのフィールドを開くことができます。

Emotions and smell are underrepresented in digital art history. In this exploratory work, we show that recognising emotions from smell-related artworks is technically feasible but has room for improvement. Using style transfer and hyperparameter optimization we achieve a minor performance boost and open up the field for future extensions.
翻訳日:2024-07-08 13:01:09 公開日:2024-07-05
# ニューラルネットワークを用いた学習データ操作による学習仮説の検証

Testing learning hypotheses using neural networks by manipulating learning data ( http://arxiv.org/abs/2407.04593v1 )

ライセンス: Link先を確認
Cara Su-Yi Leong, Tal Linzen, (参考訳) 受動的化は英語では生産的であるが、完全には一般的ではない。 英語の話者は、これらの例外を一般的なパターンにどのように学習するか。 ニューラルネットワーク言語モデルを獲得の理論として使用し、学習者が動詞が通過可能かどうかを学習するために活用できる間接的証拠の源泉を探る。 まず、英語話者の例外に対する判断を受動的に特徴付け、話者が他者よりも受動的であることを示す。 次に、ニューラルネットワーク言語モデルが、人間が表示するものと類似した受動的性に対する制約を学習できることを示し、これらの例外の証拠が言語入力で利用可能であることを示唆する。 既存の学習コーパスを変更して、各仮説に関連付けられた入力の特徴を除去することで、言語モデルがこれらの制約をどのように学習するかの2つの仮説の因果的役割を検証する。 動詞が受動的に現れる頻度は受動性に大きな影響を及ぼすが、動詞の意味論は影響しない。 本研究では,学習者の入力を完全に制御することが不可欠である質問に対して,言語モデルの学習データを変更することの有用性を強調した。

Although passivization is productive in English, it is not completely general -- some exceptions exist (e.g. *One hour was lasted by the meeting). How do English speakers learn these exceptions to an otherwise general pattern? Using neural network language models as theories of acquisition, we explore the sources of indirect evidence that a learner can leverage to learn whether a verb can passivize. We first characterize English speakers' judgments of exceptions to the passive, confirming that speakers find some verbs more passivizable than others. We then show that a neural network language model can learn restrictions to the passive that are similar to those displayed by humans, suggesting that evidence for these exceptions is available in the linguistic input. We test the causal role of two hypotheses for how the language model learns these restrictions by training models on modified training corpora, which we create by altering the existing training corpora to remove features of the input implicated by each hypothesis. We find that while the frequency with which a verb appears in the passive significantly affects its passivizability, the semantics of the verb does not. This study highlight the utility of altering a language model's training data for answering questions where complete control over a learner's input is vital.
翻訳日:2024-07-08 13:01:09 公開日:2024-07-05
# 微分プライベートインダクティブマイナー

Differentially Private Inductive Miner ( http://arxiv.org/abs/2407.04595v1 )

ライセンス: Link先を確認
Max Schulze, Yorck Zisgen, Moritz Kirschte, Esfandiar Mohammadi, Agnes Koschmider, (参考訳) プロセスマイニングにおけるイベントトレースのような個人に関する個人データの保護は、本質的に難しい作業である。 しかし、k-匿名性やイベントログの衛生化といったイベントトレースの以前の匿名化手法は、そのようなリークに対して、特に十分な背景知識を持つ敵に対する防御に苦慮していた。 本研究では,プライバシ保護方式でプロセスツリーを学習し,センシティブなイベントトレースを要約する手法を提案する。 我々は、いわゆる差分プライバシー(DP)プロパティを通して、結果の要約から、イベントトレース内の任意の個人データについて有用な推論ができないことを証明した。 技術的には、インダクティブマイナーの微分プライベート近似(DPIM)を導入する。 実験により、DPIMとインダクティブマイナーを8つの実世界のイベントトレースで比較し、フィットネス、精度、単純さ、一般化といったよく知られた指標を評価した。 実験の結果,DPIMは個人データを保護するだけでなく,インダクティブ・マイナーよりも有効性が低い忠実なプロセスツリーを生成することがわかった。

Protecting personal data about individuals, such as event traces in process mining, is an inherently difficult task: an event trace leaks information about the path in a process model that an individual has triggered. Yet, prior anonymization methods of event traces like k-anonymity or event log sanitization struggled to protect against such leakage, in particular against adversaries with sufficient background knowledge. In this work, we provide a method that tackles the challenge of summarizing sensitive event traces by learning the underlying process tree in a privacy-preserving manner. We prove via the so-called Differential Privacy (DP) property that from the resulting summaries no useful inference can be drawn about any personal data in an event trace. On the technical side, we introduce a differentially private approximation (DPIM) of the Inductive Miner. Experimentally, we compare our DPIM with the Inductive Miner on 8 real-world event traces by evaluating well-known metrics: fitness, precision, simplicity, and generalization. The experiments show that our DPIM not only protects personal data but also generates faithful process trees that exhibit little utility loss above the Inductive Miner.
翻訳日:2024-07-08 13:01:09 公開日:2024-07-05
# ソフトウェア工学の文脈における教育と学習のエスノグラフィー

Teaching and Learning Ethnography for Software Engineering Contexts ( http://arxiv.org/abs/2407.04596v1 )

ライセンス: Link先を確認
Yvonne Dittrich, Helen Sharp, Cleidson de Souza, (参考訳) エスノグラフィーは、ソフトウェア工学の実証研究の確立された方法の1つとなっている。 様々な入門書が提供されているが、ソフトウェア工学の学生を特に対象とする資料はこれまでにない。 本章では,ソフトウェア工学系大学院生と,その学生たち自身を対象に,教員のエスノグラフィーの教育と学習について紹介する。 本章の内容は、新生児から民族学への研究手法としての基本的な知識であると考えるものに焦点を当てている。 私たちはこのテキストを、私たちと学生が経験した演習、教育のヒント、落とし穴の提案で補完します。 この章は、経験的ソフトウェアエンジニアリングのコースの一部をサポートするように設計されており、さらに読むためのポインタと文献を提供している。

Ethnography has become one of the established methods for empirical research on software engineering. Although there is a wide variety of introductory books available, there has been no material targeting software engineering students particularly, until now. In this chapter we provide an introduction to teaching and learning ethnography for faculty teaching ethnography to software engineering graduate students and for the students themselves of such courses. The contents of the chapter focuses on what we think is the core basic knowledge for newbies to ethnography as a research method. We complement the text with proposals for exercises, tips for teaching, and pitfalls that we and our students have experienced. The chapter is designed to support part of a course on empirical software engineering and provides pointers and literature for further reading.
翻訳日:2024-07-08 12:51:25 公開日:2024-07-05
# 欠陥表現の特徴減衰は異常検出における不完全なマスキングを解消する

Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly Detection ( http://arxiv.org/abs/2407.04597v1 )

ライセンス: Link先を確認
YeongHyeon Park, Sungho Kang, Myung Jin Kim, Hyeong Seok Kim, Juneho Yi, (参考訳) 教師なし異常検出(UAD)研究において、最先端のモデルは、公開ベンチマークデータセットに関する広範な研究で飽和点に達している一方で、パフォーマンスの検出やさまざまなタスクのための統一モデルを追求するために、大規模なテールメイドニューラルネットワーク(NN)を採用している。 エッジコンピューティングに向けて、大規模複雑なNNを回避する計算効率が高くスケーラブルなソリューションを開発する必要がある。 これにより、NN設定の変更を最小限に抑え、UAD性能を最適化することを目指している。 そこで,本研究では,再構築によるアプローチを再考し,強度や弱点を分析して改善する。 SOTA手法の強みは、推論遅延と出力不整合であるランダム多重マスキングの課題に対処する単一の決定論的マスキングアプローチである。 それでも、異常領域を完全にカバーするマスクの提供に失敗したことは、依然として弱点である。 この問題を緩和するために、デコード中の異常再構成の特徴情報を減衰させる2つのMLP層のみを用いるFADeR(Feature Attenuation of Defective Representation)を提案する。 FADeRを利用することで、見えない異常パターンの特徴を通常のパターンに再構成し、誤報を減らすことができる。 実験結果から,FADeRは類似のNNと比較して性能が向上することが示された。 さらに,本手法は,他の単一決定論的マスキング手法とプラグイン・アンド・プレイ方式で統合した場合,性能向上のスケーラビリティを示す。

In unsupervised anomaly detection (UAD) research, while state-of-the-art models have reached a saturation point with extensive studies on public benchmark datasets, they adopt large-scale tailor-made neural networks (NN) for detection performance or pursued unified models for various tasks. Towards edge computing, it is necessary to develop a computationally efficient and scalable solution that avoids large-scale complex NNs. Motivated by this, we aim to optimize the UAD performance with minimal changes to NN settings. Thus, we revisit the reconstruction-by-inpainting approach and rethink to improve it by analyzing strengths and weaknesses. The strength of the SOTA methods is a single deterministic masking approach that addresses the challenges of random multiple masking that is inference latency and output inconsistency. Nevertheless, the issue of failure to provide a mask to completely cover anomalous regions is a remaining weakness. To mitigate this issue, we propose Feature Attenuation of Defective Representation (FADeR) that only employs two MLP layers which attenuates feature information of anomaly reconstruction during decoding. By leveraging FADeR, features of unseen anomaly patterns are reconstructed into seen normal patterns, reducing false alarms. Experimental results demonstrate that FADeR achieves enhanced performance compared to similar-scale NNs. Furthermore, our approach exhibits scalability in performance enhancement when integrated with other single deterministic masking methods in a plug-and-play manner.
翻訳日:2024-07-08 12:51:25 公開日:2024-07-05
# 繰り返し自己蒸留による利得の理解

Understanding the Gains from Repeated Self-Distillation ( http://arxiv.org/abs/2407.04600v1 )

ライセンス: Link先を確認
Divyansh Pareek, Simon S. Du, Sewoong Oh, (参考訳) 自己蒸留は、学生モデルが教師モデルと同じアーキテクチャを持つ特別なタイプの知識蒸留である。 同じアーキテクチャと同じトレーニングデータを使っているにもかかわらず、特に繰り返し適用された場合、自己蒸留はパフォーマンスを向上させるために経験的に観察されている。 このようなプロセスには、基本的な関心事がある: 自己蒸留の複数のステップを適用することで、どの程度の利益が得られるのか? この相対的な利得を調べるために,線形回帰の単純だが正準的な課題について検討する。 分析の結果,多段階の自己蒸留で達成される余剰リスクは,単段階の自己蒸留で著しく改善し,入力次元が$d$である場合,最大$d$の要因で余剰リスクを低減できることがわかった。 UCIレポジトリの回帰タスクに関する実証的な結果は、学習モデルのリスク(MSE)を最大47%削減することを示している。

Self-Distillation is a special type of knowledge distillation where the student model has the same architecture as the teacher model. Despite using the same architecture and the same training data, self-distillation has been empirically observed to improve performance, especially when applied repeatedly. For such a process, there is a fundamental question of interest: How much gain is possible by applying multiple steps of self-distillation? To investigate this relative gain, we propose studying the simple but canonical task of linear regression. Our analysis shows that the excess risk achieved by multi-step self-distillation can significantly improve upon a single step of self-distillation, reducing the excess risk by a factor as large as $d$, where $d$ is the input dimension. Empirical results on regression tasks from the UCI repository show a reduction in the learnt model's risk (MSE) by up to 47%.
翻訳日:2024-07-08 12:51:25 公開日:2024-07-05
# 書き込み語検出による音声語検出の改善

Written Term Detection Improves Spoken Term Detection ( http://arxiv.org/abs/2407.04601v1 )

ライセンス: Link先を確認
Bolaji Yusuf, Murat Saraçlar, (参考訳) キーワード検索(KWS)に対するエンドツーエンド(E2E)アプローチは、自動音声認識(ASR)システムを用いた手法と比較して、トレーニングやインデックス化の複雑さの観点からかなり単純である。 しかし、この単純化はモジュラリティの欠如による欠点がある。 特に、ASRベースのKWSシステムは言語モデルを介して外部の未ペアテキストから恩恵を受けることができるが、現在のE2E KWSシステムの定式化にはそのようなメカニズムがない。 そこで本稿では,インデックス作成や検索を複雑にすることなく,未ペアテキストをE2E KWSに統合可能なマルチタスク学習目標を提案する。 音声文書からテキストクエリを検索するためのE2E KWSモデルのトレーニングに加えて,マスクした文書からテキストクエリを検索するための共同トレーニングを行う。 我々は,この手法が,さまざまな言語を対象とした検索性能を大幅に向上させるとともに,KWSの未実装テキストを効果的に活用できることを実証的に示す。 提案手法は、未読字テキスト中の単語の文書表現を改善するため、これらの改善が達成されることを示す分析を行う。 最後に,本提案手法は,ドメイン内ペアデータが少ない,あるいは存在しない設定において,ドメイン適応に利用できることを示す。

End-to-end (E2E) approaches to keyword search (KWS) are considerably simpler in terms of training and indexing complexity when compared to approaches which use the output of automatic speech recognition (ASR) systems. This simplification however has drawbacks due to the loss of modularity. In particular, where ASR-based KWS systems can benefit from external unpaired text via a language model, current formulations of E2E KWS systems have no such mechanism. Therefore, in this paper, we propose a multitask training objective which allows unpaired text to be integrated into E2E KWS without complicating indexing and search. In addition to training an E2E KWS model to retrieve text queries from spoken documents, we jointly train it to retrieve text queries from masked written documents. We show empirically that this approach can effectively leverage unpaired text for KWS, with significant improvements in search performance across a wide variety of languages. We conduct analysis which indicates that these improvements are achieved because the proposed method improves document representations for words in the unpaired text. Finally, we show that the proposed method can be used for domain adaptation in settings where in-domain paired data is scarce or nonexistent.
翻訳日:2024-07-08 12:51:25 公開日:2024-07-05
# AWT:Augmentation, Weighting, Transportationによるビジョンランゲージモデルの転送

AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation ( http://arxiv.org/abs/2407.04603v1 )

ライセンス: Link先を確認
Yuhan Zhu, Yuyang Ji, Zhiyu Zhao, Gangshan Wu, Limin Wang, (参考訳) 事前学習された視覚言語モデル(VLM)は、様々な視覚分類タスクにおいて印象的な結果を示している。 しかし、新しいクラスに関する情報が限られているため、新しい概念を理解するためにそれらを適用する際に、その可能性を完全に解き放たないことが多い。 この制限に対処するため、新しい適応フレームワークであるAWT(Augment, Weight, then Transport)を導入する。 AWTは3つの重要な構成要素から構成される: 多様な視覚的視点を持つ入力の増強、画像変換と言語モデルによるクラス記述の強化、予測エントロピーに基づく入力の動的重み付け、視覚言語空間における意味的相関のマイニングに最適な輸送を利用する。 AWTは、様々なVLMにシームレスに統合することができ、追加のトレーニングなしでゼロショット機能を強化し、統合マルチモーダルアダプタモジュールを通じて数ショットの学習を容易にする。 我々は、ゼロショット画像分類、ゼロショットビデオアクション認識、アウト・オブ・ディストリビューションの一般化など、AWTを複数の困難なシナリオで検証する。 AWTは、各設定における最先端メソッドを一貫して上回る。 さらに、我々の広範な研究は、異なるVLM、アーキテクチャ、スケールにわたるAWTの有効性と適応性をさらに実証している。

Pre-trained vision-language models (VLMs) have shown impressive results in various visual classification tasks. However, we often fail to fully unleash their potential when adapting them for new concept understanding due to limited information on new classes. To address this limitation, we introduce a novel adaptation framework, AWT (Augment, Weight, then Transport). AWT comprises three key components: augmenting inputs with diverse visual perspectives and enriched class descriptions through image transformations and language models; dynamically weighting inputs based on the prediction entropy; and employing optimal transport to mine semantic correlations in the vision-language space. AWT can be seamlessly integrated into various VLMs, enhancing their zero-shot capabilities without additional training and facilitating few-shot learning through an integrated multimodal adapter module. We verify AWT in multiple challenging scenarios, including zero-shot and few-shot image classification, zero-shot video action recognition, and out-of-distribution generalization. AWT consistently outperforms the state-of-the-art methods in each setting. In addition, our extensive studies further demonstrate AWT's effectiveness and adaptability across different VLMs, architectures, and scales.
翻訳日:2024-07-08 12:51:25 公開日:2024-07-05
# PartCraft: 創造的なオブジェクトを部品で作る

PartCraft: Crafting Creative Objects by Parts ( http://arxiv.org/abs/2407.04604v1 )

ライセンス: Link先を確認
Kam Woh Ng, Xiatian Zhu, Yi-Zhe Song, Tao Xiang, (参考訳) 本稿では、ユーザが「選択できる」ことによって、生成的視覚AIにおける創造的制御を促進する。 従来のテキストやスケッチベースの手法とは別に、私たちは初めて、創造的な取り組みのために、視覚的な概念を部分的に選択できるようにしました。 その結果は、選択された視覚概念を正確に捉えたきめ細かな生成であり、ホリストリーに忠実で妥当な結果を保証する。 これを実現するために、私たちはまず、教師なしの機能クラスタリングを通じて、オブジェクトを部品にパースします。 そして、部品をテキストトークンにエンコードし、それらを操作するエントロピーベースの正規化注意損失を導入する。 この損失設計により、オブジェクトの部分構成に関する一般的な事前トポロジー知識を学習し、さらに新しい部分構成に一般化し、生成が一意に忠実に見えるようにすることができる。 最後に、部分トークンを投影するためにボトルネックエンコーダを使用します。 これは忠実性を高めるだけでなく、共有知識を活用し、インスタンス間の情報交換を促進することによって学習を促進する。 論文や補足資料の視覚的な結果は、高度にカスタマイズされた革新的な創造物を作る際に、PartCraftの魅力的な力を示しており、これは「チャーミング」と「創造的な鳥」によって実証されている。 コードはhttps://github.com/kamwoh/partcraft.comで公開されている。

This paper propels creative control in generative visual AI by allowing users to "select". Departing from traditional text or sketch-based methods, we for the first time allow users to choose visual concepts by parts for their creative endeavors. The outcome is fine-grained generation that precisely captures selected visual concepts, ensuring a holistically faithful and plausible result. To achieve this, we first parse objects into parts through unsupervised feature clustering. Then, we encode parts into text tokens and introduce an entropy-based normalized attention loss that operates on them. This loss design enables our model to learn generic prior topology knowledge about object's part composition, and further generalize to novel part compositions to ensure the generation looks holistically faithful. Lastly, we employ a bottleneck encoder to project the part tokens. This not only enhances fidelity but also accelerates learning, by leveraging shared knowledge and facilitating information exchange among instances. Visual results in the paper and supplementary material showcase the compelling power of PartCraft in crafting highly customized, innovative creations, exemplified by the "charming" and creative birds. Code is released at https://github.com/kamwoh/partcraft.
翻訳日:2024-07-08 12:51:25 公開日:2024-07-05
# 高次累積による線形因果解離

Linear causal disentanglement via higher-order cumulants ( http://arxiv.org/abs/2407.04605v1 )

ライセンス: Link先を確認
Paula Leyes Carreno, Chiara Meroni, Anna Seigal, (参考訳) 線形因果解離は因果表現学習における近年の手法であり、因果関係を持つ潜伏変数を介して観察された変数の集合を記述する。 これは独立成分分析と線形構造方程式モデルの一般化と見なすことができる。 本研究では,複数の文脈におけるデータへのアクセスを想定した線形因果不整合の識別可能性について検討する。 各潜伏変数に対する1つの完全介入が十分であることを示すとともに、完全な介入の下でパラメータを復元するために必要な最悪の場合において、観測された変数よりも潜伏変数を許容する以前の作業を一般化する。 我々は、結合テンソル分解によってパラメータを計算する構成的証明を与える。 ソフト介入に対しては、多項式方程式系の研究を通して、観測データと一致する潜在グラフとパラメータの同値類を見つける。 我々の結果は、変数の非ガウス性を意味する、ゼロでない高階累積の存在を仮定している。

Linear causal disentanglement is a recent method in causal representation learning to describe a collection of observed variables via latent variables with causal dependencies between them. It can be viewed as a generalization of both independent component analysis and linear structural equation models. We study the identifiability of linear causal disentanglement, assuming access to data under multiple contexts, each given by an intervention on a latent variable. We show that one perfect intervention on each latent variable is sufficient and in the worst case necessary to recover parameters under perfect interventions, generalizing previous work to allow more latent than observed variables. We give a constructive proof that computes parameters via a coupled tensor decomposition. For soft interventions, we find the equivalence class of latent graphs and parameters that are consistent with observed data, via the study of a system of polynomial equations. Our results hold assuming the existence of non-zero higher-order cumulants, which implies non-Gaussianity of variables.
翻訳日:2024-07-08 12:51:25 公開日:2024-07-05
# ARM: 自己回帰リワードモデルによる効率的なガイド付きデコーディング

ARM: Efficient Guided Decoding with Autoregressive Reward Models ( http://arxiv.org/abs/2407.04615v1 )

ライセンス: Link先を確認
Sergey Troshin, Vlad Niculae, Antske Fokkens, (参考訳) 大量のデータに基づいてトレーニングされた言語モデルは、現実世界に安全にデプロイするためには、慎重にチューニングする必要がある。 そこでは,タスク固有の報酬モデルから得られるスコアを用いて,基本言語モデルのロジットを増大させることが目的である。 本稿では,高速かつ効率的なガイド付き復号化を可能にする自己回帰報酬モデルの簡易かつ効率的なパラメータ化を提案する。 解毒処理と感情制御のタスクでは、効率的なパラメータ化が強力なガイド付き復号法であるRADと同等に実行されることを示す。

Language models trained on large amounts of data require careful tuning to be safely deployed in real world. We revisit the guided decoding paradigm, where the goal is to augment the logits of the base language model using the scores from a task-specific reward model. We propose a simple but efficient parameterization of the autoregressive reward model enabling fast and effective guided decoding. On detoxification and sentiment control tasks, we show that our efficient parameterization performs on par with RAD, a strong but less efficient guided decoding approach.
翻訳日:2024-07-08 12:51:25 公開日:2024-07-05
# 視覚モデルのための等方的プルーニング

Isomorphic Pruning for Vision Models ( http://arxiv.org/abs/2407.04616v1 )

ライセンス: Link先を確認
Gongfan Fang, Xinyin Ma, Michael Bi Mi, Xinchao Wang, (参考訳) 構造化プルーニングは、冗長なサブ構造を取り除くことによって、ディープニューラルネットワークの計算オーバーヘッドを低減する。 しかしながら、異なるサブ構造の重要性を相対的に評価することは大きな課題であり、特に、自己注意、深みのある畳み込み、または残留接続のような新しいメカニズムとアーキテクチャを特徴とする高度な視覚モデルにおいてである。 これらの不均一な部分構造は、通常、分散パラメータスケール、重み分布、および計算トポロジーを示し、重要な比較にかなりの困難をもたらす。 これを解決するために、Isomorphic Pruningという、ビジョントランスフォーマーやCNNなど、さまざまなネットワークアーキテクチャで有効性を実証し、異なるモデルサイズで競合性能を提供するシンプルなアプローチを提案する。 アイソモルフィック・プルーニングは、事前定義された重要基準の下で評価されると、同種のサブ構造が、同様の重要パターンを示す同型構造とは対照的に、その重要分布に顕著なばらつきを示すという観察に由来する。 これにより、より信頼性の高いプルーニングのために、異なるタイプのサブ構造に対して、独立したランク付けと比較を行うことができます。 ImageNet-1Kにおける実験結果から, トランスフォーマーやCNN専用に設計されたプルーニングベースラインをアイソモーフィック・プルーニングが超越していることが判明した。 例えば、DeiT-Tinyの精度を74.52%から77.50%に改善する。 また、ConvNext-Tinyでは、82.06%から82.18%に性能を向上し、パラメータやメモリ使用量を削減しました。 コードは \url{https://github.com/VainF/Isomorphic-Pruning} で入手できる。

Structured pruning reduces the computational overhead of deep neural networks by removing redundant sub-structures. However, assessing the relative importance of different sub-structures remains a significant challenge, particularly in advanced vision models featuring novel mechanisms and architectures like self-attention, depth-wise convolutions, or residual connections. These heterogeneous substructures usually exhibit diverged parameter scales, weight distributions, and computational topology, introducing considerable difficulty to importance comparison. To overcome this, we present Isomorphic Pruning, a simple approach that demonstrates effectiveness across a range of network architectures such as Vision Transformers and CNNs, and delivers competitive performance across different model sizes. Isomorphic Pruning originates from an observation that, when evaluated under a pre-defined importance criterion, heterogeneous sub-structures demonstrate significant divergence in their importance distribution, as opposed to isomorphic structures that present similar importance patterns. This inspires us to perform isolated ranking and comparison on different types of sub-structures for more reliable pruning. Our empirical results on ImageNet-1K demonstrate that Isomorphic Pruning surpasses several pruning baselines dedicatedly designed for Transformers or CNNs. For instance, we improve the accuracy of DeiT-Tiny from 74.52% to 77.50% by pruning an off-the-shelf DeiT-Base model. And for ConvNext-Tiny, we enhanced performance from 82.06% to 82.18%, while reducing the number of parameters and memory usage. Code is available at \url{https://github.com/VainF/Isomorphic-Pruning}.
翻訳日:2024-07-08 12:51:25 公開日:2024-07-05
# ベイズデータ同化のためのランダム化物理インフォームドニューラルネットワーク

Randomized Physics-Informed Neural Networks for Bayesian Data Assimilation ( http://arxiv.org/abs/2407.04617v1 )

ライセンス: Link先を確認
Yifei Zong, David Barajas-Solano, Alexandre M. Tartakovsky, (参考訳) 雑音データを用いた逆偏微分方程式(PDE)問題における不確実性定量化のためのランダム化物理情報ニューラルネットワーク(PINN)またはrPINN法を提案する。 この手法は、逆PDE PINN解の不確かさを定量化するために用いられる。 近年、ベイズ定理を用いてPINNパラメータの後方分布を定式化し、ハミルトンモンテカルロ (HMC) や変分推論 (VI) といった近似推論手法を用いてサンプル化したベイズPINN法 (BPINN) が提案されている。 本研究では,HMCが非線形逆PDE問題に対して収束しないことを示す。 HMCの代替として、PINN損失関数をランダム化して得られる確率的最適化問題を解くことで、分布をサンプリングする。 rPINN法の有効性を線形および非線形ポアソン方程式および高次元空間依存拡散係数を持つ拡散方程式に対して検証した。 rPINN法はすべての問題に対して情報分布を提供する。 線形ポアソン方程式の場合、HMC と rPINN は同様の分布を生成するが、rPINN は HMC の27倍高速である。 非線型ポゾンおよび拡散方程式では、単一のHMC鎖がPINNパラメータの後方分布の複数のモードを合理的な時間でサンプリングできないため、HMC法は収束しない。

We propose a randomized physics-informed neural network (PINN) or rPINN method for uncertainty quantification in inverse partial differential equation (PDE) problems with noisy data. This method is used to quantify uncertainty in the inverse PDE PINN solutions. Recently, the Bayesian PINN (BPINN) method was proposed, where the posterior distribution of the PINN parameters was formulated using the Bayes' theorem and sampled using approximate inference methods such as the Hamiltonian Monte Carlo (HMC) and variational inference (VI) methods. In this work, we demonstrate that HMC fails to converge for non-linear inverse PDE problems. As an alternative to HMC, we sample the distribution by solving the stochastic optimization problem obtained by randomizing the PINN loss function. The effectiveness of the rPINN method is tested for linear and non-linear Poisson equations, and the diffusion equation with a high-dimensional space-dependent diffusion coefficient. The rPINN method provides informative distributions for all considered problems. For the linear Poisson equation, HMC and rPINN produce similar distributions, but rPINN is on average 27 times faster than HMC. For the non-linear Poison and diffusion equations, the HMC method fails to converge because a single HMC chain cannot sample multiple modes of the posterior distribution of the PINN parameters in a reasonable amount of time.
翻訳日:2024-07-08 12:51:25 公開日:2024-07-05
# CountGD: マルチモーダルなオープンワールドカウント

CountGD: Multi-Modal Open-World Counting ( http://arxiv.org/abs/2407.04619v1 )

ライセンス: Link先を確認
Niki Amini-Naieni, Tengda Han, Andrew Zisserman, (参考訳) 本研究の目的は,画像中のオープン語彙オブジェクトの一般性と精度を向上させることである。 汎用性を向上させるため,対象対象を視覚的にカウントするためのモジュールを導入し,その機能を拡張したオープン語彙検出基盤モデル(GroundingDINO)を考案した。 代わりに、これらの新しい機能 - ターゲットオブジェクトをマルチモーダル(テキストと例示)で指定できる - は、精度の向上につながります。 第一に、最初のオープンワールドカウントモデルであるCountGDを導入し、そのプロンプトをテキスト記述やビジュアルインスペクタまたはその両方で指定できるようにし、第二に、そのモデルの性能が複数のカウントベンチマークにおける最先端を著しく改善することを示します。 モデルをテストするためのコードとアプリはhttps://www.robots.ox.ac.uk/~vgg/research/countgd/で公開されている。

The goal of this paper is to improve the generality and accuracy of open-vocabulary object counting in images. To improve the generality, we repurpose an open-vocabulary detection foundation model (GroundingDINO) for the counting task, and also extend its capabilities by introducing modules to enable specifying the target object to count by visual exemplars. In turn, these new capabilities - being able to specify the target object by multi-modalites (text and exemplars) - lead to an improvement in counting accuracy. We make three contributions: First, we introduce the first open-world counting model, CountGD, where the prompt can be specified by a text description or visual exemplars or both; Second, we show that the performance of the model significantly improves the state of the art on multiple counting benchmarks - when using text only, CountGD is comparable to or outperforms all previous text-only works, and when using both text and visual exemplars, we outperform all previous models; Third, we carry out a preliminary study into different interactions between the text and visual exemplar prompts, including the cases where they reinforce each other and where one restricts the other. The code and an app to test the model are available at https://www.robots.ox.ac.uk/~vgg/research/countgd/.
翻訳日:2024-07-08 12:51:25 公開日:2024-07-05
# テスト時間で学ぶ)学習 : 表現型隠れ状態を持つRNN

Learning to (Learn at Test Time): RNNs with Expressive Hidden States ( http://arxiv.org/abs/2407.04620v1 )

ライセンス: Link先を確認
Yu Sun, Xinhao Li, Karan Dalal, Jiarui Xu, Arjun Vikram, Genghan Zhang, Yann Dubois, Xinlei Chen, Xiaolong Wang, Sanmi Koyejo, Tatsunori Hashimoto, Carlos Guestrin, (参考訳) 自己注意は長い文脈ではうまく機能するが、二次的な複雑さがある。 既存のRNN層は線形複雑性を持つが、長いコンテキストでの性能は隠れ状態の表現力によって制限される。 本稿では,線形複雑度と表現的隠蔽状態を有する新しいシーケンスモデリング層を提案する。 キーとなるアイデアは、隠れた状態を機械学習モデル自身にし、更新ルールを自己教師型学習のステップとすることです。 テストシーケンスでも隠れた状態がトレーニングによって更新されるので、私たちのレイヤはテスト時間トレーニング(TTT)層と呼ばれます。 隠れ状態が線形モデルであるTT-LinearとTT-MLPの2つのインスタンスについて検討する。 125Mから1.3Bのパラメータでのインスタンス化を、強力なTransformerと最新のRNNであるMambaと比較して評価する。 TTT-Linear と TTT-MLP はどちらも基準線を超えている。 Transformerと同様に、より多くのトークンを条件付けすることで、パープレキシティの低減を継続できる。 予備システム最適化では、TT-Linearは8kコンテキストでTransformerよりも高速で、壁時計時間でMambaにマッチする。 TTT-MLPは依然としてメモリI/Oの課題に直面しているが、長期的には大きな可能性を秘めており、将来の研究にとって有望な方向性を示している。

Self-attention performs well in long context but has quadratic complexity. Existing RNN layers have linear complexity, but their performance in long context is limited by the expressive power of their hidden state. We propose a new class of sequence modeling layers with linear complexity and an expressive hidden state. The key idea is to make the hidden state a machine learning model itself, and the update rule a step of self-supervised learning. Since the hidden state is updated by training even on test sequences, our layers are called Test-Time Training (TTT) layers. We consider two instantiations: TTT-Linear and TTT-MLP, whose hidden state is a linear model and a two-layer MLP respectively. We evaluate our instantiations at the scale of 125M to 1.3B parameters, comparing with a strong Transformer and Mamba, a modern RNN. Both TTT-Linear and TTT-MLP match or exceed the baselines. Similar to Transformer, they can keep reducing perplexity by conditioning on more tokens, while Mamba cannot after 16k context. With preliminary systems optimization, TTT-Linear is already faster than Transformer at 8k context and matches Mamba in wall-clock time. TTT-MLP still faces challenges in memory I/O, but shows larger potential in long context, pointing to a promising direction for future research.
翻訳日:2024-07-08 12:51:25 公開日:2024-07-05
# OneRestore: 複合劣化のためのユニバーサル復元フレームワーク

OneRestore: A Universal Restoration Framework for Composite Degradation ( http://arxiv.org/abs/2407.04621v1 )

ライセンス: Link先を確認
Yu Guo, Yuan Gao, Yuxu Lu, Huilin Zhu, Ryan Wen Liu, Shengfeng He, (参考訳) 現実のシナリオでは、画像障害はしばしば複合的な劣化として現れ、低光、迷路、雨、雪といった要素の複雑な相互作用を示す。 この事実にもかかわらず、既存の修復手法は通常、孤立した分解タイプをターゲットにしており、複数の劣化要因が共存する環境では不足している。 本研究は, このギャップを埋めるために, 複雑な複合劣化シナリオを正確に表現するために, 4つの物理劣化パラダイムを統合した多目的イメージングモデルを提案する。 本研究では,適応的かつ制御可能なシーン復元を目的とした,新しいトランスフォーマーベースのフレームワークであるOneRestoreを提案する。 提案フレームワークは,劣化したシーンディスクリプタと画像特徴を融合したユニークなクロスアテンション機構を利用して,ニュアンスド復元を実現する。 本モデルでは,手動テキスト埋め込みから視覚属性に基づく自動抽出まで,多目的な入力シーン記述を可能にする。 モデル制約を補強するために, 余剰劣化画像を負のサンプルとして用いて, 複合劣化修復損失を増大させる。 合成および実世界のデータセットの比較結果は、OneRestoreが優れたソリューションであることを示している。

In real-world scenarios, image impairments often manifest as composite degradations, presenting a complex interplay of elements such as low light, haze, rain, and snow. Despite this reality, existing restoration methods typically target isolated degradation types, thereby falling short in environments where multiple degrading factors coexist. To bridge this gap, our study proposes a versatile imaging model that consolidates four physical corruption paradigms to accurately represent complex, composite degradation scenarios. In this context, we propose OneRestore, a novel transformer-based framework designed for adaptive, controllable scene restoration. The proposed framework leverages a unique cross-attention mechanism, merging degraded scene descriptors with image features, allowing for nuanced restoration. Our model allows versatile input scene descriptors, ranging from manual text embeddings to automatic extractions based on visual attributes. Our methodology is further enhanced through a composite degradation restoration loss, using extra degraded images as negative samples to fortify model constraints. Comparative results on synthetic and real-world datasets demonstrate OneRestore as a superior solution, significantly advancing the state-of-the-art in addressing complex, composite degradations.
翻訳日:2024-07-08 12:51:25 公開日:2024-07-05
# 強いLLMを判断する弱いLLMによるスケーラブルな監視について

On scalable oversight with weak LLMs judging strong LLMs ( http://arxiv.org/abs/2407.04622v1 )

ライセンス: Link先を確認
Zachary Kenton, Noah Y. Siegel, János Kramár, Jonah Brown-Cohen, Samuel Albanie, Jannis Bulian, Rishabh Agarwal, David Lindner, Yunhao Tang, Noah D. Goodman, Rohin Shah, (参考訳) スケーラブルな監視プロトコルは、人間が人間の超人的AIを正確に監視できるようにすることを目的としている。 本稿では,2つのAIが1人のAIが1人の裁判官を納得させようとするコンサルト,単一のAIが1人の裁判官を納得させようとするコンサルト,そして、AIなしで裁判官が正解する直接的な質問回答の基準と比較する。 大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。 我々は、裁判官とエージェント間のさまざまな非対称性をベンチマークし、情報非対称性を持つ1つの抽出的QAタスクの以前の作業を拡張し、数学、コーディング、論理学、マルチモーダル推論非対称性も含むようにした。 議論は、コンサルタントがランダムにアサインされ、正しい/間違った回答を議論するときに、すべてのタスクでコンサルタントを上回ります。 情報非対称性の議論を抽出するQAタスクでは、直接質問応答よりも優れるが、情報非対称性のない他のタスクでは、結果は混合される。 以前の作業では議論者やコンサルタンに議論の答えを割り当てていた。 代わりに、どの答えを議論するかを選べば、審査員は、コンサルタントよりも議論において間違った答えに納得する頻度が低いことが分かる。 さらに、より強力な議論者モデルは、従来の研究よりも控えめに判断精度を高めることが判明した。

Scalable oversight protocols aim to enable humans to accurately supervise superhuman AI. In this paper we study debate, where two AI's compete to convince a judge; consultancy, where a single AI tries to convince a judge that asks questions; and compare to a baseline of direct question-answering, where the judge just answers outright without the AI. We use large language models (LLMs) as both AI agents and as stand-ins for human judges, taking the judge models to be weaker than agent models. We benchmark on a diverse range of asymmetries between judges and agents, extending previous work on a single extractive QA task with information asymmetry, to also include mathematics, coding, logic and multimodal reasoning asymmetries. We find that debate outperforms consultancy across all tasks when the consultant is randomly assigned to argue for the correct/incorrect answer. Comparing debate to direct question answering, the results depend on the type of task: in extractive QA tasks with information asymmetry debate outperforms direct question answering, but in other tasks without information asymmetry the results are mixed. Previous work assigned debaters/consultants an answer to argue for. When we allow them to instead choose which answer to argue for, we find judges are less frequently convinced by the wrong answer in debate than in consultancy. Further, we find that stronger debater models increase judge accuracy, though more modestly than in previous studies.
翻訳日:2024-07-08 12:51:25 公開日:2024-07-05
# フィルタリングによるエンティティ分解:ゼロショット臨床名付きエンティティ認識フレームワーク

Entity Decomposition with Filtering: A Zero-Shot Clinical Named Entity Recognition Framework ( http://arxiv.org/abs/2407.04629v1 )

ライセンス: Link先を確認
Reza Averly, Xia Ning, (参考訳) 臨床名付きエンティティ認識(NER)は、臨床物語の中の重要なエンティティを検索することを目的としている。 近年の研究では,大規模言語モデル (LLM) がこの課題において高い性能を達成できることが示されている。 これまでの研究は独自LLMに焦点が当てられていたが,NERのオープンNER LLMが臨床NERでどのように機能するかを考察した。 本稿では、新しいフレームワーク、フィルタリングによるエンティティ分解(EDF)によってそれらを改善することを目的としている。 我々のキーとなるアイデアは、エンティティ認識タスクをいくつかのサブエンティティタイプの検索に分解することです。 また、不正なエンティティを削除するためのフィルタリング機構も導入する。 実験の結果、すべてのメトリクス、モデル、データセット、エンティティタイプでフレームワークの有効性を実証した。 分析の結果, 実体の分解により, 未発見の実体を認識でき, 大幅な改善が得られた。 さらに、我々のフレームワークの総合的な評価と、将来の研究を舗装するための詳細なエラー分析を提供する。

Clinical named entity recognition (NER) aims to retrieve important entities within clinical narratives. Recent works have demonstrated that large language models (LLMs) can achieve strong performance in this task. While previous works focus on proprietary LLMs, we investigate how open NER LLMs, trained specifically for entity recognition, perform in clinical NER. In this paper, we aim to improve them through a novel framework, entity decomposition with filtering, or EDF. Our key idea is to decompose the entity recognition task into several retrievals of sub-entity types. We also introduce a filtering mechanism to remove incorrect entities. Our experimental results demonstrate the efficacy of our framework across all metrics, models, datasets, and entity types. Our analysis reveals that entity decomposition can recognize previously missed entities with substantial improvement. We further provide a comprehensive evaluation of our framework and an in-depth error analysis to pave future works.
翻訳日:2024-07-08 12:51:25 公開日:2024-07-05
# 角分解光電子分光データ圧縮用オートエンコーダ

An autoencoder for compressing angle-resolved photoemission spectroscopy data ( http://arxiv.org/abs/2407.04631v1 )

ライセンス: Link先を確認
Steinn Ymir Agustsson, Mohammad Ahsanul Haque, Thi Tam Truong, Marco Bianchi, Nikita Klyuchnikov, Davide Mottin, Panagiotis Karras, Philip Hofmann, (参考訳) 角度分解光電子分光法(ARPES)は、固体の電子構造を決定するための強力な実験手法である。 ARPES実験のための光源の進歩は、現在、データ取得率とデータ量を大幅に増加させています。 一方、最も先進的なARPES機器へのアクセス時間は厳格に制限されており、この時間を利用するために高速で効果的でオンザフライのデータ分析ツールが必要である。 このニーズに応えて、ARPESデータセットを効率的に要約し圧縮する汎用オートエンコーダネットワークであるARPESNetを導入する。 我々は、標準的な3次元ARPESデータセットを$\mathbf{k}$でランダムな方向に沿って切断して抽出した2次元ARPESデータの大規模かつ多様なデータセット上でARPESNetを訓練する。 ARPESNetのデータ表現能力をテストするために、ARPESNetで圧縮されたデータと離散コサイン変換で圧縮されたデータと、異なるノイズレベルで生データを比較した。 ARPESNetデータは高い圧縮比にもかかわらずクラスタリング品質が優れている。

Angle-resolved photoemission spectroscopy (ARPES) is a powerful experimental technique to determine the electronic structure of solids. Advances in light sources for ARPES experiments are currently leading to a vast increase of data acquisition rates and data quantity. On the other hand, access time to the most advanced ARPES instruments remains strictly limited, calling for fast, effective, and on-the-fly data analysis tools to exploit this time. In response to this need, we introduce ARPESNet, a versatile autoencoder network that efficiently summmarises and compresses ARPES datasets. We train ARPESNet on a large and varied dataset of 2-dimensional ARPES data extracted by cutting standard 3-dimensional ARPES datasets along random directions in $\mathbf{k}$. To test the data representation capacity of ARPESNet, we compare $k$-means clustering quality between data compressed by ARPESNet, data compressed by discrete cosine transform, and raw data, at different noise levels. ARPESNet data excels in clustering quality despite its high compression ratio.
翻訳日:2024-07-08 12:41:40 公開日:2024-07-05
# 統計物理学から熱力学へ

A Didactic Journey from Statistical Physics to Thermodynamics ( http://arxiv.org/abs/2407.04633v1 )

ライセンス: Link先を確認
Mario Graml, Michael Riedl, (参考訳) 本稿では,エントロピーの基本的性質から熱力学の公理まで,統計物理学の公理の結果としての歩行者ガイドを提供する。 また、ラグランジュ乗数などに物理的意味を割り当てるなど、欠陥のある概念を分解する。 この研究は、幾何学的、数学的、物理的洞察を通じてレジェンダー変換を包括的に理解し、また実験的な設定との関係も提供する。 本研究の中心的な成果は、アンサンブル、変数依存、ポテンシャル、自然変数を含む重要な概念の包括的形式化である。 さらに、熱力学の枠組み、状態関数、オイラーの不等式は、統計物理学の公理から厳密に証明されている。

This paper offers a pedestrian guide from the fundamental properties of entropy to the axioms of thermodynamics, which are a consequence of the axiom of statistical physics. It also dismantles flawed concepts, such as assigning physical meaning to Lagrange multipliers and numerous others. This work also provides a comprehensive understanding of the Legendre transform via geometrical, mathematical and physical insights, as well as its connection to the experimental setup. The central result of this paper is the comprehensive formalisation of key concepts, including ensembles, variable dependencies, potentials and natural variables. Furthermore, the framework of thermodynamics, the state function and the Euler inequality are rigorously proven from the axiom of statistical physics.
翻訳日:2024-07-08 12:41:40 公開日:2024-07-05
# 埋め込みマッチングによる半監督セグメンテーション

Semi-Supervised Segmentation via Embedding Matching ( http://arxiv.org/abs/2407.04638v1 )

ライセンス: Link先を確認
Weiyi Xie, Nathalie Willems, Nikolas Lessmann, Tom Gibbons, Daniele De Massari, (参考訳) 深層畳み込みニューラルネットワークは医用画像セグメンテーションで広く使われているが、訓練には多くのラベル付き画像を必要とする。 三次元医用画像の注釈付けは、時間と費用のかかるプロセスである。 この制限を克服するために,ほとんどラベルのない画像とラベル付き画像の小さなセットをトレーニングで活用する半教師付きセグメンテーション手法を提案する。 提案手法では,教師モデルから未ラベルのボクセルの精度の高い予測を行うために,予測の不確実性を評価する。 これらのボクセルは学生モデルを訓練するための擬似ラベルとして機能する。 教師モデルが信頼できない予測を生成するボクセルでは、ラベル付き画像からの参照ボクセルを用いたボクセルの埋め込み対応に基づいて擬似ラベルを行う。 今回,CT画像における股関節分割の自動化に本手法を適用し,わずか4例のCT画像で顕著な結果を得た。 提案手法はハースドルフの95番目のパーセンタイル (HD95) と0.929のイオウ (IoU) で、HD95 (4.07) とイオウ (0.927) を最短で上回った。

Deep convolutional neural networks are widely used in medical image segmentation but require many labeled images for training. Annotating three-dimensional medical images is a time-consuming and costly process. To overcome this limitation, we propose a novel semi-supervised segmentation method that leverages mostly unlabeled images and a small set of labeled images in training. Our approach involves assessing prediction uncertainty to identify reliable predictions on unlabeled voxels from the teacher model. These voxels serve as pseudo-labels for training the student model. In voxels where the teacher model produces unreliable predictions, pseudo-labeling is carried out based on voxel-wise embedding correspondence using reference voxels from labeled images. We applied this method to automate hip bone segmentation in CT images, achieving notable results with just 4 CT scans. The proposed approach yielded a Hausdorff distance with 95th percentile (HD95) of 3.30 and IoU of 0.929, surpassing existing methods achieving HD95 (4.07) and IoU (0.927) at their best.
翻訳日:2024-07-08 12:41:40 公開日:2024-07-05
# 量子ホール系の端における量子化円二色性:端から見た多体チャーン数

Quantized circular dichroism on the edge of quantum Hall systems: The many-body Chern number as seen from the edge ( http://arxiv.org/abs/2407.04639v1 )

ライセンス: Link先を確認
F. Nur Ünal, A. Nardin, N. Goldman, (参考訳) 量子ホール状態は、多体チャーン数という位相不変量によって特徴づけられ、ホール導電率の量子化値を決定する。 興味深いことに、このトポロジカル特性は、系を円形駆動に従属させ、駆動の反対方向の励起速度を比較することにより、散逸応答を通じてアクセスすることもできる。 この量子化された円二元論は、バルクだけが反応に寄与すると仮定する。 実際、限定的かつ孤立的なシステムでは、エッジコントリビューションはバルク応答を正確にキャンセルする。 適切に単離された場合、量子ホール液滴の端から発生する円二色反応は量子化されなければならないため、多体チャーン数を調べるための魅力的な方法が提供される。 重要なことに、この量子化されたエッジ応答は低エネルギーのカイラルエッジモードによって完全に捕捉され、ウェンのエッジ理論に基づくこの効果の普遍的な記述を可能にする。 その低エネルギー性は、量子化されたエッジ応答が周波数領域のバルク応答と区別できることを意味する。 本研究は, 端面の異なる整数および分数チャーン絶縁体の現実モデルを用いて検討し, 超低温原子に適した検出手法を提案する。 エッジ二色性反応は強相関位相の実用的なプローブとして現れ、低温原子実験で利用することができる。

Quantum Hall states are characterized by a topological invariant, the many-body Chern number, which determines the quantized value of the Hall conductivity. Interestingly, this topological property can also be accessed through a dissipative response, by subjecting the system to a circular drive and comparing excitation rates obtained for opposite orientations of the drive. This quantized circular dichroism assumes that only the bulk contributes to the response. Indeed, in a confined and isolated system, the edge contribution exactly cancels the bulk response. This work explores an important corollary of the latter observation: If properly isolated, the circular dichroic response stemming from the edge of a quantum Hall droplet must be quantized, thus providing an appealing way to probe the many-body Chern number. Importantly, we demonstrate that this quantized edge response is entirely captured by low-energy chiral edge modes, allowing for a universal description of this effect based on Wen's edge theory. Its low-energy nature implies that the quantized edge response can be distinguished from the bulk response in the frequency domain. We illustrate our findings using realistic models of integer and fractional Chern insulators, with different edge geometries, and propose detection schemes suitable for ultracold atoms. Edge dichroic responses emerge as a practical probe for strongly-correlated topological phases, accessible in cold-atom experiments.
翻訳日:2024-07-08 12:41:40 公開日:2024-07-05
# 言語モデルの低ランク適応による投機的音声認識

Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models ( http://arxiv.org/abs/2407.04641v1 )

ライセンス: Link先を確認
Bolaji Yusuf, Murali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran, (参考訳) 本稿では、投機的音声認識(SSR)について検討し、従来の自動音声認識(ASR)に投機的機能を持たせることにより、認識者が音声に先んじることを可能にする。 本稿では,RNN-Transducer-based ASRシステムと音声修正言語モデル(LM)を組み合わせることで,SSRの性能を測定するための指標を提案する。 ASRシステムは進行中の音声を転写し、その結果の転写文とオーディオ依存プレフィックスをLMに供給する。 我々は,ASRレイテンシを低減する手法として,本手法の有効性とSSRの有効性を示すさまざまなASRデータセットを実験した。

This paper explores speculative speech recognition (SSR), where we empower conventional automatic speech recognition (ASR) with speculation capabilities, allowing the recognizer to run ahead of audio. We introduce a metric for measuring SSR performance and we propose a model which does SSR by combining a RNN-Transducer-based ASR system with an audio-prefixed language model (LM). The ASR system transcribes ongoing audio and feeds the resulting transcripts, along with an audio-dependent prefix, to the LM, which speculates likely completions for the transcriptions. We experiment with a variety of ASR datasets on which show the efficacy our method and the feasibility of SSR as a method of reducing ASR latency.
翻訳日:2024-07-08 12:41:40 公開日:2024-07-05
# ロケットと電子の効率的なインフォマティクス

Efficient Materials Informatics between Rockets and Electrons ( http://arxiv.org/abs/2407.04648v1 )

ライセンス: Link先を確認
Adam M. Krajewski, (参考訳) 計算研究の真の力は、通常、それが達成したものと、それが他が達成できるもののいずれかに置かれる。 この研究では、両方の道は、物質とは何か、原子論、物理的、そしてデザインの3つの一般的な抽象スケールに存在するいくつかの異なる取り組みに同時に受け入れられます。 それぞれ、(1)データを含む基礎となる事前知識の基本的な理解、(2)それを利用する展開経路、(3)それを自律的または半自律的に拡張するための経路、そして(3)人工知能(AI)に強く依存し、よく確立されたDFTベースのabイニシアチブおよびCALPHADベースの熱力学手法をガイドすることに基づいて、効率的な材料情報基盤が構築されている。 結果として生じるマルチレベル発見インフラストラクチャは、既存のソリューションを探すのではなく、問題のエンコーディングに重点を置いているため、非常に一般化可能である。 本論文では,超高温耐火高エントロピー合金(RHEA)をガスタービンに導入した多合金機能材料(FGM)の設計について論じる。 基礎となる数学的空間の新しいグラフ表現を、コンビネータ論に基づく新しいアルゴリズムを用いて利用し、コミュニティを悩ませる多くの問題に対処する。 資産モデルと位相関係は、世界最大かつ最高品質のHEAデータセットの最適化サンプリングから学習される。 原子論レベルでは、MPDDと呼ばれる450万以上の緩和された構造から機械学習(ML)に最適化されたデータエコシステムを使用して、実験的な観察を知らせ、新しい効率的な破砕フレームワークによって実現された安定性データを提供することで熱力学モデルを改善する。

The true power of computational research typically can lay in either what it accomplishes or what it enables others to accomplish. In this work, both avenues are simultaneously embraced across several distinct efforts existing at three general scales of abstractions of what a material is - atomistic, physical, and design. At each, an efficient materials informatics infrastructure is being built from the ground up based on (1) the fundamental understanding of the underlying prior knowledge, including the data, (2) deployment routes that take advantage of it, and (3) pathways to extend it in an autonomous or semi-autonomous fashion, while heavily relying on artificial intelligence (AI) to guide well-established DFT-based ab initio and CALPHAD-based thermodynamic methods. The resulting multi-level discovery infrastructure is highly generalizable as it focuses on encoding problems to solve them easily rather than looking for an existing solution. To showcase it, this dissertation discusses the design of multi-alloy functionally graded materials (FGMs) incorporating ultra-high temperature refractory high entropy alloys (RHEAs) towards gas turbine and jet engine efficiency increase reducing CO2 emissions, as well as hypersonic vehicles. It leverages a new graph representation of underlying mathematical space using a newly developed algorithm based on combinatorics, not subject to many problems troubling the community. Underneath, property models and phase relations are learned from optimized samplings of the largest and highest quality dataset of HEA in the world, called ULTERA. At the atomistic level, a data ecosystem optimized for machine learning (ML) from over 4.5 million relaxed structures, called MPDD, is used to inform experimental observations and improve thermodynamic models by providing stability data enabled by a new efficient featurization framework.
翻訳日:2024-07-08 12:41:40 公開日:2024-07-05
# 産業ソフトウェア工学によるアクションリサーチ-教育的視点

Action Research with Industrial Software Engineering -- An Educational Perspective ( http://arxiv.org/abs/2407.04650v1 )

ライセンス: Link先を確認
Yvonne Dittrich, Johan Bolmsten, Catherine Seidelin, (参考訳) Action Researchは、産業環境でのソフトウェアエンジニアリング手法の有用性とユーザビリティを探る機会を提供し、ソフトウェアエンジニアリング実践者との手法、ツール、テクニックの開発を可能にする。 しかしながら、研究が観察的アプローチを超えて進むにつれ、ソフトウェア開発組織と異なる種類のインタラクションが必要になる。 これにより、アクションリサーチは挑戦的な取り組みとなり、原則を説明する以上のコースを通じてアクションリサーチを教えるのが難しくなります。 この章は、アクションリサーチの学習と教育を支援することを目的としており、豊富なサンプルセットを提供し、アクションリサーチプロジェクトで役に立つツールを特定します。 この章の中核は、参加する開発者とドメインの専門家、そして組織的な設定との相互作用に焦点を当てています。 この章は、著者が参加したアクションリサーチプロジェクトにおいて再発見された一連の課題に基づいて構成されている。 各セクションには、関連する技術やツールを示すツールキットが付属している。 エクササイズはトピックを探索し、ツールやテクニックを使って実践するために設計されています。 この章の資料は、この有望な機会をさらに探求するために、新しく行動研究を行う研究者を奨励することを願っている。

Action research provides the opportunity to explore the usefulness and usability of software engineering methods in industrial settings, and makes it possible to develop methods, tools and techniques with software engineering practitioners. However, as the research moves beyond the observational approach, it requires a different kind of interaction with the software development organisation. This makes action research a challenging endeavour, and it makes it difficult to teach action research through a course that goes beyond explaining the principles. This chapter is intended to support learning and teaching action research, by providing a rich set of examples, and identifying tools that we found helpful in our action research projects. The core of this chapter focusses on our interaction with the participating developers and domain experts, and the organisational setting. This chapter is structured around a set of challenges that reoccurred in the action research projects in which the authors participated. Each section is accompanied by a toolkit that presents related techniques and tools. The exercises are designed to explore the topics, and practise using the tools and techniques presented. We hope the material in this chapter encourages researchers who are new to action research to further explore this promising opportunity.
翻訳日:2024-07-08 12:41:40 公開日:2024-07-05
# 医用画像における解剖学的部分切除のためのSAM Fewshot Finetuning

SAM Fewshot Finetuning for Anatomical Segmentation in Medical Images ( http://arxiv.org/abs/2407.04651v1 )

ライセンス: Link先を確認
Weiyi Xie, Nathalie Willems, Shubham Patil, Yang Li, Mayank Kumar, (参考訳) 医用画像の解剖学的セグメンテーションタスクにSAM(Seegment Anything)を適用するための、単純かつ高効率な数ショット微調整戦略を提案する。 我々の新しいアプローチはSAM内のマスクデコーダをリフォームし、ラベル付き画像の限られたセット(フェーショットコレクション)から得られる少数の埋め込みを、画像埋め込みでキャプチャーされた解剖学的オブジェクトのクエリーのプロンプトとして活用する。 この革新的な改革により、スライスによるプロンプトスライスを提供するために、抜本的なマーキングポイントやバウンディングボックスなどのボリューム画像のラベル付けに時間を要するオンラインユーザインタラクションが大幅に削減される。 提案手法では,ユーザが手動で2Dスライスをオフラインで分割することができ,アノテーション付き画像領域の埋め込みがオンラインセグメンテーションタスクの効果的なプロンプトとなる。 本手法は,画像エンコーダの凍結を保ちながら,キャッシング機構を通じてマスクデコーダのみを訓練することにより,微調整プロセスの効率を優先する。 重要なことは、このアプローチはボリューム医療画像に限らず、汎用的に任意の2D/3Dセグメンテーションタスクに適用できるということだ。 本手法を徹底的に評価するために,2つのモードにわたる6つの解剖学的セグメンテーションタスクを網羅した4つのデータセットに対する広範囲な検証を行った。 さらに、SAMと完全教師付きnnU-Net内の異なるプロンプトオプションの比較分析を行った。 以上の結果から,IoUを50%向上させる点数のみを用いたSAMに比べて,本手法の優れた性能を示すとともに,ラベル付きデータの要求を少なくとも1桁の精度で低減しつつ,完全教師付き手法でオンパーを行うことができた。

We propose a straightforward yet highly effective few-shot fine-tuning strategy for adapting the Segment Anything (SAM) to anatomical segmentation tasks in medical images. Our novel approach revolves around reformulating the mask decoder within SAM, leveraging few-shot embeddings derived from a limited set of labeled images (few-shot collection) as prompts for querying anatomical objects captured in image embeddings. This innovative reformulation greatly reduces the need for time-consuming online user interactions for labeling volumetric images, such as exhaustively marking points and bounding boxes to provide prompts slice by slice. With our method, users can manually segment a few 2D slices offline, and the embeddings of these annotated image regions serve as effective prompts for online segmentation tasks. Our method prioritizes the efficiency of the fine-tuning process by exclusively training the mask decoder through caching mechanisms while keeping the image encoder frozen. Importantly, this approach is not limited to volumetric medical images, but can generically be applied to any 2D/3D segmentation task. To thoroughly evaluate our method, we conducted extensive validation on four datasets, covering six anatomical segmentation tasks across two modalities. Furthermore, we conducted a comparative analysis of different prompting options within SAM and the fully-supervised nnU-Net. The results demonstrate the superior performance of our method compared to SAM employing only point prompts (approximately 50% improvement in IoU) and performs on-par with fully supervised methods whilst reducing the requirement of labeled data by at least an order of magnitude.
翻訳日:2024-07-08 12:41:40 公開日:2024-07-05
# 自動音響ユニットによるエンド・ツー・エンドキーワード検索の事前学習

Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units ( http://arxiv.org/abs/2407.04652v1 )

ライセンス: Link先を確認
Bolaji Yusuf, Jan "Honza" Černocký, Murat Saraçlar, (参考訳) E2E(End-to-end)キーワードサーチ(KWS)は,自動音声認識(ASR)システムの出力に依存する従来のキーワードサーチに対して,代替的かつ補完的なアプローチとして登場した。 E2E メソッドは KWS パイプラインを大幅に単純化するが、一般的には ASR ベースのパイプラインよりもパフォーマンスが劣る。 本研究では,非転写データを用いたE2E KWSシステムの事前学習手法を提案する。 我々は言語やAUDシステムに対して実験を行い、そのようなモデルを微調整することで、スクラッチからトレーニングしたモデルよりも大幅に性能が向上し、性能改善は一般的にプレトレーニングに使用されるAUDシステムの品質と相関することを示した。

End-to-end (E2E) keyword search (KWS) has emerged as an alternative and complimentary approach to conventional keyword search which depends on the output of automatic speech recognition (ASR) systems. While E2E methods greatly simplify the KWS pipeline, they generally have worse performance than their ASR-based counterparts, which can benefit from pretraining with untranscribed data. In this work, we propose a method for pretraining E2E KWS systems with untranscribed data, which involves using acoustic unit discovery (AUD) to obtain discrete units for untranscribed data and then learning to locate sequences of such units in the speech. We conduct experiments across languages and AUD systems: we show that finetuning such a model significantly outperforms a model trained from scratch, and the performance improvements are generally correlated with the quality of the AUD system used for pretraining.
翻訳日:2024-07-08 12:41:40 公開日:2024-07-05
# Lazarus: 適応的なエキスパート配置を備えたMixture-of-Expertsモデルのレジリエントで弾力的なトレーニング

Lazarus: Resilient and Elastic Training of Mixture-of-Experts Models with Adaptive Expert Placement ( http://arxiv.org/abs/2407.04656v1 )

ライセンス: Link先を確認
Yongji Wu, Wenjie Qu, Tianyang Tao, Zhuang Wang, Wei Bai, Zhuohao Li, Yuan Tian, Jiaheng Zhang, Matthew Lentz, Danyang Zhuo, (参考訳) 計算コストのサブ線形スケーリングによって,大規模言語モデル (LLM) をさらにスケールするために,疎活性なMixture-of-Experts (MoE) アーキテクチャが採用されてきている。 しかし、トレーニングの規模が大きくなるにつれ、頻繁な失敗は依然として重大な課題となる。 単一障害のコストは、すべてのGPUが障害が解決するまでアイドルを待たなければならないため、トレーニングがチェックポイントから再開する必要があるため、トレーニングの進捗がかなり失われる可能性があるため、非常に大きい。 効率的なフォールトトレラントトレーニングのための既存のソリューションは、弾力性に欠けるか、パイプライン並列化へのレジリエンスの構築に依存している。 本稿では,MoEモデルの弾力性と弾力性を備えたトレーニングシステムであるLazarusについて述べる。 ラザラスはエキスパートのレプリカを適応的に割り当て、専門家の作業負荷とスピードアップトレーニングの固有の不均衡に対処する。 適応的な専門家配置とフレキシブルなトークンディスパッチを通じて、Lazarusは障害後のすべての利用可能なノードをフル活用することが可能で、GPUアイドルは発生しない。 評価の結果、Lazarusはノード障害の頻度で5.7倍、実際のインスタンストレースで3.4倍、既存のMoEトレーニングシステムよりも優れていた。

Sparsely-activated Mixture-of-Experts (MoE) architecture has increasingly been adopted to further scale large language models (LLMs) due to its sub-linear scaling for computation costs. However, frequent failures still pose significant challenges as training scales. The cost of even a single failure is significant, as all GPUs need to wait idle until the failure is resolved, potentially losing considerable training progress as training has to restart from checkpoints. Existing solutions for efficient fault-tolerant training either lack elasticity or rely on building resiliency into pipeline parallelism, which cannot be applied to MoE models due to the expert parallelism strategy adopted by the MoE architecture. We present Lazarus, a system for resilient and elastic training of MoE models. Lazarus adaptively allocates expert replicas to address the inherent imbalance in expert workload and speeds-up training, while a provably optimal expert placement algorithm is developed to maximize the probability of recovery upon failures. Through adaptive expert placement and a flexible token dispatcher, Lazarus can also fully utilize all available nodes after failures, leaving no GPU idle. Our evaluation shows that Lazarus outperforms existing MoE training systems by up to 5.7x under frequent node failures and 3.4x on a real spot instance trace.
翻訳日:2024-07-08 12:41:40 公開日:2024-07-05
# アイントホーフェン工科大学における実証的方法の教育

Teaching Empirical Methods at Eindhoven University of Technology ( http://arxiv.org/abs/2407.04657v1 )

ライセンス: Link先を確認
Alexander Serebrenik, Nathan Cassee, (参考訳) 本章では,オランダのアイントホーフェン工科大学で実証研究方法の修士課程を修了した経験報告を紹介する。 このコースは10週間、異なる学習プログラムの学生に教えられ、実践的な課題と閉書試験を組み合わせる。 研究手法を講義する際の課題について議論し、コース設計におけるこれらの課題にどのように対処するかを説明する。 さらに、学んだ教訓と、コースを教えるのに何回も繰り返して学んだことを共有しています。

In this chapter, we share an experience report of teaching a master course on empirical research methods at Eindhoven University of Technology in the Netherlands. The course is taught for ten weeks to a mix of students from different study programs and combines both practical assignments with a closed-book exam. We discuss the challenges of teaching a course on research methods and explain how we address these challenges in the course design. Additionally, we share our lessons learned and the do's and don'ts we learned over several iterations of teaching the course.
翻訳日:2024-07-08 12:41:40 公開日:2024-07-05
# キーワードスポッティングのためのマルチタッパーメル・スペクトログラム

Multitaper mel-spectrograms for keyword spotting ( http://arxiv.org/abs/2407.04662v1 )

ライセンス: Link先を確認
Douglas Baptista de Souza, Khaled Jamal Bakri, Fernanda Ferreira, Juliana Inacio, (参考訳) キーワードスポッティング(KWS)は特徴表現の品質に最も敏感な音声認識タスクの一つである。 しかしながら、KWSの研究は伝統的に新しいモデルトポロジに焦点を当てており、機能抽出のような他の側面にはほとんど重点を置いていない。 そこで本研究では,KWSの改良機能を実現するために,マルチタッパー技術を用いた手法について検討する。 この実験は、さまざまなテストシナリオ、ウィンドウとパラメータ、データセット、組み込みKWSアプリケーションで一般的に使用されるニューラルネットワークに対して実施されている。 提案した改良機能を使用することの利点を実験により確認した。

Keyword spotting (KWS) is one of the speech recognition tasks most sensitive to the quality of the feature representation. However, the research on KWS has traditionally focused on new model topologies, putting little emphasis on other aspects like feature extraction. This paper investigates the use of the multitaper technique to create improved features for KWS. The experimental study is carried out for different test scenarios, windows and parameters, datasets, and neural networks commonly used in embedded KWS applications. Experiment results confirm the advantages of using the proposed improved features.
翻訳日:2024-07-08 12:41:40 公開日:2024-07-05
# 時空間オプティカルフローネットワークを用いた非教師なし4次元心臓運動追跡

Unsupervised 4D Cardiac Motion Tracking with Spatiotemporal Optical Flow Networks ( http://arxiv.org/abs/2407.04663v1 )

ライセンス: Link先を確認
Long Teng, Wei Feng, Menglong Zhu, Xinchao Li, (参考訳) 心エコー法による心臓運動追跡は、心臓循環内における心筋運動の推定と定量化に使用できる。 心筋機能を評価するための費用効率が高く効果的な方法である。 しかし、超音波画像は、空間的低分解能と時間的ランダムノイズの固有の特徴を持ち、信頼できるアノテーションを得るのに困難をもたらす。 したがって、モーショントラッキングのための教師あり学習を行うことは困難である。 また、現在文献にはエンドツーエンドの教師なしの手法は存在しない。 本稿では、空間的再構成損失と時間的整合損失を伴って、教師なし光フローネットワークを設計する動作追跡手法を提案する。 提案する損失関数はペアワイズと時間的相関を利用してノイズ背景から心臓の動きを推定する。 人工心エコーデータを用いた実験により, 従来の方法よりも精度, 走行速度が優れていることがわかった。 我々の知る限り、これは4次元心運動追跡のための教師なしエンドツーエンドのディープラーニング光フローネットワークを用いた最初の研究である。

Cardiac motion tracking from echocardiography can be used to estimate and quantify myocardial motion within a cardiac cycle. It is a cost-efficient and effective approach for assessing myocardial function. However, ultrasound imaging has the inherent characteristics of spatially low resolution and temporally random noise, which leads to difficulties in obtaining reliable annotation. Thus it is difficult to perform supervised learning for motion tracking. In addition, there is no end-to-end unsupervised method currently in the literature. This paper presents a motion tracking method where unsupervised optical flow networks are designed with spatial reconstruction loss and temporal-consistency loss. Our proposed loss functions make use of the pair-wise and temporal correlation to estimate cardiac motion from noisy background. Experiments using a synthetic 4D echocardiography dataset has shown the effectiveness of our approach, and its superiority over existing methods on both accuracy and running speed. To the best of our knowledge, this is the first work performed that uses unsupervised end-to-end deep learning optical flow network for 4D cardiac motion tracking.
翻訳日:2024-07-08 12:41:40 公開日:2024-07-05
# 確率行列の直径:ベイズネットワークにおける感度解析の新しい尺度

The diameter of a stochastic matrix: A new measure for sensitivity analysis in Bayesian networks ( http://arxiv.org/abs/2407.04667v1 )

ライセンス: Link先を確認
Manuele Leonelli, Jim Q. Smith, Sophia K. Wright, (参考訳) ベイズネットワークは、不均一な情報を含む際の解釈可能性と柔軟性のため、リスク管理と意思決定支援のために最も広く使われている確率モデルの一つである。 任意の応用モデリングでは、特定の対象変数に対する推論がモデルの変化に対してどれほど堅牢であるかを評価することが重要である。 ベイズネットワークでは、これらの分析は感度分析の傘の下に置かれており、最も一般的にはクルバック・リーブラー情報測度を用いて相似性を定量化することによって行われる。 本稿では、親しみやすい全変分距離に基づくロバストネス法は、形式上は正当かつ透明な不特定性に対するロバストネスに、単純かつより価値の高いバウンダリを与えると論じる。 このような境界を導出するために、直径と呼ばれる条件付き確率表への依存の新たな尺度を導入する。 この尺度は、変数とその親間の依存の強さを定量化する。 ベイズネットワークの構築において,このような形式的頑健性を考慮した考察が組み込まれていることを示す。

Bayesian networks are one of the most widely used classes of probabilistic models for risk management and decision support because of their interpretability and flexibility in including heterogeneous pieces of information. In any applied modelling, it is critical to assess how robust the inferences on certain target variables are to changes in the model. In Bayesian networks, these analyses fall under the umbrella of sensitivity analysis, which is most commonly carried out by quantifying dissimilarities using Kullback-Leibler information measures. In this paper, we argue that robustness methods based instead on the familiar total variation distance provide simple and more valuable bounds on robustness to misspecification, which are both formally justifiable and transparent. We introduce a novel measure of dependence in conditional probability tables called the diameter to derive such bounds. This measure quantifies the strength of dependence between a variable and its parents. We demonstrate how such formal robustness considerations can be embedded in building a Bayesian network.
翻訳日:2024-07-08 12:41:40 公開日:2024-07-05
# 任意多部交絡状態の局所隠れ変数モデルと任意測定

Discovering Local Hidden-Variable Models for Arbitrary Multipartite Entangled States and Arbitrary Measurements ( http://arxiv.org/abs/2407.04673v1 )

ライセンス: Link先を確認
Nick von Selzam, Florian Marquardt, (参考訳) 量子系における測定相関は、デバイス非依存の量子情報処理のような応用と、量子力学の基本的な側面である非局所的な挙動を示すことができる。 しかし、局所隠れ変数モデル(LHV)の明示的な構築は、一般的な設定では際立った課題である。 そこで我々は, 量子多体状態の任意の測定値の統計を再現するLHVモデルを求めるために, 機械学習からの勾配差アルゴリズムを用いた手法を開発した。 従来の手法とは対照的に,本手法では一般的なアンサッツを用いて,状態が局所的であるすべての場合においてLHVモデルを発見することができる。 したがって、2キュービットのヴェルナー状態と3キュービットのGHZ状態とW状態が非局所となる臨界雑音レベルについて、実際の推定値を提供する。 さらに、翻訳不変なハミルトン多様体の基底状態の2スピン部分系が局所的であることを示す証拠が見つかっているが、より大きな部分系は一般にそうではない。 現在,本手法は,非平衡やデコヒーレンスを含む,任意の物理的文脈における非局所性の状況を決定するための定量的ツールを提供する。

Measurement correlations in quantum systems can exhibit non-local behavior, a fundamental aspect of quantum mechanics with applications such as device-independent quantum information processing. However, the explicit construction of local hidden-variable (LHV) models remains an outstanding challenge in the general setting. To address this, we develop an approach that employs gradient-descent algorithms from machine learning to find LHV models which reproduce the statistics of arbitrary measurements for quantum many-body states. In contrast to previous approaches, our method employs a general ansatz, enabling it to discover an LHV model in all cases where the state is local. Therefore, it provides actual estimates for the critical noise levels at which two-qubit Werner states and three-qubit GHZ and W states become non-local. Furthermore, we find evidence suggesting that two-spin subsystems in the ground states of translationally invariant Hamiltonians are local, while bigger subsystems are in general not. Our method now offers a quantitative tool for determining the regimes of non-locality in any given physical context, including scenarios involving non-equilibrium and decoherence.
翻訳日:2024-07-08 12:41:40 公開日:2024-07-05
# オープンソースのソフトウェアコントリビューションプロセスを学ぶためのゲーム要素

Game Elements to Engage Students Learning the Open Source Software Contribution Process ( http://arxiv.org/abs/2407.04674v1 )

ライセンス: Link先を確認
Italo Santos, Katia Romero Felizardo, Marco A. Gerosa, Igor Steinmacher, (参考訳) OSSプロジェクトへの貢献は、学生のスキル向上とプロフェッショナルネットワークの拡大に役立つ。 しかしながら、初心者のコントリビュータは、さまざまな障壁のために、しばしば失望を感じます。 ゲーミフィケーション技術は、エンゲージメントを促進し、学習プロセスを促進する可能性を秘めている。 しかし、この文脈でどのゲーム要素が有効であるかは不明である。 本研究では,ゲーミフィケーション要素に対する学生の認識を調査し,ゲーミフィケーション学習環境の設計について報告する。 1)認知スタイル,(2)性別,(3)民族性(ヒスパニック/ラテンX,非ヒスパニック/ラテンX)という3つの視点から分析を行った。 その結果、Quest、Point、Stats、Badgeが好まれる要素であり、競合や圧力関連の要素があまり好まれないことが判明した。 認知スタイル(ペルソナ)、性別、民族など、Tim's GenderMagペルソナを除いて統計的差異は観察できなかった。 逆にヒスパニック/ラテンXの参加者は選択要素を好んだ。 これらの結果は、OSSコントリビューションプロセスに焦点を当てた効果的なゲーミフィケーション学習環境の設計において、ツールビルダーを導くことができる。

Contributing to OSS projects can help students to enhance their skills and expand their professional networks. However, novice contributors often feel discouraged due to various barriers. Gamification techniques hold the potential to foster engagement and facilitate the learning process. Nevertheless, it is unknown which game elements are effective in this context. This study explores students' perceptions of gamification elements to inform the design of a gamified learning environment. We surveyed 115 students and segmented the analysis from three perspectives: (1) cognitive styles, (2) gender, and (3) ethnicity (Hispanic/LatinX and Non-Hispanic/LatinX). The results showed that Quest, Point, Stats, and Badge are favored elements, while competition and pressure-related are less preferred. Across cognitive styles (persona), gender, and ethnicity, we could not observe any statistical differences, except for Tim's GenderMag persona, which demonstrated a higher preference for storytelling. Conversely, Hispanic/LatinX participants showed a preference for the Choice element. These results can guide tool builders in designing effective gamified learning environments focused on the OSS contributions process.
翻訳日:2024-07-08 12:31:56 公開日:2024-07-05
# 足部温熱検査は糖尿病性足部潰瘍のリスク評価に有効なデジタルバイオマーカーか?

Is plantar thermography a valid digital biomarker for characterising diabetic foot ulceration risk? ( http://arxiv.org/abs/2407.04676v1 )

ライセンス: Link先を確認
Akshay Jagadeesh, Chanchanok Aramrat, Aqsha Nur, Poppy Mallinson, Sanjay Kinra, (参考訳) 背景: 糖尿病性足部潰瘍(DFU)に関する予報データがない場合, 原因因子(末梢神経障害, 末梢動脈疾患(PAD))と断面積の関連性は, DFUの危険層化のための植物サーモグラフィーの妥当性の確立に有効であった。 方法: まず, 教師なし深層学習フレームワークを用いて, 植物熱画像の内在クラスタとDFUリスク要因との関連について検討した。 得られたサーモグラフィークラスターとDFUリスクファクターの関連について検討した。 次に,教師付き学習を用いて,サーモグラフ(および視覚)入力に基づいて危険因子を予測する畳み込みニューラルネットワーク(CNN)回帰/分類モデルを訓練した。 結果: 2型糖尿病患者282例(56.31+-9.18歳,男性51.42%)から得られた。 クラスタリングでは、2つの重なり合うクラスタが見つかった(シルエットスコア=0.10、弱い分離を示す)。 割り当てられたクラスターと、末梢神経障害、PAD、糖尿病の合併症数、Martins-Mendes、PODUS-2020、SIGNなどの複合DFUリスク予測スコアなど、糖尿病性足の潰瘍に関連するいくつかの要因との関連性は強い。 しかし、リスク要因を予測するモデルでは、性能が低かった。 解釈:本態性サーモグラフィークラスターといくつかのDFUリスク要因の強い関連は,DFUリスクを特徴づけるためにサーモグラフィーを使用することの有効性を裏付ける。 しかし、得られた関連性は、おそらくスペクトルバイアスによるものか、サーモグラフィーと古典的リスクファクターがDFUリスク構造の不完全重複部分を特徴付けるため、予測的であることが証明されなかった。 本研究は,新たなデジタルバイオマーカーの定義において,基礎的真理を標準化する上での課題を浮き彫りにした。

Background: In the absence of prospective data on diabetic foot ulcers (DFU), cross-sectional associations with causal risk factors (peripheral neuropathy, and peripheral arterial disease (PAD)) could be used to establish the validity of plantar thermography for DFU risk stratification. Methods: First, we investigated the associations between the intrinsic clusters of plantar thermographic images with several DFU risk factors using an unsupervised deep-learning framework. We then studied associations between obtained thermography clusters and DFU risk factors. Second, to identify those associations with predictive power, we used supervised learning to train Convolutional Neural Network (CNN) regression/classification models that predicted the risk factor based on the thermograph (and visual) input. Findings: Our dataset comprised 282 thermographs from type 2 diabetes mellitus patients (aged 56.31 +- 9.18 years, 51.42 % males). On clustering, we found two overlapping clusters (silhouette score = 0.10, indicating weak separation). There was strong evidence for associations between assigned clusters and several factors related to diabetic foot ulceration such as peripheral neuropathy, PAD, number of diabetes complications, and composite DFU risk prediction scores such as Martins-Mendes, PODUS-2020, and SIGN. However, models predicting said risk factors had poor performances. Interpretation: The strong associations between intrinsic thermography clusters and several DFU risk factors support the validity of using thermography for characterising DFU risk. However, obtained associations did not prove to be predictive, likely due to, spectrum bias, or because thermography and classical risk factors characterise incompletely overlapping portions of the DFU risk construct. Our findings highlight the challenges in standardising ground truths when defining novel digital biomarkers.
翻訳日:2024-07-08 12:31:56 公開日:2024-07-05
# XQSV:Xiangqiにおける人間の遊びを省略する構造可変ネットワーク

XQSV: A Structurally Variable Network to Imitate Human Play in Xiangqi ( http://arxiv.org/abs/2407.04678v1 )

ライセンス: Link先を確認
Chenliang Zhou, (参考訳) 本稿では、Xiangqi Structurely Variable (XQSV)と呼ばれる革新的なディープラーニングアーキテクチャを導入し、Xiangqi(中国チェス)における人間のプレイヤーの行動パターンをエミュレートする。 XQSVのユニークな特性は、その構造構成を動的に変更し、トレーニングされたデータの特定のサブセットに基づいてタスクのパフォーマンスを最適化する能力である。 我々は,ローカルな不正移動フィルタ,エロレンジ分割,逐次的な1次元入力,不完全なメモリ容量のシミュレーションなど,ネットワークの予測精度を大幅に向上させる設計上の改良を取り入れた。 実験的な評価により、XQSVは予測精度が約40%に達し、その性能は訓練されたエロ範囲内でピークに達することが判明した。 このことは、モデルが特定の範囲内での個人の遊び行動の模倣に成功したことを示している。 XQSVモデルは従来のXiangqiエンジンよりも正確に人間の行動を模倣し、実際の人間と区別できないことを示した。 人間のゲームプレイに固有の非決定性を考えると,2つの補足的緩和評価指標を提案する。 我々の知る限り、XQSVはXiangqiプレーヤーを模倣する最初のモデルである。

In this paper, we introduce an innovative deep learning architecture, termed Xiangqi Structurally Variable (XQSV), designed to emulate the behavioral patterns of human players in Xiangqi, or Chinese Chess. The unique attribute of XQSV is its capacity to alter its structural configuration dynamically, optimizing performance for the task based on the particular subset of data on which it is trained. We have incorporated several design improvements to significantly enhance the network's predictive accuracy, including a local illegal move filter, an Elo range partitioning, a sequential one-dimensional input, and a simulation of imperfect memory capacity. Empirical evaluations reveal that XQSV attains a predictive accuracy of approximately 40%, with its performance peaking within the trained Elo range. This indicates the model's success in mimicking the play behavior of individuals within that specific range. A three-terminal Turing Test was employed to demonstrate that the XQSV model imitates human behavior more accurately than conventional Xiangqi engines, rendering it indistinguishable from actual human opponents. Given the inherent nondeterminism in human gameplay, we propose two supplementary relaxed evaluation metrics. To our knowledge, XQSV represents the first model to mimic Xiangqi players.
翻訳日:2024-07-08 12:31:56 公開日:2024-07-05
# 翻訳で失われた: LMと脳のアルゴリズム的ギャップ

Lost in Translation: The Algorithmic Gap Between LMs and the Brain ( http://arxiv.org/abs/2407.04680v1 )

ライセンス: Link先を確認
Tommaso Tosato, Pascal Jr Tikeng Notsawo, Saskia Helbling, Irina Rish, Guillaume Dumas, (参考訳) 言語モデル(LM)は、様々な言語課題において印象的な性能を達成しているが、脳内の人間の言語処理との関係は未だ不明である。 本稿では,異なるレベルの解析において,LMと脳のギャップと重なりについて検討し,これらのシステムの内部過程を検証・比較するために,入力・出力動作を超えて見ることの重要性を強調した。 神経科学からの洞察(空間性、モジュール性、内部状態、インタラクティブ学習など)が、より生物学的に妥当な言語モデルの開発にどのように役立つかについて議論する。 さらに,LMと人間の認知のギャップを埋める上でのスケーリング法則の役割について考察し,生物学的システムに類似した効率制約の必要性を強調した。 脳機能をより密接に模倣するLMを開発することで、人工知能と人間の認知の理解の両方を前進させることを目指している。

Language Models (LMs) have achieved impressive performance on various linguistic tasks, but their relationship to human language processing in the brain remains unclear. This paper examines the gaps and overlaps between LMs and the brain at different levels of analysis, emphasizing the importance of looking beyond input-output behavior to examine and compare the internal processes of these systems. We discuss how insights from neuroscience, such as sparsity, modularity, internal states, and interactive learning, can inform the development of more biologically plausible language models. Furthermore, we explore the role of scaling laws in bridging the gap between LMs and human cognition, highlighting the need for efficiency constraints analogous to those in biological systems. By developing LMs that more closely mimic brain function, we aim to advance both artificial intelligence and our understanding of human cognition.
翻訳日:2024-07-08 12:31:56 公開日:2024-07-05
# 外部知識を用いたマルチモーダル大言語モデルの視覚的プロンプト再考

Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge ( http://arxiv.org/abs/2407.04681v1 )

ライセンス: Link先を確認
Yuanze Lin, Yunsheng Li, Dongdong Chen, Weijian Xu, Ronald Clark, Philip Torr, Lu Yuan, (参考訳) 近年,マルチモーダルな大規模言語モデル (MLLM) は,高品質な画像テキストデータセットを訓練することで,画像の理解を深めている。 しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMの課題となり、詳細または局所的な視覚要素の理解を必要とする質問に答える能力を制限する。 本稿では,Retrieval-Augmented Generation(RAG)の概念からインスピレーションを得て,特殊な視覚モデル(例:インスタンスセグメンテーション/OCRモデル)をMLLMに統合する視覚的プロンプト手法を提案する。 これはMLLMの性能を高めるための、有望だが未発見の方向性である。 我々のアプローチは、外部知識を追加のテキストプロンプトに変換する並行処理から分岐し、視覚コンテンツとテキスト座標の対応を間接的に学習するモデルを必要とする。 代わりに、視覚的なプロンプトとして、きめ細かい知識情報を空間埋め込みマップに直接埋め込む方法を提案する。 この設計は、LLaVAやMiphaといった様々なMLLMに強制的に組み込まれ、視覚的理解性能が大幅に向上する。 厳密な実験により、我々は9つのベンチマークでMLLM性能を向上し、その微粒なコンテキスト認識能力を増幅できることを実証した。

In recent years, multimodal large language models (MLLMs) have made significant strides by training on vast high-quality image-text datasets, enabling them to generally understand images well. However, the inherent difficulty in explicitly conveying fine-grained or spatially dense information in text, such as masks, poses a challenge for MLLMs, limiting their ability to answer questions requiring an understanding of detailed or localized visual elements. Drawing inspiration from the Retrieval-Augmented Generation (RAG) concept, this paper proposes a new visual prompt approach to integrate fine-grained external knowledge, gleaned from specialized vision models (e.g., instance segmentation/OCR models), into MLLMs. This is a promising yet underexplored direction for enhancing MLLMs' performance. Our approach diverges from concurrent works, which transform external knowledge into additional text prompts, necessitating the model to indirectly learn the correspondence between visual content and text coordinates. Instead, we propose embedding fine-grained knowledge information directly into a spatial embedding map as a visual prompt. This design can be effortlessly incorporated into various MLLMs, such as LLaVA and Mipha, considerably improving their visual understanding performance. Through rigorous experiments, we demonstrate that our method can enhance MLLM performance across nine benchmarks, amplifying their fine-grained context-aware capabilities.
翻訳日:2024-07-08 12:31:56 公開日:2024-07-05
# 効率的なベティマッチングによりトポロジを意識した3次元セグメンテーションを持続的ホモロジーで実現

Efficient Betti Matching Enables Topology-Aware 3D Segmentation via Persistent Homology ( http://arxiv.org/abs/2407.04683v1 )

ライセンス: Link先を確認
Nico Stucki, Vincent Bürgin, Johannes C. Paetzold, Ulrich Bauer, (参考訳) 本研究では,ベッチマッチングの効率的な計算アルゴリズムを提案する。このアルゴリズムは,トポロジを意識したセグメンテーションネットワークを学習するための損失関数として使用できる。 ベティマッチング損失は、トポロジカルデータ解析、特に永続的ホモロジーの技法に基づいている。 大きな課題は、永続性バーコードの計算コストである。 この課題に対して我々は,C++ で実装された Betti マッチングと python インターフェースを併用した,高度に最適化された Betti マッチングの実装を提案する。 我々は,Bettiマッチング3Dを用いてセグメンテーションネットワークをBettiマッチング損失でトレーニングし,予測セグメンテーションのトポロジ的正当性を複数のデータセットで示す。 ソースコードはhttps://github.com/nstucki/Betti-Matching-3Dで入手できる。

In this work, we propose an efficient algorithm for the calculation of the Betti matching, which can be used as a loss function to train topology aware segmentation networks. Betti matching loss builds on techniques from topological data analysis, specifically persistent homology. A major challenge is the computational cost of computing persistence barcodes. In response to this challenge, we propose a new, highly optimized implementation of Betti matching, implemented in C++ together with a python interface, which achieves significant speedups compared to the state-of-the-art implementation Cubical Ripser. We use Betti matching 3D to train segmentation networks with the Betti matching loss and demonstrate improved topological correctness of predicted segmentations across several datasets. The source code is available at https://github.com/nstucki/Betti-Matching-3D.
翻訳日:2024-07-08 12:31:56 公開日:2024-07-05
# 大量医療データの導入

Embracing Massive Medical Data ( http://arxiv.org/abs/2407.04687v1 )

ライセンス: Link先を確認
Yu-Cheng Chou, Zongwei Zhou, Alan Yuille, (参考訳) 大量の医療データがスキャンやクラスの拡大、さまざまなソースで利用可能になるにつれ、AIが固定された有限データセットを越えて複数のパスでトレーニングされる一般的なトレーニングパラダイムは、重大な課題に直面している。 まず、このような膨大なデータでAIを一度に訓練することは、新しいスキャン/ソース/クラスが継続的に到着するので、現実的ではありません。 第二に、AIを新しいスキャン/ソース/クラスで継続的に訓練することは、破滅的な忘れを招きかねない。 これら2つの課題に対処するために,大規模な医療データからAIをトレーニングするオンライン学習手法を提案する。 ランダムに選択されたデータサンプルに対してAIを繰り返し訓練する代わりに、我々の方法は、そのデータユニークさと予測の不確実性に基づいて、現在のAIモデルの最も重要なサンプルを特定し、これらの選択されたデータサンプルに対してAIを訓練する。 一般的なトレーニングパラダイムと比較して,本手法は連続的なデータストリームのトレーニングを可能にすることで,データ効率を向上させるだけでなく,忘れられる可能性のある重要なデータサンプルに対してAIを選択的にトレーニングすることで,破滅的な忘れを軽減し,多臓器・腫瘍セグメンテーションにおけるDiceスコアの15%を上回った。 コードはhttps://github.com/MrGiovanni/OnlineLearningで公開されている。

As massive medical data become available with an increasing number of scans, expanding classes, and varying sources, prevalent training paradigms -- where AI is trained with multiple passes over fixed, finite datasets -- face significant challenges. First, training AI all at once on such massive data is impractical as new scans/sources/classes continuously arrive. Second, training AI continuously on new scans/sources/classes can lead to catastrophic forgetting, where AI forgets old data as it learns new data, and vice versa. To address these two challenges, we propose an online learning method that enables training AI from massive medical data. Instead of repeatedly training AI on randomly selected data samples, our method identifies the most significant samples for the current AI model based on their data uniqueness and prediction uncertainty, then trains the AI on these selective data samples. Compared with prevalent training paradigms, our method not only improves data efficiency by enabling training on continual data streams, but also mitigates catastrophic forgetting by selectively training AI on significant data samples that might otherwise be forgotten, outperforming by 15% in Dice score for multi-organ and tumor segmentation. The code is available at https://github.com/MrGiovanni/OnlineLearning
翻訳日:2024-07-08 12:31:56 公開日:2024-07-05
# ウィービング解析のための車両再識別とマッチングの強化

Enhancing Vehicle Re-identification and Matching for Weaving Analysis ( http://arxiv.org/abs/2407.04688v1 )

ライセンス: Link先を確認
Mei Qiu, Wei Lin, Stanley Chien, Lauren Christopher, Yaobin Chen, Shu Hu, (参考訳) 高速道路での車両の織りは交通渋滞に寄与し、安全上の問題を提起し、高度な交通管理システムの必要性を浮き彫りにしている。 現在のツールは、レーン固有の織りパターンの正確で包括的なデータを提供するには不十分です。 本稿では, ウィービングゾーンにおける非オーバーラップ映像データを収集する革新的な手法を提案し, レーン固有ウィービング行動に関する定量的洞察を創出する。 提案手法の有効性を確認し,交通規制の強化と道路インフラの整備を交通当局に支援するための重要なデータを提供する。

Vehicle weaving on highways contributes to traffic congestion, raises safety issues, and underscores the need for sophisticated traffic management systems. Current tools are inadequate in offering precise and comprehensive data on lane-specific weaving patterns. This paper introduces an innovative method for collecting non-overlapping video data in weaving zones, enabling the generation of quantitative insights into lane-specific weaving behaviors. Our experimental results confirm the efficacy of this approach, delivering critical data that can assist transportation authorities in enhancing traffic control and roadway infrastructure.
翻訳日:2024-07-08 12:31:56 公開日:2024-07-05
# RAM: 汎用型ゼロショットロボットマニピュレーションのための検索ベースアフォーマンストランスファー

RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation ( http://arxiv.org/abs/2407.04689v1 )

ライセンス: Link先を確認
Yuxuan Kuang, Junjie Ye, Haoran Geng, Jiageng Mao, Congyue Deng, Leonidas Guibas, He Wang, Yue Wang, (参考訳) この研究は、RAMと呼ばれるゼロショットロボット操作のための検索と転送のためのフレームワークを提案し、様々なオブジェクト、環境、実施物にまたがる一般化性を備えている。 高価なドメイン内のデモから操作を学習する既存のアプローチとは異なり、RAMは、豊富なドメイン外のデータから汎用的な操作機能を取得するために、検索ベースのアベイランス転送パラダイムを生かしている。 第一に、RAMは、ロボットデータ、人間とオブジェクトの相互作用(HOI)データ、そして、包括的なアベイランスメモリを構築するためのカスタムデータなど、さまざまなデモソースから、大規模に統一されたアベイランスを抽出する。 そして、言語命令が与えられた後、RAMは、空きメモリから最もよく似たデモを階層的に取り出し、ドメイン外2Dの空きをゼロショット・エンボディ・非依存の方法で、ドメイン内3D実行可能空きに転送する。 大規模なシミュレーションと実世界の評価により、私たちのRAMは、日々のさまざまなタスクにおいて、既存の作業よりも一貫して優れています。 さらに、RAMは、自動的で効率的なデータ収集、ワンショットの視覚的模倣、LLM/VLM統合ロングホライゾン操作など、下流アプリケーションにとって大きな可能性を示している。 詳細については、https://yxkryptonite.github.io/RAM/を参照してください。

This work proposes a retrieve-and-transfer framework for zero-shot robotic manipulation, dubbed RAM, featuring generalizability across various objects, environments, and embodiments. Unlike existing approaches that learn manipulation from expensive in-domain demonstrations, RAM capitalizes on a retrieval-based affordance transfer paradigm to acquire versatile manipulation capabilities from abundant out-of-domain data. First, RAM extracts unified affordance at scale from diverse sources of demonstrations including robotic data, human-object interaction (HOI) data, and custom data to construct a comprehensive affordance memory. Then given a language instruction, RAM hierarchically retrieves the most similar demonstration from the affordance memory and transfers such out-of-domain 2D affordance to in-domain 3D executable affordance in a zero-shot and embodiment-agnostic manner. Extensive simulation and real-world evaluations demonstrate that our RAM consistently outperforms existing works in diverse daily tasks. Additionally, RAM shows significant potential for downstream applications such as automatic and efficient data collection, one-shot visual imitation, and LLM/VLM-integrated long-horizon manipulation. For more details, please check our website at https://yxkryptonite.github.io/RAM/.
翻訳日:2024-07-08 12:31:56 公開日:2024-07-05
# 失敗原因とあいまいな影響--ニューラルネットワークの解釈における反事実的課題

Missed Causes and Ambiguous Effects: Counterfactuals Pose Challenges for Interpreting Neural Networks ( http://arxiv.org/abs/2407.04690v1 )

ライセンス: Link先を確認
Aaron Mueller, (参考訳) 解釈可能性の研究は、当然のことながら因果関係の反事実理論を採っている。 ほとんどの因果的手法は、入力や特定のモデルコンポーネントのアクティベーションに対する反ファクト的介入に依存し、続いてモデルの出力ロジットや振る舞いの変化を観察する。 これは相関法よりも忠実な証拠をもたらすが、しかしながら、反事実は我々の発見を特定の予測可能な方法でバイアスする重要な問題を持っている。 具体的には (i)反事実理論は、同じ効果の複数の独立して十分な原因を効果的に捉えていないため、特定の原因を完全に見逃すことになる。 (II)ニューラルネットワークの因果グラフを抽出・解釈する手法を複雑化する、ニューラルネットワークにおける反ファクト的依存関係は概して過渡的ではない。 本稿では,これらの課題が解釈可能性研究者に与える影響を論じ,今後の研究に向けた具体的な提案を提案する。

Interpretability research takes counterfactual theories of causality for granted. Most causal methods rely on counterfactual interventions to inputs or the activations of particular model components, followed by observations of the change in models' output logits or behaviors. While this yields more faithful evidence than correlational methods, counterfactuals nonetheless have key problems that bias our findings in specific and predictable ways. Specifically, (i) counterfactual theories do not effectively capture multiple independently sufficient causes of the same effect, which leads us to miss certain causes entirely; and (ii) counterfactual dependencies in neural networks are generally not transitive, which complicates methods for extracting and interpreting causal graphs from neural networks. We discuss the implications of these challenges for interpretability researchers and propose concrete suggestions for future work.
翻訳日:2024-07-08 12:31:56 公開日:2024-07-05
# 長距離結合をもつ非エルミート系における例外点とブレイディングトポロジー

Exceptional Points and Braiding Topology in Non-Hermitian Systems with long-range coupling ( http://arxiv.org/abs/2407.04691v1 )

ライセンス: Link先を確認
S. M. Rafi-Ul-Islam, Zhuo Bin Siu, Md. Saddam Hossain Razo, Mansoor B. A. Jalil, (参考訳) 我々は,n次長距離非対称結合を持つ1次元非エルミート系における複素エネルギーブレイディングの研究を行う。 本研究は, 従来の近傍相互作用を超越した新しいトポロジカル現象の出現を浮き彫りにしている。 修正されたSSHモデルは、周期的境界条件 (PBC) の下で複素エネルギー-運動空間における結合結合を$n$の異なる結び目を表示し、結合強度を変化させることで制御できる。 位相不変量、すなわちブレイディング指数は、特性多項式の零点と極に依存する異なる複素エネルギーブレイディングプロファイルを特徴づけるために導入された。 さらに,非エルミート皮膚効果は一方または両端で局所化可能であることを示す。 位相不変量の同じ(正の)符号を持つ異なるブレイディング相間の相転移はType-1(Type-2)例外点で発生し、Type-1(Type-2)相転移は単一(複数)例外点を伴う。 本稿では,RCC回路フレームワークに基づく各種ブレイディング方式を実現するための実験的なセットアップを提案し,他のプラットフォームで必要となる高次元運動量空間に無関係に実装可能な経路を提供する。

We present a study of complex energy braiding in a 1D non-Hermitian system with $n$th order long range asymmetrical coupling. Our work highlights the emergence of novel topological phenomena in such systems beyond the conventional nearest-neighbor interaction. The modified SSH model displays $n$ distinct knots and links combinations in the complex energy-momentum space under periodic boundary conditions (PBC), which can be controlled by varying the coupling strengths. A topological invariant, namely the braiding index, is introduced to characterize the different complex energy braiding profiles, which depends on the zeros and poles of the characteristic polynomials. Furthermore, we demonstrate that the non-Hermitian skin effect can be localized at one or both ends, signifying conventional or bipolar localization, depending on the sign of the braiding index. Phase transitions between different braiding phases with the same (opposite) sign of the topological invariant occur at Type-1 (Type-2) exceptional points, with Type-1 (Type-2) phase transitions accompanied by single (multiple) exceptional points. We propose an experimental set-up to realize the various braiding schemes based on the RLC circuit framework, which provides an accessible avenue for implementation without recourse to high-dimensional momentum space required in most other platforms.
翻訳日:2024-07-08 12:31:56 公開日:2024-07-05
# ANAH-v2:大規模言語モデルの拡張型ハロシン化アノテーション

ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models ( http://arxiv.org/abs/2407.04693v1 )

ライセンス: Link先を確認
Yuzhe Gu, Ziwei Ji, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen, (参考訳) 大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。 現在の幻覚検出と緩和データセットは、禁止労働コストと既存の幻覚アノテータの信頼性の欠如によりスケールに苦慮しているドメインやサイズに限られている。 LLM幻覚のスケーラブルな監視を容易にするために,幻覚アノテーションデータセットを同時に段階的にスケールアップし,幻覚アノテータの精度を向上する反復的自己学習フレームワークを提案する。 expectation Maximization (EM)アルゴリズムに基づいて、各イテレーションにおいて、フレームワークはまず、拡張データセットに注釈を付けるために幻覚アノテーションパイプラインを適用し、次にデータセットにより正確な幻覚アノテーションをトレーニングする。 この新たな幻覚アノテータは、次のイテレーションで使用される幻覚アノテーションパイプラインに採用されている。 7Bパラメータしか持たない最終的に得られた幻覚アノテータは、GPT-4の性能を上回り、ゼロショット推論によるHaluEvalおよびHaluQA上の新しい最先端幻覚検出結果を得ることを示した。 このようなアノテータは、大規模なデータセット上で様々なLLMの幻覚レベルを評価するだけでなく、LLM世代における幻覚の緩和にも役立ち、自然言語推論(NLI)の指標はHaluEvalで25%から37%まで増加する。

Large language models (LLMs) exhibit hallucinations in long-form question-answering tasks across various domains and wide applications. Current hallucination detection and mitigation datasets are limited in domains and sizes, which struggle to scale due to prohibitive labor costs and insufficient reliability of existing hallucination annotators. To facilitate the scalable oversight of LLM hallucinations, this paper introduces an iterative self-training framework that simultaneously and progressively scales up the hallucination annotation dataset and improves the accuracy of the hallucination annotator. Based on the Expectation Maximization (EM) algorithm, in each iteration, the framework first applies a hallucination annotation pipeline to annotate a scaled dataset and then trains a more accurate hallucination annotator on the dataset. This new hallucination annotator is adopted in the hallucination annotation pipeline used for the next iteration. Extensive experimental results demonstrate that the finally obtained hallucination annotator with only 7B parameters surpasses the performance of GPT-4 and obtains new state-of-the-art hallucination detection results on HaluEval and HalluQA by zero-shot inference. Such an annotator can not only evaluate the hallucination levels of various LLMs on the large-scale dataset but also help to mitigate the hallucination of LLMs generations, with the Natural Language Inference (NLI) metric increasing from 25% to 37% on HaluEval.
翻訳日:2024-07-08 12:31:56 公開日:2024-07-05
# 自分とAI: LLMのための状況認識データセット(SAD)

Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs ( http://arxiv.org/abs/2407.04694v1 )

ライセンス: Link先を確認
Rudolf Laine, Bilal Chughtai, Jan Betley, Kaivalya Hariharan, Jeremy Scheurer, Mikita Balesni, Marius Hobbhahn, Alexander Meinke, Owain Evans, (参考訳) ChatGPTのようなAIアシスタントは、"私は大きな言語モデルです"と言うことで、ユーザに対応するように訓練されています。 これは疑問を投げかける。 そのようなモデルは、彼らがLSMであり、この知識に確実に作用することを知っていますか? 一般への展開など,現在の状況に気付いていますか? 我々は、モデル自身の知識とその状況について、状況認識として言及する。 LLMにおける状況認識の定量化を目的として,質問応答と次の指示に基づく行動検査について紹介する。 これらのテストは7つのタスクカテゴリと13,000以上の質問からなるベンチマークである$\textbf{Situational Awareness Dataset (SAD)$を形成する。 ベンチマークは、LLMの能力を含む、多数の能力をテストする。 (i)それぞれの生成したテキストを認識する。 (二)自分の行動を予測すること。 三 内部評価又は実世界の展開から旨を判断し、 (四)自己知識に依存する指示に従うこと。 SADでは,ベース(事前学習)とチャットモデルの両方を含む16のLLMを評価した。 すべてのモデルは偶然よりも優れているが、最高のスコア付けモデル(Claude 3 Opus)でさえ、特定のタスクのベースラインからは程遠い。 また,SADの性能は一般知識の指標(例えばMMLU)によって部分的に予測されている。 AIアシスタントとして機能するように微調整されたチャットモデルは、SADで対応するベースモデルより優れているが、一般的な知識タスクでは優れている。 SADの目的は、LLMを定量的な能力に分解することで、LCMにおける状況認識の科学的理解を促進することである。 自律的な計画と行動に対するモデルの能力を高めるため、状況認識が重要である。 自動化には潜在的なメリットがあるが、AIの安全性と制御に関する新たなリスクも導入されている。 コードと最新の結果はhttps://situational-awareness-dataset.orgで公開されている。

AI assistants such as ChatGPT are trained to respond to users by saying, "I am a large language model". This raises questions. Do such models know that they are LLMs and reliably act on this knowledge? Are they aware of their current circumstances, such as being deployed to the public? We refer to a model's knowledge of itself and its circumstances as situational awareness. To quantify situational awareness in LLMs, we introduce a range of behavioral tests, based on question answering and instruction following. These tests form the $\textbf{Situational Awareness Dataset (SAD)}$, a benchmark comprising 7 task categories and over 13,000 questions. The benchmark tests numerous abilities, including the capacity of LLMs to (i) recognize their own generated text, (ii) predict their own behavior, (iii) determine whether a prompt is from internal evaluation or real-world deployment, and (iv) follow instructions that depend on self-knowledge. We evaluate 16 LLMs on SAD, including both base (pretrained) and chat models. While all models perform better than chance, even the highest-scoring model (Claude 3 Opus) is far from a human baseline on certain tasks. We also observe that performance on SAD is only partially predicted by metrics of general knowledge (e.g. MMLU). Chat models, which are finetuned to serve as AI assistants, outperform their corresponding base models on SAD but not on general knowledge tasks. The purpose of SAD is to facilitate scientific understanding of situational awareness in LLMs by breaking it down into quantitative abilities. Situational awareness is important because it enhances a model's capacity for autonomous planning and action. While this has potential benefits for automation, it also introduces novel risks related to AI safety and control. Code and latest results available at https://situational-awareness-dataset.org .
翻訳日:2024-07-08 12:31:56 公開日:2024-07-05
# VCoME:マルチモーダル編集機能を備えた言語ビデオコンポジション

VCoME: Verbal Video Composition with Multimodal Editing Effects ( http://arxiv.org/abs/2407.04697v1 )

ライセンス: Link先を確認
Weibo Gong, Xiaojie Jin, Xin Li, Dongliang He, Xinglong Wu, (参考訳) 音声オーバーやテキストオーバーレイを特徴とする言語ビデオは、貴重なコンテンツを提供するが、特に明瞭さと視覚的魅力を高めるために編集効果を取り入れた場合、構成において重要な課題を提示する。 本稿では,編集効果を考慮した音声合成の新しい課題について紹介する。 本課題は,テキスト,視覚,音声のカテゴリにまたがるマルチモーダル編集効果を統合することで,協調的で視覚的に魅力的な音声ビデオを生成することを目的とする。 そこで我々は,公開資料から映像効果合成の大規模データセットをキュレートする。 次に,この課題を生成問題として定式化し,言語内容中の適切な位置の同定と,それらの位置に対する編集効果の推奨を含む。 この課題に対処するため,ビデオ合成のための編集効果を生成するために,大規模なマルチモーダルモデルを用いた一般的なフレームワークであるVCoMEを提案する。 具体的には、VCoMEはマルチモーダルビデオのコンテキストを取り入れ、各位置においてどの効果が最も適しているかを自動回帰出力する。 VCoMEはまた、組成密度とスタイルのプロンプトベースの制御をサポートし、多様なアプリケーションにかなりの柔軟性を提供する。 定量的および質的な評価を通じて, VCoMEの有効性を明らかにした。 包括的ユーザスタディでは,プロの編集者よりも85$\times$効率の良い動画を制作する。

Verbal videos, featuring voice-overs or text overlays, provide valuable content but present significant challenges in composition, especially when incorporating editing effects to enhance clarity and visual appeal. In this paper, we introduce the novel task of verbal video composition with editing effects. This task aims to generate coherent and visually appealing verbal videos by integrating multimodal editing effects across textual, visual, and audio categories. To achieve this, we curate a large-scale dataset of video effects compositions from publicly available sources. We then formulate this task as a generative problem, involving the identification of appropriate positions in the verbal content and the recommendation of editing effects for these positions. To address this task, we propose VCoME, a general framework that employs a large multimodal model to generate editing effects for video composition. Specifically, VCoME takes in the multimodal video context and autoregressively outputs where to apply effects within the verbal content and which effects are most appropriate for each position. VCoME also supports prompt-based control of composition density and style, providing substantial flexibility for diverse applications. Through extensive quantitative and qualitative evaluations, we clearly demonstrate the effectiveness of VCoME. A comprehensive user study shows that our method produces videos of professional quality while being 85$\times$ more efficient than professional editors.
翻訳日:2024-07-08 12:31:56 公開日:2024-07-05
# LaRa: 高速大線放射界

LaRa: Efficient Large-Baseline Radiance Fields ( http://arxiv.org/abs/2407.04699v1 )

ライセンス: Link先を確認
Anpei Chen, Haofei Xu, Stefano Esposito, Siyu Tang, Andreas Geiger, (参考訳) 放射場法はフォトリアリスティックな新しいビュー合成と幾何再構成を実現している。 しかし、それらは主にシーンごとの最適化や小さなベースライン設定に適用される。 近年,変圧器を用いたフィードフォワード再構築の研究が盛んに行われているが,これらは全て標準的なグローバルアテンション機構で行われており,そのため3次元再構成の局所的性質は無視されている。 本稿では,トランス層における局所的および大域的推論を統一する手法を提案する。 我々のモデルはガウスボリュームとしてシーンを表現し、これを画像エンコーダとグループ注意層と組み合わせて効率的なフィードフォワード再構築を行う。 実験の結果,本モデルは4つのGPUで2日間トレーニングされ,360&degの放射率場を再構成する上で高い忠実度を示し,ゼロショットおよびアウトオブドメインテストに対する堅牢性を示した。

Radiance field methods have achieved photorealistic novel view synthesis and geometry reconstruction. But they are mostly applied in per-scene optimization or small-baseline settings. While several recent works investigate feed-forward reconstruction with large baselines by utilizing transformers, they all operate with a standard global attention mechanism and hence ignore the local nature of 3D reconstruction. We propose a method that unifies local and global reasoning in transformer layers, resulting in improved quality and faster convergence. Our model represents scenes as Gaussian Volumes and combines this with an image encoder and Group Attention Layers for efficient feed-forward reconstruction. Experimental results demonstrate that our model, trained for two days on four GPUs, demonstrates high fidelity in reconstructing 360&deg radiance fields, and robustness to zero-shot and out-of-domain testing.
翻訳日:2024-07-08 12:31:56 公開日:2024-07-05
# 超伝導量子プロセッサにおける安定化雑音による誤差緩和

Error mitigation with stabilized noise in superconducting quantum processors ( http://arxiv.org/abs/2407.02467v2 )

ライセンス: Link先を確認
Youngseok Kim, Luke C. G. Govia, Andrew Dane, Ewout van den Berg, David M. Zajac, Bradley Mitchell, Yinyu Liu, Karthik Balakrishnan, George Keefe, Adam Stabile, Emily Pritchett, Jiri Stehlik, Abhinav Kandala, (参考訳) プリフォールト耐性量子コンピュータは、ブルートフォース古典計算を超えるスケールで観測可能な値を正確に推定できることを既に実証している。 これは、デバイスノイズの代表的なモデルによく依存するエラー軽減技術によって実現されている。 しかし、これらのモデルの学習と維持は、例えば超伝導量子ビットと欠陥2レベルシステム(TLS)の間の共鳴相互作用によって生じる予測不可能な時間スケール上のノイズの変動によって複雑である。 このような相互作用はデバイス性能全体の安定性と均一性に影響を与えるが、ノイズモデルの精度にも影響し、不正確な観測可能推定に繋がる。 そこで我々は,量子ビット-TLS相互作用のチューニングが雑音の不安定性を低減し,より信頼性の高い誤り軽減性能を実現することを実験的に実証した。 これらの実験は、準静音の存在下での誤差緩和性能を研究するための制御プラットフォームを提供する。 ここで導入された機能は、非自明なスケールのソリッドステートプロセッサ上での量子アプリケーションの探索に不可欠であると期待する。

Pre-fault tolerant quantum computers have already demonstrated the ability to estimate observable values accurately, at a scale beyond brute-force classical computation. This has been enabled by error mitigation techniques that often rely on a representative model on the device noise. However, learning and maintaining these models is complicated by fluctuations in the noise over unpredictable time scales, for instance, arising from resonant interactions between superconducting qubits and defect two-level systems (TLS). Such interactions affect the stability and uniformity of device performance as a whole, but also affect the noise model accuracy, leading to incorrect observable estimation. Here, we experimentally demonstrate that tuning of the qubit-TLS interactions helps reduce noise instabilities and consequently enables more reliable error-mitigation performance. These experiments provide a controlled platform for studying the performance of error mitigation in the presence of quasi-static noise. We anticipate that the capabilities introduced here will be crucial for the exploration of quantum applications on solid-state processors at non-trivial scales.
翻訳日:2024-07-08 12:21:54 公開日:2024-07-05