このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240507となっている論文です。

PDF登録状況(公開日: 20240507)

TitleAuthorsAbstract論文公表日・翻訳日
# 3DMeshNet:構造化メッシュ生成のための3次元微分ニューラルネットワーク

3DMeshNet: A Three-Dimensional Differential Neural Network for Structured Mesh Generation ( http://arxiv.org/abs/2407.01560v1 )

ライセンス: Link先を確認
Jiaming Peng, Xinhai Chen, Jie Liu, (参考訳) メッシュ生成は数値シミュレーションにおいて重要なステップであり、シミュレーションの精度と効率に大きな影響を及ぼす。 しかし、メッシュの生成には時間を要するため、高価な計算リソースが必要になる。 本稿では,3次元メッシュ生成のための新しい手法である3DMeshNetを提案する。 この方法は、メッシュ処理に関連する微分方程式をニューラルネットワークの損失関数に埋め込んで、メッシュ処理を教師なし最適化問題として定式化する。 幾何学的点を入力として、パラメトリック領域と計算領域の間のポテンシャルマッピングを学習する。 適切なオフライントレーニングの後、3DMeshNetは、フィードフォワード神経予測を通じて、ユーザが定義した四角形/ヘキサヘドラル細胞の数で、3次元の構造化メッシュを効率的に出力することができる。 トレーニングの安定性を高め,収束を加速するために,損失関数の重み付けと勾配投影を併用し,損失の導関数計算の合理化に有限差分法を適用した。 異なるケースでの実験では、3DMeshNetは堅牢で高速である。 ニューラルネットワークベースの手法よりも優れており、従来のメッシュパーティショニング手法よりも優れたメッシュが得られる。 3DMeshNetは、他のニューラルネットワークベースのアプローチと比較してトレーニング時間を最大85%削減し、従来のメッシュ方式と比較してメッシュオーバーヘッドを4~8倍削減する。

Mesh generation is a crucial step in numerical simulations, significantly impacting simulation accuracy and efficiency. However, generating meshes remains time-consuming and requires expensive computational resources. In this paper, we propose a novel method, 3DMeshNet, for three-dimensional structured mesh generation. The method embeds the meshing-related differential equations into the loss function of neural networks, formulating the meshing task as an unsupervised optimization problem. It takes geometric points as input to learn the potential mapping between parametric and computational domains. After suitable offline training, 3DMeshNet can efficiently output a three-dimensional structured mesh with a user-defined number of quadrilateral/hexahedral cells through the feed-forward neural prediction. To enhance training stability and accelerate convergence, we integrate loss function reweighting through weight adjustments and gradient projection alongside applying finite difference methods to streamline derivative computations in the loss. Experiments on different cases show that 3DMeshNet is robust and fast. It outperforms neural network-based methods and yields superior meshes compared to traditional mesh partitioning methods. 3DMeshNet significantly reduces training times by up to 85% compared to other neural network-based approaches and lowers meshing overhead by 4 to 8 times relative to traditional meshing methods.
翻訳日:2024-07-22 22:28:39 公開日:2024-05-07
# 部屋のエレファント - なぜAIの安全がさまざまなチームを必要とするのか

The Elephant in the Room -- Why AI Safety Demands Diverse Teams ( http://arxiv.org/abs/2407.10254v1 )

ライセンス: Link先を確認
David Rostcheck, Lara Scheibling, (参考訳) AIの“安全”と“調整”に対する既存のアプローチは、最も効果的なツールやチーム、あるいはアプローチを使用していないかも知れません。 社会科学は、モチベーションと行動の整合性を理解するためのモデルのリッチなツールキットを享受しており、その多くがAIモデルに関わる問題に再利用され、それがそうである理由を列挙している。 社会科学のツールから情報を得たアライメントアプローチを導入し,次の3つのステップを特徴付ける。 1.「北星」の目標として、人間とAIのコラボレーションのための肯定的な社会的成果を定義すること。 2. 適切なフレーミング・ノウハウ・ノウハウ・ 3. さまざまなチームを編成して、アライメントにおける新たな課題を調査し、観察し、ナビゲートする。

We consider that existing approaches to AI "safety" and "alignment" may not be using the most effective tools, teams, or approaches. We suggest that an alternative and better approach to the problem may be to treat alignment as a social science problem, since the social sciences enjoy a rich toolkit of models for understanding and aligning motivation and behavior, much of which could be repurposed to problems involving AI models, and enumerate reasons why this is so. We introduce an alternate alignment approach informed by social science tools and characterized by three steps: 1. defining a positive desired social outcome for human/AI collaboration as the goal or "North Star," 2. properly framing knowns and unknowns, and 3. forming diverse teams to investigate, observe, and navigate emerging challenges in alignment.
翻訳日:2024-07-22 12:59:07 公開日:2024-05-07
# 新型コロナウイルスワクチン接種に関する公開談話:公衆の懸念と政策の関係に関する計算分析

Public Discourse about COVID-19 Vaccinations: A Computational Analysis of the Relationship between Public Concerns and Policies ( http://arxiv.org/abs/2407.10321v1 )

ライセンス: Link先を確認
Katarina Boland, Christopher Starke, Felix Bensmann, Frank Marcinkowski, Stefan Dietze, (参考訳) 世界の社会は、ワクチン接種や他の新型コロナウイルス対策の支持者や反対者を分離する亀裂が増えているのを目撃している。 予防接種キャンペーンの展開に伴い、ドイツ語を話す地域は他のヨーロッパ地域よりもはるかに低い予防接種率を示した。 オーストリア、ドイツ、スイス(DACH地域)は時間とともに追いついたが、これらの変化にどのような要因が寄与したのかは定かではない。 公衆の言論を精査することは、ワクチンの根本的自由を尊重し、望ましくない結果を最小限に抑えながら、ウイルスの拡散を効果的に抑制する必要があるという、ワクチンの難しさの難しさを浮き彫りにするのに役立つ。 この研究は、Twitterのデータに基づいて、公開談話で広く使われているトピックを分析している。 さらに、このトピックをパンデミックのさまざまな段階と政策変更にマッピングし、公衆の注意を引いた変化の潜在的な要因を特定する。 DACH地域でのCOVID-19パンデミックに照らして予防接種に関する談話を分析するために、トピックモデリング、感情分析、最小限の社会科学領域知識を用いて予防接種に関連するツイートを検出し分析するためにハイブリッドパイプラインを使用します。 Twitter上では、新型コロナウイルスの重症度やワクチンの有効性、安全性に関する懐疑論が話題となっているが、自由と市民の自由を議論する上で最も注意が払われた。 特にパンデミックの後期段階では、政策が実施され、無ワクチンの市民の自由が制限された場合、ワクチン接種の増加が観察された。 同時に、次第に否定的かつ偏極的な感情が言論に現れる。 このことは、これらの政策が予防接種の難しさを効果的に弱めたかもしれないが、市民の疑念や懸念を分散させることに成功しなかったことを示唆している。

Societies worldwide have witnessed growing rifts separating advocates and opponents of vaccinations and other COVID-19 countermeasures. With the rollout of vaccination campaigns, German-speaking regions exhibited much lower vaccination uptake than other European regions. While Austria, Germany, and Switzerland (the DACH region) caught up over time, it remains unclear which factors contributed to these changes. Scrutinizing public discourses can help shed light on the intricacies of vaccine hesitancy and inform policy-makers tasked with making far-reaching decisions: policies need to effectively curb the spread of the virus while respecting fundamental civic liberties and minimizing undesired consequences. This study draws on Twitter data to analyze the topics prevalent in the public discourse. It further maps the topics to different phases of the pandemic and policy changes to identify potential drivers of change in public attention. We use a hybrid pipeline to detect and analyze vaccination-related tweets using topic modeling, sentiment analysis, and a minimum of social scientific domain knowledge to analyze the discourse about vaccinations in the light of the COVID-19 pandemic in the DACH region. We show that skepticism regarding the severity of the COVID-19 virus and towards efficacy and safety of vaccines were among the prevalent topics in the discourse on Twitter but that the most attention was given to debating the theme of freedom and civic liberties. Especially during later phases of the pandemic, when implemented policies restricted the freedom of unvaccinated citizens, increased vaccination uptake could be observed. At the same time, increasingly negative and polarized sentiments emerge in the discourse. This suggests that these policies might have effectively attenuated vaccination hesitancy but were not successfully dispersing citizens' doubts and concerns.
翻訳日:2024-07-22 12:49:16 公開日:2024-05-07
# 入射ニューラル表現に基づく光場圧縮

Light Field Compression Based on Implicit Neural Representation ( http://arxiv.org/abs/2407.10325v1 )

ライセンス: Link先を確認
Henan Wang, Hanxin Zhu, Zhibo Chen, (参考訳) 光フィールドは、マルチメディアにおける新しいデータ表現フォーマットとして、光線の強度と方向の両方をキャプチャする能力を持つ。 しかし、追加の角情報もまた大量のデータをもたらす。 古典的な符号化手法は、異なるビュー間の関係を記述するのに効果がなく、冗長性を残している。 この問題に対処するために,暗黙的ニューラル表現に基づく新しい光場圧縮手法を提案し,ビュー間の冗長性を低減した。 ニューラルネットワークに暗黙的に光画像の情報を格納し、暗黙の表現をさらに圧縮するためにモデル圧縮手法を採用する。 提案手法の有効性を実証し,従来の手法よりも優れた知覚品質と同等の速度歪み性能を実現する。

Light field, as a new data representation format in multimedia, has the ability to capture both intensity and direction of light rays. However, the additional angular information also brings a large volume of data. Classical coding methods are not effective to describe the relationship between different views, leading to redundancy left. To address this problem, we propose a novel light field compression scheme based on implicit neural representation to reduce redundancies between views. We store the information of a light field image implicitly in an neural network and adopt model compression methods to further compress the implicit representation. Extensive experiments have demonstrated the effectiveness of our proposed method, which achieves comparable rate-distortion performance as well as superior perceptual quality over traditional methods.
翻訳日:2024-07-22 12:49:16 公開日:2024-05-07
# 差分コース機能によるグループレベルコースの難易度評価

Gaining Insights into Group-Level Course Difficulty via Differential Course Functioning ( http://arxiv.org/abs/2406.04348v1 )

ライセンス: Link先を確認
Frederik Baucks, Robin Schmucker, Conrad Borchers, Zachary A. Pardos, Laurenz Wiskott, (参考訳) カリキュラム分析(CA)は、カリキュラムの構造と学生データを研究し、教育プログラムの品質を保証する。 カリキュラム内のコースの望ましい特性の1つは、異なる背景を持つ学生にとって予期せぬほど困難ではないことである。 従来の作業ポイントは、学生グループ間でコースの難易度が変動する可能性があるが、そのようなばらつきを捉えるための堅牢な方法論は乏しく、既存のアプローチは、コース固有の難易度を学生の一般的なパフォーマンスレベルから適切に分離しない。 本研究は,項目応答理論(IRT)に基づくCA手法として,DCF(differial Course Functioning)を紹介する。 DCFは、学生のパフォーマンスレベルを制御し、特定のコースでどのように異なる学生グループが成功するかに有意な違いがあるかどうかを調べる。 大規模公立大学における2万人以上の学生のデータを活用し,大学院生の学業難易度におけるDCFの不等式を検出する能力を示す。 主要なペアを高学歴で比較し,転校生を非転校者へ転校させる。 前者については,DCF効果量と授業内容の整合性との関連が示唆された。 後者の場合, 転校生と非転校生の間では, コース固有の難易度が小さかったことが示唆された。 これは望ましいことではあるが、転校生の成績格差軽減を目的とした介入は、個別のコースの準備性の向上以上の包括的支援を包含すべきであることも示唆している。 多様な学生が経験した学業成績と難易度を公平かつ公平に評価することで、DCFは政策立案者、講習官、学生顧問を支援することができた。

Curriculum Analytics (CA) studies curriculum structure and student data to ensure the quality of educational programs. One desirable property of courses within curricula is that they are not unexpectedly more difficult for students of different backgrounds. While prior work points to likely variations in course difficulty across student groups, robust methodologies for capturing such variations are scarce, and existing approaches do not adequately decouple course-specific difficulty from students' general performance levels. The present study introduces Differential Course Functioning (DCF) as an Item Response Theory (IRT)-based CA methodology. DCF controls for student performance levels and examines whether significant differences exist in how distinct student groups succeed in a given course. Leveraging data from over 20,000 students at a large public university, we demonstrate DCF's ability to detect inequities in undergraduate course difficulty across student groups described by grade achievement. We compare major pairs with high co-enrollment and transfer students to their non-transfer peers. For the former, our findings suggest a link between DCF effect sizes and the alignment of course content to student home department motivating interventions targeted towards improving course preparedness. For the latter, results suggest minor variations in course-specific difficulty between transfer and non-transfer students. While this is desirable, it also suggests that interventions targeted toward mitigating grade achievement gaps in transfer students should encompass comprehensive support beyond enhancing preparedness for individual courses. By providing more nuanced and equitable assessments of academic performance and difficulties experienced by diverse student populations, DCF could support policymakers, course articulation officers, and student advisors.
翻訳日:2024-07-01 08:10:07 公開日:2024-05-07
# 並列関数呼び出しのためのLCM-Toolコンパイラ

An LLM-Tool Compiler for Fused Parallel Function Calling ( http://arxiv.org/abs/2405.17438v1 )

ライセンス: Link先を確認
Simranjit Singh, Andreas Karatzas, Michael Fore, Iraklis Anagnostopoulos, Dimitrios Stamoulis, (参考訳) 大規模言語モデル(LLMs)における最先端のシーケンシャル推論は、会話タスク以外のCopilotの機能を、複雑な関数呼び出しに拡張し、数千のAPI呼び出しを管理した。 しかし、構成的なプロンプトによってタスクを複数のステップに分割する傾向があり、それぞれがGPT APIへのラウンドトリップを必要とするため、システムのレイテンシとコストが増加する。 並列関数呼び出しの最近の進歩は、API呼び出し毎のツール実行を改善するが、より詳細なコンテキスト内命令とタスクのブレークダウンを即時に必要とし、エンジニアリングと運用コストが向上する可能性がある。 コンパイラの観点から複数の演算処理を単一タスクに融合する乗算加算演算(MAD)のハードウェア設計原理に着想を得て,LLM-Toolコンパイラを提案する。 この選択的融合は本質的に並列化と効率を高める。 大規模なCopilotプラットフォーム上でベンチマークされたLLM-Toolコンパイラは、既存のメソッドよりも最大4倍の並列呼び出しを実現し、トークンコストとレイテンシを最大40%と12%削減する。

State-of-the-art sequential reasoning in Large Language Models (LLMs) has expanded the capabilities of Copilots beyond conversational tasks to complex function calling, managing thousands of API calls. However, the tendency of compositional prompting to segment tasks into multiple steps, each requiring a round-trip to the GPT APIs, leads to increased system latency and costs. Although recent advancements in parallel function calling have improved tool execution per API call, they may necessitate more detailed in-context instructions and task breakdown at the prompt level, resulting in higher engineering and production costs. Inspired by the hardware design principles of multiply-add (MAD) operations, which fuse multiple arithmetic operations into a single task from the compiler's perspective, we propose LLM-Tool Compiler, which selectively fuses similar types of tool operations under a single function at runtime, presenting them as a unified task to the LLM. This selective fusion inherently enhances parallelization and efficiency. Benchmarked on a large-scale Copilot platform, LLM-Tool Compiler achieves up to four times more parallel calls than existing methods, reducing token costs and latency by up to 40% and 12%, respectively.
翻訳日:2024-06-02 14:30:04 公開日:2024-05-07
# CNN, k-nearest Nebors, Support Vector Machines による5G狭帯域ジャマーの検出

Detecting 5G Narrowband Jammers with CNN, k-nearest Neighbors, and Support Vector Machines ( http://arxiv.org/abs/2405.09564v1 )

ライセンス: Link先を確認
Matteo Varotto, Florian Heinrichs, Timo Schuerg, Stefano Tomasin, Stefan Valentin, (参考訳) 5Gセルネットワークは、特に無線信号の特定の制御サブチャネルをターゲットにした狭帯域妨害に対して脆弱である。 1つの緩和アプローチは、機械学習に基づいて、オンライン観察システムでこのような妨害攻撃を検出することである。 本稿では,二項分類を行う機械学習モデルを用いて,物理層におけるジャミングを検出することを提案する。 実験的な5Gネットワークのデータに基づいて,異なる分類モデルの性能について検討する。 畳み込みニューラルネットワークは、ベクトルマシンとk-アネレスト隣人をサポートし、最後の2つの手法と主成分分析を組み合わせる。 その結果,分類精度と計算時間に有意差が認められた。

5G cellular networks are particularly vulnerable against narrowband jammers that target specific control sub-channels in the radio signal. One mitigation approach is to detect such jamming attacks with an online observation system, based on machine learning. We propose to detect jamming at the physical layer with a pre-trained machine learning model that performs binary classification. Based on data from an experimental 5G network, we study the performance of different classification models. A convolutional neural network will be compared to support vector machines and k-nearest neighbors, where the last two methods are combined with principal component analysis. The obtained results show substantial differences in terms of classification accuracy and computation time.
翻訳日:2024-05-19 13:49:26 公開日:2024-05-07
# プライベート5Gネットワークにおけるジャミング検出のためのGLRTとしての1クラス分類

One-Class Classification as GLRT for Jamming Detection in Private 5G Networks ( http://arxiv.org/abs/2405.09565v1 )

ライセンス: Link先を確認
Matteo Varotto, Stefan Valentin, Francesco Ardizzon, Samuele Marzotto, Stefano Tomasin, (参考訳) 5Gモバイルネットワークは、業界自動化のような貴重なアプリケーションを妨げる可能性のある攻撃を妨害する脆弱性がある。 本稿では,ジャミング攻撃を検出する専用装置を用いて無線信号を解析することを提案する。 我々は,GLRTを実装したCNNによる学習手法を追求する。 この目的のために、CNNは2つのデータセットを使って2クラス分類器として訓練される:1つは真の正当な信号であり、もう1つは人工的に生成され、結果として生成された分類器がGLRTを実装する。 人工データセットは、さまざまな種類のジャミング信号を模倣して生成される。 プライベートな5Gネットワークと複数のジャミング信号から得られた実験データを用いて,本検出器の性能評価を行い,攻撃検出の有効性を示した。

5G mobile networks are vulnerable to jamming attacks that may jeopardize valuable applications such as industry automation. In this paper, we propose to analyze radio signals with a dedicated device to detect jamming attacks. We pursue a learning approach, with the detector being a CNN implementing a GLRT. To this end, the CNN is trained as a two-class classifier using two datasets: one of real legitimate signals and another generated artificially so that the resulting classifier implements the GLRT. The artificial dataset is generated mimicking different types of jamming signals. We evaluate the performance of this detector using experimental data obtained from a private 5G network and several jamming signals, showing the technique's effectiveness in detecting the attacks.
翻訳日:2024-05-19 13:49:26 公開日:2024-05-07
# 確率的スタックルバーグゲームにおけるパレート最適政策の政策反復

Policy Iteration for Pareto-Optimal Policies in Stochastic Stackelberg Games ( http://arxiv.org/abs/2405.06689v1 )

ライセンス: Link先を確認
Mikoto Kudo, Yohei Akimoto, (参考訳) 一般の確率ゲームにおいて、定常的なスタックルバーグ均衡(SSE)は必ずしも存在せず、従者がリーダーの政策に対して最高の反応を取るとき、リーダーがすべての初期状態に対するリーダーの帰還を最大化する。 既存のSSEを決定する方法は、SSEと極限の一致と収束を保証するために強い仮定を必要とする。 さらに, これらの手法の固定点における性能は, SSE でない場合には妥当でないことが示唆された。 本稿では,SSEの代替としてパレート最適性の概念を紹介した。 我々は,最も応答性の高い追従者による確率ゲームに対するポリシー改善定理を導出し,それに基づいてパレート最適ポリシーを決定するための反復アルゴリズムを提案する。 提案手法の単調な改善と収束が証明され、SSEへの収束が特別の場合で証明される。

In general-sum stochastic games, a stationary Stackelberg equilibrium (SSE) does not always exist, in which the leader maximizes leader's return for all the initial states when the follower takes the best response against the leader's policy. Existing methods of determining the SSEs require strong assumptions to guarantee the convergence and the coincidence of the limit with the SSE. Moreover, our analysis suggests that the performance at the fixed points of these methods is not reasonable when they are not SSEs. Herein, we introduced the concept of Pareto-optimality as a reasonable alternative to SSEs. We derive the policy improvement theorem for stochastic games with the best-response follower and propose an iterative algorithm to determine the Pareto-optimal policies based on it. Monotone improvement and convergence of the proposed approach are proved, and its convergence to SSEs is proved in a special case.
翻訳日:2024-05-14 20:41:54 公開日:2024-05-07
# DrugLLM:Few-shot Molecule Generationのためのオープンな大規模言語モデル

DrugLLM: Open Large Language Model for Few-shot Molecule Generation ( http://arxiv.org/abs/2405.06690v1 )

ライセンス: Link先を確認
Xianggen Liu, Yan Guo, Haoran Li, Jin Liu, Shudong Huang, Bowen Ke, Jiancheng Lv, (参考訳) 大きな言語モデル(LLM)は、言語処理やコンピュータビジョンといった分野で大きな進歩を遂げています。 数発の学習能力を改善する多様な技術が出現したが、現在のLLMは生物学や化学における言語を扱うには不足している。 例えば、分子構造と薬理化学的性質の関係を捉えるのに苦労している。 結果として、小分子の薬物修飾による数発の学習能力が妨げられている。 そこで本研究では,薬物設計に適したLLMであるD薬LLMを紹介した。 トレーニングの過程では,GMR(Group-based Molecular Representation)を用いて分子を表現し,特定の分子特性の向上を目的とした修飾を反映した配列を配置した。 DrugLLMは、過去の修飾に基づいて次の分子を予測することで、薬物発見における分子の修飾方法を学ぶ。 大規模な計算実験により、ドラッグLLMは限られた例に基づいて期待された特性を持つ新しい分子を生成できることが示され、強力な数発の分子生成能力が提示された。

Large Language Models (LLMs) have made great strides in areas such as language processing and computer vision. Despite the emergence of diverse techniques to improve few-shot learning capacity, current LLMs fall short in handling the languages in biology and chemistry. For example, they are struggling to capture the relationship between molecule structure and pharmacochemical properties. Consequently, the few-shot learning capacity of small-molecule drug modification remains impeded. In this work, we introduced DrugLLM, a LLM tailored for drug design. During the training process, we employed Group-based Molecular Representation (GMR) to represent molecules, arranging them in sequences that reflect modifications aimed at enhancing specific molecular properties. DrugLLM learns how to modify molecules in drug discovery by predicting the next molecule based on past modifications. Extensive computational experiments demonstrate that DrugLLM can generate new molecules with expected properties based on limited examples, presenting a powerful few-shot molecule generation capacity.
翻訳日:2024-05-14 20:41:54 公開日:2024-05-07
# エージェントのフリート:遺伝的粒子フィルタリングを用いた大規模言語モデルを用いた協調問題解決

Fleet of Agents: Coordinated Problem Solving with Large Language Models using Genetic Particle Filtering ( http://arxiv.org/abs/2405.06691v1 )

ライセンス: Link先を確認
Akhil Arora, Lars Klein, Nearchos Potamitis, Roland Aydin, Caglar Gulcehre, Robert West, (参考訳) 大規模言語モデル(LLM)は、単純な出力生成から複雑な推論、スタンドアローンの使用からより広範なフレームワークへの組み込みへと大きく進化した。 本稿では,遺伝子型粒子フィルタリング手法を用いて,動的木探索を介し,LLMをエージェントとして活用する新しいフレームワークである \emph{Fleet of Agents (FoA) を紹介する。 FoAは多数のエージェントを生成し、それぞれが自律的に探索し、続いてヒューリスティックな値関数に基づく再サンプリングが探索と搾取のバランスを最適化する選択フェーズを発生させる。 このメカニズムは動的分岐を可能にし、発見された解に基づいて探索戦略を適用する。 我々は,2つのベンチマークタスクである"Game of 24"と"Mini-Crosswords"を用いてFoAを実験的に検証した。 FoAは以前提案したTree-of-Thoughts法よりも有効性と効率性が優れており、(値関数の呼び出し頻度を低くすることで)計算コストを大幅に削減すると同時に、同等あるいはより優れた精度を保っている。

Large language models (LLMs) have significantly evolved, moving from simple output generation to complex reasoning and from stand-alone usage to being embedded into broader frameworks. In this paper, we introduce \emph{Fleet of Agents (FoA)}, a novel framework utilizing LLMs as agents to navigate through dynamic tree searches, employing a genetic-type particle filtering approach. FoA spawns a multitude of agents, each exploring autonomously, followed by a selection phase where resampling based on a heuristic value function optimizes the balance between exploration and exploitation. This mechanism enables dynamic branching, adapting the exploration strategy based on discovered solutions. We experimentally validate FoA using two benchmark tasks, "Game of 24" and "Mini-Crosswords". FoA outperforms the previously proposed Tree-of-Thoughts method in terms of efficacy and efficiency: it significantly decreases computational costs (by calling the value function less frequently) while preserving comparable or even superior accuracy.
翻訳日:2024-05-14 20:41:54 公開日:2024-05-07
# 従来の多言語感性分析モデルにおけるフランス語と英語間の言語バイアスの分析

Analyzing Language Bias Between French and English in Conventional Multilingual Sentiment Analysis Models ( http://arxiv.org/abs/2405.06692v1 )

ライセンス: Link先を確認
Ethan Parker Wong, Faten M'hiri, (参考訳) カナダ統計局の「バイリンガル自然言語処理に関するバイアス考察」に触発された本研究は、英語とフランス語の多言語感情分析における潜在的なバイアスについて考察する。 フランス語と英語の50-50データセットを考えると、言語バイアスが存在するかどうかを判断し、将来、より多様なデータセットの組み入れが、多言語自然言語処理(NLP)システムのエクイティにどのように影響するかを検討することを目的としている。 Support Vector Machine (SVM) と Naive Bayes モデルを3つのバランスの取れたデータセットに適用することにより、多言語感情分類における潜在的なバイアスを明らかにする。 機械学習モデルにおけるバイアスを評価するツールであるFairlearnを利用することで、我々の発見はニュアンスな結果を示している。 フランス語のデータは正確さ、リコール、F1スコアの両方で英語を上回り、フランス語を好む言語バイアスを示唆している。 しかしながら、Fairlearnのメトリクスは、SVMが3つの異なるデータセットに対して0.963、0.989、0.985の比で同値なレベルに近づき、言語間でほぼ等価な扱いを示すことを示唆している。 対照的に、ネイブ・ベイズは0.813、0.908、0.961の人口比率で示される大きな格差を示している。 これらの結果から,多言語NLPシステムの開発の重要性が示唆された。

Inspired by the 'Bias Considerations in Bilingual Natural Language Processing' report by Statistics Canada, this study delves into potential biases in multilingual sentiment analysis between English and French. Given a 50-50 dataset of French and English, we aim to determine if there exists a language bias and explore how the incorporation of more diverse datasets in the future might affect the equity of multilingual Natural Language Processing (NLP) systems. By employing Support Vector Machine (SVM) and Naive Bayes models on three balanced datasets, we reveal potential biases in multilingual sentiment classification. Utilizing Fairlearn, a tool for assessing bias in machine learning models, our findings indicate nuanced outcomes. With French data outperforming English across accuracy, recall, and F1 score metrics in both models, hinting at a language bias favoring French. However, Fairlearn's metrics suggest that the SVM approaches equitable levels with a demographic parity ratio of 0.963, 0.989, and 0.985 for the three separate datasets, indicating near-equitable treatment across languages. In contrast, Naive Bayes demonstrates greater disparities, evidenced by a demographic parity ratio of 0.813, 0.908, and 0.961. These findings reveal the importance of developing equitable multilingual NLP systems, particularly as we anticipate the inclusion of more datasets in various languages in the future.
翻訳日:2024-05-14 20:41:54 公開日:2024-05-07
# SurfPro:連続表面に基づくタンパク質の機能設計

SurfPro: Functional Protein Design Based on Continuous Surface ( http://arxiv.org/abs/2405.06693v1 )

ライセンス: Link先を確認
Zhenqiao Song, Tinglin Huang, Lei Li, Wengong Jin, (参考訳) 所望の機能を持つタンパク質をどうやって設計できるのか? 我々は、幾何学的構造と生化学的性質の両方がタンパク質の機能に重要であるという化学的直感に動機付けられている。 本稿では,期待表面の機能性タンパク質の生成法であるSurfProとその生化学的性質について述べる。 SurfProは、タンパク質表面の幾何学的形状及び生化学的特徴を段階的にモデル化する階層エンコーダと、アミノ酸配列を生成する自己回帰デコーダとを備える。 本稿では,標準的な逆フォールディングベンチマークCATH 4.2でSurfProを評価し,タンパク質結合体設計と酵素設計の2つの機能的タンパク質設計タスクについて検討した。 我々のSurfProは、従来の逆フォールディング法を一貫して上回り、CATH 4.2で57.78%の回復率、タンパク質-タンパク質結合と酵素-基質相互作用のスコアで高い成功率を達成した。

How can we design proteins with desired functions? We are motivated by a chemical intuition that both geometric structure and biochemical properties are critical to a protein's function. In this paper, we propose SurfPro, a new method to generate functional proteins given a desired surface and its associated biochemical properties. SurfPro comprises a hierarchical encoder that progressively models the geometric shape and biochemical features of a protein surface, and an autoregressive decoder to produce an amino acid sequence. We evaluate SurfPro on a standard inverse folding benchmark CATH 4.2 and two functional protein design tasks: protein binder design and enzyme design. Our SurfPro consistently surpasses previous state-of-the-art inverse folding methods, achieving a recovery rate of 57.78% on CATH 4.2 and higher success rates in terms of protein-protein binding and enzyme-substrate interaction scores.
翻訳日:2024-05-14 20:41:54 公開日:2024-05-07
# SUTRA: スケーラブルな多言語言語モデルアーキテクチャ

SUTRA: Scalable Multilingual Language Model Architecture ( http://arxiv.org/abs/2405.06694v1 )

ライセンス: Link先を確認
Abhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon Lee, Pranav Mistry, (参考訳) 本稿では,50以上の言語でテキストの理解,推論,生成が可能な多言語大言語モデルアーキテクチャSUTRAを紹介する。 SUTRAの設計は、言語固有の処理からコア概念の理解を独特に分離し、スケーラブルで効率的な多言語アライメントと学習を容易にする。 言語と概念処理の両方でMixture of Expertsフレームワークを利用することで、SUTRAは計算効率と応答性の両方を実証する。 広範な評価により、SUTRA は GPT-3.5 や Llama2 といった既存のモデルを 20-30% 上回って、多言語タスクのためのMassive Multitask Language Understanding (MMLU) ベンチマークを上回っていることが示されている。 SUTRAモデルは、インターネットから知識を使って幻覚のない、事実的、最新の応答を提供するオンラインLLMでもある。 さらに、我々は、多言語AIの未来に対するアーキテクチャの広範な意味を探求し、AI技術へのアクセスをグローバルに民主化し、主に英語以外の言語を持つ地域のAIの公平性と有用性を改善する可能性を強調した。 以上の結果から,SUTRAは多言語モデル機能において重要なギャップを埋めるだけでなく,AIアプリケーションにおける運用効率とスケーラビリティの新たなベンチマークを確立することが示唆された。

In this paper, we introduce SUTRA, multilingual Large Language Model architecture capable of understanding, reasoning, and generating text in over 50 languages. SUTRA's design uniquely decouples core conceptual understanding from language-specific processing, which facilitates scalable and efficient multilingual alignment and learning. Employing a Mixture of Experts framework both in language and concept processing, SUTRA demonstrates both computational efficiency and responsiveness. Through extensive evaluations, SUTRA is demonstrated to surpass existing models like GPT-3.5, Llama2 by 20-30% on leading Massive Multitask Language Understanding (MMLU) benchmarks for multilingual tasks. SUTRA models are also online LLMs that can use knowledge from the internet to provide hallucination-free, factual and up-to-date responses while retaining their multilingual capabilities. Furthermore, we explore the broader implications of its architecture for the future of multilingual AI, highlighting its potential to democratize access to AI technology globally and to improve the equity and utility of AI in regions with predominantly non-English languages. Our findings suggest that SUTRA not only fills pivotal gaps in multilingual model capabilities but also establishes a new benchmark for operational efficiency and scalability in AI applications.
翻訳日:2024-05-14 20:41:54 公開日:2024-05-07
# グリオ芽腫の深層学習モデル翻訳の課題--ZGBMコンソーシアム

Overcoming challenges of translating deep-learning models for glioblastoma: the ZGBM consortium ( http://arxiv.org/abs/2405.05980v1 )

ライセンス: Link先を確認
Haris Shuaib, Gareth J Barker, Peter Sasieni, Enrico De Vita, Alysha Chelliah, Roman Andrei, Keyoumars Ashkan, Erica Beaumont, Lucy Brazil, Chris Rowland-Hill, Yue Hui Lau, Aysha Luis, James Powell, Angela Swampillai, Sean Tenant, Stefanie C Thust, Stephen Wastling, Tom Young, Thomas C Booth, (参考訳) 目的: グリオ芽腫治療経路における深層学習モデルの統合の課題を明らかにするため, グリオ芽腫患者の定期治療における画像プロトコルとスケジューリングのばらつきを報告する。 さらに、最も一般的な画像研究と画像コントラストを理解するために、潜在的に堅牢なディープラーニングモデルの開発を知らせる。 方法: MR画像データは、ZGBMコンソーシアムの5つのコンソーシアムにまたがる5つのコホートから、ランダムなサンプルから分析された。 DICOMヘッダ情報とともに臨床および治療データを解析し,治療経路の撮影スケジュールを把握した。 結果: 全部位で前外科的研究を除くすべての段階において, コントラスト強調T1強調画像のみの撮影を行う。 拡散MRIは、最も一般的な非構造イメージングタイプであり、各部位で実行される。 結論: イメージングプロトコルとスケジューリングは英国全体で異なるため、他のセンターで堅牢に実行できる機械学習モデルを開発するのは難しい。 構造イメージングはすべての中心で一貫して行われる。 知識の進歩: ディープラーニングモデルの翻訳が成功すれば、非構造的または周術期的なイメージングプロトコルとスケジュールを標準化するための重要な努力がなければ、構造的後イメージングがベースになる可能性が高い。

Objective: To report imaging protocol and scheduling variance in routine care of glioblastoma patients in order to demonstrate challenges of integrating deep-learning models in glioblastoma care pathways. Additionally, to understand the most common imaging studies and image contrasts to inform the development of potentially robust deep-learning models. Methods: MR imaging data were analysed from a random sample of five patients from the prospective cohort across five participating sites of the ZGBM consortium. Reported clinical and treatment data alongside DICOM header information were analysed to understand treatment pathway imaging schedules. Results: All sites perform all structural imaging at every stage in the pathway except for the presurgical study, where in some sites only contrast-enhanced T1-weighted imaging is performed. Diffusion MRI is the most common non-structural imaging type, performed at every site. Conclusion: The imaging protocol and scheduling varies across the UK, making it challenging to develop machine-learning models that could perform robustly at other centres. Structural imaging is performed most consistently across all centres. Advances in knowledge: Successful translation of deep-learning models will likely be based on structural post-treatment imaging unless there is significant effort made to standardise non-structural or peri-operative imaging protocols and schedules.
翻訳日:2024-05-13 17:45:54 公開日:2024-05-07
# ハイパーネットを用いたスケーラブルな物理的ソース・ツー・フィールド推論

Scalable physical source-to-field inference with hypernetworks ( http://arxiv.org/abs/2405.05981v1 )

ライセンス: Link先を確認
Berian James, Stefan Pollok, Ignacio Peis, Jes Frellsen, Rasmus Bjørk, (参考訳) 本稿では,重力場や磁気源周辺での計算を補正する生成モデルを提案する。 厳密な数値計算は計算複雑性$\mathcal{O}(M\times{}N)$のソース数とフィールド評価点数を持つか、高速フーリエ変換を利用するために固定された評価格子を必要とする。 ハイパーネットワークがソースコレクション周辺のフィールドを暗黙的に表現するアーキテクチャを使って、我々のモデルは代わりに$\mathcal{O}(M + N)$として実行し、$\sim\! 4\%-6\%$で、任意のソース数に対して任意の位置で評価が可能となり、eg物理シミュレーションの速度が大幅に向上した。 また、出力場の物理特性に関するモデルについても検討し、その応用を実証するための2次元例を考案する。 これらのモデルと実験のコードはhttps://github.com/cmt-dtu-energy/hypermagneticsで公開されている。

We present a generative model that amortises computation for the field around e.g. gravitational or magnetic sources. Exact numerical calculation has either computational complexity $\mathcal{O}(M\times{}N)$ in the number of sources and field evaluation points, or requires a fixed evaluation grid to exploit fast Fourier transforms. Using an architecture where a hypernetwork produces an implicit representation of the field around a source collection, our model instead performs as $\mathcal{O}(M + N)$, achieves accuracy of $\sim\!4\%-6\%$, and allows evaluation at arbitrary locations for arbitrary numbers of sources, greatly increasing the speed of e.g. physics simulations. We also examine a model relating to the physical properties of the output field and develop two-dimensional examples to demonstrate its application. The code for these models and experiments is available at https://github.com/cmt-dtu-energy/hypermagnetics.
翻訳日:2024-05-13 17:45:54 公開日:2024-05-07
# 機械学習による可能性外惑星軌道KIC 1718360の検出

The Detection of a Possible Exoplanet Orbiting KIC 1718360 Using Machine Learning ( http://arxiv.org/abs/2405.05282v1 )

ライセンス: Link先を確認
Jakob Roche, (参考訳) 本稿では, G1.5IV-V型星KIC 1718360の光曲線における周期的なディミング現象の検出について述べる。 これは、TESSとケプラー宇宙望遠鏡によって行われた可視光観測に基づいている。 データの分析は、半径が2.938日周期の約1.048地球ラジイと、半質量軸が0.04天文単位である可能性のある天体に向かっている。 最初の観測は、ワンクラスSVM機械学習法を用いたケプラークォーター16データで行われた。 その後のテッサ宇宙望遠鏡による観測は、これらの発見を裏付けるものである。 検証にはさらなるデータが必要であるが、これらの結果は短周期の軌道を持つ地球に似た惑星のデータ量の増大に寄与する可能性がある。

This paper presents the detection of a periodic dimming event in the lightcurve of the G1.5IV-V type star KIC 1718360. This is based on visible-light observations conducted by both the TESS and Kepler space telescopes. Analysis of the data points toward a possible orbiting body with a radius of approximately 1.048 Earth Radii with a period of 2.938 days, as well as a semi-major axis of 0.04 AU. The initial observation was made in Kepler Quarter 16 data using the One-Class SVM machine learning method. Subsequent observations by the TESS space telescope corroborate these findings. While still requiring further data to validate, these results may contribute to a growing body of data of Earthlike planets with short-period orbits.
翻訳日:2024-05-10 15:12:05 公開日:2024-05-07
# メタ認知エージェントとしてのジェネレーティブAI--ICF模倣試験における被験者との混合手法による比較研究

Generative AI as a metacognitive agent: A comparative mixed-method study with human participants on ICF-mimicking exam performance ( http://arxiv.org/abs/2405.05285v1 )

ライセンス: Link先を確認
Jelena Pavlovic, Jugoslav Krstic, Luka Mitrovic, Djordje Babic, Adrijana Milosavljevic, Milena Nikolic, Tijana Karaklic, Tijana Mitrovic, (参考訳) 本研究は,国際コーチング連盟(ICF)が指導能力に関する状況判断テストである試験を模倣する文脈において,人間のメタ認知に対する大規模言語モデルのメタ認知能力について検討した。 混合手法を用いて,ヒトおよび5種類の高度なLDM(GPT-4, Claude-3-Opus 3, Mistral Large, Llama 3, Gemini 1.5 Pro)の感度,確率予測精度,バイアスなどのメタ認知性能を評価した。 以上の結果から,LLMはすべてのメタ認知的指標,特に過信率の低下において,人間よりも優れていたことが示唆された。 しかし、LLMも人間もあいまいなシナリオでは適応性が低く、事前に定義された決定の枠組みに忠実に固執している。 この研究は、ジェネレーティブAIが意識的な認識なしに、人間のようなメタ認知処理を効果的に行うことができることを示唆している。 本研究の意義は、指導能力の習得における足場認知とメタ認知的側面を持つAIシミュレータの開発に関連して論じられる。 より広範に、これらの結果の意味は、より自律的で直感的なAIシステムへと導くメタ認知モジュールの開発に関連して議論される。

This study investigates the metacognitive capabilities of Large Language Models relative to human metacognition in the context of the International Coaching Federation ICF mimicking exam, a situational judgment test related to coaching competencies. Using a mixed method approach, we assessed the metacognitive performance, including sensitivity, accuracy in probabilistic predictions, and bias, of human participants and five advanced LLMs (GPT-4, Claude-3-Opus 3, Mistral Large, Llama 3, and Gemini 1.5 Pro). The results indicate that LLMs outperformed humans across all metacognitive metrics, particularly in terms of reduced overconfidence, compared to humans. However, both LLMs and humans showed less adaptability in ambiguous scenarios, adhering closely to predefined decision frameworks. The study suggests that Generative AI can effectively engage in human-like metacognitive processing without conscious awareness. Implications of the study are discussed in relation to development of AI simulators that scaffold cognitive and metacognitive aspects of mastering coaching competencies. More broadly, implications of these results are discussed in relation to development of metacognitive modules that lead towards more autonomous and intuitive AI systems.
翻訳日:2024-05-10 15:12:05 公開日:2024-05-07
# Tiny Deep Ensemble: 共有ウェイトによる正規化レイヤのカプセル化によるエッジAIアクセラレータの不確実性推定

Tiny Deep Ensemble: Uncertainty Estimation in Edge AI Accelerators via Ensembling Normalization Layers with Shared Weights ( http://arxiv.org/abs/2405.05286v1 )

ライセンス: Link先を確認
Soyed Tuhin Ahmed, Michael Hefenbrock, Mehdi B. Tahoori, (参考訳) 人工知能(AI)の応用は急速に発展しており、自律運転や医療診断など、機能的安全性が最重要となる安全クリティカルな領域でも一般的に使用されている。 AI駆動システムでは、不確実性推定により、ユーザーは過信予測を避け、機能的安全性を達成することができる。 したがって、モデル予測の堅牢性と信頼性を向上させることができる。 しかし、ディープアンサンブル法のような従来の不確実性推定手法では、複数のモデルの保存と処理を必要とするため、高い計算とハードウェア(遅延とエネルギー)オーバーヘッドが課される。 あるいは、モンテカルロのドロップアウト(MC-dropout)メソッドはメモリオーバーヘッドが低いが、多数の(\sim 100$)フォワードパスを必要とし、高い計算オーバーヘッドとレイテンシをもたらす。 したがって、これらのアプローチは、限られたコンピューティングとメモリ資源を持つバッテリー駆動エッジデバイスには適さない。 本稿では,エッジデバイスにおける不確実性評価のための低コストアプローチであるTiny-Deep Ensembleアプローチを提案する。 このアプローチでは、正規化レイヤのみが100万回アンサンブルされ、すべてのアンサンブルメンバが共通の重みとバイアスを共有し、ストレージ要件とレイテンシが大幅に低下する。 さらに,本手法では,推測および不確実性推定のためのバッチ処理が可能なハードウェアアーキテクチャにおいて,1つのフォワードパスしか必要としない。 さらに、単一のモデルとほぼ同じメモリオーバーヘッドを持つ。 したがって、レイテンシとメモリオーバーヘッドは最大$\sim M\times$で削減される。 しかしながら,提案手法は精度を損なわないため,予測精度は最大$\sim 1\%,RMSEは17.17\%と,様々なベンチマークデータセットやタスク,最先端アーキテクチャで低下する。

The applications of artificial intelligence (AI) are rapidly evolving, and they are also commonly used in safety-critical domains, such as autonomous driving and medical diagnosis, where functional safety is paramount. In AI-driven systems, uncertainty estimation allows the user to avoid overconfidence predictions and achieve functional safety. Therefore, the robustness and reliability of model predictions can be improved. However, conventional uncertainty estimation methods, such as the deep ensemble method, impose high computation and, accordingly, hardware (latency and energy) overhead because they require the storage and processing of multiple models. Alternatively, Monte Carlo dropout (MC-dropout) methods, although having low memory overhead, necessitate numerous ($\sim 100$) forward passes, leading to high computational overhead and latency. Thus, these approaches are not suitable for battery-powered edge devices with limited computing and memory resources. In this paper, we propose the Tiny-Deep Ensemble approach, a low-cost approach for uncertainty estimation on edge devices. In our approach, only normalization layers are ensembled $M$ times, with all ensemble members sharing common weights and biases, leading to a significant decrease in storage requirements and latency. Moreover, our approach requires only one forward pass in a hardware architecture that allows batch processing for inference and uncertainty estimation. Furthermore, it has approximately the same memory overhead compared to a single model. Therefore, latency and memory overhead are reduced by a factor of up to $\sim M\times$. Nevertheless, our method does not compromise accuracy, with an increase in inference accuracy of up to $\sim 1\%$ and a reduction in RMSE of $17.17\%$ in various benchmark datasets, tasks, and state-of-the-art architectures.
翻訳日:2024-05-10 15:12:05 公開日:2024-05-07
# モデル幅と密度がラベルノイズの有無の一般化に及ぼす影響の検討

Investigating the Impact of Model Width and Density on Generalization in Presence of Label Noise ( http://arxiv.org/abs/2208.08003v5 )

ライセンス: Link先を確認
Yihao Xue, Kyle Whitecross, Baharan Mirzasoleiman, (参考訳) 過パラメータ化されたニューラルネットワークのサイズの増加は、最先端のパフォーマンスを達成する上で重要な要素である。 これは二重降下現象によって捉えられ、モデル幅が増加するにつれて試験損失は減少する(あるいは単調に減少する)パターンに従う。 しかし, 実験損失曲線に対するラベルノイズの影響については, 完全には検討されていない。 本研究では、ラベルノイズが元々観測された二重降下曲線の「textit{final ascent}」につながる興味深い現象を明らかにする。 具体的には、十分に大きなノイズ対サンプルサイズ比の下では、中間幅で最適な一般化が達成される。 理論的解析を通じて、この現象はラベルノイズによって誘発される試験損失分散の形状遷移に起因している。 さらに,最終昇華現象をモデル密度に拡張し,トレーニング可能なパラメータをランダムに落とせば,ラベルノイズ下での一般化が向上することを示す最初の理論的特徴を与える。 また,正則化とサンプルサイズの役割についても徹底的に検討した。 驚いたことに、ラベルノイズに対するより大規模な$\ell_2$正規化と堅牢な学習手法が最終的な上昇を悪化させる。 我々は,MNISTでトレーニングされたReLuネットワーク,CIFAR-10/100でトレーニングされたResNets/ViT,スタンフォードカーでトレーニングされたInceptionResNet-v2による実環境ノイズラベルによる実験により,その妥当性を確認した。

Increasing the size of overparameterized neural networks has been a key in achieving state-of-the-art performance. This is captured by the double descent phenomenon, where the test loss follows a decreasing-increasing-decreasing pattern (or sometimes monotonically decreasing) as model width increases. However, the effect of label noise on the test loss curve has not been fully explored. In this work, we uncover an intriguing phenomenon where label noise leads to a \textit{final ascent} in the originally observed double descent curve. Specifically, under a sufficiently large noise-to-sample-size ratio, optimal generalization is achieved at intermediate widths. Through theoretical analysis, we attribute this phenomenon to the shape transition of test loss variance induced by label noise. Furthermore, we extend the final ascent phenomenon to model density and provide the first theoretical characterization showing that reducing density by randomly dropping trainable parameters improves generalization under label noise. We also thoroughly examine the roles of regularization and sample size. Surprisingly, we find that larger $\ell_2$ regularization and robust learning methods against label noise exacerbate the final ascent. We confirm the validity of our findings through extensive experiments on ReLu networks trained on MNIST, ResNets/ViTs trained on CIFAR-10/100, and InceptionResNet-v2 trained on Stanford Cars with real-world noisy labels.
翻訳日:2024-05-09 19:50:32 公開日:2024-05-07
# モアレヘテロ構造におけるキラル擬似スピン液体

Chiral Pseudo Spin Liquids in Moire Heterostructures ( http://arxiv.org/abs/2209.05506v2 )

ライセンス: Link先を確認
Clemens Kuhlenkamp, Wilhelm Kadow, Atac Imamoglu, Michael Knap, (参考訳) 強磁場中における多層モアレ構造を,高可変でフラストレーションのあるハバード物理をトポロジカル秩序で実現するための新しいプラットフォームとして提案する。 自由度層を擬似スピンとして同定することで、環交換過程を制御しながらSU(2)対称性を保ち、大きな外部磁場によって運動エネルギーを同時に焼成することができる。 このようにして、相互作用するハバード・ホフスタッター状態とその遷移の幅広いクラスを研究することができる。 注目すべきは、強い相互作用の極限において、系はモット絶縁となり、磁場によって誘導されるキラル擬スピン液体相が見つかることである。 この位相的に順序付けられた状態は、関連する摂動に対して例外的に安定である。 本研究では, 層状擬似スピンが短期実験でどのように探索できるかを論じる。 磁気フラックスは、モアレ系で容易に調整できるため、我々の手法は、トポロジカルに秩序づけられた物質の相を実験的に実現し制御するための、有望な経路を提供する。

We propose multi-layer moire structures in strong external magnetic fields as a novel platform for realizing highly-tunable, frustrated Hubbard physics with topological order. Identifying the layer degree of freedom as a pseudo spin, allows us to retain SU(2) symmetry while controlling ring-exchange processes and concurrently quenching the kinetic energy by large external magnetic fields. This way, a broad class of interacting Hubbard-Hofstadter states and their transitions can be studied. Remarkably, in the limit of strong interactions the system becomes Mott insulating and we find chiral pseudo spin liquid phases which are induced by the magnetic field. We find that this topologically ordered state remains exceptionally stable towards relevant perturbations. We discuss how layer pseudo-spin can be probed in near-term experiments. As the magnetic flux can be easily tuned in moire systems, our approach provides a promising route towards the experimental realization and control of topologically ordered phases of matter.
翻訳日:2024-05-09 19:50:32 公開日:2024-05-07
# DMODE:クラス固有情報を持たない微分単分子物体距離推定モジュール

DMODE: Differential Monocular Object Distance Estimation Module without Class Specific Information ( http://arxiv.org/abs/2210.12596v3 )

ライセンス: Link先を確認
Pedram Agand, Michael Chang, Mo Chen, (参考訳) 物体距離を測定するために1台のカメラを使用することは、ステレオビジョンやLiDARに代わる費用対効果がある。 文献では単分子距離推定が研究されているが、既存の手法の多くは高い性能を達成するためにオブジェクトクラスの知識に依存している。 この文脈的データがないと、単一の分子距離推定はより困難になり、参照点やオブジェクト固有の手がかりが欠如する。 しかし、これらの手がかりは、広範囲な変動や逆境的な状況の物体に対して誤解を招く可能性がある。 本稿では,オブジェクトのクラス知識を必要としない単分子距離推定法であるDMODEを提案する。 DMODEは、カメラの動きと時間とともにその大きさの変動を融合させることで物体の距離を推定し、様々な物体検出器や未知の物体に適応し、これらの課題に対処する。 我々は,TrackRCNN と EagerMOT からの出力と接点境界ボックスアノテーションを用いて,KITTI MOTS データセット上でのモデルを評価する。 オブジェクトの位置は、オブジェクトの検出源やクラス属性を測定することなく、境界ボックスサイズとカメラ位置の変化を用いて決定される。 提案手法は,従来の手法と比較して,多クラス物体距離検出のシナリオにおいて優れた性能を示す。

Utilizing a single camera for measuring object distances is a cost-effective alternative to stereo-vision and LiDAR. Although monocular distance estimation has been explored in the literature, most existing techniques rely on object class knowledge to achieve high performance. Without this contextual data, monocular distance estimation becomes more challenging, lacking reference points and object-specific cues. However, these cues can be misleading for objects with wide-range variation or adversarial situations, which is a challenging aspect of object-agnostic distance estimation. In this paper, we propose DMODE, a class-agnostic method for monocular distance estimation that does not require object class knowledge. DMODE estimates an object's distance by fusing its fluctuation in size over time with the camera's motion, making it adaptable to various object detectors and unknown objects, thus addressing these challenges. We evaluate our model on the KITTI MOTS dataset using ground-truth bounding box annotations and outputs from TrackRCNN and EagerMOT. The object's location is determined using the change in bounding box sizes and camera position without measuring the object's detection source or class attributes. Our approach demonstrates superior performance in multi-class object distance detection scenarios compared to conventional methods.
翻訳日:2024-05-09 19:50:32 公開日:2024-05-07
# 極小平均場マルチエージェント強化学習

Major-Minor Mean Field Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2303.10665v2 )

ライセンス: Link先を確認
Kai Cui, Christian Fabian, Anam Tahir, Heinz Koeppl, (参考訳) マルチエージェント強化学習(MARL)は多くのエージェントに拡張することが困難である。 平均場制御(MFC)を用いた最近のMARLは、他の難易度の高いMARLに対するトラクタブルで厳密なアプローチを提供する。 しかし、多くの独立で弱い相互作用を持つエージェントの厳密なMFC仮定は、実際には柔軟すぎる。 我々は、MFCを、M3FC(Major-Minor Mean Field Control)として、多くの類似した、かつ少数の複雑なエージェントを同時にモデル化するように一般化する。 理論的には、有限エージェント制御に対する近似結果を与え、動的プログラミング原理とともに最適性のための定常ポリシーの十分性を検証する。 本稿では,有限エージェントシステムに対して,制限システムの代わりにM3FMARL(Major-Minor Mean Field MARL)を提案する。 このアルゴリズムは、基礎となるM3FC MDPのポリシー勾配を近似する。 最後に、様々なシナリオで実験的にその能力を実証する。 我々は、最先端のポリシー勾配MARL法と比較して、強い性能を観察する。

Multi-agent reinforcement learning (MARL) remains difficult to scale to many agents. Recent MARL using Mean Field Control (MFC) provides a tractable and rigorous approach to otherwise difficult cooperative MARL. However, the strict MFC assumption of many independent, weakly-interacting agents is too inflexible in practice. We generalize MFC to instead simultaneously model many similar and few complex agents -- as Major-Minor Mean Field Control (M3FC). Theoretically, we give approximation results for finite agent control, and verify the sufficiency of stationary policies for optimality together with a dynamic programming principle. Algorithmically, we propose Major-Minor Mean Field MARL (M3FMARL) for finite agent systems instead of the limiting system. The algorithm is shown to approximate the policy gradient of the underlying M3FC MDP. Finally, we demonstrate its capabilities experimentally in various scenarios. We observe a strong performance in comparison to state-of-the-art policy gradient MARL methods.
翻訳日:2024-05-09 19:40:17 公開日:2024-05-07
# RED-PSM:動的イメージングのための因子化低ランクモデルによる正規化

RED-PSM: Regularization by Denoising of Factorized Low Rank Models for Dynamic Imaging ( http://arxiv.org/abs/2304.03483v4 )

ライセンス: Link先を確認
Berk Iskender, Marc L. Klasky, Yoram Bresler, (参考訳) ダイナミックイメージングは、アンダーサンプリングされた測定値を使用して、瞬時に時間変化した2Dまたは3Dオブジェクトの回復に対処する。 特に、ダイナミックトモグラフィーの場合、単一の視野角での1つの投影しか利用できないため、問題は非常に悪化する。 本稿では,この課題に対処する2つの強力な手法を組み合わせたRED-PSMを提案する。 第一に、非パラメトリック因数分解低ランクモデル、または部分分離可能モデル(PSMs)は、時空間オブジェクトの低ランクを効率的に導入するために用いられてきた。 2つ目は最近のRegularization by Denoising (RED)で、これは様々な逆問題に対して最先端の画像復調アルゴリズムの印象的なパフォーマンスを利用する柔軟なフレームワークを提供する。 本稿では、REDを用いた部分的に分離可能な目的と、変数分割とADMMを用いた計算効率が高くスケーラブルな最適化手法を提案する。 理論的解析は、我々の目的の1次最適条件を満たす定常点に対応する値への収束を証明している。 収束は特定の射影領域に基づく初期化によって加速される。 提案したRED-PSMの性能と計算的改善を,TD-DIPと呼ばれる最近のディープ・プライア・ベースの手法と比較し,学習用イメージデノイザを用いて実証した。 主にダイナミックトモグラフィに焦点が当てられているが, 心動的MRI設定におけるRED-PSMの性能上の優位性も示している。

Dynamic imaging addresses the recovery of a time-varying 2D or 3D object at each time instant using its undersampled measurements. In particular, in the case of dynamic tomography, only a single projection at a single view angle may be available at a time, making the problem severely ill-posed. We propose an approach, RED-PSM, which combines for the first time two powerful techniques to address this challenging imaging problem. The first, are non-parametric factorized low rank models, also known as partially separable models (PSMs), which have been used to efficiently introduce a low-rank prior for the spatio-temporal object. The second is the recent Regularization by Denoising (RED), which provides a flexible framework to exploit the impressive performance of state-of-the-art image denoising algorithms, for various inverse problems. We propose a partially separable objective with RED and a computationally efficient and scalable optimization scheme with variable splitting and ADMM. Theoretical analysis proves the convergence of our objective to a value corresponding to a stationary point satisfying the first-order optimality conditions. Convergence is accelerated by a particular projection-domain-based initialization. We demonstrate the performance and computational improvements of our proposed RED-PSM with a learned image denoiser by comparing it to a recent deep-prior-based method known as TD-DIP. Although the main focus is on dynamic tomography, we also show performance advantages of RED-PSM in a cardiac dynamic MRI setting.
翻訳日:2024-05-09 19:40:17 公開日:2024-05-07
# エントロピー共分散モデル

Entropic covariance models ( http://arxiv.org/abs/2306.03590v3 )

ライセンス: Link先を確認
Piotr Zwiernik, (参考訳) 共分散行列推定において、問題のひとつは適切なモデルと効率的な推定方法を見つけることである。 文献でよく使われる2つのモデリングアプローチは、共分散行列やその逆行列に線形制限を課すものである。 別のアプローチでは、共分散行列の行列対数に対する線形制限を考える。 本稿では、上記の例を含む共分散行列の異なる変換に対する線形制限に関する一般的な枠組みを提案する。 提案手法は凸問題を解き、$M$-estimatorを出力し、比較的単純な漸近的(一般には)と有限サンプル解析(ガウスの場合)を可能にする。 特に、標準的な$\sqrt{n/d}$レートを復元する。 我々の幾何学的洞察は、共分散行列モデリングにおける最近の様々な結果を拡張することができる。 これには、相関行列の空間の非制限パラメトリゼーション(英語版)(unrestricted parametrizations of the space of correlation matrices)が提供され、これは行列対数を利用した最近の結果に代わるものである。

In covariance matrix estimation, one of the challenges lies in finding a suitable model and an efficient estimation method. Two commonly used modelling approaches in the literature involve imposing linear restrictions on the covariance matrix or its inverse. Another approach considers linear restrictions on the matrix logarithm of the covariance matrix. In this paper, we present a general framework for linear restrictions on different transformations of the covariance matrix, including the mentioned examples. Our proposed estimation method solves a convex problem and yields an $M$-estimator, allowing for relatively straightforward asymptotic (in general) and finite sample analysis (in the Gaussian case). In particular, we recover standard $\sqrt{n/d}$ rates, where $d$ is the dimension of the underlying model. Our geometric insights allow to extend various recent results in covariance matrix modelling. This includes providing unrestricted parametrizations of the space of correlation matrices, which is alternative to a recent result utilizing the matrix logarithm.
翻訳日:2024-05-09 19:30:12 公開日:2024-05-07
# 個人差分学習のための独立ノイズに負う可能性のある相関ノイズ

Correlated Noise Provably Beats Independent Noise for Differentially Private Learning ( http://arxiv.org/abs/2310.06771v2 )

ライセンス: Link先を確認
Christopher A. Choquette-Choo, Krishnamurthy Dvijotham, Krishna Pillutla, Arun Ganesh, Thomas Steinke, Abhradeep Thakurta, (参考訳) 異なるプライベート学習アルゴリズムは学習プロセスにノイズを注入する。 最も一般的なプライベート学習アルゴリズムであるDP-SGDは、各イテレーションに独立なガウス雑音を付加するが、近年の行列分解機構の研究は、ノイズに相関を導入することにより、その有用性を大幅に向上させることができることを実証的に示している。 相関関数の任意の選択に対する漸近学習ユーティリティを特徴付け、線形回帰の正確な解析的境界を与え、一般凸関数の凸プログラムの解となる。 これらの境界を用いて,実効次元や条件数などの問題パラメータの関数として,バニラDP-SGDの相関ノイズがいかに向上するかを示す。 さらに, ほぼ最適相関関数の解析式は, 従来の作業における雑音相関行列の最適化に用いる半定値プログラムの3次複雑さを回避する。 我々は私的深層学習の実験で理論を検証した。 私たちの作業は、計算とメモリの両面で効率的でありながら、以前の作業と一致したり、性能を上回ります。

Differentially private learning algorithms inject noise into the learning process. While the most common private learning algorithm, DP-SGD, adds independent Gaussian noise in each iteration, recent work on matrix factorization mechanisms has shown empirically that introducing correlations in the noise can greatly improve their utility. We characterize the asymptotic learning utility for any choice of the correlation function, giving precise analytical bounds for linear regression and as the solution to a convex program for general convex functions. We show, using these bounds, how correlated noise provably improves upon vanilla DP-SGD as a function of problem parameters such as the effective dimension and condition number. Moreover, our analytical expression for the near-optimal correlation function circumvents the cubic complexity of the semi-definite program used to optimize the noise correlation matrix in previous work. We validate our theory with experiments on private deep learning. Our work matches or outperforms prior work while being efficient both in terms of compute and memory.
翻訳日:2024-05-09 19:10:37 公開日:2024-05-07
# 文脈化政策回復:適応的模倣学習による医学的決定のモデル化と解釈

Contextualized Policy Recovery: Modeling and Interpreting Medical Decisions with Adaptive Imitation Learning ( http://arxiv.org/abs/2310.07918v4 )

ライセンス: Link先を確認
Jannik Deuschel, Caleb N. Ellington, Yingtao Luo, Benjamin J. Lengerich, Pascal Friederich, Eric P. Xing, (参考訳) 解釈可能な政策学習は、観察された行動から無知な決定ポリシーを推定しようとするが、既存のモデルは正確性と解釈可能性の間のトレードオフを強制し、人間の意思決定プロセスに関するデータ駆動の解釈を制限する。 基本的に、既存のアプローチは、基本的な決定プロセスが普遍的なポリシーとして表現されているため、このトレードオフによって負担を受けます。 そこで我々は,複雑な意思決定プロセスのモデル化という問題をマルチタスク学習問題として再設計し,各コンテキストが一意なタスクを呈し,複雑な意思決定ポリシーを多くの単純なコンテキスト特異的なポリシーから断片的に構築できるコンテキスト適応型政策回復(CPR)を開発した。 CPRは、コンテキスト固有のポリシーを線形マップとしてモデル化し、コンテキストが新しい観測で更新されるにつれて、新しいポリシーモデル$\textit{on-demand}$を生成する。 我々はCPRフレームワークの2つのフレーバーを提供する。1つは正確な局所的解釈可能性に焦点を当て、もう1つは完全なグローバルな解釈可能性を維持している。 我々は、シミュレーションおよび実データの研究を通じてCPRを評価し、集中治療室での抗生物質処方(+22 %=AUROC vs. 以前のSOTA)の予測とアルツハイマー病患者のMRI処方(+7.7 %=AUROC vs. 以前のSOTA)の予測において最先端のパフォーマンスを達成する。 この改良により、CPRは解釈可能なメソッドとブラックボックスメソッドの精度ギャップを埋め、コンテキスト固有の決定モデルの高精細な探索と分析を可能にする。

Interpretable policy learning seeks to estimate intelligible decision policies from observed actions; however, existing models force a tradeoff between accuracy and interpretability, limiting data-driven interpretations of human decision-making processes. Fundamentally, existing approaches are burdened by this tradeoff because they represent the underlying decision process as a universal policy, when in fact human decisions are dynamic and can change drastically under different contexts. Thus, we develop Contextualized Policy Recovery (CPR), which re-frames the problem of modeling complex decision processes as a multi-task learning problem, where each context poses a unique task and complex decision policies can be constructed piece-wise from many simple context-specific policies. CPR models each context-specific policy as a linear map, and generates new policy models $\textit{on-demand}$ as contexts are updated with new observations. We provide two flavors of the CPR framework: one focusing on exact local interpretability, and one retaining full global interpretability. We assess CPR through studies on simulated and real data, achieving state-of-the-art performance on predicting antibiotic prescription in intensive care units ($+22\%$ AUROC vs. previous SOTA) and predicting MRI prescription for Alzheimer's patients ($+7.7\%$ AUROC vs. previous SOTA). With this improvement, CPR closes the accuracy gap between interpretable and black-box methods, allowing high-resolution exploration and analysis of context-specific decision models.
翻訳日:2024-05-09 19:10:37 公開日:2024-05-07
# 漁獲量を用いたリーマンラプラス近似

Riemannian Laplace Approximation with the Fisher Metric ( http://arxiv.org/abs/2311.02766v6 )

ライセンス: Link先を確認
Hanlin Yu, Marcelo Hartmann, Bernardo Williams, Mark Girolami, Arto Klami, (参考訳) ラプラスの手法は、目標密度とガウス分布をそのモードで近似する。 ベルンシュタイン=ヴォン・ミセスの定理(英語版)によるベイズ予想(英語版)には計算的に効率的で漸近的に正確であるが、複素対象や有限データ後部に対しては近似が粗すぎることが多い。 ラプラス近似の最近の一般化は、計算効率を保ちながら、よりリッチな近似族を提供するリーマン幾何学の選択に従ってガウス近似を変換する。 しかし、上述の通り、その性質は選択された計量に大きく依存しており、実際、以前の研究で採用された計量は、極端に狭く、無限のデータにも偏りがある近似をもたらす。 我々は、近似系をさらに発展させ、無限データの範囲内で正確な2つの代替変種を導出し、手法の理論解析を拡張し、実験範囲で実践的な改善を示すことにより、この欠点を是正する。

Laplace's method approximates a target density with a Gaussian distribution at its mode. It is computationally efficient and asymptotically exact for Bayesian inference due to the Bernstein-von Mises theorem, but for complex targets and finite-data posteriors it is often too crude an approximation. A recent generalization of the Laplace Approximation transforms the Gaussian approximation according to a chosen Riemannian geometry providing a richer approximation family, while still retaining computational efficiency. However, as shown here, its properties depend heavily on the chosen metric, indeed the metric adopted in previous work results in approximations that are overly narrow as well as being biased even at the limit of infinite data. We correct this shortcoming by developing the approximation family further, deriving two alternative variants that are exact at the limit of infinite data, extending the theoretical analysis of the method, and demonstrating practical improvements in a range of experiments.
翻訳日:2024-05-09 19:10:37 公開日:2024-05-07
# MRIにおける拡散確率モデルの創発的応用に関する調査研究

A Survey of Emerging Applications of Diffusion Probabilistic Models in MRI ( http://arxiv.org/abs/2311.11383v3 )

ライセンス: Link先を確認
Yuheng Fan, Hanxi Liao, Shiqi Huang, Yimin Luo, Huazhu Fu, Haikun Qi, (参考訳) 拡散確率モデル (DPM) は, 明らかな確率的特徴付けとデータ合成のための段階的なサンプリングプロセスを用いて, 研究の関心が高まっている。 サンプリング中の多くのステップによる計算負荷にもかかわらず、DPMは様々な医療画像のタスクにおいて、その高品質で多様な世代に対して広く評価されている。 MRIは優れた軟組織コントラストと超高解像度の空間分解能を有する重要な医用画像モダリティであり、DPMに特有の機会がある。 MRIでDPMを探索する研究が近年増えているが、MRIアプリケーション用に特別に設計されたDPMの調査論文はいまだに不足している。 この記事では、MRIコミュニティの研究者が異なるアプリケーションにおけるDPMの進歩を把握できるようにすることを目的としている。 まず,拡散時間ステップが離散的か連続的かに応じて分類された2つの支配的なDPMの理論を紹介し,画像生成,画像翻訳,セグメンテーション,異常検出,その他の研究トピックを含むMRIにおける新たなDPMの総合的なレビューを行う。 最後に、DPMのMRIタスクに特有の制限だけでなく、一般的な制限についても論じ、さらに探究する価値のある潜在的な領域を指摘する。

Diffusion probabilistic models (DPMs) which employ explicit likelihood characterization and a gradual sampling process to synthesize data, have gained increasing research interest. Despite their huge computational burdens due to the large number of steps involved during sampling, DPMs are widely appreciated in various medical imaging tasks for their high-quality and diversity of generation. Magnetic resonance imaging (MRI) is an important medical imaging modality with excellent soft tissue contrast and superb spatial resolution, which possesses unique opportunities for DPMs. Although there is a recent surge of studies exploring DPMs in MRI, a survey paper of DPMs specifically designed for MRI applications is still lacking. This review article aims to help researchers in the MRI community to grasp the advances of DPMs in different applications. We first introduce the theory of two dominant kinds of DPMs, categorized according to whether the diffusion time step is discrete or continuous, and then provide a comprehensive review of emerging DPMs in MRI, including reconstruction, image generation, image translation, segmentation, anomaly detection, and further research topics. Finally, we discuss the general limitations as well as limitations specific to the MRI tasks of DPMs and point out potential areas that are worth further exploration.
翻訳日:2024-05-09 19:00:52 公開日:2024-05-07
# Federated Q-Learning: 通信コストの低い線形レグレット高速化

Federated Q-Learning: Linear Regret Speedup with Low Communication Cost ( http://arxiv.org/abs/2312.15023v2 )

ライセンス: Link先を確認
Zhong Zheng, Fengyu Gao, Lingzhou Xue, Jing Yang, (参考訳) 本稿では、中央サーバの協調の下で複数のエージェントが協調して環境を探索し、生データを共有せずに最適なポリシーを学習する、表在的マルコフ決定過程(MDP)の強化学習について考察する。 収束率やサンプルの複雑さなどの指標では,エージェント数の線形スピードアップが達成されているが,通信コストの低い線形後悔スピードアップを実現するために,モデルフリーなアルゴリズムを設計できるかどうかは不明である。 本稿では,FedQ-Hoeffding とFedQ-Bernstein という2つの連立Q-Learningアルゴリズムを提案し,時間的地平線が十分に大きい場合と比較して,対応する全後悔が線形なスピードアップを達成することを示し,通信コストは時間的ステップの総数$T$で対数的にスケールすることを示した。 これらの結果は、エージェントとサーバ間のイベントトリガー同期機構、サーバがステートアクション値の局所的な見積を集約してグローバルな見積を形成する場合の新たなステップサイズ選択、および非マーチンゲール差の和を束縛する新しい濃度不等式に頼っている。 これは、線形後悔の高速化と対数通信コストが、連合強化学習におけるモデルフリーアルゴリズムによって達成できることを示す最初の研究である。

In this paper, we consider federated reinforcement learning for tabular episodic Markov Decision Processes (MDP) where, under the coordination of a central server, multiple agents collaboratively explore the environment and learn an optimal policy without sharing their raw data. While linear speedup in the number of agents has been achieved for some metrics, such as convergence rate and sample complexity, in similar settings, it is unclear whether it is possible to design a model-free algorithm to achieve linear regret speedup with low communication cost. We propose two federated Q-Learning algorithms termed as FedQ-Hoeffding and FedQ-Bernstein, respectively, and show that the corresponding total regrets achieve a linear speedup compared with their single-agent counterparts when the time horizon is sufficiently large, while the communication cost scales logarithmically in the total number of time steps $T$. Those results rely on an event-triggered synchronization mechanism between the agents and the server, a novel step size selection when the server aggregates the local estimates of the state-action values to form the global estimates, and a set of new concentration inequalities to bound the sum of non-martingale differences. This is the first work showing that linear regret speedup and logarithmic communication cost can be achieved by model-free algorithms in federated reinforcement learning.
翻訳日:2024-05-09 18:50:56 公開日:2024-05-07
# エンド・ツー・エンド自動運転における説明可能な人工知能の安全性

Safety Implications of Explainable Artificial Intelligence in End-to-End Autonomous Driving ( http://arxiv.org/abs/2403.12176v2 )

ライセンス: Link先を確認
Shahin Atakishiyev, Mohammad Salameh, Randy Goebel, (参考訳) エンド・ツー・エンドの学習パイプラインは、ディープラーニングの進歩、大規模トレーニングデータセットの可用性、統合センサーデバイスの改善など、高度自動運転車の継続的な開発におけるパラダイムシフトを徐々に生み出している。 しかし、現代の学習手法によるリアルタイム意思決定における解釈可能性の欠如は、ユーザの信頼を阻害し、そのような車両の普及と商業化を阻害する。 さらに、これらの車両が交通事故に巻き込まれたり、事故を起こしたりする場合には、この問題が悪化する。 このような欠点は、社会的および法的観点から深刻な安全上の懸念を提起する。 したがって、車両の自動化に対する信頼を構築するためには、エンドツーエンドの自動運転における説明責任が不可欠である。 しかしながら、エンド・ツー・エンド・ドライブの安全性と説明可能性の側面は、今日の最先端の研究者によって概して不一致に研究されている。 この調査は、これらのトピック間のギャップを埋めることを目的としており、以下の研究課題に答えようとしている。 そこで本研究では,エンド・ツー・エンド・ドライブにおける安全性と最新技術の説明可能性について再考する。 さらに,3つの重要なケーススタディを提示し,自動運転車の安全性向上における説明の要点を示す。 最後に、実証研究から得られた洞察を記述し、エンドツーエンドの自動運転における安全性の保証に関して、実用的な説明可能なAI手法の潜在的な価値、限界、注意点を明らかにする。

The end-to-end learning pipeline is gradually creating a paradigm shift in the ongoing development of highly autonomous vehicles, largely due to advances in deep learning, the availability of large-scale training datasets, and improvements in integrated sensor devices. However, a lack of interpretability in real-time decisions with contemporary learning methods impedes user trust and attenuates the widespread deployment and commercialization of such vehicles. Moreover, the issue is exacerbated when these cars are involved in or cause traffic accidents. Such drawback raises serious safety concerns from societal and legal perspectives. Consequently, explainability in end-to-end autonomous driving is essential to build trust in vehicular automation. However, the safety and explainability aspects of end-to-end driving have generally been investigated disjointly by researchers in today's state of the art. This survey aims to bridge the gaps between these topics and seeks to answer the following research question: When and how can explanations improve safety of end-to-end autonomous driving? In this regard, we first revisit established safety and state-of-the-art explainability techniques in end-to-end driving. Furthermore, we present three critical case studies and show the pivotal role of explanations in enhancing self-driving safety. Finally, we describe insights from empirical studies and reveal potential value, limitations, and caveats of practical explainable AI methods with respect to their safety assurance in end-to-end autonomous driving.
翻訳日:2024-05-09 18:50:56 公開日:2024-05-07
# ベンチマークによるニューラルセマンティック構文解析への洞察獲得

Gaining More Insight into Neural Semantic Parsing with Challenging Benchmarks ( http://arxiv.org/abs/2404.08354v3 )

ライセンス: Link先を確認
Xiao Zhang, Chunliu Wang, Rik van Noord, Johan Bos, (参考訳) Parallel Meaning Bank (PMB) はセマンティック処理のためのコーパスとして機能し、セマンティック解析とテキスト生成に重点を置いている。 現在、我々はPMBにおけるニューラルパーサーとジェネレータの優れたパフォーマンスを目撃している。 これは、このようなセマンティックな処理タスクが、大きく解決されたことを示唆するかもしれない。 PMBにおける過去のパフォーマンススコアは、最適でないデータ分割とテストセットによって膨らませられている、と我々は主張する。 これに応えて、いくつかの変更を加えます。 まず、事前のランダム分割の代わりに、標準的なテストデータの信頼性を向上させるために、より体系的な分割手法を提案する。 第二に、標準的なテストセットを除いて、談話構造を含む長いテキストを持つものと、構成的一般化に対処するものという2つの課題セットを提案する。 意味解析と意味テキスト生成のための5つのニューラルモデルを評価する。 以上の結果から,モデルの性能は(場合によっては)課題セットで低下し,このような課題に直面する際のニューラルネットワークの限界が明らかになった。

The Parallel Meaning Bank (PMB) serves as a corpus for semantic processing with a focus on semantic parsing and text generation. Currently, we witness an excellent performance of neural parsers and generators on the PMB. This might suggest that such semantic processing tasks have by and large been solved. We argue that this is not the case and that performance scores from the past on the PMB are inflated by non-optimal data splits and test sets that are too easy. In response, we introduce several changes. First, instead of the prior random split, we propose a more systematic splitting approach to improve the reliability of the standard test data. Second, except for the standard test set, we also propose two challenge sets: one with longer texts including discourse structure, and one that addresses compositional generalization. We evaluate five neural models for semantic parsing and meaning-to-text generation. Our results show that model performance declines (in some cases dramatically) on the challenge sets, revealing the limitations of neural models when confronting such challenges.
翻訳日:2024-05-09 18:50:56 公開日:2024-05-07
# MedMNIST+データセットコレクションによるモデルプロトタイピングの再考

Rethinking Model Prototyping through the MedMNIST+ Dataset Collection ( http://arxiv.org/abs/2404.15786v2 )

ライセンス: Link先を確認
Sebastian Doerrich, Francesco Di Salvo, Julius Brockmann, Christian Ledig, (参考訳) 臨床実践におけるディープラーニングベースのシステムの統合は、制限された異種医学データセットに根ざした課題によってしばしば妨げられる。 さらに、臨床応用性よりも狭い範囲のベンチマークでの限界性能改善の優先順位付けは、有意義なアルゴリズムの進歩を遅らせている。 この傾向は、臨床に関係のある革新を育むのではなく、選択したデータセット上で最先端のパフォーマンスを達成するために既存の手法を過度に微調整する結果をもたらすことが多い。 本研究は、MedMNIST+データベースの総合的なベンチマークを提示し、評価環境の多様化と、医用画像分類のための共通畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのアーキテクチャの徹底的な分析を行う。 本評価は, 様々な医療データセット, トレーニング手法, 入力解像度を包含し, 広く使用されているモデル変異の強度と限界を再評価することを目的としている。 この結果から,計算効率のよいトレーニングスキームと最新の基礎モデルは,高額なエンドツーエンドトレーニングとリソース強化アプローチのギャップを埋める上で有望であることが示唆された。 さらに、一般的な仮定とは対照的に、高分解能は一定のしきい値を超えるパフォーマンスを一貫して改善することはなく、特にプロトタイピング段階における低分解能の使用を優先して処理を高速化する。 特に,本研究では,異なるモデルアーキテクチャの本質的な能力を理解することの重要性を強調したViTベースのアーキテクチャと比較して,畳み込みモデルの競争性を再確認する。 さらに、我々の標準化された評価フレームワークは、MedMNIST+データセットコレクションの透明性、再現性、コンパラビリティの向上と、この分野における今後の研究に役立つことを期待しています。 コードはhttps://github.com/sdoerrich97で入手できる。

The integration of deep learning based systems in clinical practice is often impeded by challenges rooted in limited and heterogeneous medical datasets. In addition, prioritization of marginal performance improvements on a few, narrowly scoped benchmarks over clinical applicability has slowed down meaningful algorithmic progress. This trend often results in excessive fine-tuning of existing methods to achieve state-of-the-art performance on selected datasets rather than fostering clinically relevant innovations. In response, this work presents a comprehensive benchmark for the MedMNIST+ database to diversify the evaluation landscape and conduct a thorough analysis of common convolutional neural networks (CNNs) and Transformer-based architectures, for medical image classification. Our evaluation encompasses various medical datasets, training methodologies, and input resolutions, aiming to reassess the strengths and limitations of widely used model variants. Our findings suggest that computationally efficient training schemes and modern foundation models hold promise in bridging the gap between expensive end-to-end training and more resource-refined approaches. Additionally, contrary to prevailing assumptions, we observe that higher resolutions may not consistently improve performance beyond a certain threshold, advocating for the use of lower resolutions, particularly in prototyping stages, to expedite processing. Notably, our analysis reaffirms the competitiveness of convolutional models compared to ViT-based architectures emphasizing the importance of comprehending the intrinsic capabilities of different model architectures. Moreover, we hope that our standardized evaluation framework will help enhance transparency, reproducibility, and comparability on the MedMNIST+ dataset collection as well as future research within the field. Code is available at https://github.com/sdoerrich97 .
翻訳日:2024-05-09 18:50:56 公開日:2024-05-07
# 知識誘導型記号回帰と実験モデルに基づくプロセスフロー図作成の自動化

Integrating knowledge-guided symbolic regression and model-based design of experiments to automate process flow diagram development ( http://arxiv.org/abs/2405.04592v1 )

ライセンス: Link先を確認
Alexander W. Rogers, Amanda Lane, Cesar Mendoza, Simon Watson, Adam Kowalski, Philip Martin, Dongda Zhang, (参考訳) 新規製品は、グローバルな定式化製品市場で成功するためには、迅速に定式化されなければならないが、重要な製品指標(KPI)は複雑であり、化学組成と処理履歴の理解が不十分である。 その結果、スケールアップは現在、高価なトライアル・アンド・エラーキャンペーンを実施せざるを得ない。 プロセスフローダイアグラム(PFD)の最適化と知識発見を高速化するために,実験モデルベース設計(MBDoE)にシンボル回帰(SR)を統合することにより,プロセスメカニズムを自動的に定量化する新たなデジタルフレームワークを提案する。 各イテレーションにおいて、SRは解釈可能な機械的表現のParetoフロントを提案し、その後MBDoEはPFD最適化のバランスを保ちながら両者を識別する新しい実験を設計した。 フレームワークの性能を調べるために, 汎用的な生成物合成をシミュレートできる新しいプロセスモデルを構築し, 異なるケーススタディのためのイン・シリコデータを生成する。 このフレームワークは、数回の反復で基盤構造プロセスのメカニズムを効果的に発見することができ、デジタル製造と製品革新のための一般的な化学工業での利用の可能性を示している。

New products must be formulated rapidly to succeed in the global formulated product market; however, key product indicators (KPIs) can be complex, poorly understood functions of the chemical composition and processing history. Consequently, scale-up must currently undergo expensive trial-and-error campaigns. To accelerate process flow diagram (PFD) optimisation and knowledge discovery, this work proposed a novel digital framework to automatically quantify process mechanisms by integrating symbolic regression (SR) within model-based design of experiments (MBDoE). Each iteration, SR proposed a Pareto front of interpretable mechanistic expressions, and then MBDoE designed a new experiment to discriminate between them while balancing PFD optimisation. To investigate the framework's performance, a new process model capable of simulating general formulated product synthesis was constructed to generate in-silico data for different case studies. The framework could effectively discover ground-truth process mechanisms within a few iterations, indicating its great potential for use within the general chemical industry for digital manufacturing and product innovation.
翻訳日:2024-05-09 18:41:08 公開日:2024-05-07
# トレーニングダイナミクスによる「リバーサルカース」の理論的理解に向けて

Towards a Theoretical Understanding of the 'Reversal Curse' via Training Dynamics ( http://arxiv.org/abs/2405.04669v1 )

ライセンス: Link先を確認
Hanlin Zhu, Baihe Huang, Shaolun Zhang, Michael Jordan, Jiantao Jiao, Yuandong Tian, Stuart Russell, (参考訳) 自己回帰型大規模言語モデル(LLM)は、逆探索のような単純な論理的推論タスクに苦労しながら、多くの複雑な推論タスクを解くのに顕著な能力を示す: 'A is B'' で訓練された場合、LLMは推論中に直接 'B is A' を結論付けることができず、これは'Reversal curse' として知られている(Berglund et al , 2023)。 本稿では, 1層変圧器を単純化した双線形モデル, 2) Tian et al (2023a) の枠組みを用いた一層変圧器を理論的に解析する。 両自己回帰モデルの(効果的な)重みは非対称性を示す、すなわち、トレーニング中にトークン$A$からトークン$B$への重みの増加は、必ずしも重みが$B$から$A$に増加するとは限らない。 さらに、我々の分析は、チェイン・オブ・シント(COT)のような他の論理的推論タスク(Wei et al , 2022b)にも自然に適用できる。 我々は、COT(Allen-Zhu と Li (2023) によって実証的に観察される)を使わずに、COT が ''A \to B$' と ''B \to C$'' に基づいて訓練されたモデルの必要性を示す。 最後に,異なる条件下での多層変圧器の理論の検証実験を行った。

Auto-regressive large language models (LLMs) show impressive capacities to solve many complex reasoning tasks while struggling with some simple logical reasoning tasks such as inverse search: when trained on ''A is B'', LLM fails to directly conclude ''B is A'' during inference, which is known as the ''reversal curse'' (Berglund et al., 2023). In this paper, we theoretically analyze the reversal curse via the training dynamics of (stochastic) gradient descent for two auto-regressive models: (1) a bilinear model that can be viewed as a simplification of a one-layer transformer; (2) one-layer transformers using the framework of Tian et al. (2023a). Our analysis reveals a core reason why the reversal curse happens: the (effective) weights of both auto-regressive models show asymmetry, i.e., the increase of weights from a token $A$ to token $B$ during training does not necessarily cause the increase of the weights from $B$ to $A$. Moreover, our analysis can be naturally applied to other logical reasoning tasks such as chain-of-thought (COT) (Wei et al., 2022b). We show the necessity of COT, i.e., a model trained on ''$A \to B$'' and ''$B \to C$'' fails to directly conclude ''$A \to C$'' without COT (also empirically observed by Allen-Zhu and Li (2023)), for one-layer transformers via training dynamics, which provides a new perspective different from previous work (Feng et al., 2024) that focuses on expressivity. Finally, we also conduct experiments to validate our theory on multi-layer transformers under different settings.
翻訳日:2024-05-09 18:41:08 公開日:2024-05-07
# 解釈型テンソルフュージョン

Interpretable Tensor Fusion ( http://arxiv.org/abs/2405.04671v1 )

ライセンス: Link先を確認
Saurabh Varshneya, Antoine Ledent, Philipp Liznerski, Andriy Balinskyy, Purvanshi Mehta, Waleed Mustafa, Marius Kloft, (参考訳) 従来の機械学習手法は、主に単一のデータ型に基づいて結果を予測するように設計されている。 しかし、実際的な応用は、テキスト、画像、オーディオなどの様々なタイプのデータを含む可能性がある。 InTense(Interpretable tensor fusion)は、ニューラルネットワークがマルチモーダルデータ表現とその解釈可能な融合を同時に学習するためのマルチモーダル学習法である。 InTenseは、様々なデータ型の線形結合と乗法的相互作用の両方を別々に捉え、それによって各モードの個々の効果から高次相互作用を分離することができる。 InTenseは、関連スコアをモダリティとその関連に割り当てることで、ボックスから解釈可能性を提供する。 この手法は理論的に基礎を置いており、複数の合成および実世界のデータセットに有意義な関連性スコアを与える。 6つの実世界のデータセットの実験により、InTenseは精度と解釈可能性の観点から、既存の最先端のマルチモーダル解釈アプローチより優れていることが示された。

Conventional machine learning methods are predominantly designed to predict outcomes based on a single data type. However, practical applications may encompass data of diverse types, such as text, images, and audio. We introduce interpretable tensor fusion (InTense), a multimodal learning method for training neural networks to simultaneously learn multimodal data representations and their interpretable fusion. InTense can separately capture both linear combinations and multiplicative interactions of diverse data types, thereby disentangling higher-order interactions from the individual effects of each modality. InTense provides interpretability out of the box by assigning relevance scores to modalities and their associations. The approach is theoretically grounded and yields meaningful relevance scores on multiple synthetic and real-world datasets. Experiments on six real-world datasets show that InTense outperforms existing state-of-the-art multimodal interpretable approaches in terms of accuracy and interpretability.
翻訳日:2024-05-09 18:41:08 公開日:2024-05-07
# 画像診断のためのマルチモーダル視覚言語モデルに対する敵対的攻撃の実証

Demonstration of an Adversarial Attack Against a Multimodal Vision Language Model for Pathology Imaging ( http://arxiv.org/abs/2401.02565v3 )

ライセンス: Link先を確認
Poojitha Thota, Jai Prakash Veerla, Partha Sai Guttikonda, Mohammad S. Nasr, Shirin Nilizadeh, Jacob M. Luber, (参考訳) 本研究は,医療人工知能の文脈において,標的となる攻撃の下で,ビジョン言語財団モデルであるPLIPモデルの脆弱性について検討する。 そこで本研究では,9種類の組織に7,180個のH&E画像を用いたKather Colonデータセットを応用し,突発性逆行性摂動障害(PGD)を用いて誤分類を意図的に誘発する。 これらの結果はPLIPの予測を操作する上で100%の成功率を示し、敵の摂動に対する感受性を裏付けるものである。 敵の例の質的分析は、敵の操作によって引き起こされる予測の微妙な変化に光を当て、解釈可能性の課題を掘り下げる。 これらの知見は, 医用画像における視覚言語モデルの解釈可能性, ドメイン適応性, 信頼性に関する重要な知見に寄与する。 この研究は、AIモデルの信頼性を確保するための堅牢な防御の必要性を強調している。 この実験のソースコードはhttps://github.com/jaiprakash1824/VLM_Adv_Attackにある。

In the context of medical artificial intelligence, this study explores the vulnerabilities of the Pathology Language-Image Pretraining (PLIP) model, a Vision Language Foundation model, under targeted attacks. Leveraging the Kather Colon dataset with 7,180 H&E images across nine tissue types, our investigation employs Projected Gradient Descent (PGD) adversarial perturbation attacks to induce misclassifications intentionally. The outcomes reveal a 100% success rate in manipulating PLIP's predictions, underscoring its susceptibility to adversarial perturbations. The qualitative analysis of adversarial examples delves into the interpretability challenges, shedding light on nuanced changes in predictions induced by adversarial manipulations. These findings contribute crucial insights into the interpretability, domain adaptation, and trustworthiness of Vision Language Models in medical imaging. The study emphasizes the pressing need for robust defenses to ensure the reliability of AI models. The source codes for this experiment can be found at https://github.com/jaiprakash1824/VLM_Adv_Attack.
翻訳日:2024-05-09 18:31:11 公開日:2024-05-07
# 多次元量子ウォーク, 再帰, および量子除算とコンバータ

Multidimensional Quantum Walks, Recursion, and Quantum Divide & Conquer ( http://arxiv.org/abs/2401.08355v2 )

ライセンス: Link先を確認
Stacey Jeffery, Galina Pass, (参考訳) 多次元量子ウォークの技法を定式化する「emph{subspace graph}」と呼ばれる物体を導入する。 部分空間グラフを構成することで、量子的および古典的推論をシームレスに組み合わせ、古典的な構造を念頭に置き、量子的部分を必要ならば単純な境界を持つ部分グラフに抽象化することができる。 例えば、任意の量子サブルーチンと \emph{switching network} を組み合わせて合成関数を計算する方法を示す。 別の応用として、サブプロブレムがブール式を介して結合されるとき、量子ディバイド・アンド・コンカーの時間効率な実装を与える。 これを使って、$st$-connectivity に対する Savitch のアルゴリズムを2次的に高速化する。

We introduce an object called a \emph{subspace graph} that formalizes the technique of multidimensional quantum walks. Composing subspace graphs allows one to seamlessly combine quantum and classical reasoning, keeping a classical structure in mind, while abstracting quantum parts into subgraphs with simple boundaries as needed. As an example, we show how to combine a \emph{switching network} with arbitrary quantum subroutines, to compute a composed function. As another application, we give a time-efficient implementation of quantum Divide \& Conquer when the sub-problems are combined via a Boolean formula. We use this to quadratically speed up Savitch's algorithm for directed $st$-connectivity.
翻訳日:2024-05-09 18:31:11 公開日:2024-05-07
# 高次元データのためのベイジアンガウス過程に基づく潜在判別デコーダ(LDGD)モデル

A Bayesian Gaussian Process-Based Latent Discriminative Generative Decoder (LDGD) Model for High-Dimensional Data ( http://arxiv.org/abs/2401.16497v3 )

ライセンス: Link先を確認
Navid Ziaei, Behzad Nazari, Uri T. Eden, Alik Widge, Ali Yousefi, (参考訳) 高次元データから有意義な情報を抽出することは、特にデータがノイズによって隠されたり、異なるモダリティによって表現された場合、非常に難しいモデリング課題となる。 本研究はガウス過程(GP)を利用した新しい非パラメトリックモデリング手法を提案し,それを潜在低次元多様体にマッピングすることによって高次元データを特徴付ける。 このモデルはLDGD (Latent Discriminative Generative Decoder) と名付けられ、多様体発見過程においてデータと関連するラベルの両方を用いる。 我々は、潜在変数を推測するベイズ解を導出し、LDGDがデータ中の固有の確率性を効果的に捉えることを可能にする。 合成データセットとベンチマークデータセットの両方に対するLDGDの適用例を示す。 LDGDはこの多様体を正確に推定するだけでなく、データポイントのラベルを予測する精度は最先端のアプローチを上回る。 LDGDの開発において,大規模データセットに対するガウス過程の計算複雑性を低減し,効率的な処理とスケーラビリティを向上するためのバッチトレーニングを可能にした。 さらに、LDGDは、データサイズが制限されているシナリオのラベルを頑健に推論し、精度よく予測できることを示し、その能力は、限られたサンプルで高次元データを効率的に特徴付けることができることを示した。 これらの属性は、高次元データを分析するための非パラメトリックモデリング手法を開発することの重要性を強調している。

Extracting meaningful information from high-dimensional data poses a formidable modeling challenge, particularly when the data is obscured by noise or represented through different modalities. This research proposes a novel non-parametric modeling approach, leveraging the Gaussian process (GP), to characterize high-dimensional data by mapping it to a latent low-dimensional manifold. This model, named the latent discriminative generative decoder (LDGD), employs both the data and associated labels in the manifold discovery process. We derive a Bayesian solution to infer the latent variables, allowing LDGD to effectively capture inherent stochasticity in the data. We demonstrate applications of LDGD on both synthetic and benchmark datasets. Not only does LDGD infer the manifold accurately, but its accuracy in predicting data points' labels surpasses state-of-the-art approaches. In the development of LDGD, we have incorporated inducing points to reduce the computational complexity of Gaussian processes for large datasets, enabling batch training for enhanced efficient processing and scalability. Additionally, we show that LDGD can robustly infer manifold and precisely predict labels for scenarios in that data size is limited, demonstrating its capability to efficiently characterize high-dimensional data with limited samples. These collective attributes highlight the importance of developing non-parametric modeling approaches to analyze high-dimensional data.
翻訳日:2024-05-09 18:31:11 公開日:2024-05-07
# リバースカース教育のためのリバーストレーニング

Reverse Training to Nurse the Reversal Curse ( http://arxiv.org/abs/2403.13799v3 )

ライセンス: Link先を確認
Olga Golovneva, Zeyuan Allen-Zhu, Jason Weston, Sainbayar Sukhbaatar, (参考訳) 大型言語モデル (LLM) には驚くべき失敗がある: "A has a feature B" で訓練された場合、それらは "B is a feature of A" に一般化されるのではなく、"Reversal Curse" と呼ばれる。 何十兆ものトークンでトレーニングしても、Zipfの法則によって、この問題は依然として現れます。 この研究は、すべての単語を2回使用し、利用可能なトークンの量を2倍にする、リバーストレーニングと呼ばれる代替のトレーニングスキームを提案する。 LLMは、例えばエンティティのような選択されたサブストリングを保存しながら、トレーニング文字列を反転させることで、前方方向と逆方向の両方で訓練される。 我々は,データマッチング逆トレーニングモデルが標準タスクの標準モデルよりも優れた性能を示し,計算マッチング逆トレーニングモデルは逆タスクにおいてはるかに優れた性能を示し,逆の呪いの解決に役立てることを示した。

Large language models (LLMs) have a surprising failure: when trained on "A has a feature B", they do not generalize to "B is a feature of A", which is termed the Reversal Curse. Even when training with trillions of tokens this issue still appears due to Zipf's law - hence even if we train on the entire internet. This work proposes an alternative training scheme, called reverse training, whereby all words are used twice, doubling the amount of available tokens. The LLM is trained in both forward and reverse directions by reversing the training strings while preserving (i.e., not reversing) chosen substrings, such as entities. We show that data-matched reverse-trained models provide superior performance to standard models on standard tasks, and compute-matched reverse-trained models provide far superior performance on reversal tasks, helping resolve the reversal curse issue.
翻訳日:2024-05-09 16:24:12 公開日:2024-05-07
# WeatherProof: 逆気象におけるセマンティックセグメンテーションのための言語ガイダンス

WeatherProof: Leveraging Language Guidance for Semantic Segmentation in Adverse Weather ( http://arxiv.org/abs/2403.14874v2 )

ライセンス: Link先を確認
Blake Gella, Howard Zhang, Rishi Upadhyay, Tiffany Chang, Nathan Wei, Matthew Waliman, Yunhao Ba, Celso de Melo, Alex Wong, Achuta Kadambi, (参考訳) 本研究では,悪天候下で撮影された画像からセマンティックセグメンテーションマップを推定する方法を提案する。 まず、雨や霧、雪などの気象条件によって劣化した画像の既存のモデルを調べ、晴れた天候下で撮影されたものに比べて大きな性能低下を示すことを示した。 シーン構造の変化を制御するために,背景となるシーンを共有する正確な明瞭で有害な気象画像対を持つ,最初のセマンティックセグメンテーションデータセットであるWeatherProofを提案する。 このデータセットを用いて、既存のモデルにおけるエラーモードを分析し、キャプチャ中に画像に誘導される異なる気象効果の非常に複雑な組み合わせに敏感であることが判明した。 本研究では, 悪天候条件の寄与を識別し, それを「側情報」として注入することで, 言語をガイダンスとして活用する方法を提案する。 我々の言語指導を用いてトレーニングされたモデルは、WeatherProof上でのmIoUで最大10.2%、標準トレーニング手法と比較して広く使われているACDCデータセットで最大8.44%、ACDCデータセットで最大6.21%のパフォーマンス向上を示す。

We propose a method to infer semantic segmentation maps from images captured under adverse weather conditions. We begin by examining existing models on images degraded by weather conditions such as rain, fog, or snow, and found that they exhibit a large performance drop as compared to those captured under clear weather. To control for changes in scene structures, we propose WeatherProof, the first semantic segmentation dataset with accurate clear and adverse weather image pairs that share an underlying scene. Through this dataset, we analyze the error modes in existing models and found that they were sensitive to the highly complex combination of different weather effects induced on the image during capture. To improve robustness, we propose a way to use language as guidance by identifying contributions of adverse weather conditions and injecting that as "side information". Models trained using our language guidance exhibit performance gains by up to 10.2% in mIoU on WeatherProof, up to 8.44% in mIoU on the widely used ACDC dataset compared to standard training techniques, and up to 6.21% in mIoU on the ACDC dataset as compared to previous SOTA methods.
翻訳日:2024-05-09 16:24:12 公開日:2024-05-07
# 部分空間拘束型タイラー推定器とその運動構造への応用

A Subspace-Constrained Tyler's Estimator and its Applications to Structure from Motion ( http://arxiv.org/abs/2404.11590v2 )

ライセンス: Link先を確認
Feng Yu, Teng Zhang, Gilad Lerman, (参考訳) 本稿では,低次元部分空間の復元を目的とした部分空間制約型タイラー推定器(STE)について述べる。 STEはタイラーのM推定器(TME)の融合であり、高速中央部分空間の変種である。 我々の理論解析は、STEは、ロバストな部分空間回復の分野において、他の手法と比較して、より少ない不整合率を含む場合であっても、共通の不整合-不整合モデルの下で、基礎となる部分空間を効果的に回復することができることを示唆している。 本研究では,基本行列のロバストな推定と外部カメラの除去,SfMパイプラインのロバスト性の向上,という2つの方法でSTEをSfM(Structure from Motion)の文脈に適用する。 数値実験により,本手法の最先端性能が検証された。 この研究は、特にコンピュータビジョンと3D再構成の文脈において、ロバストなサブスペースリカバリの分野に多大な貢献をしている。

We present the subspace-constrained Tyler's estimator (STE) designed for recovering a low-dimensional subspace within a dataset that may be highly corrupted with outliers. STE is a fusion of the Tyler's M-estimator (TME) and a variant of the fast median subspace. Our theoretical analysis suggests that, under a common inlier-outlier model, STE can effectively recover the underlying subspace, even when it contains a smaller fraction of inliers relative to other methods in the field of robust subspace recovery. We apply STE in the context of Structure from Motion (SfM) in two ways: for robust estimation of the fundamental matrix and for the removal of outlying cameras, enhancing the robustness of the SfM pipeline. Numerical experiments confirm the state-of-the-art performance of our method in these applications. This research makes significant contributions to the field of robust subspace recovery, particularly in the context of computer vision and 3D reconstruction.
翻訳日:2024-05-09 16:14:28 公開日:2024-05-07
# ニューロモルフィックコンピューティングのための共変時空間受容場

Covariant spatio-temporal receptive fields for neuromorphic computing ( http://arxiv.org/abs/2405.00318v2 )

ライセンス: Link先を確認
Jens Egholm Pedersen, Jörg Conradt, Tony Lindeberg, (参考訳) 生物学的神経系は、より速く、安価で、よりエネルギー効率の良いコンピュータへのインスピレーションの重要な源となっている。 ニューロモルフィックの規律は、脳を共進化系と見なし、ハードウェアとアルゴリズムを同時に最適化する。 計算を物理基板に持ち込む際には明らかに効率が向上するが、現在では効率的な実装を導くための理論が欠如している。 本稿では,空間上のアフィンガウス核と漏洩積分器と時間経過に伴う漏洩統合・火災モデルに基づく時空間受容場の観点から,ニューロモルフィックシステムの原理的計算モデルを提案する。 我々の理論は、空間的なアフィンや時間的スケーリングの変換と、哺乳類の脳の視覚的処理とよく似ていることが証明できる。 我々は,これらの時空間受容場をイベントベース視覚タスクの先行として使用し,それ以外はイベントベース視覚において問題となるスパイクネットワークのトレーニングを改善することを示す。 この研究は、スケールスペース理論と計算神経科学の取り組みを組み合わせて、ニューロモルフィックシステムにおける時空間信号を処理する理論的に確立された方法を特定する。 私たちのコントリビューションは、信号処理やイベントベースのビジョンに即時に関係しており、メモリや制御など、空間や時間とともに他の処理タスクにも拡張することができます。

Biological nervous systems constitute important sources of inspiration towards computers that are faster, cheaper, and more energy efficient. Neuromorphic disciplines view the brain as a coevolved system, simultaneously optimizing the hardware and the algorithms running on it. There are clear efficiency gains when bringing the computations into a physical substrate, but we presently lack theories to guide efficient implementations. Here, we present a principled computational model for neuromorphic systems in terms of spatio-temporal receptive fields, based on affine Gaussian kernels over space and leaky-integrator and leaky integrate-and-fire models over time. Our theory is provably covariant to spatial affine and temporal scaling transformations, and with close similarities to the visual processing in mammalian brains. We use these spatio-temporal receptive fields as a prior in an event-based vision task, and show that this improves the training of spiking networks, which otherwise is known as problematic for event-based vision. This work combines efforts within scale-space theory and computational neuroscience to identify theoretically well-founded ways to process spatio-temporal signals in neuromorphic systems. Our contributions are immediately relevant for signal processing and event-based vision, and can be extended to other processing tasks over space and time, such as memory and control.
翻訳日:2024-05-09 16:14:28 公開日:2024-05-07
# 米国の新しいアロメトリーモデルは森林炭素の推定、モデリング、マッピングにおける段階的変化を生み出す

New allometric models for the USA create a step-change in forest carbon estimation, modeling, and mapping ( http://arxiv.org/abs/2405.04507v1 )

ライセンス: Link先を確認
Lucas K. Johnson, Michael J. Mahoney, Grant Domke, Colin M. Beier, (参考訳) アメリカ合衆国国有林在庫(NFI)は、全国の森林土壌バイオマス(AGB)と炭素収支の基礎となっている。 これらのデータにより、州や地域レベルでの森林炭素在庫とストック・チェンジをデザインベースで推定できるだけでなく、森林炭素在庫とストック・チェンジを細かな解像度で特徴づけるためのモデルベースのアプローチへのインプットとしても機能する。 NFIツリーとプロットレベルのデータはこれらのモデルでは真理として扱われることが多いが、実際はCRM(Component Ratio Method)として知られる地域種群モデルに基づいて推定される。 2023年後半、フォレスト・インベントリー・アンド・アナリティクス(FIA)プログラムは、CRMを全国的に置き換え、より正確かつ正確な森林AGBと炭素の表現を提供する新しい国立スケールボリューム・バイオマス推定器(NSVB)システムを導入した。 モデルベースのAGB研究がFIAに依存していることから、CRMからNSVBモデルへのメソッドの転送可能性や、既存のCRM AGB製品(egマップ)から新たなNSVB AGB製品への互換性が懸念されている。 これらの問題に対処するために,NSVB AGB参照データと同一の手法を用いて作成したCRM AGBマップを新たに作成したCRM AGBマップと比較した。 以上の結果から,受動衛星画像(例:ランドサット)を用いたモデルでは,NSVB AGBと炭素ストックの点数推定は許容できるが,成熟したクローズドキャノピー林の成長の正確な定量化には至らなかったことが示唆された。 我々は、FIA参照データに基づく既存の推定、モデル、マップは、もはやNSVBと互換性がないことを強調し、このステップチェンジを調節するための新しい方法と更新されたモデルとマップを推奨する。 モデリングとマッピングのワークフローにNSVBを総合的に採用することは、地域管理と意思決定をよりよく知るために、可能な限り正確な空間的森林炭素データを提供するのに役立つだろう。

The United States national forest inventory (NFI) serves as the foundation for forest aboveground biomass (AGB) and carbon accounting across the nation. These data enable design-based estimates of forest carbon stocks and stock-changes at state and regional levels, but also serve as inputs to model-based approaches for characterizing forest carbon stocks and stock-changes at finer resolutions. Although NFI tree and plot-level data are often treated as truth in these models, they are in fact estimates based on regional species-group models known collectively as the Component Ratio Method (CRM). In late 2023 the Forest Inventory and Analysis (FIA) program introduced a new National Scale Volume and Biomass Estimators (NSVB) system to replace CRM nationwide and offer more precise and accurate representations of forest AGB and carbon. Given the prevalence of model-based AGB studies relying on FIA, there is concern about the transferability of methods from CRM to NSVB models, as well as the comparability of existing CRM AGB products (e.g. maps) to new and forthcoming NSVB AGB products. To begin addressing these concerns we compared previously published CRM AGB maps to new maps produced using identical methods with NSVB AGB reference data. Our results suggest that models relying on passive satellite imagery (e.g. Landsat) provide acceptable estimates of point-in-time NSVB AGB and carbon stocks, but fail to accurately quantify growth in mature closed-canopy forests. We highlight that existing estimates, models, and maps based on FIA reference data are no longer compatible with NSVB, and recommend new methods as well as updated models and maps for accommodating this step-change. Our collective ability to adopt NSVB in our modeling and mapping workflows will help us provide the most accurate spatial forest carbon data possible in order to better inform local management and decision making.
翻訳日:2024-05-09 16:14:28 公開日:2024-05-07
# ITガバナンスにおける情報品質の基準モデル

A Reference Model for Information Quality in an IT Governance Context ( http://arxiv.org/abs/2405.04558v1 )

ライセンス: Link先を確認
Dirk Steuperaert, Geert Poels, Jan Devos, (参考訳) ITガバナンスシステムは、今日の組織が機能し続けるためにますます必要になります。 ITガバナンスには、プロセス、組織構造、情報などを含む、相互作用するコンポーネントの包括的なシステムが必要です。 ITガバナンスシステムのパフォーマンス管理は、その効果を維持する上で最も重要です。 機能モデルは、ITガバナンスプロセスのパフォーマンスを評価し、管理するために使用されますが、同様のメカニズムは、他の種類のITガバナンスシステムコンポーネント、例えば情報に欠けています。 本稿では、ITガバナンスシステムの情報コンポーネントのパフォーマンスのプロキシとして、ITガバナンス情報の質を定義する方法に焦点を当てる。 デザインサイエンスのアプローチを用いて、我々は、理論に基づいて反復的に開発し、専門家の検証に基づいて、ITガバナンス情報品質の基準モデル、すなわち、ITガバナンス情報アイテムの品質を評価するために使用できる情報品質基準モデルを経験的に評価する。 このモデルは包括的で管理可能であり、ITガバナンス情報のための機能モデルを構築する基盤を提供する。

IT Governance systems are increasingly required to keep todays organizations functioning. IT Governance requires a holistic system of interacting components, including processes, organizational structures, information, and others. Performance management of IT Governance systems is of utmost importance to maintain their effectiveness. Capability models are used to assess and manage IT Governance process performance, whereas similar mechanisms are lacking for other types of IT Governance system components, e.g. information. In this paper, we focus on how to define the quality of IT Governance information, as a proxy for the performance of the information component of the IT Governance system. Using a Design Science approach, we iteratively develop, based on theory, and empirically evaluate, based on expert validation, a reference model for IT Governance information quality, i.e., the Information Quality Reference Model that can be used for assessing the quality of IT Governance information items. The model is comprehensive yet manageable and provides a basis for building a capability model for IT Governance information.
翻訳日:2024-05-09 16:04:43 公開日:2024-05-07
# 地下ハッキングフォーラムにおける脆弱性の爆発に関する考察

Inferring Discussion Topics about Exploitation of Vulnerabilities from Underground Hacking Forums ( http://arxiv.org/abs/2405.04561v1 )

ライセンス: Link先を確認
Felipe Moreno-Vera, (参考訳) サイバー脅威の高度化は、脆弱性と潜在的なエクスプロイトを特定するための積極的な措置を必要とする。 地下ハッキングフォーラムは、ハッキング技術と搾取に関する議論の交換の場として機能している。 本研究では,これらのフォーラムで議論されている脆弱性の鍵テーマを分析し,発見するためのトピックモデリングを用いた革新的なアプローチを提案する。 本研究の目的は,地下ハッキングフォーラムにおける脆弱性関連議論を自動的に検出・分類できる機械学習モデルを開発することである。 これらのフォーラムの内容を監視し分析することにより、新たな脆弱性の特定、テクニックの活用、潜在的な脅威アクターの発見を目指す。 これを実現するために,複数の地下フォーラムからポストとスレッドからなる大規模データセットを収集した。 正確性と信頼性を確保するために、データの事前処理とクリーン化を行います。 トピックモデリング技術、特にLatent Dirichlet Allocation (LDA)を活用して、潜在トピックとその関連キーワードをデータセット内で発見する。 これにより、脆弱性やエクスプロイト、潜在的なターゲットに関連する、繰り返し発生するテーマや議論を特定できます。

The increasing sophistication of cyber threats necessitates proactive measures to identify vulnerabilities and potential exploits. Underground hacking forums serve as breeding grounds for the exchange of hacking techniques and discussions related to exploitation. In this research, we propose an innovative approach using topic modeling to analyze and uncover key themes in vulnerabilities discussed within these forums. The objective of our study is to develop a machine learning-based model that can automatically detect and classify vulnerability-related discussions in underground hacking forums. By monitoring and analyzing the content of these forums, we aim to identify emerging vulnerabilities, exploit techniques, and potential threat actors. To achieve this, we collect a large-scale dataset consisting of posts and threads from multiple underground forums. We preprocess and clean the data to ensure accuracy and reliability. Leveraging topic modeling techniques, specifically Latent Dirichlet Allocation (LDA), we uncover latent topics and their associated keywords within the dataset. This enables us to identify recurring themes and prevalent discussions related to vulnerabilities, exploits, and potential targets.
翻訳日:2024-05-09 16:04:43 公開日:2024-05-07
# 周期的ホッピング変調をもつ非エルミートSu-Schrieffer-Heeger鎖のトポロジーと$\mathcal{PT}$対称性

Topology and $\mathcal{PT}$ Symmetry in a Non-Hermitian Su-Schrieffer-Heeger Chain with Periodic Hopping Modulation ( http://arxiv.org/abs/2405.04562v1 )

ライセンス: Link先を確認
Surajit Mandal, Satyaki Kar, (参考訳) 本研究では,スシュリーファー・ヘーガー(SSH)鎖に対する周期的なホッピング変調の効果について検討した。 この散逸性非エルミタン(NH)拡張は、SSH鎖のトポロジカル自明相(TTP)とトポロジカル非自明相(TNP)の特徴を十分に修飾する。 弱いポテンシャルは、エネルギー固有値を実数に保つパリティ時間 ("\mathcal{PT}$) 対称性を尊重することができるが、強いポテンシャルは、システム内の想像的な終状態と複雑なバルク状態エネルギーにつながる$\mathcal{PT}$保存を破る。 さらに、ホッピングの大規模な周期性については、NH電位とホッピング変調の両方の強度に応じて、純粋に現実的または純粋に想像上の固有値を取るインギャップ状態が現れる。 特に,本論文は,2,4,8格子間隔のホッピング周期性に係わる。 ホッピング周期について, 境界における終端状態とインギャップ状態の局在について検討した。 位相と$\mathcal{PT}$対称性は直接接続されていないが、システム内のTNPとTP内では、$\mathcal{PT}$の破れと解けない位相の分布がはっきりと観察されている。

We study the effect of periodic hopping modulation on a Su-Schrieffer-Heeger (SSH) chain that exhibits non-Hermiticity in presence of an onsite staggered imaginary potential. This dissipative, non-Hermitian (NH) extension amply modifies the features of the topological trivial phase (TTP) and the topological nontrivial phase (TNP) of the SSH chain. Though a weak potential can respect the parity-time ($\mathcal{PT}$) symmetry keeping the energy eigenvalues real, a strong potential breaks $\mathcal{PT}$ conservation leading to imaginary end state and complex bulk state energies in the system. Furthermore for large commensurate periodicity of the hopping, in-gap states appear that take either purely real or purely imaginary eigenvalues depending on the strenth of both NH potential and hopping modulation. In particular, this paper is engaged with hopping periodicities of 2, 4 and 8 lattice spacings. The localization of end states and in-gap states at the boundaries are investigated for those hopping periodicities. Though we find that topology and $\mathcal{PT}$ symmetry are not very directly connected, distinguishing distribution of $\mathcal{PT}$ broken and unbroken phases are clearly observed within TNP and TTP in our systems.
翻訳日:2024-05-09 16:04:43 公開日:2024-05-07
# 局所更新によるフェデレーションミニマックス最適化のための高速分散勾配追従法

Fast Decentralized Gradient Tracking for Federated Minimax Optimization with Local Updates ( http://arxiv.org/abs/2405.04566v1 )

ライセンス: Link先を確認
Chris Junchi Li, (参考訳) ミニマックス最適化のためのフェデレートラーニング(FL)は、データプライバシとデータの不均一性に関するモデルロバスト性を保ちながら、分散ノード/クライアント間でモデルをトレーニングするための強力なパラダイムとして登場した。 本研究では,局所的な更新と勾配追跡技術を組み合わせた分散化ミニマックス最適化アルゴリズムである \texttt{K-GT-Minimax} を提案する。 本分析では, 提案アルゴリズムの非凸強度コンケーブ(NC-SC)最小値最適化における通信効率と収束率を示し, 既存手法よりも優れた収束率を示す。 データの不均一性を処理し、ロバスト性を確保する能力は、フェデレート学習研究や応用の進展においてその重要性を浮き彫りにする。

Federated learning (FL) for minimax optimization has emerged as a powerful paradigm for training models across distributed nodes/clients while preserving data privacy and model robustness on data heterogeneity. In this work, we delve into the decentralized implementation of federated minimax optimization by proposing \texttt{K-GT-Minimax}, a novel decentralized minimax optimization algorithm that combines local updates and gradient tracking techniques. Our analysis showcases the algorithm's communication efficiency and convergence rate for nonconvex-strongly-concave (NC-SC) minimax optimization, demonstrating a superior convergence rate compared to existing methods. \texttt{K-GT-Minimax}'s ability to handle data heterogeneity and ensure robustness underscores its significance in advancing federated learning research and applications.
翻訳日:2024-05-09 16:04:43 公開日:2024-05-07
# 高確率領域探索を用いた広域多対象検出システム

A Novel Wide-Area Multiobject Detection System with High-Probability Region Searching ( http://arxiv.org/abs/2405.04589v1 )

ライセンス: Link先を確認
Xianlei Long, Hui Zhao, Chao Chen, Fuqiang Gu, Qingyi Gu, (参考訳) 近年,様々な産業・交通シナリオにおいて広域視覚監視システムが広く適用されている。 しかしこれらのシステムは、高分解能撮像、効率的な物体探索、正確な位置決めの必要性から生じる矛盾により、多物体検出の実装において重大な課題に直面している。 これらの課題に対処するために,広角カメラ,高速サーチカメラ,ガルバノミラーを組み込んだハイブリッドシステムを提案する。 このシステムでは、広角カメラがパノラマ画像を先行情報として提供し、探索カメラが対象物の詳細な画像をキャプチャするのに役立つ。 この統合されたアプローチは、広域視覚検出システムの全体的な効率性と有効性を高める。 具体的には,対象物体の高確率領域を推定するパノラマ確率マップ(PPM)を広角カメラで生成する手法を提案する。 そこで本研究では,PPM生成した事前情報を用いて,対象検出器によって計算される不確実性分散に基づいて,サンプリング範囲を動的に調整し,目標座標を精査する確率探索モジュールを提案する。 最後に、PPMと確率探索モジュールの統合により、120fpsのマルチオブジェクト探索・検出が可能な効率的なハイブリッドビジョンシステムが得られる。 システムの有効性と堅牢性を検証するために、広範囲な実験が行われた。

In recent years, wide-area visual surveillance systems have been widely applied in various industrial and transportation scenarios. These systems, however, face significant challenges when implementing multi-object detection due to conflicts arising from the need for high-resolution imaging, efficient object searching, and accurate localization. To address these challenges, this paper presents a hybrid system that incorporates a wide-angle camera, a high-speed search camera, and a galvano-mirror. In this system, the wide-angle camera offers panoramic images as prior information, which helps the search camera capture detailed images of the targeted objects. This integrated approach enhances the overall efficiency and effectiveness of wide-area visual detection systems. Specifically, in this study, we introduce a wide-angle camera-based method to generate a panoramic probability map (PPM) for estimating high-probability regions of target object presence. Then, we propose a probability searching module that uses the PPM-generated prior information to dynamically adjust the sampling range and refine target coordinates based on uncertainty variance computed by the object detector. Finally, the integration of PPM and the probability searching module yields an efficient hybrid vision system capable of achieving 120 fps multi-object search and detection. Extensive experiments are conducted to verify the system's effectiveness and robustness.
翻訳日:2024-05-09 16:04:43 公開日:2024-05-07
# リモートセンシング画像超解像のための高度な特徴抽出モジュール

An Advanced Features Extraction Module for Remote Sensing Image Super-Resolution ( http://arxiv.org/abs/2405.04595v1 )

ライセンス: Link先を確認
Naveed Sultan, Amir Hajian, Supavadee Aramvith, (参考訳) 近年、畳み込みニューラルネットワーク(CNN)は、リモートセンシング画像(RSI)におけるテクスチャや構造が複雑かつ多様であることから、リモートセンシング画像の領域において顕著な進歩を遂げている。 現在のディープラーニングベースの超解像モデルでは、高周波の特徴に焦点が当てられず、輪郭、テクスチャ、空間情報をキャプチャする際の最適以下の性能をもたらす。 現在最先端のCNNベースの手法は、注意機構を用いたRSIの特徴抽出に重点を置いている。 しかし、これらの手法は、RSIにおける重要なコンテンツアテンション信号を効果的に識別し、活用することができない。 そこで我々は,CSA-FE (Channel and Space Attention Feature extract) と呼ばれる高度な特徴抽出モジュールを提案する。 提案手法は,UCMercedデータセット上で2,3,4のスケールでトレーニングした。 実験結果から,提案手法は,高頻度情報を含む特定のチャネルや空間的位置に着目して,関係する特徴に焦点を合わせ,無関係な特徴を抑え,超解像の品質を高めるのに役立つことがわかった。 本モデルは,既存モデルと比較して優れた性能を示した。

In recent years, convolutional neural networks (CNNs) have achieved remarkable advancement in the field of remote sensing image super-resolution due to the complexity and variability of textures and structures in remote sensing images (RSIs), which often repeat in the same images but differ across others. Current deep learning-based super-resolution models focus less on high-frequency features, which leads to suboptimal performance in capturing contours, textures, and spatial information. State-of-the-art CNN-based methods now focus on the feature extraction of RSIs using attention mechanisms. However, these methods are still incapable of effectively identifying and utilizing key content attention signals in RSIs. To solve this problem, we proposed an advanced feature extraction module called Channel and Spatial Attention Feature Extraction (CSA-FE) for effectively extracting the features by using the channel and spatial attention incorporated with the standard vision transformer (ViT). The proposed method trained over the UCMerced dataset on scales 2, 3, and 4. The experimental results show that our proposed method helps the model focus on the specific channels and spatial locations containing high-frequency information so that the model can focus on relevant features and suppress irrelevant ones, which enhances the quality of super-resolved images. Our model achieved superior performance compared to various existing models.
翻訳日:2024-05-09 16:04:43 公開日:2024-05-07
# 分解PT対称性相におけるスワンソンハミルトニアンの研究に応用した複素スケーリング法

Complex Scaling Method applied to the study of the Swanson Hamiltonian in the broken PT-symmetry phase ( http://arxiv.org/abs/2405.04599v1 )

ライセンス: Link先を確認
Viviano Fernández, Romina Ramírez, Marta Reboiro, (参考訳) 本研究では,スワンソンハミルトニアンの非PT対称性位相を複素スケーリング法(英語版)の枠組みで検討する。 両直交関係を構築することにより、応答関数の形式性を適用して、異なる初期波パッケージの時間的進化を分析する。 演算子のウィグナー関数と平均値は時間の関数として評価される。 例外点近傍の時間進化を詳細に分析する。 システムの連続性方程式を導出する。 複素スケーリング法を用いて得られた結果と,剛ヒルベルト空間での作業によって得られた結果とを比較した。

In this work, we study the non-PT symmetry phase of the Swanson Hamiltonian in the framework of the Complex Scaling Method. By constructing a bi-orthogonality relation, we apply the formalism of the response function to analyse the time evolution of different initial wave packages. The Wigner Functions and mean value of operators are evaluated as a function of time. We analyse in detail the time evolution in the neighbourhood of Exceptional Points. We derive a continuity equation for the system. We compare the results obtained using the Complex Scaling Method to the ones obtained by working in a Rigged Hilbert Space.
翻訳日:2024-05-09 16:04:43 公開日:2024-05-07
# LLMを用いた目に見えないリポジトリのコンテクストAPI補完

Contextual API Completion for Unseen Repositories Using LLMs ( http://arxiv.org/abs/2405.04600v1 )

ライセンス: Link先を確認
Noor Nashid, Taha Shabani, Parsa Alian, Ali Mesbah, (参考訳) 大規模言語モデルは、多様なコード関連タスクに対処する上で大きな進歩を遂げた。 しかし、それらの採用は、実世界のドメイン固有の情報の欠如、例えばリポジトリ内のソフトウェアプロジェクトのAPI呼び出しなど、アウトプット生成の不整合によって妨げられている。 本稿では,API補完タスクのためのコードリポジトリ内で,グローバルおよびローカルなコンテキスト情報を活用することで幻覚を緩和する新しい手法を提案する。 当社のアプローチは、ローカルAPI補完の最適化に重点を置いて、コード補完タスクの洗練に適合しています。 ローカルAPIに対する洞察を導き出すため,API完了時に関連するインポートステートメントについて検討し,そのメソッドシグネチャから抽出する。 APIトークンの補完について、インライン変数を分析し、適切なインポートされたモジュールと相関付けすることで、利用可能なローカルAPIから最もコンテキストに関連のある提案をランク付けするアプローチを可能にします。 さらに、会話型のAPI補完には、プロジェクト全体にわたる検索ベースの検索で、開発者クエリに最も関連性の高いAPIを集めます。 提案したベンチマークであるAPIEvalのフレームワークには,当社のツールであるLANCEが採用されています。 平均精度は,APIトークン完了時の82.6%,会話API完了時の76.9%である。 平均して、LANCEはAPIトークンの補完と会話APIの補完で、Copilotを143%、Copilotを142%上回っている。 言語固有のトレーニングや微調整なしに、軽量なコンテキスト分析を多言語環境に適用することで、最小限の例と労力で効率的な実装が可能になることを示唆している。

Large language models have made substantial progress in addressing diverse code-related tasks. However, their adoption is hindered by inconsistencies in generating output due to the lack of real-world, domain-specific information, such as for intra-repository API calls for unseen software projects. We introduce a novel technique to mitigate hallucinations by leveraging global and local contextual information within a code repository for API completion tasks. Our approach is tailored to refine code completion tasks, with a focus on optimizing local API completions. We examine relevant import statements during API completion to derive insights into local APIs, drawing from their method signatures. For API token completion, we analyze the inline variables and correlate them with the appropriate imported modules, thereby allowing our approach to rank the most contextually relevant suggestions from the available local APIs. Further, for conversational API completion, we gather APIs that are most relevant to the developer query with a retrieval-based search across the project. We employ our tool, LANCE, within the framework of our proposed benchmark, APIEval, encompassing two different programming languages. Our evaluation yields an average accuracy of 82.6% for API token completion and 76.9% for conversational API completion tasks. On average, LANCE surpasses Copilot by 143% and 142% for API token completion and conversational API completion, respectively. The implications of our findings are substantial for developers, suggesting that our lightweight context analysis can be applied to multilingual environments without language-specific training or fine-tuning, allowing for efficient implementation with minimal examples and effort.
翻訳日:2024-05-09 16:04:43 公開日:2024-05-07
# KotlinとJavaのインタラクションに関する実証的研究

An Empirical Study of Kotlin-Java Interactions ( http://arxiv.org/abs/2405.04602v1 )

ライセンス: Link先を確認
Qiong Feng, Huan Ji, Xiaotian Ma, Peng Liang, (参考訳) 背景: 2017年にGoogleがAndroidアプリ開発の公式プログラミング言語としてKotlinを導入して以来、KotlinはAndroid開発で広く採用されている。 JavaとKotlinの設計特性の相互運用性により、プロジェクト内で相互に共存し、スムーズに相互作用することが可能になります。 しかし、実際のプロジェクトでJavaとKotlinが相互にどのように相互作用するか、そしてこれらの相互作用の中でどのような課題に直面しているかについては、限定的な研究がある。 これらの質問に対する回答は、この種のクロスランゲージなソフトウェアシステムを理解するための鍵となる。 メソッド: 本論文では,11種類のKotlin-Java依存関係を抽出可能なDependExtractorというツールを実装し,3,227のJavaおよび8,630のKotlinソースファイルを持つ,23のKotlin-Java実世界のプロジェクトについて実証的研究を行った。 結果: この2つの言語プロジェクトにおいて,JavaとKotlinが相互に頻繁に対話し,アクセスと呼び出しの依存性型が最も優勢であることが判明した。 同じ言語の他のファイルと対話するファイルと比較すると、言語間のインタラクションに参加するJava/Kotlinソースファイルは、より多くのコミットを実行する。 さらに、KotlinとJavaのすべての問題のあるインタラクションの中で、修正戦略とともに7つの一般的な誤りを特定しました。 結論: この研究の結果は、Kotlin-Javaプロジェクトの課題を理解し、対処するのに役立ちます。

Background: Since Google introduced Kotlin as an official programming language for developing Android apps in 2017, Kotlin has gained widespread adoption in Android development. The interoperability of Java and Kotlin's design nature allows them to coexist and interact with each other smoothly within a project. Aims: However, there is limited research on how Java and Kotlin interact with each other in real-world projects and what challenges are faced during these interactions. The answers to these questions are key to understanding these kinds of cross-language software systems. Methods: In this paper, we implemented a tool named DependExtractor, which can extract 11 kinds of Kotlin-Java dependencies, and conducted an empirical study of 23 Kotlin-Java real-world projects with 3,227 Java and 8,630 Kotlin source files. Results: Our findings revealed that Java and Kotlin frequently interact with each other in these cross-language projects, with access and call dependency types being the most dominant. Compared to files interacting with other files in the same language, Java/Kotlin source files, which participate in the cross-language interactions, undergo more commits. Additionally, among all Kotlin-Java problematic interactions, we identified seven common mistakes, along with their fixing strategies. Conclusions: The findings of this study can help developers understand and address the challenges in Kotlin-Java projects.
翻訳日:2024-05-09 16:04:43 公開日:2024-05-07
# 肺疾患におけるAI : 複数のCTスキャンデータセット間のベンチマーク検出と診断モデル

AI in Lung Health: Benchmarking Detection and Diagnostic Models Across Multiple CT Scan Datasets ( http://arxiv.org/abs/2405.04605v1 )

ライセンス: Link先を確認
Fakrul Islam Tushar, Avivah Wang, Lavsen Dahal, Michael R. Harowicz, Kyle J. Lafata, Tina D. Tailor, Joseph Y. Lo, (参考訳) BACKGROUND: 早期発見によって肺がんの死亡率を下げることができ、画像診断には人工知能(AI)がますます頼りになっている。 しかし、AIモデルのパフォーマンスは、トレーニングと検証に使用されるデータセットに依存している。 方法】Duke Lung Cancer Screening Dataset(DLCSD)を用いたDLCSD-mDおよびLUNA16-mDモデルを開発した。 これらのモデルは、内部のDLCSDと外部のLUNA16およびNLSTデータセットに対して厳格に評価され、画像ベースのパフォーマンスのベンチマークを確立することを目的としている。 この評価は、広く利用されているデータセットとの一貫性のある比較を容易にするための標準化された評価フレームワークの作成に焦点を当て、モデルの有効性の包括的な検証を保証する。 自由応答型受信機動作特性 (FROC) と曲線下面積 (AUC) を用いて, 診断精度を評価した。 RESULTS: 内部のDLCSDセットでは、DLCSD-mDモデルはAUC 0.93 (95% CI:0.91-0.94)を達成し、高い精度を示した。 AUCはLUNA16では0.97(95% CI: 0.96-0.98)、NLSTでは0.75(95% CI: 0.73-0.76)であった。 同様に、LUNA16-mDモデルは、AUCをネイティブデータセットで0.96(95% CI: 0.95-0.97)、DLCSDで0.91(95% CI: 0.89-0.93)、NLSTで0.71(95% CI: 0.70-0.72)で転送可能な診断性能を示した。 ConCLUSION: DLCSD-mDモデルは、異なるデータセットにわたる信頼性の高いパフォーマンスを示し、肺がんの検出と診断のための堅牢なベンチマークとしてDLCSDを確立する。 我々のモデルとコードをパブリックドメインに提供することで、AIベースの診断ツールの開発を加速し、医療機械学習(ML)分野における再現性と協調的な進歩を促進することを目指している。

BACKGROUND: Lung cancer's high mortality rate can be mitigated by early detection, which is increasingly reliant on artificial intelligence (AI) for diagnostic imaging. However, the performance of AI models is contingent upon the datasets used for their training and validation. METHODS: This study developed and validated the DLCSD-mD and LUNA16-mD models utilizing the Duke Lung Cancer Screening Dataset (DLCSD), encompassing over 2,000 CT scans with more than 3,000 annotations. These models were rigorously evaluated against the internal DLCSD and external LUNA16 and NLST datasets, aiming to establish a benchmark for imaging-based performance. The assessment focused on creating a standardized evaluation framework to facilitate consistent comparison with widely utilized datasets, ensuring a comprehensive validation of the model's efficacy. Diagnostic accuracy was assessed using free-response receiver operating characteristic (FROC) and area under the curve (AUC) analyses. RESULTS: On the internal DLCSD set, the DLCSD-mD model achieved an AUC of 0.93 (95% CI:0.91-0.94), demonstrating high accuracy. Its performance was sustained on the external datasets, with AUCs of 0.97 (95% CI: 0.96-0.98) on LUNA16 and 0.75 (95% CI: 0.73-0.76) on NLST. Similarly, the LUNA16-mD model recorded an AUC of 0.96 (95% CI: 0.95-0.97) on its native dataset and showed transferable diagnostic performance with AUCs of 0.91 (95% CI: 0.89-0.93) on DLCSD and 0.71 (95% CI: 0.70-0.72) on NLST. CONCLUSION: The DLCSD-mD model exhibits reliable performance across different datasets, establishing the DLCSD as a robust benchmark for lung cancer detection and diagnosis. Through the provision of our models and code to the public domain, we aim to accelerate the development of AI-based diagnostic tools and encourage reproducibility and collaborative advancements within the medical machine-learning (ML) field.
翻訳日:2024-05-09 16:04:43 公開日:2024-05-07
# 肺癌と大腸癌の診断性向上のための説明可能なAI技術の検討

Exploring Explainable AI Techniques for Improved Interpretability in Lung and Colon Cancer Classification ( http://arxiv.org/abs/2405.04610v1 )

ライセンス: Link先を確認
Mukaffi Bin Moin, Fatema Tuj Johora Faria, Swarnajit Saha, Bushra Kamal Rafa, Mohammad Shafiul Alam, (参考訳) 肺がんと大腸がんは世界中で深刻な健康上の問題であり、死亡リスクを減らすためには早期かつ正確な診断が必要である。 しかし、病理学者の能力に大きく依存する診断は、専門知識が不十分な場合に困難と危険をもたらす。 画像や血液マーカーなどの診断手法は早期発見に寄与するが、病理組織学は依然として金の標準でありながら、時間をかけてサーバ間のミスに対して脆弱である。 ハイエンド技術への限られたアクセスは、患者の即時医療と診断の能力をさらに制限する。 近年のディープラーニングの進歩は、その医学的画像解析への応用、特に肺がんや大腸癌の診断における病理画像の利用に関心を惹き付けている。 この調査の目的は、Xception、DenseNet201、ResNet101、InceptionV3、DenseNet121、DenseNet169、ResNet152、InceptionResNetV2といった既存のトレーニング済みCNNベースのモデルを使用して、より良い拡張戦略を通じて分類を強化することである。 8モデルとも97%から99%の精度に到達した。 さらに、GradCAM、GradCAM++、ScoreCAM、Faster Score-CAM、LayerCAM、Vanilla Saliency、SmoothGradといった注意可視化技術を使用して、モデルの分類決定に関する洞察を提供し、悪性と良性の画像分類の解釈性と理解を改善する。

Lung and colon cancer are serious worldwide health challenges that require early and precise identification to reduce mortality risks. However, diagnosis, which is mostly dependent on histopathologists' competence, presents difficulties and hazards when expertise is insufficient. While diagnostic methods like imaging and blood markers contribute to early detection, histopathology remains the gold standard, although time-consuming and vulnerable to inter-observer mistakes. Limited access to high-end technology further limits patients' ability to receive immediate medical care and diagnosis. Recent advances in deep learning have generated interest in its application to medical imaging analysis, specifically the use of histopathological images to diagnose lung and colon cancer. The goal of this investigation is to use and adapt existing pre-trained CNN-based models, such as Xception, DenseNet201, ResNet101, InceptionV3, DenseNet121, DenseNet169, ResNet152, and InceptionResNetV2, to enhance classification through better augmentation strategies. The results show tremendous progress, with all eight models reaching impressive accuracy ranging from 97% to 99%. Furthermore, attention visualization techniques such as GradCAM, GradCAM++, ScoreCAM, Faster Score-CAM, and LayerCAM, as well as Vanilla Saliency and SmoothGrad, are used to provide insights into the models' classification decisions, thereby improving interpretability and understanding of malignant and benign image classification.
翻訳日:2024-05-09 16:04:43 公開日:2024-05-07
# マルチマージン損失:レコメンダシステムにおける提案と応用

Multi-Margin Loss: Proposal and Application in Recommender Systems ( http://arxiv.org/abs/2405.04614v1 )

ライセンス: Link先を確認
Makbule Gulcin Ozsoy, (参考訳) レコメンダシステムは、予測された嗜好に基づいてアイテムを提案することで、大量の情報を通じてユーザーを誘導する。 協調フィルタリングに基づくディープラーニング技術は、ユーザとイテムのインタラクションにのみ依存して、その直接的な性質から、人気を取り戻している。 通常、これらのシステムは3つの主要なコンポーネント(相互作用モジュール、損失関数、負のサンプリング戦略)から構成される。 当初、研究者は複雑な相互作用モジュールを開発することでパフォーマンスを向上させることに重点を置いていた。 しかし、近年、損失関数の精細化と負のサンプリング戦略へのシフトが起きている。 このシフトにより、対照的な学習への関心が高まり、類似したペアを近くに引き寄せながら、異なるペアを分割するようになる。 対照的な学習には、重いデータ強化、大規模なバッチサイズ、ハードネガティブなサンプリングといった重要なプラクティスがあるが、これらは、高いメモリ要求やいくつかの負のサンプルの未使用といった課題ももたらしている。 提案されたマルチマージン損失(MML)は、負のサンプルに対して複数のマージンと様々な重みを導入することでこれらの課題に対処する。 これにより、MMLは最も難しい陰性だけでなく、他の非自明な陰性も効率的に利用でき、特にリソースが限られている場合に、より複雑で効率的な損失関数を提供する。 2つのよく知られたデータセットの実験により、MMLは、負のサンプルの数が少なくなると、ベースラインのコントラスト損失関数と比較して最大20%の性能向上を達成した。

Recommender systems guide users through vast amounts of information by suggesting items based on their predicted preferences. Collaborative filtering-based deep learning techniques have regained popularity due to their straightforward nature, relying only on user-item interactions. Typically, these systems consist of three main components: an interaction module, a loss function, and a negative sampling strategy. Initially, researchers focused on enhancing performance by developing complex interaction modules. However, there has been a recent shift toward refining loss functions and negative sampling strategies. This shift has led to an increased interest in contrastive learning, which pulls similar pairs closer while pushing dissimilar ones apart. Contrastive learning involves key practices such as heavy data augmentation, large batch sizes, and hard-negative sampling, but these also bring challenges like high memory demands and under-utilization of some negative samples. The proposed Multi-Margin Loss (MML) addresses these challenges by introducing multiple margins and varying weights for negative samples. This allows MML to efficiently utilize not only the hardest negatives but also other non-trivial negatives, offering a simpler yet effective loss function that outperforms more complex methods, especially when resources are limited. Experiments on two well-known datasets demonstrated that MML achieved up to a 20% performance improvement compared to a baseline contrastive loss function when fewer number of negative samples are used.
翻訳日:2024-05-09 16:04:43 公開日:2024-05-07
# 無限文脈変圧器の経路積分形式論における折り畳みコンテキスト凝縮

Folded context condensation in Path Integral formalism for infinite context transformers ( http://arxiv.org/abs/2405.04620v1 )

ライセンス: Link先を確認
Won-Gi Paeng, Daesuk Kwon, (参考訳) この短いメモは、長期のコンテキストトレーニングの迅速なコミュニケーションと、それを低メモリ使用量でトレーニングする方法のアイデアを共有するために書かれています。 本稿では、生成前訓練変圧器の注意アルゴリズムとニューラルネットワークを一般化し、パス積分形式に再解釈する。 まず、トランスの役割をトークン状態の時間的進化と解釈し、クエリトークン状態と同時に全てのキートークン状態がクエリトークン状態に注意を払っていることを示唆する。 繰り返し時間進化の結果、過去シーケンスのトークン状態が現在のシーケンスのトークン状態を肉食し、分離されたシーケンス間の注意が、シーケンスの限られたサイズに低メモリを使用することで、無限のコンテキスト情報を維持することができるようにすることについて議論した。 実験では、12ドルの入力トークンウィンドウサイズが取り込まれ、事前トレーニングには24ドルのメモリを持つGPUが使用された。 150ドル以上のコンテキストが保存されていることが確認された。 トレーニングのサンプリング結果、コード、その他の詳細は、後にこのノートの改訂版に含まれます。

This short note is written for rapid communication of long context training and to share the idea of how to train it with low memory usage. In the note, we generalize the attention algorithm and neural network of Generative Pre-Trained Transformers and reinterpret it in Path integral formalism. First, the role of the transformer is understood as the time evolution of the token state and second, it is suggested that the all key-token states in the same time as the query-token can attend to the attention with the query token states. As a result of the repetitive time evolution, it is discussed that the token states in the past sequence meats the token states in the present sequence so that the attention between separated sequences becomes possible for maintaining infinite contextual information just by using low memory for limited size of sequence. For the experiment, the $12$ input token window size was taken and one GPU with $24$GB memory was used for the pre-training. It was confirmed that more than $150$ length context is preserved. The sampling result of the training, the code and the other details will be included in the revised version of this note later.
翻訳日:2024-05-09 16:04:43 公開日:2024-05-07
# データセットスケーリングのダークサイド:マルチモーダルモデルにおけるラシアル分類の評価

The Dark Side of Dataset Scaling: Evaluating Racial Classification in Multimodal Models ( http://arxiv.org/abs/2405.04623v1 )

ライセンス: Link先を確認
Abeba Birhane, Sepehr Dehdashtian, Vinay Uday Prabhu, Vishnu Boddeti, (参考訳) モデルをスケールし、データをスケールし、GPUファームをスケールすることは、今日の生成AIの世界における支配的な感情である。 モデルスケーリングは広く研究されているが、データスケーリングとそのダウンストリームがモデルパフォーマンスに与える影響は未解明のままである。 これは、主要なソースがWorld Wide Webであり、Common Crawlダンプとしてまとめてパッケージ化されているマルチモーダルデータセットのコンテキストにおいて特に重要である。 本稿では,シカゴ・フェイス・データセット(CFD)をプローブとして,LAION400-MおよびLAION-2Bデータセットに基づいて訓練された14の視覚言語モデル(VLM)に対するデータセットスケーリングの下流への影響を評価する。 トレーニングデータの増加に伴い, チンパンジー, ゴリラ, オランウータンなどの攻撃的非ヒトクラスとして, 訓練済みのCLIPモデルが誤分類される可能性が低かったが, 犯罪などの人間の攻撃的クラスと同じ画像が誤分類されることが示唆された。 さらに、我々が評価した14のビジョントランスフォーマーベースのVLMのうち、より大きなViT-Lモデルに対してデータセットが400Mから2Bのサンプルにスケールされた場合、黒人とラテン系男性のイメージを犯罪として予測する確率は、それぞれ65%と69%増加した。 逆に、より小さなベースViT-Bモデルでは、データセットが400Mから2Bのサンプルにスケールされた場合、黒人とラテン系の男性を犯罪として予測する確率は、それぞれ20%と47%減少する。 モデル監査の結果を定性的かつ歴史的分析に基礎を置き、データセットキュレーションの実践における我々の発見とその意義を反映し、緩和メカニズムの要約と今後の方向性を概説する。 コンテンツ警告: 本記事は人種的に非人道的かつ攻撃的な記述を含む。

Scale the model, scale the data, scale the GPU farms is the reigning sentiment in the world of generative AI today. While model scaling has been extensively studied, data scaling and its downstream impacts on model performance remain under-explored. This is particularly important in the context of multimodal datasets whose main source is the World Wide Web, condensed and packaged as the Common Crawl dump, which is known to exhibit numerous drawbacks. In this paper, we evaluate the downstream impact of dataset scaling on 14 visio-linguistic models (VLMs) trained on the LAION400-M and LAION-2B datasets by measuring racial and gender bias using the Chicago Face Dataset (CFD) as the probe. Our results show that as the training data increased, the probability of a pre-trained CLIP model misclassifying human images as offensive non-human classes such as chimpanzee, gorilla, and orangutan decreased, but misclassifying the same images as human offensive classes such as criminal increased. Furthermore, of the 14 Vision Transformer-based VLMs we evaluated, the probability of predicting an image of a Black man and a Latino man as criminal increases by 65% and 69%, respectively, when the dataset is scaled from 400M to 2B samples for the larger ViT-L models. Conversely, for the smaller base ViT-B models, the probability of predicting an image of a Black man and a Latino man as criminal decreases by 20% and 47%, respectively, when the dataset is scaled from 400M to 2B samples. We ground the model audit results in a qualitative and historical analysis, reflect on our findings and their implications for dataset curation practice, and close with a summary of mitigation mechanisms and ways forward. Content warning: This article contains racially dehumanising and offensive descriptions.
翻訳日:2024-05-09 15:54:51 公開日:2024-05-07
# ResNCT:CT尿中ネフロート相画像の深層学習モデル

ResNCT: A Deep Learning Model for the Synthesis of Nephrographic Phase Images in CT Urography ( http://arxiv.org/abs/2405.04629v1 )

ライセンス: Link先を確認
Syed Jamal Safdar Gardezi, Lucas Aronson, Peter Wawrzyn, Hongkun Yu, E. Jason Abel, Daniel D. Shapiro, Meghan G. Lubner, Joshua Warner, Giuseppe Toia, Lu Mao, Pallavi Tiwari, Andrew L. Wentland, (参考訳) 目的:CT urography(CTU)検査における腎画像合成のためのトランスフォーマーに基づく深層学習モデルの開発と評価を行う。 資料と方法: この振り返り研究は地方機関審査委員会によって承認された。 深層学習モデル開発のための3相CT尿路撮影を行った119例(平均SD年齢:65ドル:12歳:75/44男性/女性)のデータセットを作成した。 各患者の3段階はアフィン登録アルゴリズムで一致した。 ネフロート相CT画像合成(ResNCT)のための残留トランスフォーマモデル(Residual transformer model)を開発した。 合成画像は、ピーク信号対雑音比(PSNR)、構造類似度指数(SSIM)、正規化クロス相関係数(NCC)、平均絶対誤差(MAE)、ルート平均二乗誤差(RMSE)など、複数の性能指標を用いて評価した。 結果: ResNCTモデルは非コントラストおよび尿路画像入力から合成腎画像を生成することに成功した。 地上の真相のネフローグラフィー画像では、モデルによって合成された画像は、高いPSNR (27.8$\pm$ 2.7 dB)、SSIM (0.88$\pm$ 0.05)、NAC (0.98$\pm$ 0.02)、低いMAE (0.02$\pm$ 0.005)、RMSE (0.042$\pm$ 0.016) を達成した。 結論: ResNCT モデルにより, 地上の真理画像と高い類似性を有するネフロート相CT画像が合成された。 ResNCT モデルでは,CTU 試験において33% の放射線線量減少による腎症相の獲得を除去する手段を提供する。

Purpose: To develop and evaluate a transformer-based deep learning model for the synthesis of nephrographic phase images in CT urography (CTU) examinations from the unenhanced and urographic phases. Materials and Methods: This retrospective study was approved by the local Institutional Review Board. A dataset of 119 patients (mean $\pm$ SD age, 65 $\pm$ 12 years; 75/44 males/females) with three-phase CT urography studies was curated for deep learning model development. The three phases for each patient were aligned with an affine registration algorithm. A custom model, coined Residual transformer model for Nephrographic phase CT image synthesis (ResNCT), was developed and implemented with paired inputs of non-contrast and urographic sets of images trained to produce the nephrographic phase images, that were compared with the corresponding ground truth nephrographic phase images. The synthesized images were evaluated with multiple performance metrics, including peak signal to noise ratio (PSNR), structural similarity index (SSIM), normalized cross correlation coefficient (NCC), mean absolute error (MAE), and root mean squared error (RMSE). Results: The ResNCT model successfully generated synthetic nephrographic images from non-contrast and urographic image inputs. With respect to ground truth nephrographic phase images, the images synthesized by the model achieved high PSNR (27.8 $\pm$ 2.7 dB), SSIM (0.88 $\pm$ 0.05), and NCC (0.98 $\pm$ 0.02), and low MAE (0.02 $\pm$ 0.005) and RMSE (0.042 $\pm$ 0.016). Conclusion: The ResNCT model synthesized nephrographic phase CT images with high similarity to ground truth images. The ResNCT model provides a means of eliminating the acquisition of the nephrographic phase with a resultant 33% reduction in radiation dose for CTU examinations.
翻訳日:2024-05-09 15:54:51 公開日:2024-05-07
# FRACTAL: 横ランドスケープの3次元セマンティックセマンティックセグメンテーションのための超大規模空中ライダーデータセット

FRACTAL: An Ultra-Large-Scale Aerial Lidar Dataset for 3D Semantic Segmentation of Diverse Landscapes ( http://arxiv.org/abs/2405.04634v1 )

ライセンス: Link先を確認
Charles Gaydon, Michel Daab, Floryne Roche, (参考訳) マッピング機関は、領域を監視し、公共政策をサポートするための新しいツールとして、Aerial Lidar Scanning(ALS)をますます採用している。 ALSデータを大規模に処理するには、高度に多様な領域でよく機能する効率的なポイント分類方法が必要である。 それらを評価するには、研究者は大きな注釈付きLidarデータセットが必要であるが、現在のLidarベンチマークデータセットはスコープが制限されており、しばしば1つの都市領域をカバーする。 このデータギャップを埋めるために、FRench ALS Clouds from TArgeted Landscapes (FRACTAL) dataset: Ultra-large-scale air Lidar dataset of 100,000 dense point clouds with high-quality labels for 7 semantic class and spaning 250 km$^2$。 FRACTALはフランスの全国的オープンライダーデータに基づいて構築されている。 サンプリングスキームによって空間的・意味的な多様性を達成し、5つのフランス地域からの希少なクラスと挑戦的な景観を明示的に集中させる。 大規模土地モニタリングのための3次元深層学習手法の開発を支援する必要がある。 本稿では,ソースデータの性質,サンプリングワークフロー,得られたデータセットの内容について述べるとともに,実演型3Dニューラルアーキテクチャを用いたセグメンテーション性能の初期評価を行う。

Mapping agencies are increasingly adopting Aerial Lidar Scanning (ALS) as a new tool to monitor territory and support public policies. Processing ALS data at scale requires efficient point classification methods that perform well over highly diverse territories. To evaluate them, researchers need large annotated Lidar datasets, however, current Lidar benchmark datasets have restricted scope and often cover a single urban area. To bridge this data gap, we present the FRench ALS Clouds from TArgeted Landscapes (FRACTAL) dataset: an ultra-large-scale aerial Lidar dataset made of 100,000 dense point clouds with high-quality labels for 7 semantic classes and spanning 250 km$^2$. FRACTAL is built upon France's nationwide open Lidar data. It achieves spatial and semantic diversity via a sampling scheme that explicitly concentrates rare classes and challenging landscapes from five French regions. It should support the development of 3D deep learning approaches for large-scale land monitoring. We describe the nature of the source data, the sampling workflow, the content of the resulting dataset, and provide an initial evaluation of segmentation performance using a performant 3D neural architecture.
翻訳日:2024-05-09 15:54:51 公開日:2024-05-07
# データ駆動型エラー推定:技術的負債のない上界多重エラー

Data-driven Error Estimation: Upper Bounding Multiple Errors with No Technical Debt ( http://arxiv.org/abs/2405.04636v1 )

ライセンス: Link先を確認
Sanath Kumar Krishnamurthy, Susan Athey, Emma Brunskill, (参考訳) 本稿では,複数の有効信頼区間(CI)を推定・推定・誤差タプルのクラス/セットの最大誤差に基づいて高確率上限を推定する問題として定式化し,これを誤差推定問題とみなす。 このような単一のタプルに対して、データ駆動の信頼区間は、見積もりのエラーをバウンドするためにしばしば使用される。 しかし、推定推定エラータプルのクラスでは、最大誤差の非自明な高い確率上限は、しばしば入力としてクラス複雑性を必要とする。 理論的なクラス複雑性に基づく境界を導出するのではなく、最大誤差の上限を推定する完全データ駆動アプローチを提案する。 この基本的な課題に対する私たちのソリューションの単純で一般的な性質は、複数のCI構築、複数の仮説テスト、任意のトレーニング/微調整アルゴリズムに対する過剰なリスク境界(機械学習における不確実性の基本的な尺度)の推定、任意の報酬モデル推定手順を(追加の数学的解析なしで)入力として活用できるコンテキスト的帯域パイプラインの開発など、いくつかのアプリケーションに役立ちます。

We formulate the problem of constructing multiple simultaneously valid confidence intervals (CIs) as estimating a high probability upper bound on the maximum error for a class/set of estimate-estimand-error tuples, and refer to this as the error estimation problem. For a single such tuple, data-driven confidence intervals can often be used to bound the error in our estimate. However, for a class of estimate-estimand-error tuples, nontrivial high probability upper bounds on the maximum error often require class complexity as input -- limiting the practicality of such methods and often resulting in loose bounds. Rather than deriving theoretical class complexity-based bounds, we propose a completely data-driven approach to estimate an upper bound on the maximum error. The simple and general nature of our solution to this fundamental challenge lends itself to several applications including: multiple CI construction, multiple hypothesis testing, estimating excess risk bounds (a fundamental measure of uncertainty in machine learning) for any training/fine-tuning algorithm, and enabling the development of a contextual bandit pipeline that can leverage any reward model estimation procedure as input (without additional mathematical analysis).
翻訳日:2024-05-09 15:54:51 公開日:2024-05-07
# 地下施設における超電導帯電騒音の初観測

First Measurement of Correlated Charge Noise in Superconducting Qubits at an Underground Facility ( http://arxiv.org/abs/2405.04642v1 )

ライセンス: Link先を確認
G. Bratrud, S. Lewis, K. Anyang, A. Colón Cesaní, T. Dyson, H. Magoon, D. Sabhari, G. Spahn, G. Wagner, R. Gualtieri, N. A. Kurinsky, R. Linehan, R. McDermott, S. Sussman, D. J. Temples, S. Uemura, C. Bathurst, G. Cancelo, R. Chen, A. Chou, I. Hernandez, M. Hollister, L. Hsu, C. James, K. Kennard, R. Khatiwada, P. Lukens, V. Novati, N. Raha, S. Ray, R. Ren, A. Rodriguez, B. Schmidt, K. Stifter, J. Yu, D. Baxter, E. Figueroa-Feliciano, D. Bowring, (参考訳) 低閾値粒子検出器のキャラクタリゼーションのために設計された低放射能低温発生施設において、地球の地表から107メートル下を走行する4ビットデバイス上での空間的および時間的関連電荷ジャンプを測定した。 この施設の岩が埋まると、宇宙線ミューオンのフラックスは海面実験室に比べて99%以上減少する。 可動型鉛シールドの4$\pi$カバレッジと組み合わせることで、この施設は、量子ビットデバイス上の電離放射線のフラックスを定量的に制御することができる。 これらの弱電荷感受性クビットの長時間電荷トモグラフィー測定は、クビット島での誘導電荷の不連続ジャンプを捉え、クビット基板と電離放射線の相互作用に対応する。 これらの電荷の速度は、クビットパッケージ上の電離放射線のフラックスと共にスケールし、クビットと同一のクライオスタットで同時に動作する別のエネルギー分解検出器の一連の独立測定によって特徴づけられる。 鉛遮蔽法を用いて最小電荷ジャンプ率0.19$^{+0.04}_{-0.03}$ mHz, 表面試験で測定した値よりも約1桁低いが, 周囲ガンマの減少による予測よりも約8倍高い値が得られる。 我々は、22時間以上連続して4量子ビットを動作させ、3ミリ以上の長さで無相関の電荷ジャンプを行う。

We measure space- and time-correlated charge jumps on a four-qubit device, operating 107 meters below the Earth's surface in a low-radiation, cryogenic facility designed for the characterization of low-threshold particle detectors. The rock overburden of this facility reduces the cosmic ray muon flux by over 99% compared to laboratories at sea level. Combined with 4$\pi$ coverage of a movable lead shield, this facility enables quantifiable control over the flux of ionizing radiation on the qubit device. Long-time-series charge tomography measurements on these weakly charge-sensitive qubits capture discontinuous jumps in the induced charge on the qubit islands, corresponding to the interaction of ionizing radiation with the qubit substrate. The rate of these charge jumps scales with the flux of ionizing radiation on the qubit package, as characterized by a series of independent measurements on another energy-resolving detector operating simultaneously in the same cryostat with the qubits. Using lead shielding, we achieve a minimum charge jump rate of 0.19$^{+0.04}_{-0.03}$ mHz, almost an order of magnitude lower than that measured in surface tests, but a factor of roughly eight higher than expected based on reduction of ambient gammas alone. We operate four qubits for over 22 consecutive hours with zero correlated charge jumps at length scales above three millimeters.
翻訳日:2024-05-09 15:54:51 公開日:2024-05-07
# LLMに基づくフィードバックの強化:知的学習システムと学習科学からの洞察

Enhancing LLM-Based Feedback: Insights from Intelligent Tutoring Systems and the Learning Sciences ( http://arxiv.org/abs/2405.04645v1 )

ライセンス: Link先を確認
John Stamper, Ruiwei Xiao, Xinynig Hou, (参考訳) 人工知能・イン・エデュケーション(AIED)の分野は、テクノロジー、教育、心理学の共通点に焦点を当て、思いやりと理解による学習者のニーズ支援に重点を置いている。 LLM(Large Language Models)の普及は、Intelligent Tutoring Systemsでさまざまなタイプのフィードバックを生成することを含む、教育環境におけるスケーラブルなソリューションの開発につながった。 しかし、これらのモデルを活用するためのアプローチは、しばしば特定の情報を引き出すための直接的なプロンプトを定式化し、それらが学習に与える影響を迅速に構築し実証的な評価を行うためのしっかりとした理論的基盤を欠いている。 この研究は、ITSにおけるフィードバック生成に関する以前の研究を通し、それらが利用した理論的な枠組みと、それに対応する設計の有効性を実証的な評価で強調し、これらのエビデンスに基づく原則をLLMベースのフィードバック生成の設計、実験、評価フェーズに適用する機会を提案する。 本稿の主な貢献は, 生成AI時代のフィードバック生成において, より慎重で理論的に根ざした手法を適用すること, および LLM を利用した ITS の理論とエビデンスに基づくフィードバック設計に関する実践的提案である。

The field of Artificial Intelligence in Education (AIED) focuses on the intersection of technology, education, and psychology, placing a strong emphasis on supporting learners' needs with compassion and understanding. The growing prominence of Large Language Models (LLMs) has led to the development of scalable solutions within educational settings, including generating different types of feedback in Intelligent Tutoring Systems. However, the approach to utilizing these models often involves directly formulating prompts to solicit specific information, lacking a solid theoretical foundation for prompt construction and empirical assessments of their impact on learning. This work advocates careful and caring AIED research by going through previous research on feedback generation in ITS, with emphasis on the theoretical frameworks they utilized and the efficacy of the corresponding design in empirical evaluations, and then suggesting opportunities to apply these evidence-based principles to the design, experiment, and evaluation phases of LLM-based feedback generation. The main contributions of this paper include: an avocation of applying more cautious, theoretically grounded methods in feedback generation in the era of generative AI; and practical suggestions on theory and evidence-based feedback design for LLM-powered ITS.
翻訳日:2024-05-09 15:54:51 公開日:2024-05-07
# ラットの身体部分分割とキーポイント検出のための自己監督法

A Self-Supervised Method for Body Part Segmentation and Keypoint Detection of Rat Images ( http://arxiv.org/abs/2405.04650v1 )

ライセンス: Link先を確認
László Kopácsi, Áron Fóthi, András Lőrincz, (参考訳) シーン上のエージェントの振る舞いを分析するためには、個々のコンポーネントの認識とインスタンスセグメンテーションによってサポートされているキーポイント検出が不可欠である。 このようなシステムは、監視、自動運転車、および医学研究に利用することができ、実験動物の行動分析を使用して、特定の薬の余効性を確認することができる。 上記のタスクを解く方法は通常、大量の高品質の手書き手書きデータを必要とし、作成には時間とお金を要する。 本論文では,実験室ラットの手動ラベル付けの必要性を軽減する手法を提案する。 まず、コンピュータビジョンベースのアプローチで初期アノテーションを生成し、次に広範囲に拡張することで、生成されたデータにディープニューラルネットワークをトレーニングする。 最終システムは、オブジェクトが密閉されている場合でも、例のセグメンテーション、キーポイント検出、およびボディ部分セグメンテーションが可能である。

Recognition of individual components and keypoint detection supported by instance segmentation is crucial to analyze the behavior of agents on the scene. Such systems could be used for surveillance, self-driving cars, and also for medical research, where behavior analysis of laboratory animals is used to confirm the aftereffects of a given medicine. A method capable of solving the aforementioned tasks usually requires a large amount of high-quality hand-annotated data, which takes time and money to produce. In this paper, we propose a method that alleviates the need for manual labeling of laboratory rats. To do so, first, we generate initial annotations with a computer vision-based approach, then through extensive augmentation, we train a deep neural network on the generated data. The final system is capable of instance segmentation, keypoint detection, and body part segmentation even when the objects are heavily occluded.
翻訳日:2024-05-09 15:54:51 公開日:2024-05-07
# 文化コモンセンスのための大規模言語モデルの能力と限界を理解する

Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense ( http://arxiv.org/abs/2405.04655v1 )

ライセンス: Link先を確認
Siqi Shen, Lajanugen Logeswaran, Moontae Lee, Honglak Lee, Soujanya Poria, Rada Mihalcea, (参考訳) 大規模言語モデル(LLM)は、多数のベンチマーク評価を通じてかなりの常識的理解を示している。 しかし、彼らの文化的常識に対する理解はほとんど検討されていない。 本稿では,文化的コモンセンスタスクの文脈において,最先端のLLMの能力と限界を包括的に検討する。 複数の一般文化コモンセンスベンチマークを用いて,(1)文化固有のコモンセンス知識の検証において,LLMが性能に有意な差があること,(2)LLMの一般的なコモンセンス能力が文化的文脈に影響されていること,(3)LLMを問合せに使用する言語が文化的タスクにそのパフォーマンスに影響を及ぼす可能性があることを明らかにする。 本研究は,LLMの文化的理解に固有のバイアスを指摘し,文化的に認識される言語モデルの開発に役立つ洞察を提供する。

Large language models (LLMs) have demonstrated substantial commonsense understanding through numerous benchmark evaluations. However, their understanding of cultural commonsense remains largely unexamined. In this paper, we conduct a comprehensive examination of the capabilities and limitations of several state-of-the-art LLMs in the context of cultural commonsense tasks. Using several general and cultural commonsense benchmarks, we find that (1) LLMs have a significant discrepancy in performance when tested on culture-specific commonsense knowledge for different cultures; (2) LLMs' general commonsense capability is affected by cultural context; and (3) The language used to query the LLMs can impact their performance on cultural-related tasks. Our study points to the inherent bias in the cultural understanding of LLMs and provides insights that can help develop culturally aware language models.
翻訳日:2024-05-09 15:54:51 公開日:2024-05-07
# ACEGEN:医薬品発見のための生成化学物質の強化学習

ACEGEN: Reinforcement learning of generative chemical agents for drug discovery ( http://arxiv.org/abs/2405.04657v1 )

ライセンス: Link先を確認
Albert Bou, Morgan Thomas, Sebastian Dittert, Carles Navarro Ramírez, Maciej Majewski, Ye Wang, Shivam Patel, Gary Tresadern, Mazen Ahmad, Vincent Moens, Woody Sherman, Simone Sciabola, Gianni De Fabritiis, (参考訳) 近年、強化学習(RL)は医薬品設計において重要なツールとして登場し、望ましい性質を持つ分子の提案と最適化の可能性を秘めている。 しかし、高度なRLアルゴリズムの複雑さと特殊コードへのかなりの依存のため、能力、柔軟性、信頼性のバランスを崩すことは依然として困難である。 本研究では, 創薬設計に適した包括的かつ合理化されたツールキットであるACEGENを紹介し, 効率的な再利用可能なコンポーネントを提供する最新の意思決定ライブラリであるTorchRLを用いて構築する。 ACEGENは、分子設計のための堅牢で柔軟で効率的なプラットフォームを提供する。 様々なアルゴリズムをベンチマークし、複数の薬物発見事例研究を行うことで、その有効性を検証する。 ACEGENはhttps://github.com/acellera/acegen-openでアクセスできる。

In recent years, reinforcement learning (RL) has emerged as a valuable tool in drug design, offering the potential to propose and optimize molecules with desired properties. However, striking a balance between capability, flexibility, and reliability remains challenging due to the complexity of advanced RL algorithms and the significant reliance on specialized code. In this work, we introduce ACEGEN, a comprehensive and streamlined toolkit tailored for generative drug design, built using TorchRL, a modern decision-making library that offers efficient and thoroughly tested reusable components. ACEGEN provides a robust, flexible, and efficient platform for molecular design. We validate its effectiveness by benchmarking it across various algorithms and conducting multiple drug discovery case studies. ACEGEN is accessible at https://github.com/acellera/acegen-open.
翻訳日:2024-05-09 15:54:51 公開日:2024-05-07
# 重力の絡み合う力の相対論的差

Relativistic Dips in Entangling Power of Gravity ( http://arxiv.org/abs/2405.04661v1 )

ライセンス: Link先を確認
Marko Toroš, Martine Schut, Patrick Andriolo, Sougato Bose, Anupam Mazumdar, (参考訳) 古典的重力と量子重力の双方の健全な特徴はその普遍的で魅力的な性質である。 しかしながら、量子系が重力子交換を介して相互作用する場合の量子相関の挙動と蓄積についてはあまり知られていない。 本研究では,非局在状態における2つの隣接量子系を考慮した場合においても,パラメータの選択に対して量子相関が強く抑制されることを示す。 線形化量子重力の枠組みとポストニュートンの寄与を用いて、重力によって引き起こされる絡み合いが無視できる値に落ちるような非局在化の特別な値があることが分かる。 システムを古典化する傾向にあるプランクスケールから遠く離れたところで、顕著なキャンセル点が見つかる。 さらに、ハイゼンベルクの不確実性原理とエネルギー-運動量テンソルへの重力の普遍的な結合により、量子相関が大規模で小さな非局在化のために再燃し始め、重力の絡み合いの谷を形成することを示す。

The salient feature of both classical and quantum gravity is its universal and attractive character. However, less is known about the behaviour and build-up of quantum correlations when quantum systems interact via graviton exchange. In this work, we show that quantum correlations can remain strongly suppressed for certain choices of parameters even when considering two adjacent quantum systems in delocalized states. Using the framework of linearized quantum gravity with post-Newtonian contributions, we find that there are special values of delocalization where gravitationally induced entanglement drops to negligible values, albeit non-vanishing. We find a pronounced cancellation point far from the Planck scale, where the system tends towards classicalization. In addition, we show that quantum correlations begin to reemerge for large and tiny delocalizations due to Heisenberg's uncertainty principle and the universal coupling of gravity to the energy-momentum tensor, forming a valley of gravitational entanglement.
翻訳日:2024-05-09 15:54:51 公開日:2024-05-07
# レーダ場:FMCWレーダのための周波数空間ニューラルシーン表現

Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar ( http://arxiv.org/abs/2405.04662v1 )

ライセンス: Link先を確認
David Borts, Erich Liang, Tim Brödermann, Andrea Ramazzina, Stefanie Walz, Edoardo Palladin, Jipeng Sun, David Bruggemann, Christos Sakaridis, Luc Van Gool, Mario Bijelic, Felix Heide, (参考訳) ニューラルフィールドは、自律走行車やロボットが扱わなければならない様々な屋外シーンの再現と創出のためのシーン表現として広く研究されている。 RGB と LiDAR のデータに対するアプローチは成功したが、レーダーの知覚モーダリティとしてのニューラル再構成法はほとんど研究されていない。 ミリ波長で動作するレーダーセンサーは、霧や雨の散乱に対して堅牢であり、アクティブで受動的な光センシング技術と相補的なモダリティを提供する。 さらに、既存のレーダーセンサーはコスト効率が高く、屋外で動作するロボットや車両に広く展開されている。 本稿では,アクティブレーダイメージア用に設計されたニューラルシーン再構成手法であるRadar Fieldsを紹介する。 提案手法は, 暗黙的ニューラルジオメトリーと反射率モデルを用いて, 露骨な物理インフォームドセンサモデルを結合し, 生のレーダ測定を直接合成し, シーン占有率を抽出する。 提案手法はボリュームレンダリングに依存しない。 代わりに、フーリエ周波数空間のフィールドを学習し、生のレーダーデータで監視する。 本手法は,高密度車両やインフラを有する都市景観や,特にミリ波センシングが好まれる厳しい気象シナリオなど,様々な屋外シナリオにおける有効性を検証する。

Neural fields have been broadly investigated as scene representations for the reproduction and novel generation of diverse outdoor scenes, including those autonomous vehicles and robots must handle. While successful approaches for RGB and LiDAR data exist, neural reconstruction methods for radar as a sensing modality have been largely unexplored. Operating at millimeter wavelengths, radar sensors are robust to scattering in fog and rain, and, as such, offer a complementary modality to active and passive optical sensing techniques. Moreover, existing radar sensors are highly cost-effective and deployed broadly in robots and vehicles that operate outdoors. We introduce Radar Fields - a neural scene reconstruction method designed for active radar imagers. Our approach unites an explicit, physics-informed sensor model with an implicit neural geometry and reflectance model to directly synthesize raw radar measurements and extract scene occupancy. The proposed method does not rely on volume rendering. Instead, we learn fields in Fourier frequency space, supervised with raw radar data. We validate the effectiveness of the method across diverse outdoor scenarios, including urban scenes with dense vehicles and infrastructure, and in harsh weather scenarios, where mm-wavelength sensing is especially favorable.
翻訳日:2024-05-09 15:54:51 公開日:2024-05-07
# 適応探索による近接政策最適化

Proximal Policy Optimization with Adaptive Exploration ( http://arxiv.org/abs/2405.04664v1 )

ライセンス: Link先を確認
Andrei Lixandru, (参考訳) アダプティブ・エクスプロレーション(axPPO)を用いた近接ポリシー最適化は,新しい学習アルゴリズムとして導入されている。 本稿では,強化学習の文脈における探索・探索のトレードオフについて検討し,強化学習アルゴリズム設計における新たな知見の提供を目的とする。 提案する適応探索フレームワークは,最近のエージェントの性能に基づいて,トレーニング中の探索の規模を動的に調整する。 提案手法は学習効率において,特に学習プロセスの開始時に重要な探索行動が必要な場合において,標準的なPPOアルゴリズムよりも優れる。

Proximal Policy Optimization with Adaptive Exploration (axPPO) is introduced as a novel learning algorithm. This paper investigates the exploration-exploitation tradeoff within the context of reinforcement learning and aims to contribute new insights into reinforcement learning algorithm design. The proposed adaptive exploration framework dynamically adjusts the exploration magnitude during training based on the recent performance of the agent. Our proposed method outperforms standard PPO algorithms in learning efficiency, particularly when significant exploratory behavior is needed at the beginning of the learning process.
翻訳日:2024-05-09 15:54:51 公開日:2024-05-07
# 基本物理のための原子・分子・光学プラットフォームを用いた量子センシング

Quantum sensing with atomic, molecular, and optical platforms for fundamental physics ( http://arxiv.org/abs/2405.04665v1 )

ライセンス: Link先を確認
Jun Ye, Peter Zoller, (参考訳) 原子、分子、光学(AMO)物理学は、現代技術の基盤を築きながら、量子科学の発展の最前線にある。 多くの原子の量子制御能力が増大し、多体状態と量子絡み合いが生まれ、重要な疑問が浮かび上がってくる。 このエッセイでは、基礎物理学と新しい応用のための説得力のある長期的ビジョンは、量子情報科学の急速な発展を利用して測定物理学のフロンティアを定義し、前進させることであり、基礎的な発見の強い可能性を秘めている。 フォールトトレラントな量子コンピューティングや絡み合った量子センサーネットワークといった量子技術が、今日の実現よりもはるかに進歩しているため、これらのツールがアンロックできる基礎科学の扉は何だろうか? 我々は、重力の量子的側面、基本対称性、最小標準モデルを超えた新しい物理学など、最も興味深く挑戦的な問題のいくつかが、新たな量子計測フロンティアで取り組まれることを期待している。

Atomic, molecular, and optical (AMO) physics has been at the forefront of the development of quantum science while laying the foundation for modern technology. With the growing capabilities of quantum control of many atoms for engineered many-body states and quantum entanglement, a key question emerges: what critical impact will the second quantum revolution with ubiquitous applications of entanglement bring to bear on fundamental physics? In this Essay, we argue that a compelling long-term vision for fundamental physics and novel applications is to harness the rapid development of quantum information science to define and advance the frontiers of measurement physics, with strong potential for fundamental discoveries. As quantum technologies, such as fault-tolerant quantum computing and entangled quantum sensor networks, become much more advanced than today's realization, we wonder what doors of basic science can these tools unlock? We anticipate that some of the most intriguing and challenging problems, such as quantum aspects of gravity, fundamental symmetries, or new physics beyond the minimal standard model, will be tackled at the emerging quantum measurement frontier.
翻訳日:2024-05-09 15:54:51 公開日:2024-05-07
# ボース・ハバード型ハミルトニアンのクラスに対する強化リーブ・ロビンソン境界

Enhanced Lieb-Robinson bounds for a class of Bose-Hubbard type Hamiltonians ( http://arxiv.org/abs/2405.04672v1 )

ライセンス: Link先を確認
Tomotaka Kuwahara, Marius Lemm, (参考訳) いくつかの最近の研究は、ボース・ハバード型ハミルトニアンのリーブ・ロビンソン境界(LRB)を考察している。 初期状態の特定の特別なクラス(例えば、粒子のない領域や定常状態の摂動状態)に対して、情報伝播の速度は、量子スピン系と同様の時間定数$v\leq C$で制限された。 しかしながら、有界密度初期状態のより一般的なクラスでは、Vu と Saito と共に最初に命名された著者は、空間的格子次元が$D$であるような速度境界の $v\leq C t^{D-1}$ を導出した。 D\geq 2$の場合、この境界は情報伝達の高速化を可能にする。 アイサートとグロスの研究から、格子ボソンの系が情報伝達を加速できることが知られている。 したがって、どんな条件で有界な$v\leq C t^{D-1}$を拡張できるかを理解することは中心的な問題である。 ここでは、追加の物理的制約、変換不変性、および$n_x^p$と$p>D+1$の形の$p$ボディ反発が、有界エネルギー密度の任意の初期状態に対して$v\leq C t^{\frac{D}{p-D-1}}$の LRBをもたらすことを証明する。 また、追加の動的制約を使わずにさらなる拡張が不可能であることを示す量子状態の例も特定する。

Several recent works have considered Lieb-Robinson bounds (LRBs) for Bose-Hubbard-type Hamiltonians. For certain special classes of initial states (e.g., states with particle-free regions or perturbations of stationary states), the velocity of information propagation was bounded by a constant in time, $v\leq C$, similarly to quantum spin systems. However, for the more general class of bounded-density initial states, the first-named author together with Vu and Saito derived the velocity bound $v\leq C t^{D-1}$, where $D$ is the spatial lattice dimension. For $D\geq 2$, this bound allows for accelerated information propagation. It has been known since the work of Eisert and Gross that some systems of lattice bosons are capable of accelerated information propagation. It is therefore a central question to understand under what conditions the bound $v\leq C t^{D-1}$ can be enhanced. Here, we prove that additional physical constraints, translation-invariance and a $p$-body repulsion of the form $n_x^p$ with $p>D+1$, lead to a LRB with $v\leq C t^{\frac{D}{p-D-1}}$ for any initial state of bounded energy density. We also identify examples of quantum states which show that no further enhancement is possible without using additional dynamical constraints.
翻訳日:2024-05-09 15:54:51 公開日:2024-05-07
# TexControl:拡散モデルを用いたスケッチベース2段階ファッション画像生成

TexControl: Sketch-Based Two-Stage Fashion Image Generation Using Diffusion Model ( http://arxiv.org/abs/2405.04675v1 )

ライセンス: Link先を確認
Yongming Zhang, Tianyu Zhang, Haoran Xie, (参考訳) ディープラーニングに基づくスケッチ・トゥ・クロース画像生成は、ファッションデザインプロセスの初期設計とインスピレーションを提供する。 しかし, フリーハンドドローイングからの着物生成は, 図面の粗さや曖昧さから困難である。 現在の世代モデルは、詳細なテクスチャ情報を生成するのが困難である。 本研究では、2段階のパイプラインを用いてスケッチ入力に対応するファッション画像を生成するスケッチベースのファッション生成フレームワークであるTexControlを提案する。 まず、スケッチからファッションイメージを生成し、画像のアウトラインを安定に保つために、ControlNetを採用します。 そして,画像の詳細なテクスチャを最適化し,最終的な結果を得る。 評価結果から,TexControlはきめ細かい画像生成として,質の高いテクスチャでファッション画像を生成することができることがわかった。

Deep learning-based sketch-to-clothing image generation provides the initial designs and inspiration in the fashion design processes. However, clothing generation from freehand drawing is challenging due to the sparse and ambiguous information from the drawn sketches. The current generation models may have difficulty generating detailed texture information. In this work, we propose TexControl, a sketch-based fashion generation framework that uses a two-stage pipeline to generate the fashion image corresponding to the sketch input. First, we adopt ControlNet to generate the fashion image from sketch and keep the image outline stable. Then, we use an image-to-image method to optimize the detailed textures of the generated images and obtain the final results. The evaluation results show that TexControl can generate fashion images with high-quality texture as fine-grained image generation.
翻訳日:2024-05-09 15:54:51 公開日:2024-05-07
# リサーチスルー設計によるジェネレーティブAI技術への対応:探査研究としてのライランズAIラボ

Responding to Generative AI Technologies with Research-through-Design: The Ryelands AI Lab as an Exploratory Study ( http://arxiv.org/abs/2405.04677v1 )

ライセンス: Link先を確認
Jesse Josua Benjamin, Joseph Lindley, Elizabeth Edwards, Elisa Rubegni, Tim Korjakow, David Grist, Rhiannon Sharkey, (参考訳) ジェネレーティブなAI技術は、新しい実用的で重要な能力を必要とし、それに反応し、育むデザインを要求する。 そこで,我々は小学校と共同で,生成型AI技術と相互作用する学生を中心とした建設学カリキュラムを開発することを目的として,Research-through-Designによって指導された探索的研究を行った。 本稿では,カリキュラムと学習教材の設計とアウトプットの詳細な説明を行い,その反抗的かつ長期にわたる「ハンズオン」アプローチが,学生の実践的かつ批判的な能力の共同開発に繋がることを示した。 本研究は,生産型AI技術教育における建設主義的アプローチの設計指導に貢献し,さらに「批判的責任」でこれを主張する。 次に、HCI研究者は、生成AI技術とのインタラクションを設計する上で、構成主義的戦略をどのように活用するかについて議論し、生成AIのような急速に進化する破壊的技術に反応できる「ラピッド・レスポンス・方法論」として、リサーチ・スルー・デザインが重要な役割を果たすことを示唆する。

Generative AI technologies demand new practical and critical competencies, which call on design to respond to and foster these. We present an exploratory study guided by Research-through-Design, in which we partnered with a primary school to develop a constructionist curriculum centered on students interacting with a generative AI technology. We provide a detailed account of the design of and outputs from the curriculum and learning materials, finding centrally that the reflexive and prolonged `hands-on' approach led to a co-development of students' practical and critical competencies. From the study, we contribute guidance for designing constructionist approaches to generative AI technology education; further arguing to do so with `critical responsivity.' We then discuss how HCI researchers may leverage constructionist strategies in designing interactions with generative AI technologies; and suggest that Research-through-Design can play an important role as a `rapid response methodology' capable of reacting to fast-evolving, disruptive technologies such as generative AI.
翻訳日:2024-05-09 15:45:07 公開日:2024-05-07
# TALC:マルチシーンテキスト・ビデオ・ジェネレーションのためのタイムアライズド・キャプション

TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation ( http://arxiv.org/abs/2405.04682v1 )

ライセンス: Link先を確認
Hritik Bansal, Yonatan Bitton, Michal Yarom, Idan Szpektor, Aditya Grover, Kai-Wei Chang, (参考訳) 拡散に基づく生成モデリングの最近の進歩は、テキストプロンプトに条件付けされた高品質なビデオを生成することができるテキスト・ツー・ビデオ(T2V)モデルの開発につながっている。 これらのT2Vモデルのほとんどは、特定のアクションを行うエンティティ(例:「木に登る赤いパンダ」)を描写したシングルシーンのビデオクリップを生成することが多い。 しかし、実世界では至るところで見られるため、多段映像を制作する傾向にある(例:「木に登る赤いパンダ」、続いて「木の頂上で赤いパンダが眠る」)。 事前訓練されたT2Vモデルからマルチシーンビデオを生成するために,時間調整キャプション(TALC)フレームワークを導入する。 具体的には、T2Vアーキテクチャのテキストコンディショニング機構を強化し、映像シーンとシーン記述の時間的アライメントを認識する。 例えば、生成した映像の前段と後段の視覚的特徴を、第1のシーン記述(例:「木に登る赤いパンダ」)と第2のシーン記述(例:「木の上に赤いパンダが眠る」)の表現で表現する。 その結果、T2Vモデルはマルチシーンのテキスト記述に忠実で、視覚的に一貫した(エンティティや背景など)マルチシーンビデオを生成することができることがわかった。 さらに, TALCフレームワークを用いて, 事前学習したT2Vモデルをマルチシーンビデオテキストデータで微調整する。 talC-finetuned model は,人間の評価を用いて視覚的一貫性とテキストの定着度を平均するスコアにおいて,ベースライン法を15.5ポイント上回ることを示す。 プロジェクトのWebサイトはhttps://talc-mst2v.github.io/。

Recent advances in diffusion-based generative modeling have led to the development of text-to-video (T2V) models that can generate high-quality videos conditioned on a text prompt. Most of these T2V models often produce single-scene video clips that depict an entity performing a particular action (e.g., `a red panda climbing a tree'). However, it is pertinent to generate multi-scene videos since they are ubiquitous in the real-world (e.g., `a red panda climbing a tree' followed by `the red panda sleeps on the top of the tree'). To generate multi-scene videos from the pretrained T2V model, we introduce Time-Aligned Captions (TALC) framework. Specifically, we enhance the text-conditioning mechanism in the T2V architecture to recognize the temporal alignment between the video scenes and scene descriptions. For instance, we condition the visual features of the earlier and later scenes of the generated video with the representations of the first scene description (e.g., `a red panda climbing a tree') and second scene description (e.g., `the red panda sleeps on the top of the tree'), respectively. As a result, we show that the T2V model can generate multi-scene videos that adhere to the multi-scene text descriptions and be visually consistent (e.g., entity and background). Further, we finetune the pretrained T2V model with multi-scene video-text data using the TALC framework. We show that the TALC-finetuned model outperforms the baseline methods by 15.5 points in the overall score, which averages visual consistency and text adherence using human evaluation. The project website is https://talc-mst2v.github.io/.
翻訳日:2024-05-09 15:45:06 公開日:2024-05-07
# Bosphorusのブリッジ:低リソース言語適応とベンチマークのための戦略によるトルコの大規模言語モデルの改善

Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking ( http://arxiv.org/abs/2405.04685v1 )

ライセンス: Link先を確認
Emre Can Acikgoz, Mete Erdogan, Deniz Yuret, (参考訳) 大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。 本研究では、トルコ語を中心に、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。 我々は,学習戦略,モデル選択,データ可用性が,表現不足言語用に設計されたLLMの性能に与える影響を評価するために,詳細な分析を行う。 私たちのアプローチには2つの方法論があります。 i) トルコ語を理解するために英語で事前訓練された既存のLLMを適応させ、 二 トルコの事前訓練データを用いて一からモデルを作成し、推論能力の向上を目的とした新しいトルコ語指導訓練データセットの教師付き微調整を施した。 これらの手法の相対的な性能は、トルコのLLMのための新しいリーダーボードの作成によって評価され、異なる推論と知識スキルを評価するベンチマークが特徴である。 さらに、事前学習と微調整の両方でデータとモデルのスケーリング実験を行い、同時に言語間の知識伝達能力を強調し、異なる言語で微調整中に遭遇した破滅的な忘れ事の課題に対処した。 我々のゴールは、低リソースの言語文脈でLLMフレームワークを進化させるための詳細なガイドを提供することであり、それによって自然言語処理(NLP)がよりグローバルに利用できるようにすることである。

Large Language Models (LLMs) are becoming crucial across various fields, emphasizing the urgency for high-quality models in underrepresented languages. This study explores the unique challenges faced by low-resource languages, such as data scarcity, model selection, evaluation, and computational limitations, with a special focus on Turkish. We conduct an in-depth analysis to evaluate the impact of training strategies, model choices, and data availability on the performance of LLMs designed for underrepresented languages. Our approach includes two methodologies: (i) adapting existing LLMs originally pretrained in English to understand Turkish, and (ii) developing a model from the ground up using Turkish pretraining data, both supplemented with supervised fine-tuning on a novel Turkish instruction-tuning dataset aimed at enhancing reasoning capabilities. The relative performance of these methods is evaluated through the creation of a new leaderboard for Turkish LLMs, featuring benchmarks that assess different reasoning and knowledge skills. Furthermore, we conducted experiments on data and model scaling, both during pretraining and fine-tuning, simultaneously emphasizing the capacity for knowledge transfer across languages and addressing the challenges of catastrophic forgetting encountered during fine-tuning on a different language. Our goal is to offer a detailed guide for advancing the LLM framework in low-resource linguistic contexts, thereby making natural language processing (NLP) benefits more globally accessible.
翻訳日:2024-05-09 15:45:06 公開日:2024-05-07
# 人間とAIの相互学習に向けて : 新しい研究パラダイム

Towards Human-AI Mutual Learning: A New Research Paradigm ( http://arxiv.org/abs/2405.04687v1 )

ライセンス: Link先を確認
Xiaomei Wang, Xiaoyu Chen, (参考訳) 本稿では、人間とAIエージェントが人間とAIのコラボレーションを通して知識を保存、交換、改善するプロセスとして定義された「人間とAIの相互学習」と呼ばれる、人間とAIのコラボレーションを研究するための新しい研究パラダイムについて述べる。 このパラダイムの下で、関連する方法論、モチベーション、ドメイン例、メリット、課題、将来の研究課題について説明する。

This paper describes a new research paradigm for studying human-AI collaboration, named "human-AI mutual learning", defined as the process where humans and AI agents preserve, exchange, and improve knowledge during human-AI collaboration. We describe relevant methodologies, motivations, domain examples, benefits, challenges, and future research agenda under this paradigm.
翻訳日:2024-05-09 15:45:06 公開日:2024-05-07
# Carbon Filter: 大規模クラスタリングと高速検索によるリアルタイムアラートトリアージ

Carbon Filter: Real-time Alert Triage Using Large Scale Clustering and Fast Search ( http://arxiv.org/abs/2405.04691v1 )

ライセンス: Link先を確認
Jonathan Oliver, Raghav Batta, Adam Bates, Muhammad Adil Inam, Shelly Mehta, Shugao Xia, (参考訳) 今日、SOC(Security Operations Center)が直面している最大の課題のひとつに「アラート疲労」があります。 エンドポイント検出製品は、潜在的に悪意のある振る舞いを記述した行動ルールに対するイベントテレメトリのパターンマッチングによって警告を発生させるが、実際の攻撃から逸脱する偽陽性に悩まされる可能性がある。 データ証明に基づくアラートトリアージ技術は有望であるかも知れないが、これらのテクニックは単一のアラートを検査するのに1分以上かかり、EDRの顧客は1日に数千万のアラートに直面している可能性がある。 統計的学習に基づくシステムであるCarbon Filterは、アナリストが手動でレビューする必要があるアラートの数を劇的に削減します。 我々のアプローチは、プロセス開始状況(例えば、コマンド行)を調べて、疑わしい動作から偽のアラートトリガーを効率的に識別し、分離できるという観察に基づいています。 トレーニングと推論に高速検索アルゴリズムを使用することで、私たちのアプローチは1日に数百万のアラートにスケールします。 モデルにクエリをバッチすることで、理論的な最大スループットを1時間に2000万のアラートで観測する。 顧客のデプロイメントから数千万のアラートの分析に基づいて、当社のソリューションは、アラートトリアージのパフォーマンスを損なうことなく、Signal-to-Noise比を6倍改善しました。

"Alert fatigue" is one of the biggest challenges faced by the Security Operations Center (SOC) today, with analysts spending more than half of their time reviewing false alerts. Endpoint detection products raise alerts by pattern matching on event telemetry against behavioral rules that describe potentially malicious behavior, but can suffer from high false positives that distract from actual attacks. While alert triage techniques based on data provenance may show promise, these techniques can take over a minute to inspect a single alert, while EDR customers may face tens of millions of alerts per day; the current reality is that these approaches aren't nearly scalable enough for production environments. We present Carbon Filter, a statistical learning based system that dramatically reduces the number of alerts analysts need to manually review. Our approach is based on the observation that false alert triggers can be efficiently identified and separated from suspicious behaviors by examining the process initiation context (e.g., the command line) that launched the responsible process. Through the use of fast-search algorithms for training and inference, our approach scales to millions of alerts per day. Through batching queries to the model, we observe a theoretical maximum throughput of 20 million alerts per hour. Based on the analysis of tens of million alerts from customer deployments, our solution resulted in a 6-fold improvement in the Signal-to-Noise ratio without compromising on alert triage performance.
翻訳日:2024-05-09 15:45:06 公開日:2024-05-07
# エッジベース・コンピューティング・イン・メモリ・アーキテクチャにおける検索拡張生成のロバストな実装

Robust Implementation of Retrieval-Augmented Generation on Edge-based Computing-in-Memory Architectures ( http://arxiv.org/abs/2405.04700v1 )

ライセンス: Link先を確認
Ruiyang Qin, Zheyu Yan, Dewen Zeng, Zhenge Jia, Dancheng Liu, Jianbo Liu, Zhi Zheng, Ningyuan Cao, Kai Ni, Jinjun Xiong, Yiyu Shi, (参考訳) エッジデバイスにデプロイされる大規模言語モデル(LLM)は、微調整とパラメータの特定の部分の更新を通じて学習する。 このような学習方法は資源利用の削減に最適化できるが、必要なリソース全体は依然としてエッジデバイスに重きを置いている。 代わりに、資源効率のよいLLM学習手法であるRetrieval-Augmented Generation (RAG) は、モデルパラメータを更新することなく、LLM生成コンテンツの品質を向上させることができる。 しかしながら、RAGベースのLLMは、ユーザとLLMのインタラクション毎にプロファイルデータを反復的に検索する。 この検索は、ユーザデータの蓄積とともに、大幅な遅延を引き起こす可能性がある。 従来のレイテンシ削減の取り組みは、保存されたユーザデータのサイズを制限し、ユーザデータが継続的に増大するにつれてRAGのスケーラビリティを低下させる。 エッジデバイスのレイテンシとスケーラビリティの制約からRAGを解放するにはどうすればよいのか? 本稿では,コンピューティング・イン・メモリ(CiM)アーキテクチャを用いてRAGを高速化する新しいフレームワークを提案する。 計算ユニットとメモリ間の高価なデータ転送を回避しつつ、メモリ内部でその場計算を行うことで、行列乗算を高速化する。 我々のフレームワークであるRobost CiM-backed RAG (RoCR)は、新しいコントラスト学習ベースのトレーニング手法とノイズ認識トレーニングを利用して、RAGがCiMでプロファイルデータを効率的に検索することを可能にする。 我々の知る限りでは、これはRAGを加速するためにCiMを利用した最初の作品です。

Large Language Models (LLMs) deployed on edge devices learn through fine-tuning and updating a certain portion of their parameters. Although such learning methods can be optimized to reduce resource utilization, the overall required resources remain a heavy burden on edge devices. Instead, Retrieval-Augmented Generation (RAG), a resource-efficient LLM learning method, can improve the quality of the LLM-generated content without updating model parameters. However, the RAG-based LLM may involve repetitive searches on the profile data in every user-LLM interaction. This search can lead to significant latency along with the accumulation of user data. Conventional efforts to decrease latency result in restricting the size of saved user data, thus reducing the scalability of RAG as user data continuously grows. It remains an open question: how to free RAG from the constraints of latency and scalability on edge devices? In this paper, we propose a novel framework to accelerate RAG via Computing-in-Memory (CiM) architectures. It accelerates matrix multiplications by performing in-situ computation inside the memory while avoiding the expensive data transfer between the computing unit and memory. Our framework, Robust CiM-backed RAG (RoCR), utilizing a novel contrastive learning-based training method and noise-aware training, can enable RAG to efficiently search profile data with CiM. To the best of our knowledge, this is the first work utilizing CiM to accelerate RAG.
翻訳日:2024-05-09 15:45:06 公開日:2024-05-07
# 道案内:グローバルメディアにおけるAIガイドラインの総合的検証

Guiding the Way: A Comprehensive Examination of AI Guidelines in Global Media ( http://arxiv.org/abs/2405.04706v1 )

ライセンス: Link先を確認
M. F. de-Lima-Santos, W. N. Yeung, T. Dodds, (参考訳) ニュース業界における人工知能(AI)技術の採用の増加に伴い、メディア組織は、AIベースの技術の責任、倫理的、偏見のない実装を促進するためのガイドラインの公開を開始した。 これらのガイドラインは、ジャーナリストやメディアワーカーにベストプラクティスと、進化を続けるAIツールのナビゲートを支援するフレームワークを確立することで提供される。 機関理論とデジタル不平等の概念に基づいて、17か国におけるメディア目的のための37のAIガイドラインを分析した。 分析の結果,透明性,説明責任,公正性,プライバシ,ジャーナリスト価値の保存といった重要なテーマが明らかになった。 結果は、人間の監視の重要性、AIシステムの説明可能性、自動コンテンツの開示、ユーザーデータの保護など、これらのガイドラインから生まれる原則とベストプラクティスの共有を強調している。 しかしながら、これらのガイドラインの地理的分布は、西欧、特に北アメリカとヨーロッパの支配性を強調し、AI導入におけるパワー・アノメトリーに関するさらなる懸念と、その結果、これらの領域以外での同型性についてさらに懸念する可能性がある。 私たちの結果は、ニュース組織、政策立案者、ステークホルダーが複雑なAI開発を旅して、世界中のメディア業界にとってより包括的で公平なデジタルの未来を創り出すためのリソースとして役立ちます。

With the increasing adoption of artificial intelligence (AI) technologies in the news industry, media organizations have begun publishing guidelines that aim to promote the responsible, ethical, and unbiased implementation of AI-based technologies. These guidelines are expected to serve journalists and media workers by establishing best practices and a framework that helps them navigate ever-evolving AI tools. Drawing on institutional theory and digital inequality concepts, this study analyzes 37 AI guidelines for media purposes in 17 countries. Our analysis reveals key thematic areas, such as transparency, accountability, fairness, privacy, and the preservation of journalistic values. Results highlight shared principles and best practices that emerge from these guidelines, including the importance of human oversight, explainability of AI systems, disclosure of automated content, and protection of user data. However, the geographical distribution of these guidelines, highlighting the dominance of Western nations, particularly North America and Europe, can further ongoing concerns about power asymmetries in AI adoption and consequently isomorphism outside these regions. Our results may serve as a resource for news organizations, policymakers, and stakeholders looking to navigate the complex AI development toward creating a more inclusive and equitable digital future for the media industry worldwide.
翻訳日:2024-05-09 15:45:06 公開日:2024-05-07
# アンタングリング・ラリア:変分刑罰の対象の段階的追従

Untangling Lariats: Subgradient Following of Variationally Penalized Objectives ( http://arxiv.org/abs/2405.04710v1 )

ライセンス: Link先を確認
Kai-Chia Mo, Shai Shalev-Shwartz, Nisæl Shártov, (参考訳) 本稿では,変分ペナルティによる凸問題の最適解を求めるための,新しい段階的追従手法について述べる。 この設定では、配列 $y_i,\ldots,y_n$ を受け取り、滑らかなシーケンス $x_1,\ldots,x_n$ を求める。 滑らかな列は、$\sum_i g_i(x_{i+1}-x_i)$の一般的な形式で加法的変分ペナルティを持つ入力列への最小のブレグマン発散を達成する。 我々は,この装置の特殊な場合として,溶質ラッソおよびイソトニックレグレッションの既知のアルゴリズムを導出する。 また,本手法は非平滑障壁関数などの新たな変分罰を助長する。 次に、$\mathbf{x}_i,\mathbf{y}_i\in\mathbb{R}^d$ と $\|\mathbf{x}_{i+1}-\mathbf{x}_i\|$ に依存する変分罰を導いて解析する。 私たちが考慮するノルムは、群疎性を促進する $\ell_2$ と $\ell_\infty$ である。 最後に,任意の畳み込みフィルタの出力によって特徴づけられる変分罰則に対して,格子に基づく下位次数列を導出する。 このパラダイムは、加速度やジャークのようなスパースな高次微分が望ましい問題に対して効率的な解法を与える。

We describe a novel subgradient following apparatus for calculating the optimum of convex problems with variational penalties. In this setting, we receive a sequence $y_i,\ldots,y_n$ and seek a smooth sequence $x_1,\ldots,x_n$. The smooth sequence attains the minimum Bregman divergence to an input sequence with additive variational penalties in the general form of $\sum_i g_i(x_{i+1}-x_i)$. We derive, as special cases of our apparatus, known algorithms for the fused lasso and isotonic regression. Our approach also facilitates new variational penalties such as non-smooth barrier functions. We next derive and analyze multivariate problems in which $\mathbf{x}_i,\mathbf{y}_i\in\mathbb{R}^d$ and variational penalties that depend on $\|\mathbf{x}_{i+1}-\mathbf{x}_i\|$. The norms we consider are $\ell_2$ and $\ell_\infty$ which promote group sparsity. Last but not least, we derive a lattice-based subgradient following for variational penalties characterized through the output of arbitrary convolutional filters. This paradigm yields efficient solvers for problems in which sparse high-order discrete derivatives such as acceleration and jerk are desirable.
翻訳日:2024-05-09 15:45:06 公開日:2024-05-07
# RACER:低クレーシュで高速走行を可能にするてんかん性リスク感作型RL

RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes ( http://arxiv.org/abs/2405.04714v1 )

ライセンス: Link先を確認
Kyle Stachowicz, Sergey Levine, (参考訳) 強化学習は、実世界の相互作用を通じて純粋に表現力のあるポリシーを学習する能力のために、ロボット制御のための魅力的なフレームワークを提供する。 しかし、これは現実世界の制約に対処し、トレーニング中に破滅的な失敗を避ける必要がある。 多くのロボティクス設定では、これは特定の「安全でない」状態を避けるためである。 高速オフロード運転タスクは、この問題の特に困難なインスタンス化である: ハイリターンポリシーは、可能な限り迅速かつ積極的に運転すべきであり、しばしば「安全な」状態のセットの端に近づく必要がある。 高い性能のポリシーを学習し、過度な失敗を避けるために、リスク感受性制御と適応的な行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。 さらに, 疫学的不確実性評価装置を装着した場合, リスク感応性の対象は, アウト・オブ・ディストリビューション状態を自動的に回避できることが示唆された。 我々は,小型のラリーカーにアルゴリズムを実装し,現実世界のオフロード走行タスクに対して,高速なポリシーを学習可能であることを示す。 本手法はトレーニング過程における安全性違反の回数を大幅に減らし,運転環境と非運転環境の双方において,同様の課題を生んでいる。

Reinforcement learning provides an appealing framework for robotic control due to its ability to learn expressive policies purely through real-world interaction. However, this requires addressing real-world constraints and avoiding catastrophic failures during training, which might severely impede both learning progress and the performance of the final policy. In many robotics settings, this amounts to avoiding certain "unsafe" states. The high-speed off-road driving task represents a particularly challenging instantiation of this problem: a high-return policy should drive as aggressively and as quickly as possible, which often requires getting close to the edge of the set of "safe" states, and therefore places a particular burden on the method to avoid frequent failures. To both learn highly performant policies and avoid excessive failures, we propose a reinforcement learning framework that combines risk-sensitive control with an adaptive action space curriculum. Furthermore, we show that our risk-sensitive objective automatically avoids out-of-distribution states when equipped with an estimator for epistemic uncertainty. We implement our algorithm on a small-scale rally car and show that it is capable of learning high-speed policies for a real-world off-road driving task. We show that our method greatly reduces the number of safety violations during the training process, and actually leads to higher-performance policies in both driving and non-driving simulation environments with similar challenges.
翻訳日:2024-05-09 15:45:06 公開日:2024-05-07
# ニューラル・ディバイサル不変学習による異種環境からの因果関係の探索

Causality Pursuit from Heterogeneous Environments via Neural Adversarial Invariance Learning ( http://arxiv.org/abs/2405.04715v1 )

ライセンス: Link先を確認
Yihong Gu, Cong Fang, Peter Bühlmann, Jianqing Fan, (参考訳) 統計学は「内在性の呪い」という根本的な問題に悩まされている -- 回帰関数、あるいはより広くは無限のデータを持つ予測リスク最小化器は、私たちが追求したいターゲットではないかもしれない。 これは、複数のソースから複雑なデータが収集されると、個人やサブ集団で受け継がれた関心(因果関係)から逸脱したバイアスがキャンセルされないためである。 従来の治療法は、実証不可能な原因影響構造のような事前の知識に合わせて調整され、不特定性をリスクモデルにし、スケーラブルな適用性に欠ける手法である。 本稿では,データの偏見の不均一性のみを利用した,純粋にデータ駆動で普遍的に適用可能な手法を提案する。 そのようなアイデアは非パラメトリック不変分散追跡問題として定式化され、その目標は不変条件期待式 $m^\star(x)\equiv \mathbb{E}[Y^{(e)}|X_{S^\star}^{(e)}=x_{S^\star}]$ を異種環境$e\in \mathcal{E}$で表すことである。 構造因果モデルフレームワークでは、$m^\star$は一般にある種のデータ駆動因果関係と解釈できる。 本稿では,FAIR(Focused Adversarial Invariance Regularization)と呼ばれる新しいフレームワークを提案する。 統合された非漸近解析によって示されるように、我々の逆数推定フレームワークは、様々なタスクやモデルに対する最小限の識別条件の下で、標準回帰と同様の証明可能なサンプル効率推定を実現することができる。 応用として、2つのニューラルネットワーククラスによって実現されたFAIR-NN推定器は、一般の非パラメトリック不変学習において統計的に効率的な推定を行うための最初のアプローチとして強調される。

Statistics suffers from a fundamental problem, "the curse of endogeneity" -- the regression function, or more broadly the prediction risk minimizer with infinite data, may not be the target we wish to pursue. This is because when complex data are collected from multiple sources, the biases deviated from the interested (causal) association inherited in individuals or sub-populations are not expected to be canceled. Traditional remedies are of hindsight and restrictive in being tailored to prior knowledge like untestable cause-effect structures, resulting in methods that risk model misspecification and lack scalable applicability. This paper seeks to offer a purely data-driven and universally applicable method that only uses the heterogeneity of the biases in the data rather than following pre-offered commandments. Such an idea is formulated as a nonparametric invariance pursuit problem, whose goal is to unveil the invariant conditional expectation $m^\star(x)\equiv \mathbb{E}[Y^{(e)}|X_{S^\star}^{(e)}=x_{S^\star}]$ with unknown important variable set $S^\star$ across heterogeneous environments $e\in \mathcal{E}$. Under the structural causal model framework, $m^\star$ can be interpreted as certain data-driven causality in general. The paper contributes to proposing a novel framework, called Focused Adversarial Invariance Regularization (FAIR), formulated as a single minimax optimization program that can solve the general invariance pursuit problem. As illustrated by the unified non-asymptotic analysis, our adversarial estimation framework can attain provable sample-efficient estimation akin to standard regression under a minimal identification condition for various tasks and models. As an application, the FAIR-NN estimator realized by two Neural Network classes is highlighted as the first approach to attain statistically efficient estimation in general nonparametric invariance learning.
翻訳日:2024-05-09 15:45:06 公開日:2024-05-07
# 物理ベースのディープラーニングは、ノルウェーの都市で暖房需要が上昇し大気汚染が高まる

Physics-based deep learning reveals rising heating demand heightens air pollution in Norwegian cities ( http://arxiv.org/abs/2405.04716v1 )

ライセンス: Link先を確認
Cong Cao, Ramit Debnath, R. Michael Alvarez, (参考訳) 政策立案者は、交流を無視して、大気の質や気候変動を孤立して分析することが多い。 本研究は,K平均クラスタリング,階層クラスタリング,ランダムフォレスト技術と回帰モデルを比較して,特定の気候要因が大気質に及ぼす影響を考察する。 大気汚染予測のための物理ベースディープラーニング(PBDL)とLong Short-Term Memory(LSTM)を用いる。 本分析は,ノルウェーの3大都市における1日あたりの交通量,気象量,大気汚染量の10年間(2009-2018年)を利用して行った。 特徴選択による発見は、暖房日の増加と大気汚染レベルの増加との相関を明らかにし、ノルウェーにおける暖房活動の増加が大気質の悪化に寄与する要因であることを示唆している。 PBDLはLSTMに比べて大気汚染予測の精度が優れている。 本稿では, 環境変数を用いた大気汚染予測のためのPBDL法に関する文献の増大に寄与し, 効果的なデータ駆動型気候政策を策定する政策立案者を支援する。

Policymakers frequently analyze air quality and climate change in isolation, disregarding their interactions. This study explores the influence of specific climate factors on air quality by contrasting a regression model with K-Means Clustering, Hierarchical Clustering, and Random Forest techniques. We employ Physics-based Deep Learning (PBDL) and Long Short-Term Memory (LSTM) to examine the air pollution predictions. Our analysis utilizes ten years (2009-2018) of daily traffic, weather, and air pollution data from three major cities in Norway. Findings from feature selection reveal a correlation between rising heating degree days and heightened air pollution levels, suggesting increased heating activities in Norway are a contributing factor to worsening air quality. PBDL demonstrates superior accuracy in air pollution predictions compared to LSTM. This paper contributes to the growing literature on PBDL methods for more accurate air pollution predictions using environmental variables, aiding policymakers in formulating effective data-driven climate policies.
翻訳日:2024-05-09 15:45:06 公開日:2024-05-07
# 遠隔拡散

Remote Diffusion ( http://arxiv.org/abs/2405.04717v1 )

ライセンス: Link先を確認
Kunal Sunil Kasodekar, (参考訳) 遠隔センシングにおける領域固有の衛星・空中画像生成のための安定拡散v1.5の適用について検討した。 MidjourneyやStable Diffusionといった既存のモデルの限界を認識し、自然のRGBイメージを主にトレーニングし、リモートセンシングのコンテキストを欠いた上で、RSICDデータセットを使用して、0.2の損失でStable Diffusionモデルをトレーニングしました。 私はテキストコンディショニングのためにデータセットから記述キャプションを組み込んだ。 さらに,土地利用土地分類(LULC)タスクのための合成データセットを作成し,RAGとChatGPTによるプロンプト技術を活用し,特殊なリモートセンシングLLMを微調整した。 しかし、私は素早い品質とモデルパフォーマンスの課題に直面しました。 私は、TorchGeoで49.48%のテスト精度を達成した合成データセットの分類モデル(ResNet18)をトレーニングし、ベースラインを作成しました。 FIDスコアとドメインの専門家からの質的なフィードバックによる定量的評価は、生成された画像とデータセットのリアリズムと品質を評価した。 大規模な微調整とデータセットの反復にもかかわらず、結果は、高いFIDスコアとドメインエキスパート評価によって示されるように、画像の品質とリアリズムが不足していることを示している。 これらの知見は、リモートセンシングにおける拡散モデルの可能性に注意を向け、事前学習データや計算資源の不足に関連する重要な課題を強調している。

I explored adapting Stable Diffusion v1.5 for generating domain-specific satellite and aerial images in remote sensing. Recognizing the limitations of existing models like Midjourney and Stable Diffusion, trained primarily on natural RGB images and lacking context for remote sensing, I used the RSICD dataset to train a Stable Diffusion model with a loss of 0.2. I incorporated descriptive captions from the dataset for text-conditioning. Additionally, I created a synthetic dataset for a Land Use Land Classification (LULC) task, employing prompting techniques with RAG and ChatGPT and fine-tuning a specialized remote sensing LLM. However, I faced challenges with prompt quality and model performance. I trained a classification model (ResNet18) on the synthetic dataset achieving 49.48% test accuracy in TorchGeo to create a baseline. Quantitative evaluation through FID scores and qualitative feedback from domain experts assessed the realism and quality of the generated images and dataset. Despite extensive fine-tuning and dataset iterations, results indicated subpar image quality and realism, as indicated by high FID scores and domain-expert evaluation. These findings call attention to the potential of diffusion models in remote sensing while highlighting significant challenges related to insufficient pretraining data and computational resources.
翻訳日:2024-05-09 15:45:06 公開日:2024-05-07
# メタバースサーベイとチュートリアル - 重要な要件,技術,標準,アプリケーション,課題,展望

Metaverse Survey & Tutorial: Exploring Key Requirements, Technologies, Standards, Applications, Challenges, and Perspectives ( http://arxiv.org/abs/2405.04718v1 )

ライセンス: Link先を確認
Danda B. Rawat, Hassan El alami, Desta Haileselassie Hagos, (参考訳) 本稿では,次世代インターネット技術の変革的次元として想定されるメタバースの包括的調査について述べる。 本研究は,本調査の構造的構成要素を概説するだけでなく,メタバースの出現の基礎となる概念を解明することによって,科学的に重要な貢献をする。 我々は,鍵となる特徴と要件を定義し,そのアーキテクチャを分析し,デジタルインタラクションに革命をもたらす新たな現実を照らし出す。 本分析は, メタバース標準の策定における協力的努力の重要性を強調し, 産業関係者, 組織, 規制機関間の統一的理解を促進する。 私たちは、インタラクティブな体験、コミュニケーション技術、ユビキタスコンピューティング、デジタルツイン、人工知能、サイバーセキュリティ対策など、メタバースに不可欠な重要な技術に精査を拡大します。 各技術領域について、現在のコントリビューション、主要な技術、代表的ユースケースを厳格に評価し、その潜在的な影響について微妙な視点を提供する。 さらに,教育,医療,ビジネス,社会的相互作用,産業セクター,防衛,ミッションクリティカルな業務にまたがるメタバースの多様な応用を探求し,その広範な有用性を強調した。 各アプリケーションは徹底的に分析され、その価値を示し、関連する課題に対処します。 この調査は、永続的な課題と今後の方向性の概要で締めくくられ、メタバースの潜在能力を最大限に活用するために必要な基本的な考察と戦略についての洞察を提供する。 この詳細な調査を通じて,本研究の目的は,メタバースの変換的含意を明らかにするために,単なる構造的概要を超越して,研究論文の科学的貢献を明確にすることである。

In this paper, we present a comprehensive survey of the metaverse, envisioned as a transformative dimension of next-generation Internet technologies. This study not only outlines the structural components of our survey but also makes a substantial scientific contribution by elucidating the foundational concepts underlying the emergence of the metaverse. We analyze its architecture by defining key characteristics and requirements, thereby illuminating the nascent reality set to revolutionize digital interactions. Our analysis emphasizes the importance of collaborative efforts in developing metaverse standards, thereby fostering a unified understanding among industry stakeholders, organizations, and regulatory bodies. We extend our scrutiny to critical technologies integral to the metaverse, including interactive experiences, communication technologies, ubiquitous computing, digital twins, artificial intelligence, and cybersecurity measures. For each technological domain, we rigorously assess current contributions, principal techniques, and representative use cases, providing a nuanced perspective on their potential impacts. Furthermore, we delve into the metaverse's diverse applications across education, healthcare, business, social interactions, industrial sectors, defense, and mission-critical operations, highlighting its extensive utility. Each application is thoroughly analyzed, demonstrating its value and addressing associated challenges. The survey concludes with an overview of persistent challenges and future directions, offering insights into essential considerations and strategies necessary to harness the full potential of the metaverse. Through this detailed investigation, our goal is to articulate the scientific contributions of this survey paper, transcending a mere structural overview to highlight the transformative implications of the metaverse.
翻訳日:2024-05-09 15:45:06 公開日:2024-05-07
# 発展途上国におけるモバイルアプリのセキュリティ:システム文献レビュー

(In)Security of Mobile Apps in Developing Countries: A Systematic Literature Review ( http://arxiv.org/abs/2405.05117v1 )

ライセンス: Link先を確認
Alioune Diallo, Jordan Samhi, Tegawendé Bissyandé, Jacques Klein, (参考訳) 発展途上国では、教育、金融、農業、医療などいくつかの重要な分野が、主に携帯端末上でモバイルアプリ技術を通じてサービスを提供している。 その結果、途上国ではモバイルアプリのセキュリティが最重要課題となっている。 本稿では,開発途上国を中心に,モバイルアプリのセキュリティに関する研究状況について検討する。 より具体的には、既存の研究によって取られた研究の方向性、対処された異なるセキュリティ上の懸念、そしてアプリのセキュリティ問題を強調したり対処するために研究者が使用する技術について、系統的な文献レビューを実施しました。 本研究の主目的は,(1)発展途上国におけるモバイル・アプリのセキュリティに関する研究,(2)研究者が研究しているセキュリティ上の問題のうち,脆弱性検出が主要な研究課題であると思われること,(3)FinTechアプリが関連する文献の主ターゲットとして明らかにされていること,などである。 私たちの研究は、開発途上国の状況において、モバイルアプリのセキュリティに対処する、より専門的な技術を開発する余地がほとんどにあることを強調しています。

In developing countries, several key sectors, including education, finance, agriculture, and healthcare, mainly deliver their services via mobile app technology on handheld devices. As a result, mobile app security has emerged as a paramount issue in developing countries. In this paper, we investigate the state of research on mobile app security, focusing on developing countries. More specifically, we performed a systematic literature review exploring the research directions taken by existing works, the different security concerns addressed, and the techniques used by researchers to highlight or address app security issues. Our main findings are: (1) the literature includes only a few studies on mobile app security in the context of developing countries ; (2) among the different security concerns that researchers study, vulnerability detection appears to be the leading research topic; (3) FinTech apps are revealed as the main target in the relevant literature. Overall, our work highlights that there is largely room for developing further specialized techniques addressing mobile app security in the context of developing countries.
翻訳日:2024-05-09 14:14:56 公開日:2024-05-07
# 量子状態を超えたカークウッド・ディラック表現(および非文脈性との関係)

Kirkwood-Dirac representations beyond quantum states (and their relation to noncontextuality) ( http://arxiv.org/abs/2405.04573v1 )

ライセンス: Link先を確認
David Schmid, Roberto D. Baldijão, Yìlè Yīng, Rafael Wagner, John H. Selby, (参考訳) 量子状態のカークウッド・ディラックの表現は、量子論の多くの領域でますます使われている。 通常、この種の表現は(ある集合上の複素函数として)量子状態の表現にのみ適用される。 標準的なカークウッド・ディラック表現が、(チャネル、測定などを含む)全ての量子論の完全な構成表現にどのように拡張できるかを示し、この拡張が関手性(つまり、表現がチャネルの構成と可換であること)、線形性、および準確率性の本質的特徴を満たすことを証明している。 興味深いことに、POVM要素の表現は、表現を定義するベースに対して弱い値のコレクションとして一意に選択される。 すると、与えられた実験シナリオや量子論の断片に対して、至るところで実かつ非負なカークウッド・ディラック表現を見つけることができれば、そのシナリオや断片は、量子基底における古典性の鍵となる一般化された非コンテクスト性(英語版)の原理と一致する。 実験のすべてのカークウッド・ディラック表現(ここで定義されるように)が負性や虚性を必要とすることを証明したとしても、実験が文脈性を目撃していると結論付けることはできない。

Kirkwood-Dirac representations of quantum states are increasingly finding use in many areas within quantum theory. Usually, representations of this sort are only applied to provide a representation of quantum states (as complex functions over some set). We show how standard Kirkwood-Dirac representations can be extended to a fully compositional representation of all of quantum theory (including channels, measurements and so on), and prove that this extension satisfies the essential features of functoriality (namely, that the representation commutes with composition of channels), linearity, and quasistochasticity. Interestingly, the representation of a POVM element is uniquely picked out to be the collection of weak values for it relative to the bases defining the representation. We then prove that if one can find any Kirkwood-Dirac representation that is everywhere real and nonnegative for a given experimental scenario or fragment of quantum theory, then the scenario or fragment is consistent with the principle of generalized noncontextuality, a key notion of classicality in quantum foundations. We also show that the converse does not hold: even if one verifies that all Kirkwood-Dirac representations (as defined herein) of an experiment require negativity or imaginarity, one cannot generally conclude that the experiment witnesses contextuality.
翻訳日:2024-05-09 13:35:11 公開日:2024-05-07
# テンソルトレインを用いた言語モデリング

Language Modeling Using Tensor Trains ( http://arxiv.org/abs/2405.04590v1 )

ライセンス: Link先を確認
Zhan Su, Yuqin Zhou, Fengran Mo, Jakob Grue Simonsen, (参考訳) 本稿では, テンソルトレイン言語モデル (TTLM) と呼ばれる, 最も単純なテンソルネットワーク(テンソルトレイン)に基づく新しいテンソルネットワーク言語モデルを提案する。 TTLMは、単語のテンソル積によって構築された指数空間内の文を表すが、低次元の方法で文の確率を計算する。 本稿では,2次RNN,RAC(Recurrent Arithmetic Circuits)および乗算積分RNNのアーキテクチャがTTLMの特殊な場合であることを実証する。 実言語モデリングタスクの実験的評価により,提案したTTLM(TTLM-LargeとTTLM-Tiny)は,低スケールの隠れユニットでバニラリカレントニューラルネットワーク(RNN)を上回る性能を示した。 (コードはhttps://github.com/shuishen112/tensortrainlm.comで入手できる)。

We propose a novel tensor network language model based on the simplest tensor network (i.e., tensor trains), called `Tensor Train Language Model' (TTLM). TTLM represents sentences in an exponential space constructed by the tensor product of words, but computing the probabilities of sentences in a low-dimensional fashion. We demonstrate that the architectures of Second-order RNNs, Recurrent Arithmetic Circuits (RACs), and Multiplicative Integration RNNs are, essentially, special cases of TTLM. Experimental evaluations on real language modeling tasks show that the proposed variants of TTLM (i.e., TTLM-Large and TTLM-Tiny) outperform the vanilla Recurrent Neural Networks (RNNs) with low-scale of hidden units. (The code is available at https://github.com/shuishen112/tensortrainlm.)
翻訳日:2024-05-09 13:35:11 公開日:2024-05-07
# Arrival Times Versus Detection Time

Arrival Times Versus Detection Times ( http://arxiv.org/abs/2405.04607v1 )

ライセンス: Link先を確認
Sheldon Goldstein, Roderich Tumulka, Nino Zanghì, (参考訳) 検出器が量子粒子の到着時刻として登録する時間、すなわち検出時間の確率分布を計算する方法は、長い間議論されてきた問題である。 この点において、ボヘミア力学は、検出器が存在しない状態で粒子が与えられた3空間の表面に実際に到達する時刻の分布を直接的に提供する。 しかし、ここで論じているように、検出器の存在は波動関数や粒子軌道の進化を変えることができるため、検出器がないときのボヘミア軌道の到着時刻が検出器の存在下でのそれと一致し、さらに検出時間と一致することは当然あり得ない。 特に、Ds と D\"urr [arXiv:1802.07141] がスピンを持つ場合の検出時間の分布として表す特定の分布は、前述の3回全てに一致すると仮定すると、実際にボヘミア力学が予測するものではない。

How to compute the probability distribution of a detection time, i.e., of the time which a detector registers as the arrival time of a quantum particle, is a long-debated problem. In this regard, Bohmian mechanics provides in a straightforward way the distribution of the time at which the particle actually does arrive at a given surface in 3-space in the absence of detectors. However, as we discuss here, since the presence of detectors can change the evolution of the wave function and thus the particle trajectories, it cannot be taken for granted that the arrival time of the Bohmian trajectories in the absence of detectors agrees with the one in the presence of detectors, and even less with the detection time. In particular, we explain why certain distributions that Das and D\"urr [arXiv:1802.07141] presented as the distribution of the detection time in a case with spin, based on assuming that all three times mentioned coincide, is actually not what Bohmian mechanics predicts.
翻訳日:2024-05-09 13:35:11 公開日:2024-05-07
# 重み付けとチューニングによる個人フェアネス

Individual Fairness Through Reweighting and Tuning ( http://arxiv.org/abs/2405.01711v2 )

ライセンス: Link先を確認
Abdoul Jalil Djiberou Mahamadou, Lea Goetz, Russ Altman, (参考訳) 社会内の本質的なバイアスは、人工知能(AI)システムによって増幅し、永続することができる。 この問題に対処するために、偏見を識別し緩和し、個人やグループに対して公平さを強制する幅広い解決策が提案されている。 近年,半教師付き学習文献からの正規化手法であるGraph Laplacian Regularizer (GLR) が,個人の公正性を高めるための共通リプシッツ条件の代用として用いられている。 顕著な先行研究により、GLRによる個人公正化は、共変量シフトの下でAIモデルの伝達学習精度を向上させることが示されている。 しかしながら、以前の作業では、ソースとターゲットデータを組み合わせたGLRを定義しており、実際には保持されないかもしれない列車時にターゲットデータが利用可能であることを暗黙的に仮定している。 本研究では,GLRを列車上で独立に定義し,目標データに類似した精度を維持できるかどうかを検討した。 さらに,GLRを用いた場合と使用しない場合の利得公正度を測定し,個人公正度を測定するために正規化公正利得スコア(NFG)を導入した。 我々は、NFG、予測整合性(PC)、ドイツの信用承認データセットにおける従来の分類基準について、新しい手法とオリジナル手法を評価した。 その結果, 2つのモデルが5倍のクロスバリデーションで同様の統計的平均性能を達成できた。 さらに,PCのスコアは,NFGのスコアが小さいのに対して,スコアが高く,統計的にフェアネス強化モデルに類似していることから,PCのスコアは誤解を招く可能性があることを示した。 この研究は、GLRが個人の公正性とPCの落とし穴を効果的に強化する際の新たな洞察を提供する。

Inherent bias within society can be amplified and perpetuated by artificial intelligence (AI) systems. To address this issue, a wide range of solutions have been proposed to identify and mitigate bias and enforce fairness for individuals and groups. Recently, Graph Laplacian Regularizer (GLR), a regularization technique from the semi-supervised learning literature has been used as a substitute for the common Lipschitz condition to enhance individual fairness. Notable prior work has shown that enforcing individual fairness through a GLR can improve the transfer learning accuracy of AI models under covariate shifts. However, the prior work defines a GLR on the source and target data combined, implicitly assuming that the target data are available at train time, which might not hold in practice. In this work, we investigated whether defining a GLR independently on the train and target data could maintain similar accuracy. Furthermore, we introduced the Normalized Fairness Gain score (NFG) to measure individual fairness by measuring the amount of gained fairness when a GLR is used versus not. We evaluated the new and original methods under NFG, the Prediction Consistency (PC), and traditional classification metrics on the German Credit Approval dataset. The results showed that the two models achieved similar statistical mean performances over five-fold cross-validation. Furthermore, the proposed metric showed that PC scores can be misleading as the scores can be high and statistically similar to fairness-enhanced models while NFG scores are small. This work therefore provides new insights into when a GLR effectively enhances individual fairness and the pitfalls of PC.
翻訳日:2024-05-09 11:24:41 公開日:2024-05-07
# スパイキング言語モデルにおける極端量子化の探索

Exploring Extreme Quantization in Spiking Language Models ( http://arxiv.org/abs/2405.02543v2 )

ライセンス: Link先を確認
Malyaban Bal, Yi Jiang, Abhronil Sengupta, (参考訳) 大きな言語モデル(LLM)アーキテクチャの普及にもかかわらず、人間の脳の目覚ましいエネルギー効率よりもはるかに遅れている、そのエネルギーと電力消費に関する重要な懸念が続いている。 スパイキング言語モデル(LM)やトランスフォーマーアーキテクチャの最近の進歩は、生体ニューロンのスパイキング活性を利用してエネルギー/電力効率を向上させることでこの問題に対処することを目指している。 本稿では,モデル量子化の原理とエネルギー効率を両立させ,新しい二元/三元(1/1.58ビット)スパイクLMアーキテクチャを提案する。 ディープスパイキング LM アーキテクチャに匹敵するスケーラビリティの達成は、効率的な知識蒸留技術によって促進され、非スパイキング完全精度の "Teacher" モデルからの知識は、非常に重く定量化された "student" LMに転送される。 提案手法は1/1.58ビットの1/1.58ビットのスパイクLMとして大きく進歩し,その性能はGLUEベンチマークの複数のテキスト分類タスクにおいて厳密に評価されている。

Despite the growing prevalence of large language model (LLM) architectures, a crucial concern persists regarding their energy and power consumption, which still lags far behind the remarkable energy efficiency of the human brain. Recent strides in spiking language models (LM) and transformer architectures aim to address this concern by harnessing the spiking activity of biological neurons to enhance energy/power efficiency. Doubling down on the principles of model quantization and energy efficiency, this paper proposes the development of a novel binary/ternary (1/1.58-bit) spiking LM architecture. Achieving scalability comparable to a deep spiking LM architecture is facilitated by an efficient knowledge distillation technique, wherein knowledge from a non-spiking full-precision "teacher" model is transferred to an extremely weight quantized spiking "student" LM. Our proposed model represents a significant advancement as the first-of-its-kind 1/1.58-bit spiking LM, and its performance is rigorously evaluated on multiple text classification tasks of the GLUE benchmark.
翻訳日:2024-05-09 11:24:41 公開日:2024-05-07
# ペアワイズ比較クエリによる線形ユーティリティ関数の学習

Learning Linear Utility Functions From Pairwise Comparison Queries ( http://arxiv.org/abs/2405.02612v2 )

ライセンス: Link先を確認
Luise Ge, Brendan Juba, Yevgeniy Vorobeychik, (参考訳) 線形効用関数のペア比較クエリによる学習可能性について検討する。 特に,2つの学習目標について考察する。 第1の目的はペア比較に対するサンプル外応答を予測することであり、第2の目的はユーティリティ関数の真のパラメータを概ね回復することである。 受動的学習環境では, クエリ応答がノイズによって損なわれない場合と, 分布が十分に「ニッチ」である場合のツィバコフ雑音の下で, 線形ユーティリティが第一目的に対して効率的に学習可能であることを示す。 これとは対照的に,クエリ応答がノイズフリーであっても,強力なモデリング仮定を伴わない大規模なデータ分布に対して,ユーティリティパラメータが学習できないことを示す。 次に,能動的学習環境での学習問題を解析する。 この場合、第2の目的であっても効率よく学習できることを示し、ノイズフリーおよびノイズの多いクエリ応答設定のためのアルゴリズムを提示する。 この結果から,受動的学習と能動的学習の相互選好クエリ間の質的学習性差が示され,ユーティリティ学習のためのペアワイズクエリを選択する能力の価値が示された。

We study learnability of linear utility functions from pairwise comparison queries. In particular, we consider two learning objectives. The first objective is to predict out-of-sample responses to pairwise comparisons, whereas the second is to approximately recover the true parameters of the utility function. We show that in the passive learning setting, linear utilities are efficiently learnable with respect to the first objective, both when query responses are uncorrupted by noise, and under Tsybakov noise when the distributions are sufficiently "nice". In contrast, we show that utility parameters are not learnable for a large set of data distributions without strong modeling assumptions, even when query responses are noise-free. Next, we proceed to analyze the learning problem in an active learning setting. In this case, we show that even the second objective is efficiently learnable, and present algorithms for both the noise-free and noisy query response settings. Our results thus exhibit a qualitative learnability gap between passive and active learning from pairwise preference queries, demonstrating the value of the ability to select pairwise queries for utility learning.
翻訳日:2024-05-09 11:24:41 公開日:2024-05-07
# 自動プラグマ挿入とコード変換フレームワークによる高レベル合成の強化

Enhancing High-Level Synthesis with Automated Pragma Insertion and Code Transformation Framework ( http://arxiv.org/abs/2405.03058v2 )

ライセンス: Link先を確認
Stéphane Pouget, Louis-Noël Pouchet, Jason Cong, (参考訳) 高レベルの合成、ソース・ソース・コンパイラ、およびプラグマ挿入のための様々な設計空間探索技術により、生成された設計結果の品質が大幅に向上した。 これらのツールは、開発時間を短縮し、パフォーマンスを向上するといった利点を提供する。 しかしながら、高品質な結果を達成するには、通常、個別または前処理ステップとして実行される、追加の手動コード変換とタイリング選択が必要になることが多い。 DSE技術は前もってコード変換を可能にするが、検索空間の広大な部分で可能なすべてのコード変換の探索が制限されることが多く、どの変換が必要なのかを判断することは困難である。 さらに、特に複雑な変換や最適化において、正確性を保証することは依然として困難である。 この障害に対処するため,我々はまず,HLSコンパイラを活用した包括的なフレームワークを提案する。 本システムでは,並列化の強化,特に計算バウンドカーネルに有用な並列化の実現を目的として,オンチップデータキャッシングにおけるコード変換,プラグマ挿入,タイルサイズ選択を合理化している。 新たな非線形プログラミング(NLP)アプローチを採用し、正規ループベースのカーネルに焦点をあて、変換、プラグマ、タイルサイズを同時に確認する。 我々の評価は、変換が不要なシナリオを含む、我々のフレームワークが適切に適切な変換を識別し、良好な結果の質を達成するためにプラグマを挿入することを示しています。

High-level synthesis, source-to-source compilers, and various Design Space Exploration techniques for pragma insertion have significantly improved the Quality of Results of generated designs. These tools offer benefits such as reduced development time and enhanced performance. However, achieving high-quality results often requires additional manual code transformations and tiling selections, which are typically performed separately or as pre-processing steps. Although DSE techniques enable code transformation upfront, the vastness of the search space often limits the exploration of all possible code transformations, making it challenging to determine which transformations are necessary. Additionally, ensuring correctness remains challenging, especially for complex transformations and optimizations. To tackle this obstacle, we first propose a comprehensive framework leveraging HLS compilers. Our system streamlines code transformation, pragma insertion, and tiles size selection for on-chip data caching through a unified optimization problem, aiming to enhance parallelization, particularly beneficial for computation-bound kernels. Them employing a novel Non-Linear Programming (NLP) approach, we simultaneously ascertain transformations, pragmas, and tile sizes, focusing on regular loop-based kernels. Our evaluation demonstrates that our framework adeptly identifies the appropriate transformations, including scenarios where no transformation is necessary, and inserts pragmas to achieve a favorable Quality of Results.
翻訳日:2024-05-09 11:24:41 公開日:2024-05-07
# 時系列におけるヒューマン・イン・ザ・ループ異常検出のための信頼性の高いフレームワーク

A Reliable Framework for Human-in-the-Loop Anomaly Detection in Time Series ( http://arxiv.org/abs/2405.03234v2 )

ライセンス: Link先を確認
Ziquan Deng, Xiwei Xuan, Kwan-Liu Ma, Zhaodan Kong, (参考訳) 時系列異常検出は、金融、医療、産業システムなど、多くのアプリケーションにとって重要な機械学習タスクである。 しかし、ハイパフォーマンスモデルでさえバイアスのような潜在的な問題を生じさせ、信頼できない結果と不確実な自信をもたらす可能性がある。 モデル説明のテクニック、特に視覚的な説明は、意思決定のモデル属性を解明することによって、そのような問題を検出するための貴重な洞察を提供するが、多くの制限が残っている。 これらのギャップを満たすために、時系列における異常検出モデルを強化するために、人間とAIの動的かつ双方向の協調を促進するために設計された新しいフレームワークであるHILADを紹介する。 ビジュアルインターフェースを通じて、HILADはドメインの専門家に、大規模な予期せぬモデルの振る舞いを検出し、解釈し、修正する権限を与えます。 2つの時系列データセットとユーザスタディによる評価は、より深い人間の理解、即時的な修正行動、モデルの信頼性向上の促進におけるHILADの有効性を示す。

Time series anomaly detection is a critical machine learning task for numerous applications, such as finance, healthcare, and industrial systems. However, even high-performed models may exhibit potential issues such as biases, leading to unreliable outcomes and misplaced confidence. While model explanation techniques, particularly visual explanations, offer valuable insights to detect such issues by elucidating model attributions of their decision, many limitations still exist -- They are primarily instance-based and not scalable across dataset, and they provide one-directional information from the model to the human side, lacking a mechanism for users to address detected issues. To fulfill these gaps, we introduce HILAD, a novel framework designed to foster a dynamic and bidirectional collaboration between humans and AI for enhancing anomaly detection models in time series. Through our visual interface, HILAD empowers domain experts to detect, interpret, and correct unexpected model behaviors at scale. Our evaluation with two time series datasets and user studies demonstrates the effectiveness of HILAD in fostering a deeper human understanding, immediate corrective actions, and the reliability enhancement of models.
翻訳日:2024-05-09 11:24:40 公開日:2024-05-07
# 量子状態を考慮した近似計数のためのタイト量子ローバウンド

Tight Quantum Lower Bound for Approximate Counting with Quantum States ( http://arxiv.org/abs/2002.06879v2 )

ライセンス: Link先を確認
Aleksandrs Belovs, Ansis Rosmanis, (参考訳) Aaronson, Kothari, Kretschmer, Thaler (2020) が考える数え上げ問題の次の変種について、厳密な下界を証明する。 このタスクは、入力セット$x\subseteq [n]$が$k$か$k'=(1+\varepsilon)k$であるかどうかを識別する。 i\in x$, and \item the uniform superposition $|\psi_x\rangle = \sum_{i\in x} |i\rangle/\sqrt{|x|}$ over the element of $x$。 さらに、アルゴリズムはこの状態にどのようにアクセスできるかを3つの異なる方法で検討する: - アルゴリズムは状態のコピーを持つことができる $|\psi_x\rangle$; - アルゴリズムは状態に関する反射オラクルを実行できる $|\psi_x\rangle$; - アルゴリズムは状態を生成するオラクル(またはその逆)を実行でき、変換は$|0\rangle\mapsto|\psi_x\rangle$。 第2のタイプのリソース($|\psi_x\rangle$に関連するもの)がなければ、問題はよく理解される。 第2のタイプのリソースによる問題の研究は、最近Aaronsonらによって始められ、我々は1/k \le \varepsilon\le 1$の全ての値の問題を完全に解決した。 また、下限が厳密であることも示している。 したがって、Aaronson et al の主な開問題を閉じる 下界は、Belovs (2015) の逆境界の不変量を用いて証明され、$S_n$-加群 $\mathbb{C}^{\binom{[n]}k}$ および $\mathbb{C}^{\binom{[n]}k}\otimes \mathbb{C}$ に適用される対称群の表現理論が用いられる。

We prove tight lower bounds for the following variant of the counting problem considered by Aaronson, Kothari, Kretschmer, and Thaler (2020). The task is to distinguish whether an input set $x\subseteq [n]$ has size either $k$ or $k'=(1+\varepsilon)k$. We assume the algorithm has access to * the membership oracle, which, for each $i\in [n]$, can answer whether $i\in x$, or not; and \item the uniform superposition $|\psi_x\rangle = \sum_{i\in x} |i\rangle/\sqrt{|x|}$ over the elements of $x$. Moreover, we consider three different ways how the algorithm can access this state: - the algorithm can have copies of the state $|\psi_x\rangle$; - the algorithm can execute the reflecting oracle which reflects about the state $|\psi_x\rangle$; - the algorithm can execute the state-generating oracle (or its inverse) which performs the transformation $|0\rangle\mapsto|\psi_x\rangle$. Without the second type of resources (the ones related to $|\psi_x\rangle$), the problem is well-understood. The study of the problem with the second type of resources was recently initiated by Aaronson et al. We completely resolve the problem for all values of $1/k \le \varepsilon\le 1$, giving tight trade-offs between all types of resources available to the algorithm. We also demonstrate that our lower bounds are tight. Thus, we close the main open problems from Aaronson et al. The lower bounds are proven using variants of the adversary bound from Belovs (2015) and employing representation theory of the symmetric group applied to the $S_n$-modules $\mathbb{C}^{\binom{[n]}k}$ and $\mathbb{C}^{\binom{[n]}k}\otimes \mathbb{C}$.
翻訳日:2024-05-08 20:57:01 公開日:2024-05-07
# 家族複雑性と相互相関測度を有する系列のファミリ

Families of sequences with good family complexity and cross-correlation measure ( http://arxiv.org/abs/2004.13938v3 )

ライセンス: Link先を確認
Kenan Doğan, Murat Şahin, Oğuz Yayla, (参考訳) 本稿では,2つの測度,家族複雑性(f$-複雑度)と位数$\ell$の相互相関測度という観点から,列列の擬似ランダム性について検討する。 2進アルファベットだけでなく、$k$-symbols(k$-ary)アルファベットでもシーケンスを考える。 まず、二項擬似乱数列の族を構成するための既知の手法を一般化する。 我々は、ある既約多項式のルジャンドル記号の2進列の大きな族(英語版)の$f$-複素性(英語版)($f$-complexity)の有界性を証明する。 この家系とその二重族は、大きな家族の複雑さと、かなり大きな順序まで小さな相互相関測度の両方を持っていることを示す。 次に、高い$f$-complexityと低い相互相関測度を持つ2進列の別の族を示す。 次に、結果を$k$-シンボルアルファベット上のシーケンスの族に拡張する。

In this paper we study pseudorandomness of a family of sequences in terms of two measures, the family complexity ($f$-complexity) and the cross-correlation measure of order $\ell$. We consider sequences not only on binary alphabet but also on $k$-symbols ($k$-ary) alphabet. We first generalize some known methods on construction of the family of binary pseudorandom sequences. We prove a bound on the $f$-complexity of a large family of binary sequences of Legendre-symbols of certain irreducible polynomials. We show that this family as well as its dual family have both a large family complexity and a small cross-correlation measure up to a rather large order. Next, we present another family of binary sequences having high $f$-complexity and low cross-correlation measure. Then we extend the results to the family of sequences on $k$-symbols alphabet.
翻訳日:2024-05-08 20:57:01 公開日:2024-05-07
# 創造性と機械学習: 調査

Creativity and Machine Learning: A Survey ( http://arxiv.org/abs/2104.02726v5 )

ライセンス: Link先を確認
Giorgio Franceschelli, Mirco Musolesi, (参考訳) 機械学習とクリエイティビティの分野への関心が高まっている。 本稿では,計算創造性理論の歴史と現状,鍵となる機械学習技術(生成的深層学習を含む),およびそれに対応する自動評価手法について概説する。 この分野における重要な貢献について批判的な議論を行った後、この分野における現在の研究課題と新たな機会について概説する。

There is a growing interest in the area of machine learning and creativity. This survey presents an overview of the history and the state of the art of computational creativity theories, key machine learning techniques (including generative deep learning), and corresponding automatic evaluation methods. After presenting a critical discussion of the key contributions in this area, we outline the current research challenges and emerging opportunities in this field.
翻訳日:2024-05-08 20:52:38 公開日:2024-05-07
# 多項式XL: 多項式環上のマクロ行列を用いたXLアルゴリズムの変数

Polynomial XL: A Variant of the XL Algorithm Using Macaulay Matrices over Polynomial Rings ( http://arxiv.org/abs/2112.05023v2 )

ライセンス: Link先を確認
Hiroki Furue, Momonari Kudo, (参考訳) 有限体上の$n$変数における$m$2次方程式系の解法(MQ問題)は、計算機科学理論における重要な問題の1つである。 XLアルゴリズム(略してXL)は、係数場上の線形化でMQ問題を解くための主要なアプローチである。 さらに、XL (h-XL) とのハイブリッドアプローチは、予めいくつかの変数を推測する XL の変種である。 本稿では、h-XL の変種について述べ、これを \textit{polynomial XL (PXL)} と呼ぶ。 PXL では、$n$変数全体を$k$変数に分割し、残りの$n-k$変数を ``main variables'' とし、$k$ (sub-)変数の多項式環上の $n-k$主変数に関して Macaulay 行列を生成する。 k$変数を推測する前に多項式環上のマコーレー行列の列を除去することにより、各推定値に必要な演算量をh-XLと比較することができる。 我々のPXLの複雑性解析(いくつかの実践的な仮定とヒューリスティックスの下で)は、新しい理論的境界を与え、PXLは、一般的な多変量シグネチャである$n=m$の理論上の他のアルゴリズムよりも効率的であることを示す。 例えば、${2^8}$元が$n=m=80$の有限体上のシステムでは、XL と Wiedemann XL、Crossbred、PXL とのハイブリッドアプローチの理論的境界から導出される演算の数は、それぞれ 2^{252}$、 2^{234}$、 2^{237}$、 2^{220}$と推定される。

Solving a system of $m$ multivariate quadratic equations in $n$ variables over finite fields (the MQ problem) is one of the important problems in the theory of computer science. The XL algorithm (XL for short) is a major approach for solving the MQ problem with linearization over a coefficient field. Furthermore, the hybrid approach with XL (h-XL) is a variant of XL guessing some variables beforehand. In this paper, we present a variant of h-XL, which we call the \textit{polynomial XL (PXL)}. In PXL, the whole $n$ variables are divided into $k$ variables to be fixed and the remaining $n-k$ variables as ``main variables'', and we generate a Macaulay matrix with respect to the $n-k$ main variables over a polynomial ring of the $k$ (sub-)variables. By eliminating some columns of the Macaulay matrix over the polynomial ring before guessing $k$ variables, the amount of operations required for each guessed value can be reduced compared with h-XL. Our complexity analysis of PXL (under some practical assumptions and heuristics) gives a new theoretical bound, and it indicates that PXL could be more efficient than other algorithms in theory on the random system with $n=m$, which is the case of general multivariate signatures. For example, on systems over the finite field with ${2^8}$ elements with $n=m=80$, the numbers of operations deduced from the theoretical bounds of the hybrid approaches with XL and Wiedemann XL, Crossbred, and PXL with optimal $k$ are estimated as $2^{252}$, $2^{234}$, $2^{237}$, and $2^{220}$, respectively.
翻訳日:2024-05-08 20:52:38 公開日:2024-05-07
# 先天的ランダムファジィ集合を用いたファジィと不確実な証拠の推論:一般的な枠組みと実用モデル

Reasoning with fuzzy and uncertain evidence using epistemic random fuzzy sets: general framework and practical models ( http://arxiv.org/abs/2202.08081v4 )

ライセンス: Link先を確認
Thierry Denoeux, (参考訳) 本稿では, ファジィやクレープな証拠による推論のために, 疫学的なランダムなファジィ集合の一般理論を導入する。 この枠組みは、信念関数のデンプスター・シェーファー理論と可能性理論の両方を一般化する。 独立てんかん的ランダムなファジィ集合は、デンプスターの信念関数を結合する規則と、可能性分布の積共役結合の両方を拡張する一般化された積-断面積則によって結合される。 ガウス乱ファジィ数とその多次元拡張であるガウス乱ファジィベクトルをスカラーあるいはベクトル量に関する不確実性を定量化するための実用的なモデルとして導入する。 ガウス乱ファジィ数とベクトルの組合せ、射影、空拡張に対する閉形式表現が導出される。

We introduce a general theory of epistemic random fuzzy sets for reasoning with fuzzy or crisp evidence. This framework generalizes both the Dempster-Shafer theory of belief functions, and possibility theory. Independent epistemic random fuzzy sets are combined by the generalized product-intersection rule, which extends both Dempster's rule for combining belief functions, and the product conjunctive combination of possibility distributions. We introduce Gaussian random fuzzy numbers and their multi-dimensional extensions, Gaussian random fuzzy vectors, as practical models for quantifying uncertainty about scalar or vector quantities. Closed-form expressions for the combination, projection and vacuous extension of Gaussian random fuzzy numbers and vectors are derived.
翻訳日:2024-05-08 20:52:38 公開日:2024-05-07
# 高次元ガウス混合データにおける自己学習線形分類器における擬似ラベルの役割

The Role of Pseudo-labels in Self-training Linear Classifiers on High-dimensional Gaussian Mixture Data ( http://arxiv.org/abs/2205.07739v3 )

ライセンス: Link先を確認
Takashi Takahashi, (参考訳) 自己学習 (ST) は単純だが効果的な半教師あり学習法である。 しかし, 擬似ラベルの誤用により, 一般化性能が向上する理由と方法はまだよく分かっていない。 入力次元とデータサイズが比例する漸近的極限において、二元ガウス混合におけるリッジ-正則化凸損失を最小化し、線形分類器を訓練する際の反復的STの挙動の鋭い特徴を導出し分析する。 その結果、STは反復数によって異なる方法で一般化を改善することが示された。 イテレーション数が少ない場合、STはモデルを比較的信頼性の高い擬似ラベルに適合させ、各イテレーションでモデルパラメータを大量に更新することにより、一般化性能を向上させる。 これは ST が直観的に機能することを示唆している。 一方, モデルパラメータを漸進的に更新し, ソフトラベルと小さな正規化を用いて, 分割面の方向を徐々に改善することができる。 これは、STの小さな更新が、ほとんどノイズのない方法でデータから情報を抽出できるためである、と論じられている。 しかし、ラベル不均衡の存在下では、STの一般化性能は真のラベルによる教師あり学習に優れる。 これを解決するために、2つのヒューリスティック理論が提案され、STはラベルの不均衡が著しい場合でも教師付き学習でほぼ互換性のある性能を実現することができる。

Self-training (ST) is a simple yet effective semi-supervised learning method. However, why and how ST improves generalization performance by using potentially erroneous pseudo-labels is still not well understood. To deepen the understanding of ST, we derive and analyze a sharp characterization of the behavior of iterative ST when training a linear classifier by minimizing the ridge-regularized convex loss on binary Gaussian mixtures, in the asymptotic limit where input dimension and data size diverge proportionally. The results show that ST improves generalization in different ways depending on the number of iterations. When the number of iterations is small, ST improves generalization performance by fitting the model to relatively reliable pseudo-labels and updating the model parameters by a large amount at each iteration. This suggests that ST works intuitively. On the other hand, with many iterations, ST can gradually improve the direction of the classification plane by updating the model parameters incrementally, using soft labels and small regularization. It is argued that this is because the small update of ST can extract information from the data in an almost noiseless way. However, in the presence of label imbalance, the generalization performance of ST underperforms supervised learning with true labels. To overcome this, two heuristics are proposed to enable ST to achieve nearly compatible performance with supervised learning even with significant label imbalance.
翻訳日:2024-05-08 20:52:38 公開日:2024-05-07
# LordNet: シミュレーションデータなしでパラメトリック部分微分方程式を解くための効率的なニューラルネットワーク

LordNet: An Efficient Neural Network for Learning to Solve Parametric Partial Differential Equations without Simulated Data ( http://arxiv.org/abs/2206.09418v3 )

ライセンス: Link先を確認
Xinquan Huang, Wenlei Shi, Xiaotian Gao, Xinran Wei, Jia Zhang, Jiang Bian, Mao Yang, Tie-Yan Liu, (参考訳) ニューラル作用素は、無限次元函数空間間の非線形作用素の強力な近似として、偏微分方程式(PDE)の解の加速に有望であることが証明されている。 しかし、大量のシミュレートされたデータを必要とするため、収集にはコストがかかる。 これは物理に制約された損失から物理学を学習することで回避できるが、これは離散化されたPDEによって構築された平均2乗残留損失(MSR)である。 我々は,長距離絡み(long-range entanglements)と呼ぶMSR損失の物理的情報を調べ,PDEの空間領域における長距離絡み(long-range entanglements)をモデル化するためにニューラルネットワークが必要とする課題を明らかにする。 この課題に対処するために、様々な絡み合いをモデル化するためのチューナブルで効率的なニューラルネットワークであるLordNetを提案する。 従来の解法にインスパイアされたLordNetは、一連の行列乗法で長距離の絡み合いをモデル化し、一般的な完全連結層に対する低ランク近似と見なすことができ、計算コストを削減して支配的なパターンを抽出する。 Poisson方程式と(2Dおよび3D) Navier-Stokes方程式を解く実験により、MSR損失による長距離の絡み合いは LordNet によってうまくモデル化され、他のニューラルネットワークよりも精度と一般化能力が得られることを示した。 その結果、Lordnetは従来のPDEソルバよりも40\times$高速であることが判明した。 加えて、LordNetは、パラメータサイズが最小の精度と効率で、他の現代的なニューラルネットワークアーキテクチャよりも優れています。

Neural operators, as a powerful approximation to the non-linear operators between infinite-dimensional function spaces, have proved to be promising in accelerating the solution of partial differential equations (PDE). However, it requires a large amount of simulated data, which can be costly to collect. This can be avoided by learning physics from the physics-constrained loss, which we refer to it as mean squared residual (MSR) loss constructed by the discretized PDE. We investigate the physical information in the MSR loss, which we called long-range entanglements, and identify the challenge that the neural network requires the capacity to model the long-range entanglements in the spatial domain of the PDE, whose patterns vary in different PDEs. To tackle the challenge, we propose LordNet, a tunable and efficient neural network for modeling various entanglements. Inspired by the traditional solvers, LordNet models the long-range entanglements with a series of matrix multiplications, which can be seen as the low-rank approximation to the general fully-connected layers and extracts the dominant pattern with reduced computational cost. The experiments on solving Poisson's equation and (2D and 3D) Navier-Stokes equation demonstrate that the long-range entanglements from the MSR loss can be well modeled by the LordNet, yielding better accuracy and generalization ability than other neural networks. The results show that the Lordnet can be $40\times$ faster than traditional PDE solvers. In addition, LordNet outperforms other modern neural network architectures in accuracy and efficiency with the smallest parameter size.
翻訳日:2024-05-08 20:52:38 公開日:2024-05-07
# 因果的視点から見た小学生の学びの再考

Revisiting Few-Shot Learning from a Causal Perspective ( http://arxiv.org/abs/2209.13816v3 )

ライセンス: Link先を確認
Guoliang Lin, Yongheng Xu, Hanjiang Lai, Jian Yin, (参考訳) N$-way $K$-shotスキームによるショット学習は、機械学習におけるオープンな課題である。 この問題を解決するために、例えばMatching NetworksやCLIP-Adapterといったメトリックベースのアプローチが提案されている。 これらの手法が大きな進歩を見せているにもかかわらず、なぜこの手法が成功するのかはよく調べられていない。 本稿では,これらの手法を因果的メカニズムを用いて解釈する。 本研究は, 既存のアプローチを, 突発的相関の効果を緩和し, 因果関係を学習する, 特定の形態のドアアライメントとみなすことができることを示す。 この因果解釈は、これらの既存の計量に基づく手法をよりよく理解するための、新たな視点を提供するかもしれない。 さらに、この因果解釈に基づき、例間の関係だけでなく表現の多様性も考慮し、メートル法に基づく少数ショット学習のための2つの因果的手法を導入する。 実験の結果,提案手法は様々なベンチマーク・データセットにおいて,数ショットの分類において優位性を示した。 コードはhttps://github.com/lingl1024/causalFewShot.comで入手できる。

Few-shot learning with $N$-way $K$-shot scheme is an open challenge in machine learning. Many metric-based approaches have been proposed to tackle this problem, e.g., the Matching Networks and CLIP-Adapter. Despite that these approaches have shown significant progress, the mechanism of why these methods succeed has not been well explored. In this paper, we try to interpret these metric-based few-shot learning methods via causal mechanism. We show that the existing approaches can be viewed as specific forms of front-door adjustment, which can alleviate the effect of spurious correlations and thus learn the causality. This causal interpretation could provide us a new perspective to better understand these existing metric-based methods. Further, based on this causal interpretation, we simply introduce two causal methods for metric-based few-shot learning, which considers not only the relationship between examples but also the diversity of representations. Experimental results demonstrate the superiority of our proposed methods in few-shot classification on various benchmark datasets. Code is available in https://github.com/lingl1024/causalFewShot.
翻訳日:2024-05-08 20:52:38 公開日:2024-05-07
# Depth-Wise Attention (DWAtt): データ効率な分類のための層融合法

Depth-Wise Attention (DWAtt): A Layer Fusion Method for Data-Efficient Classification ( http://arxiv.org/abs/2209.15168v2 )

ライセンス: Link先を確認
Muhammad ElNokrashy, Badr AlKhamissi, Mona Diab, (参考訳) 大規模なテキストデータに基づいて事前訓練された言語モデルは、異なる種類の知識を同時に符号化することが示されている。 伝統的に、新しいタスクやデータに適応する際には、最後のレイヤの機能のみを使用する。 我々は、深層事前訓練モデルの使用や微調整を行う際に、下流タスクに関連する中間層の特徴が深く埋もれすぎて、必要なサンプルやステップで効率的に利用できないことを主張した。 これをテストするために,DWAtt(Depth-Wise Attention)と呼ばれる新しい層融合法を提案する。 DWAttを基本的な結合ベースの層融合法(Concat)と比較し、より深いモデルベースラインと比較します。 以上の結果から,DWAttとConcatはベースラインよりもステップ効率が高く,サンプル効率が高いことが示唆された。 DWAttは、より大きなデータサイズでConcatを上回っます。 CoNLL-03 NERでは、層融合は3.68-9.73%のF1ゲインを示す。 レイヤ融合モデルは、異なるデータサイズ、アーキテクチャ、トレーニング制約を持つさまざまなトレーニングシナリオにおいて、ベースラインを大幅に上回った。

Language Models pretrained on large textual data have been shown to encode different types of knowledge simultaneously. Traditionally, only the features from the last layer are used when adapting to new tasks or data. We put forward that, when using or finetuning deep pretrained models, intermediate layer features that may be relevant to the downstream task are buried too deep to be used efficiently in terms of needed samples or steps. To test this, we propose a new layer fusion method: Depth-Wise Attention (DWAtt), to help re-surface signals from non-final layers. We compare DWAtt to a basic concatenation-based layer fusion method (Concat), and compare both to a deeper model baseline -- all kept within a similar parameter budget. Our findings show that DWAtt and Concat are more step- and sample-efficient than the baseline, especially in the few-shot setting. DWAtt outperforms Concat on larger data sizes. On CoNLL-03 NER, layer fusion shows 3.68--9.73% F1 gain at different few-shot sizes. The layer fusion models presented significantly outperform the baseline in various training scenarios with different data sizes, architectures, and training constraints.
翻訳日:2024-05-08 20:52:38 公開日:2024-05-07
# Fantômas: 顔の匿名化の可逆性を理解する

Fantômas: Understanding Face Anonymization Reversibility ( http://arxiv.org/abs/2210.10651v3 )

ライセンス: Link先を確認
Julian Todt, Simon Hanisch, Thorsten Strufe, (参考訳) 顔画像は、個人を特定し、それらの個人情報を推測するのに使用できる豊富な情報源である。 このプライバシーリスクを軽減するために、匿名化は透明な画像を変換して機密情報を難読化する。 印象的な主張とともに発表されているが、説得力のある方法論では評価されないこともある。 匿名化画像の逆転は、実際の入力と似ており、顔認識アプローチによって識別されることもあるが、これは匿名化の欠陥を示す最強の指標だ。 いくつかの最近の結果は、いくつかのアプローチでこれが可能であることを実際に示している。 しかし、どのアプローチが可逆であり、なぜなのかはよく理解されていない。 本稿では,顔の匿名化の可逆性の現象を徹底的に調査する。 15の顔の匿名化のうち11の顔は少なくとも部分的には可逆的であり、再構成と逆転の両方が逆転を可能にする基盤となるプロセスであることを示す。

Face images are a rich source of information that can be used to identify individuals and infer private information about them. To mitigate this privacy risk, anonymizations employ transformations on clear images to obfuscate sensitive information, all while retaining some utility. Albeit published with impressive claims, they sometimes are not evaluated with convincing methodology. Reversing anonymized images to resemble their real input -- and even be identified by face recognition approaches -- represents the strongest indicator for flawed anonymization. Some recent results indeed indicate that this is possible for some approaches. It is, however, not well understood, which approaches are reversible, and why. In this paper, we provide an exhaustive investigation in the phenomenon of face anonymization reversibility. Among other things, we find that 11 out of 15 tested face anonymizations are at least partially reversible and highlight how both reconstruction and inversion are the underlying processes that make reversal possible.
翻訳日:2024-05-08 20:52:38 公開日:2024-05-07
# 仮定リーン変数の有意性検定のための射影共分散測定

The Projected Covariance Measure for assumption-lean variable significance testing ( http://arxiv.org/abs/2211.02039v4 )

ライセンス: Link先を確認
Anton Rask Lundborg, Ilmun Kim, Rajen D. Shah, Richard J. Samworth, (参考訳) 変数や変数のグループの意味をテストし、応答を予測するために$X$、追加の共変量$Z$が与えられた場合、$Y$は統計学においてユビキタスなタスクである。 単純だが一般的なアプローチは、線形モデルを指定し、次に$X$の回帰係数が 0 でないかどうかをテストすることである。 しかし、モデルが不特定の場合、例えば、$X$が複雑な相互作用に関与している場合や、多くの偽の拒絶を引き起こす場合など、テストは力不足となる。 本研究では、条件付き平均独立性のモデルフリーなnullをテストする問題、すなわち条件付き平均の$Y$が$X$、$Z$が$X$に依存しないことを研究する。 本稿では,適応モデルやランダムフォレストなどの柔軟な非パラメトリックあるいは機械学習手法を利用して,堅牢なエラー制御と高出力を実現する,シンプルで汎用的なフレームワークを提案する。 この手順はこれらの手法を用いて回帰を行い、まずデータの半分を使って$X$と$Z$で$Y$の射影を推定し、それから残りの半分で$Y$と$Y$の予測条件の共分散を推定する。 提案手法は一般に行われているが,この非パラメトリックテスト問題において,スプライン回帰を用いた手法のバージョンが極小最適率を達成できることが示される。 いくつかの既存手法と比較して,I型エラー制御とパワーの両面において,本手法の有効性を示す数値実験を行った。

Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
翻訳日:2024-05-08 20:52:38 公開日:2024-05-07
# $k$EPR-pairsを$n$-partyのリソース状態から生成する

Generating $k$ EPR-pairs from an $n$-party resource state ( http://arxiv.org/abs/2211.06497v4 )

ライセンス: Link先を確認
Sergey Bravyi, Yash Sharma, Mario Szegedy, Ronald de Wolf, (参考訳) 古典的なチャネル上の量子ネットワークアプリケーションによってモチベーションを得て、LOCCプロトコルが任意の$k$非結合のパーティ間でEPRペアを作成できる$n$のパーティリソース状態の研究を開始する。 我々は、$k$が最適な$n/2$からそれほど遠くない状態の構成を与え、一方、個々のパーティは一定数の量子ビットしか持たなければならない。 各パーティが1量子ビットしか持たない特別なケースでは、$k=$\log n$に比例する$n$-qubit状態の族と、$k=2$と$k=3$の小さな数値的な例を記述します。 例えば、$k=n/2$ ならば、当事者は少なくとも$\Omega(\log\log n)$ qubits を持つ必要がある。

Motivated by quantum network applications over classical channels, we initiate the study of $n$-party resource states from which LOCC protocols can create EPR-pairs between any $k$ disjoint pairs of parties. We give constructions of such states where $k$ is not too far from the optimal $n/2$ while the individual parties need to hold only a constant number of qubits. In the special case when each party holds only one qubit, we describe a family of $n$-qubit states with $k$ proportional to $\log n$ based on Reed-Muller codes, as well as small numerically found examples for $k=2$ and $k=3$. We also prove some lower bounds, for example showing that if $k=n/2$ then the parties must have at least $\Omega(\log\log n)$ qubits each.
翻訳日:2024-05-08 20:52:38 公開日:2024-05-07
# 誘電緩和による緑色蛍光タンパク質の動的脱コヒーレンスと記憶効果

Dynamical Decoherence and Memory Effects in Green Fluorescent Proteins by Dielectric Relaxation ( http://arxiv.org/abs/2211.09408v2 )

ライセンス: Link先を確認
Adam Burgess, Marian Florescu, (参考訳) 本稿では, 常温誘電体環境に結合した場合の緑色蛍光タンパク質中の色素の動的脱コヒーレンスについて検討する。 このようなシステムは、他の生体分子と比較して、不均一に長いコヒーレンス寿命のため、大きな関心を集めている。 我々はスピンボソンモデルの中で働き、系の力学の非摂動的および非マルコフ的特性の完全な説明を可能にする運動の階層的方程式(Hierarchical Equations of Motion formalism)を用いる。 独立系緑色蛍光タンパククロフォアのレベルコヒーレンスとホモ二量体緑色蛍光タンパクのエネルギー移動ダイナミクスを解析し, 誘電緩和がこれらの系の時間スケールに与える影響に着目した。 ゆらぎ-散逸定理を用いて、ポアソン方程式から生じる局所電気感受性からスペクトル密度を生成し、溶媒環境にデバイ誘電体モデルを用いる。 異なるシステムアーキテクチャでは、環境の誘電緩和によって引き起こされる色調の力学において、多くの顕著な特徴を同定し、結果としてシステムのコヒーレンス寿命を延ばす強い記憶効果が生じる。 興味深いことに、緑色蛍光タンパク質の複雑な構造は、原子系の周囲に空洞のような構造を持ち、ホモ二量体系のコヒーレンスを保存するのに適している。 系の力学は、そのサブシステム間のコヒーレントエネルギー移動とエントロピー生成の間に動的相関関係を生じさせ、システム-環境相互作用の非マルコフ的な性質のユニークな特徴であるエントロピーの過渡的減少につながる。

In this article, we explore the dynamical decoherence of the chromophores within a green fluorescent protein when coupled to a finite-temperature dielectric environment. Such systems are of significant interest due to their anomalously long coherence lifetimes compared to other biomolecules. We work within the spin-boson model and employ the Hierarchical Equations of Motion formalism which allows for the accounting of the full non-perturbative and non-Markovian characteristics of the system dynamics. We analyse the level coherence of independent green fluorescent protein chromophores and the energy transfer dynamics in homo-dimer green fluorescent proteins, focusing on the effect of dielectric relaxation on the timescales of these systems. Using the Fluctuation-Dissipation theorem, we generate spectral densities from local electric susceptibility generated from Poisson's equation and employ a Debye dielectric model for the solvent environment. For different system architectures, we identify a number of very striking features in the dynamics of the chromophore induced by the dielectric relaxation of the environment, resulting in strong memory effects that extend the coherence lifetime of the system. Remarkably, the complex architecture of the green fluorescent protein, which includes a cavity-like structure around the atomic system, is well suited to preserving the coherences in the homo-dimer system. The system dynamics generate a dynamical correlation between the coherent energy transfer between its sub-systems and the entropy production, which can lead to transient reductions in entropy, a unique feature of the non-Markovian nature of the system-environment interaction.
翻訳日:2024-05-08 20:42:53 公開日:2024-05-07
# $\mathcal{PT}$-対称光学構造に対する屈折率プロファイル

Refractive index profiles for a $\mathcal{PT}$-symmetric optical structure ( http://arxiv.org/abs/2212.01608v2 )

ライセンス: Link先を確認
Bijan Bagchi, Rahul Ghosh, Sauvik Sen, (参考訳) スカラーヘルムホルツ方程式(SHE)をSch\"{r}odinger形式にマッピングすることにより、屈折率分布$n$が長手方向のみの変化を認めるとき、$\mathcal{PT}$光構造の挙動を調べる。 超ポテンシャルの観点でSch\"{r}odinger方程式を解釈し、$n$の超対称パートナーを決定する。 また,屈折率プロファイルの新たな解析的解も取得し,図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形的図形図形図形的図形図形図形的図形図形図形図形図形図形図形図形図

By mapping the scalar Helmholtz equation (SHE) to the Sch\"{r}odinger form we investigate the behaviour of $\mathcal{PT}$ optical structure when the refractive index distribution $n$ admits variation in the longitudinal direction only. Interpreting the Sch\"{r}odinger equation in terms of a superpotential we determine the supersymmetric partners for $n$. We also obtain new analytical solutions for the refractive index profiles and provide graphical illustrations for them.
翻訳日:2024-05-08 20:42:53 公開日:2024-05-07
# 非線形散逸を有する半導体レーザにおける近赤外からテラヘルツ周波数の強いブロードバンド強度ノイズ

Strong broadband intensity noise squeezing from near-infrared to terahertz frequencies in semiconductor lasers with nonlinear dissipation ( http://arxiv.org/abs/2212.07300v2 )

ライセンス: Link先を確認
Sahil Pontula, Jamison Sloan, Nicholas Rivera, Marin Soljacic, (参考訳) 圧縮光の生成と応用は、長い間量子光学の中心的な目標であり、標準量子限界以下のセンシングや光量子コンピューティングプラットフォームなどを可能にしてきた。 励起真空とは対照的に、明るい(コヒーレントな)状態の強度雑音は比較的未発達である。 ブライト・スクイーズは、非線形光学プロセスまたは 'quietly pumped'' 半導体レーザーによって直接生成される。 しかし、これらの手法は、弱いスケザリング限界、狭い動作波長範囲に悩まされており、広帯域での探索は行われていない。 ここでは、強い強度依存性の発散を持つ半導体レーザが、赤外線(IR)からテラヘルツ(THz)波長までの高広帯域強度ノイズをいかに支援できるかを示す。 当社のプロトコルは、キャビティ量子力学実験のための新しいレギュレーションと、ギガヘルツ帯域を超える強い出力スクイーズを実現するため、強い強度(10$dB)のキャビティ内量子状態を実現する。 さらに,同じシステムが,時間領域と雑音領域の両方において光の制御を可能にする,自励式およびバイスタブルな平均場挙動も生成することを示す。 IRからTHz波長の単一半導体レーザープラットフォームにおける古典的および量子力学的領域におけるこれらの複数の機能の存在は、オンチップの量子光学通信、計算、電磁スペクトルのセンシングの進歩を可能にする。

The generation and application of squeezed light have long been central goals of quantum optics, enabling sensing below the standard quantum limit, optical quantum computing platforms, and more. Intensity noise squeezing of bright (coherent) states, in contrast to squeezed vacuum, is relatively underdeveloped. Bright squeezing has been generated directly through nonlinear optical processes or ``quietly pumped'' semiconductor lasers. However, these methods suffer from weak squeezing limits, narrow operating wavelength ranges, and have not been explored at large bandwidths. Here, we show how semiconductor lasers with sharp intensity-dependent dissipation can support highly broadband intensity noise squeezing from infrared (IR) to terahertz (THz) wavelengths, the latter of which has remained unexplored in quantum noise studies. Our protocol realizes strongly ($>10$ dB) intensity noise-squeezed intracavity quantum states, which could create a new regime for cavity quantum electrodynamics experiments, as well as strong output squeezing surpassing gigahertz bandwidths. Furthermore, we show how the same systems also create self-pulsing and bistable mean field behavior, enabling control of light in both the temporal and noise domains. The existence of these multiple functionalities in both the classical and quantum mechanical domains in a single semiconductor laser platform, from IR to THz wavelengths, could enable advances in on-chip quantum optical communication, computing, and sensing across the electromagnetic spectrum.
翻訳日:2024-05-08 20:42:53 公開日:2024-05-07
# 人間の画像生成: 総合的な調査

Human Image Generation: A Comprehensive Survey ( http://arxiv.org/abs/2212.08896v2 )

ライセンス: Link先を確認
Zhen Jia, Zhang Zhang, Liang Wang, Tieniu Tan, (参考訳) 画像とビデオの合成は、コンピュータビジョンと機械学習のコミュニティにおいて、その優れた学術的価値と応用価値から、深層生成モデルの発展とともに、華々しい話題となっている。 多くの研究者は、多種多様なモデル、タスク設定、応用に基づいて多数の研究が行われる、日常生活で最もよく見られる対象カテゴリの1つとして、高忠実な人間の画像の合成に熱心に取り組んできた。 したがって、人間の画像生成におけるこれらの変種手法の概要を概観する必要がある。 本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。 各パラダイムについて、最も代表的なモデルと対応する変種を示し、異なる手法の利点と特徴をモデルアーキテクチャの観点で要約する。 さらに、文献における主要な人体画像データセットと評価指標を要約する。 さらに、広範囲の応用可能性により、合成された人間の画像の典型的な下流使用法がカバーされている。 最後に、人間の画像生成の課題と可能性について論じ、今後の研究に光を当てる。

Image and video synthesis has become a blooming topic in computer vision and machine learning communities along with the developments of deep generative models, due to its great academic and application value. Many researchers have been devoted to synthesizing high-fidelity human images as one of the most commonly seen object categories in daily lives, where a large number of studies are performed based on various models, task settings and applications. Thus, it is necessary to give a comprehensive overview on these variant methods on human image generation. In this paper, we divide human image generation techniques into three paradigms, i.e., data-driven methods, knowledge-guided methods and hybrid methods. For each paradigm, the most representative models and the corresponding variants are presented, where the advantages and characteristics of different methods are summarized in terms of model architectures. Besides, the main public human image datasets and evaluation metrics in the literature are summarized. Furthermore, due to the wide application potentials, the typical downstream usages of synthesized human images are covered. Finally, the challenges and potential opportunities of human image generation are discussed to shed light on future research.
翻訳日:2024-05-08 20:42:53 公開日:2024-05-07
# 遺伝的完全等尺不変量に基づくグラフを用いた材料特性予測

Material Property Prediction using Graphs based on Generically Complete Isometry Invariants ( http://arxiv.org/abs/2212.11246v3 )

ライセンス: Link先を確認
Jonathan Balasingham, Viktor Zamaraev, Vitaliy Kurlin, (参考訳) 構造優位仮説(英語版)は、全ての材料の性質は基礎となる結晶構造によって決定されると述べている。 主な障害は、偽陰性または偽陽性を許容する不完全または不連続な記述子に基づく従来の結晶表現の曖昧さであった。 この曖昧さは超高速のポイントワイド距離分布 (PDD) によって解決され、これは世界最大の実物のコレクション(ケンブリッジ構造データベース)における全ての周期構造を区別した。 特性予測の最先端の結果は、結晶単位セル内の全ての原子に頂点を持つ結晶グラフを含む、周期性結晶の様々なグラフ表現に基づくグラフニューラルネットワークによって以前達成された。 この研究は、頂点集合が結晶構造の非対称単位よりも大きくないより単純なグラフに対して、ポイントワイズ距離分布を適用する。 新しい分布グラフは、CGCNNとALIGNNを用いたマテリアルプロジェクトとJarvis-DFTデータセットに適用した場合、平均絶対誤差を0.6\%-12\%削減し、結晶グラフと比較した場合の頂点数の44\%-88\%を達成している。 グラフのハイパーパラメータ選択法は、ポイントワイド距離分布の理論結果に裏付けられ、実験的に正当化される。

The structure-property hypothesis says that the properties of all materials are determined by an underlying crystal structure. The main obstacle was the ambiguity of conventional crystal representations based on incomplete or discontinuous descriptors that allow false negatives or false positives. This ambiguity was resolved by the ultra-fast Pointwise Distance Distribution (PDD), which distinguished all periodic structures in the world's largest collection of real materials (Cambridge Structural Database). The state-of-the-art results in property predictions were previously achieved by graph neural networks based on various graph representations of periodic crystals, including the Crystal Graph with vertices at all atoms in a crystal unit cell. This work adapts the Pointwise Distance Distribution for a simpler graph whose vertex set is not larger than the asymmetric unit of a crystal structure. The new Distribution Graph reduces mean-absolute-error by 0.6\%-12\% while having 44\%-88\% of the number of vertices when compared to the crystal graph when applied on the Materials Project and Jarvis-DFT datasets using CGCNN and ALIGNN. Methods for hyper-parameters selection for the graph are backed by the theoretical results of the Pointwise Distance Distribution and are then experimentally justified.
翻訳日:2024-05-08 20:42:53 公開日:2024-05-07
# 熱進化による凸化によるユイユ・ポッジョの流れとポリノミアルの地球最小化

Yuille-Poggio's Flow and Global Minimizer of Polynomials through Convexification by Heat Evolution ( http://arxiv.org/abs/2301.00326v2 )

ライセンス: Link先を確認
Qiao Wang, (参考訳) 本研究では,O. Arikan \textit{et al} in \cite{ABK} が導入した,多項式の大域的最小化のための逆微分フローアルゴリズムの凸化バージョンについて検討した。 このアプローチが高次多項式で失敗するが、クォート多項式で成功する理由を調査する。 我々は,Steklov正則化の累積形式として機能するガウスフィルタと併用した凸化熱進化法を用いる。 この文脈では,コンピュータビジョンから指紋理論を適用する。 A.L. Yuille と T. Poggio が1980年代にコンピュータビジョンのために開発した指紋理論、特に指紋軌跡方程式は、最小化器のスケーリング(時間的)進化を説明するために用いられる。 一般多項式の場合,本研究はユユ・ポッジョ流の創出と指紋概念のより広範な解釈に繋がるものである。 クォート多項式について、我々の解析はO. Arikan et al \cite{ABK} の結果を反映するだけでなく、常に凸化を伴わないクォート多項式を大域的に最小化できるニュートンの方法の非常に単純なバージョンも提示する。

This study examines the convexification version of the backward differential flow algorithm for the global minimization of polynomials, introduced by O. Arikan \textit{et al} in \cite{ABK}. It investigates why this approach might fail with high-degree polynomials yet succeeds with quartic polynomials. We employ the heat evolution method for convexification combined with Gaussian filtering, which acts as a cumulative form of Steklov's regularization. In this context, we apply the fingerprint theory from computer vision. Originally developed by A.L. Yuille and T. Poggio in the 1980s for computer vision, the fingerprint theory, particularly the fingerprint trajectory equation, is used to illustrate the scaling (temporal) evolution of minimizers. In the case of general polynomials, our research has led to the creation of the Yuille-Poggio flow and a broader interpretation of the fingerprint concepts, in particular we establish the condition both sufficient and necessary for the convexified backward differential flow algorithms to successfully achieve global minimization. For quartic polynomials, our analysis not only reflects the results of O. Arikan et al. \cite{ABK} but also presents a significantly simpler version of Newton's method that can always globally minimize quartic polynomials without convexification.
翻訳日:2024-05-08 20:42:53 公開日:2024-05-07
# CV-QKDにおけるコンポーザブルキーレートの改善

Improved composable key rates for CV-QKD ( http://arxiv.org/abs/2301.10270v3 )

ライセンス: Link先を確認
Stefano Pirandola, Panagiotis Papanastasiou, (参考訳) 量子鍵分布(QKD)の現代のセキュリティ証明は、有限サイズ効果と構成可能な側面を考慮する必要がある。 これは、ボゾンコヒーレント状態の伝達と検出に基づく連続可変(CV)プロトコルのケースでもある。 本稿では,一般的なCV-QKDプロトコルの構成可能な鍵レートに対して,より厳密な定式化を提供する領域において,従来の理論を洗練・前進させる。 これらの理論的な改良により、我々の一般的な公式は、以前の文献に関してより楽観的な鍵レートを証明できる。

Modern security proofs of quantum key distribution (QKD) must take finite-size effects and composable aspects into consideration. This is also the case for continuous-variable (CV) protocols which are based on the transmission and detection of bosonic coherent states. In this paper, we refine and advance the previous theory in this area providing a more rigorous formulation for the composable key rate of a generic CV-QKD protocol. Thanks to these theoretical refinements, our general formulas allow us to prove more optimistic key rates with respect to previous literature.
翻訳日:2024-05-08 20:42:53 公開日:2024-05-07
# ユニバーサルコンストラクションとしてのCSSコード手術

CSS code surgery as a universal construction ( http://arxiv.org/abs/2301.13738v6 )

ライセンス: Link先を確認
Alexander Cowtan, Simon Burton, (参考訳) チェインコンプレックス間のマップを用いて,Calderbank-Shor-Steane (CSS) コード間のコードマップを定義し,チェインコンプレックスのカテゴリで特定のコリミットを用いて,それらのコード間のコード手術を記述する。 手術の操作を記述するだけでなく、新しいコードの一般的なレシピも提供します。 アプリケーションでは、ゲージ固定とコード距離に関する特定の技術的な条件が満たされている限り、任意のCSSコード間の共有$\overline{X}$または$\overline{Z}$演算子で‘merge’と‘split’を記述します。 このようなLDPC符号の合併と分割は、LDPC自体のコードを生成することを証明している。

We define code maps between Calderbank-Shor-Steane (CSS) codes using maps between chain complexes, and describe code surgery between such codes using a specific colimit in the category of chain complexes. As well as describing a surgery operation, this gives a general recipe for new codes. As an application we describe how to `merge' and `split' along a shared $\overline{X}$ or $\overline{Z}$ operator between arbitrary CSS codes in a fault-tolerant manner, so long as certain technical conditions concerning gauge fixing and code distance are satisfied. We prove that such merges and splits on LDPC codes yield codes which are themselves LDPC.
翻訳日:2024-05-08 20:42:53 公開日:2024-05-07
# クロネッカー係数の量子複雑性

Quantum complexity of the Kronecker coefficients ( http://arxiv.org/abs/2302.11454v3 )

ライセンス: Link先を確認
Sergey Bravyi, Anirban Chowdhury, David Gosset, Vojtech Havlicek, Guanyu Zhu, (参考訳) 対称群のクロネッカー係数が組合せ対象の集合を数えるかどうかは、長年の開問題である。 本研究では、与えられたクロネッカー係数が、量子コンピュータを用いて効率的に測定できるプロジェクターのランクに比例することを示す。 言い換えれば、クロネッカー係数は、QMA検証器の受理証人によって広がるベクトル空間の次元を数え、QMAはNPの量子アナログである。 このことは、クロネッカー係数を与えられた相対誤差の範囲内で近似することは、量子多体系の熱的性質を推定する複雑さをとらえる特定の自然クラスである量子近似数問題よりも難しくないことを意味する。 第2の結果は、クロネッカー係数の正の判定がQMAに含まれており、最近のIkenmeyer、Mulmuley、WalterのNP硬度の結果を補完するということである。 対称群の文字テーブルの行和を近似する問題の類似した結果を得る。 最後に、正規化Kronecker係数を逆多項式加法誤差に近似する効率的な量子アルゴリズムについて議論する。

Whether or not the Kronecker coefficients of the symmetric group count some set of combinatorial objects is a longstanding open question. In this work we show that a given Kronecker coefficient is proportional to the rank of a projector that can be measured efficiently using a quantum computer. In other words a Kronecker coefficient counts the dimension of the vector space spanned by the accepting witnesses of a QMA verifier, where QMA is the quantum analogue of NP. This implies that approximating the Kronecker coefficients to within a given relative error is not harder than a certain natural class of quantum approximate counting problems that captures the complexity of estimating thermal properties of quantum many-body systems. A second consequence is that deciding positivity of Kronecker coefficients is contained in QMA, complementing a recent NP-hardness result of Ikenmeyer, Mulmuley and Walter. We obtain similar results for the related problem of approximating row sums of the character table of the symmetric group. Finally, we discuss an efficient quantum algorithm that approximates normalized Kronecker coefficients to inverse-polynomial additive error.
翻訳日:2024-05-08 20:42:53 公開日:2024-05-07
# キャビティモアレ材料:量子光-物質相互作用による磁気フラストレーションの制御

Cavity Moiré Materials: Controlling Magnetic Frustration with Quantum Light-Matter Interaction ( http://arxiv.org/abs/2302.11582v2 )

ライセンス: Link先を確認
Kanta Masuki, Yuto Ashida, (参考訳) キャビティ量子電磁力学(Cavity quantum Electrodynamics, QED)は、単一の量子レベルでの光と物質の相互作用を研究し、量子科学と技術において中心的な役割を果たす。 キャビティQEDとモワーイ材料を組み合わせることで、強い量子光-マター相互作用がフラストレーションの磁力を制御できることを示した。 具体的には、細い極性ファンデルワールス結晶からなるキャビティに閉じ込められたモワーイ材料の理論を開発する。 モーアリー平らなバンドの非自明な量子幾何学は、電子の電磁的な真空ドレッシングにつながり、単一の電子エネルギーの良好な変化を生じさせ、自身を長距離電子ホッピング(long-range electron hoppings)として表す。 ヘキサゴナル窒化ホウ素層を包含した遷移金属ジアルコゲナイドヘテロ二層に一般の定式化を適用し,その相図を異なるツイスト角度および光物質結合強度で予測した。 以上の結果から, キャビティ閉じ込めにより, モワール系材料の磁気フラストレーションを制御でき, 量子スピン液体のような様々な異方性相を実現できる可能性が示唆された。

Cavity quantum electrodynamics (QED) studies the interaction between light and matter at the single quantum level and has played a central role in quantum science and technology. Combining the idea of cavity QED with moir\'e materials, we theoretically show that strong quantum light-matter interaction provides a way to control frustrated magnetism. Specifically, we develop a theory of moir\'e materials confined in a cavity consisting of thin polar van der Waals crystals. We show that nontrivial quantum geometry of moir\'e flat bands leads to electromagnetic vacuum dressing of electrons, which produces appreciable changes in single-electron energies and manifests itself as long-range electron hoppings. We apply our general formulation to a twisted transition metal dichalcogenide heterobilayer encapsulated by ultrathin hexagonal boron nitride layers and predict its phase diagram at different twist angles and light-matter coupling strengths. Our results indicate that the cavity confinement enables one to control magnetic frustration of moir\'e materials and might allow for realizing various exotic phases such as a quantum spin liquid.
翻訳日:2024-05-08 20:42:53 公開日:2024-05-07
# ダイヤモンド中の窒素空孔中心による暗黒物質探索

Light Dark Matter Search with Nitrogen-Vacancy Centers in Diamonds ( http://arxiv.org/abs/2302.12756v3 )

ライセンス: Link先を確認
So Chigusa, Masashi Hazumi, Ernst David Herbschleb, Norikazu Mizuochi, Kazunori Nakayama, (参考訳) 本研究では, ダイヤモンド中の窒素空孔中心を持つ磁気計を用いて, アクシオンやダーク光子などの暗黒物質を直接探索する手法を提案する。 ダークマターが電子スピンに結合すると、スピン三重項状態からなるブロッホベクトルの進化に影響を及ぼし、いくつかの磁気計測技術によって検出される。 ダークマター結合に対する感度を推定するために, dc と ac の磁力計を用いていくつかの具体例を示す。

We propose new ideas to directly search for light dark matter, such as the axion or the dark photon, by using magnetometry with nitrogen-vacancy centers in diamonds. If the dark matter couples to the electron spin, it affects the evolution of the Bloch vectors consisting of the spin triplet states, which may be detected through several magnetometry techniques. We give several concrete examples with the use of dc and ac magnetometry and estimate the sensitivity on dark matter couplings.
翻訳日:2024-05-08 20:42:53 公開日:2024-05-07
# 動的事象に基づく光学的識別と通信

Dynamic Event-based Optical Identification and Communication ( http://arxiv.org/abs/2303.07169v4 )

ライセンス: Link先を確認
Axel von Arnim, Jules Lecomte, Naima Elosegui Borras, Stanislaw Wozniak, Angeliki Pantazi, (参考訳) 光学的識別は、しばしば空間的または時間的視覚的パターン認識と局所化によって行われる。 時間パターン認識は、技術によっては、通信周波数、範囲、正確な追跡のトレードオフを伴う。 高速なイベントベースカメラを利用して、このトレードオフを改善する発光ビーコンを用いたソリューションを提案し、スパイクニューロンで計算された疎いニューロモルフィック光の流れを追跡する。 システムはシミュレートされたドローンに埋め込まれ、資産監視ユースケースで評価される。 相対運動に対して堅牢であり、複数の移動ビーコンとの同時通信と追跡を可能にする。 最後に、ハードウェアラボの試作機において、kHz帯における最先端の周波数通信と同時にビーコントラッキングを初めて実演した。

Optical identification is often done with spatial or temporal visual pattern recognition and localization. Temporal pattern recognition, depending on the technology, involves a trade-off between communication frequency, range and accurate tracking. We propose a solution with light-emitting beacons that improves this trade-off by exploiting fast event-based cameras and, for tracking, sparse neuromorphic optical flow computed with spiking neurons. The system is embedded in a simulated drone and evaluated in an asset monitoring use case. It is robust to relative movements and enables simultaneous communication with, and tracking of, multiple moving beacons. Finally, in a hardware lab prototype, we demonstrate for the first time beacon tracking performed simultaneously with state-of-the-art frequency communication in the kHz range.
翻訳日:2024-05-08 20:42:53 公開日:2024-05-07
# 強化学習誘導型コンビニアル化学による極物性材料発見

Materials Discovery with Extreme Properties via Reinforcement Learning-Guided Combinatorial Chemistry ( http://arxiv.org/abs/2303.11833v2 )

ライセンス: Link先を確認
Hyunseung Kim, Haeyeon Choi, Dongju Kang, Won Bo Lee, Jonggeol Na, (参考訳) ほとんどの物質発見の目標は、現在知られている物質よりも優れた物質を発見することである。 これは基本的に、データの確率分布を学習するほとんどの機械学習モデルにとって弱い点である外挿に近い。 そこで本研究では,分子フラグメントの選択を訓練した規則に基づく分子設計法である強化学習誘導複合化学を開発する。 我々のモデルは、分子断片の組み合わせから得られる全ての可能な分子構造を生成することができるため、優れた性質を持つ未知の分子が発見できる。 我々は,確率分布学習モデルよりも,より優れた化合物の発見に適していることを理論的,実証的に実証した。 7つの極端目標特性に当たった分子の発見を目的とした実験で、我々のモデルでは、標的に当たった分子のうち1,315個、標的に当たった分子のうち7,629個が検出されたが、確率分布学習モデルは失敗した。 さらに、分子断片の結合規則の下で生成される全ての分子が100%化学的に有効であることが確認されている。 実際の問題の性能を説明するために,タンパク質ドッキング分子の発見とHIV阻害薬の発見という,2つの実用的応用に,我々のモデルが有効であることを実証した。

The goal of most materials discovery is to discover materials that are superior to those currently known. Fundamentally, this is close to extrapolation, which is a weak point for most machine learning models that learn the probability distribution of data. Herein, we develop reinforcement learning-guided combinatorial chemistry, which is a rule-based molecular designer driven by trained policy for selecting subsequent molecular fragments to get a target molecule. Since our model has the potential to generate all possible molecular structures that can be obtained from combinations of molecular fragments, unknown molecules with superior properties can be discovered. We theoretically and empirically demonstrate that our model is more suitable for discovering better compounds than probability distribution-learning models. In an experiment aimed at discovering molecules that hit seven extreme target properties, our model discovered 1,315 of all target-hitting molecules and 7,629 of five target-hitting molecules out of 100,000 trials, whereas the probability distribution-learning models failed. Moreover, it has been confirmed that every molecule generated under the binding rules of molecular fragments is 100% chemically valid. To illustrate the performance in actual problems, we also demonstrate that our models work well on two practical applications: discovering protein docking molecules and HIV inhibitors.
翻訳日:2024-05-08 20:42:53 公開日:2024-05-07
# オンライン検索は、偽ニュースを否定するよりも、学生に真実のニュースを検証させる傾向にある

Online search is more likely to lead students to validate true news than to refute false ones ( http://arxiv.org/abs/2303.13138v2 )

ライセンス: Link先を確認
Azza Bouleimen, Luca Luceri, Felipe Cardoso, Luca Botturi, Martin Hermida, Loredana Addimando, Chiara Beretta, Marzia Galloni, Silvia Giordano, (参考訳) 高速インターネットとポータブルスマートデバイスの普及により、人々が情報にアクセスし消費する方法は大きく変化した。 しかし、これは情報過負荷、個人データの漏洩、誤情報拡散など、多くの課題をもたらす。 近年、インターネット利用者が直面するリスクの範囲全体で、この研究は若者が誤った情報をどう認識し、どう扱うかを理解することに焦点を当てている。 183名の学生を対象とした実験キャンペーンにおいて,参加者に対して6つの異なるニュース項目を提示し,インターネットを閲覧して提示された情報の正確性を評価するよう依頼した。 以上の結果から,オンライン検索は偽ニュースを否定するよりも,学生に真ニュースを検証させる傾向が示唆された。 その結果、学生はより広い話題についてのグローバルな考えよりも、特定の情報についての意見を変えることが多かった。 また,本実験では,ほとんどの参加者が情報収集やニュースへのアクセスにオンラインソースを頼っていることを反映し,書籍やインターネットブラウジングから情報を得る者は,ニュース項目の正確性を評価する上で最も正確であることを示した。 この研究は、若者が真偽の情報をどのように認識し、区別するかを原則的に理解し、若年者の強みと弱みを特定し、若年者のための適切なデジタル情報リテラシー戦略の構築に寄与する。

With the spread of high-speed Internet and portable smart devices, the way people access and consume information has drastically changed. However, this presents many challenges, including information overload, personal data leakage, and misinformation diffusion. Across the spectrum of risks that Internet users face nowadays, this work focuses on understanding how young people perceive and deal with false information. Within an experimental campaign involving 183 students, we presented six different news items to the participants and invited them to browse the Internet to assess the veracity of the presented information. Our results suggest that online search is more likely to lead students to validate true news than to refute false ones. We found that students change their opinion about a specific piece of information more often than their global idea about a broader topic. Also, our experiment reflected that most participants rely on online sources to obtain information and access the news, and those getting information from books and Internet browsing are the most accurate in assessing the veracity of a news item. This work provides a principled understanding of how young people perceive and distinguish true and false pieces of information, identifying strengths and weaknesses amidst young subjects and contributing to building tailored digital information literacy strategies for youth.
翻訳日:2024-05-08 20:42:53 公開日:2024-05-07
# 高ダイナミックレンジベクトル原子磁気センサ

High Dynamic Range Vector Atomic Magnetometer with 1 part-per-billion Resolution in Earth Field Range ( http://arxiv.org/abs/2304.00214v2 )

ライセンス: Link先を確認
Tao Wang, Wonjae Lee, Mark Limes, Tom Kornack, Elizabeth Foley, Michael Romalis, (参考訳) 高速回転磁界をパルス化された$^{87}$Rbスカラー原子磁気センサに適用した高ダイナミックレンジベクトル原子磁気センサを提案する。 磁場回転面に対する全磁場と2つの極角の同時測定が可能となる。 グラディメータモードの2つのチャネルを用いて、全磁場勾配を50$\mathrm{fT/\sqrt{Hz}}$ (10億ドル当たり1パーセンテージ)で同時測定し、8$\mathrm{nrad/\sqrt{Hz}}$50$\mu$T地球磁場強度で2つの極角を計測する。 これらの測定のノイズスペクトルはそれぞれ1Hzと0.1Hzまで平坦である。 重要なことに、このアプローチはベクトル磁力計や勾配計に関連するいくつかの気象上の困難を避ける。 このようなベクトル磁気センサの基本的、体系的、実用的限界について詳述する。 特に,ベクトル原子磁気センサの系統的効果について概説する。 動的方向誤差という新しい概念を導入し,他の系統的効果について検討する。 これらのシステマティクスをキャンセルするために、独自のコサイン変換回転場変調が提案されている。 さらに,センサの感度に対する基本的な限界を導出し,センサのベクトル感度がスカラー感度に近づきつつ,スカラーセンサの精度と気象学的優位性を維持することができることを示した。 この高ダイナミックレンジベクトル磁気センサは、超高分解能と固有のキャリブレーションを備え、幅広い用途に適している。

We present a high-dynamic-range vector atomic magnetometer based on applying a fast-rotating magnetic field to a pulsed $^{87}$Rb scalar atomic magnetometer. This method enables simultaneous measurements of the total magnetic field and two polar angles relative to the plane of magnetic field rotation. Using two channels in a gradiometer mode, it provides simultaneous measurements of the total field gradient with a sensitivity of 50 $\mathrm{fT/\sqrt{Hz}}$ (1 part per billion), as well as two polar angles with resolutions of 8 $\mathrm{nrad/\sqrt{Hz}}$ at 50 $\mu$T Earth field strength. The noise spectrums of these measurements are flat down to 1 Hz and 0.1 Hz, respectively. Crucially, this approach avoids several metrological difficulties associated with vector magnetometers and gradiometers. We detail the fundamental, systematic, and practical limits of such vector magnetometers. Notably, we provide a comprehensive study of the systematic effects of vector atomic magnetometers. We introduce a new concept of dynamic heading error and investigate several other systematic effects. A unique cosine-altering rotating field modulation is proposed to cancel out these systematics. Additionally, we derive fundamental limits on the sensitivity of such sensors and demonstrate that the vector sensitivity of the sensor can approach its scalar sensitivity while retaining the accuracy and metrological advantages of scalar sensors. This high-dynamic-range vector magnetometer, with ultrahigh resolution and inherent calibration, is suitable for a wide array of applications.
翻訳日:2024-05-08 20:33:08 公開日:2024-05-07
# ChatUniTest: LLMベースのテスト生成フレームワーク

ChatUniTest: A Framework for LLM-Based Test Generation ( http://arxiv.org/abs/2305.04764v2 )

ライセンス: Link先を確認
Yinghao Chen, Zehao Hu, Chen Zhi, Junxiao Han, Shuiguang Deng, Jianwei Yin, (参考訳) 単体テストは必須だが、しばしば困難な作業である。 この課題を軽減するために、さまざまな自動ユニットテスト生成ツールが導入されている。 特に,大規模言語モデル(LLM)に基づく手法が注目され,近年は有望な成果を上げている。 それでもLLMベースのツールは、正確な単体テストを生成する際の限界に遭遇する。 本稿では,LLMベースの自動単体テスト生成フレームワークChatUniTestを提案する。 ChatUniTestには、アダプティブなフォーカスコンテキストメカニズムが組み込まれており、プロンプトに価値あるコンテキストを包含し、生成単位テストのエラーを修正するための生成バリデーション-リペアメカニズムに準拠している。 その後、コアワークフローを実装する共通ライブラリであるChatUniTest Coreを開発し、ChatUniTestの機能を強化するシームレスに統合されたツールスイートであるChatUniTest Toolchainを補完しました。 評価の結果,ChatUniTest はテストSpark と EvoSuite を半分のプロジェクトで上回り,全ラインカバレッジが最高であることがわかった。 さらに、私たちのユーザ調査から得た洞察は、ChatUniTestがソフトウェアのテスト領域における様々な利害関係者にかなりの価値を提供します。 ChatUniTestはhttps://github.com/ZJU-ACES-ISE/ChatUniTestで、デモビデオはhttps://www.youtube.com/watch? v=GmfxQUqm2ZQ。

Unit testing is an essential yet frequently arduous task. Various automated unit test generation tools have been introduced to mitigate this challenge. Notably, methods based on large language models (LLMs) have garnered considerable attention and exhibited promising results in recent years. Nevertheless, LLM-based tools encounter limitations in generating accurate unit tests. This paper presents ChatUniTest, an LLM-based automated unit test generation framework. ChatUniTest incorporates an adaptive focal context mechanism to encompass valuable context in prompts and adheres to a generation-validation-repair mechanism to rectify errors in generated unit tests. Subsequently, we have developed ChatUniTest Core, a common library that implements core workflow, complemented by the ChatUniTest Toolchain, a suite of seamlessly integrated tools enhancing the capabilities of ChatUniTest. Our effectiveness evaluation reveals that ChatUniTest outperforms TestSpark and EvoSuite in half of the evaluated projects, achieving the highest overall line coverage. Furthermore, insights from our user study affirm that ChatUniTest delivers substantial value to various stakeholders in the software testing domain. ChatUniTest is available at https://github.com/ZJU-ACES-ISE/ChatUniTest, and the demo video is available at https://www.youtube.com/watch?v=GmfxQUqm2ZQ.
翻訳日:2024-05-08 20:33:08 公開日:2024-05-07
# 音響デミックスタスクのためのベンチマークとリーダーボード

Benchmarks and leaderboards for sound demixing tasks ( http://arxiv.org/abs/2305.07489v2 )

ライセンス: Link先を確認
Roman Solovyev, Alexander Stempkovskiy, Tatiana Habruseva, (参考訳) 音楽のデミックスは、与えられた1つのオーディオ信号からドラム、ベース、ボーカルなどのコンポーネントに異なるトラックを分離するタスクである。 情報源の分離はエンターテイメントや補聴器など様々な分野で有用である。 本稿では、音源分離タスクのための2つの新しいベンチマークを導入し、これらのベンチマークで一般的な音源分離モデルとそれらのアンサンブルを比較した。 モデルのアセスメントについては、https://mvsep.com/quality_checker/でリーダーボードを提供しています。 新しいベンチマークデータセットはダウンロード可能だ。 また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。 提案手法は2023年のミュージック・デミキシング・チャレンジ(英語版)の文脈で評価され、その課題のさまざまなトラックで最高結果を得た。 コードとアプローチはGitHubでオープンソース化されている。

Music demixing is the task of separating different tracks from the given single audio signal into components, such as drums, bass, and vocals from the rest of the accompaniment. Separation of sources is useful for a range of areas, including entertainment and hearing aids. In this paper, we introduce two new benchmarks for the sound source separation tasks and compare popular models for sound demixing, as well as their ensembles, on these benchmarks. For the models' assessments, we provide the leaderboard at https://mvsep.com/quality_checker/, giving a comparison for a range of models. The new benchmark datasets are available for download. We also develop a novel approach for audio separation, based on the ensembling of different models that are suited best for the particular stem. The proposed solution was evaluated in the context of the Music Demixing Challenge 2023 and achieved top results in different tracks of the challenge. The code and the approach are open-sourced on GitHub.
翻訳日:2024-05-08 20:33:08 公開日:2024-05-07
# マルチオブザーバによる高次元モニタリングとリアリズムの出現

High-dimensional monitoring and the emergence of realism via multiple observers ( http://arxiv.org/abs/2305.07919v3 )

ライセンス: Link先を確認
Alexandre C. Orthey Jr., Pedro R. Dieguez, Owidiusz Makuta, Remigiusz Augusiak, (参考訳) 相関は、測定されたシステムに直接アクセスしないため、すべての測定モデルの基本的なメカニズムである。 代わりに相関が生成され、測定可能な性質に関する情報を環境に符号化する。 ここでは、量子世界の物理的現実の出現に関する問題を、弱度と強い非選択性の測定を補間するモデルを導入することによって解決する。 ハイゼンベルク・ワイル作用素を用いて、我々のモデルは、システムと環境の間の相互作用強度とは独立に、関心の観測可能性に関する完全な情報が常に得られることを示唆している。

Correlation is the basic mechanism of every measurement model, as one never accesses the measured system directly. Instead, correlations are created, codifying information about the measurable property into the environment. Here, we address the problem of the emergence of physical reality from the quantum world by introducing a model that interpolates between weak and strong non-selective measurements for qudits. By utilizing Heisenberg-Weyl operators, our model suggests that independently of the interaction intensity between the system and the environment, full information about the observable of interest can always be obtained by making the system interact with many environmental qudits, following a Quantum Darwinism framework.
翻訳日:2024-05-08 20:33:08 公開日:2024-05-07
# サファイア基板上の高均一性と安定性を有するAl/AlOx/Al接合の作製

Fabrication of Al/AlOx/Al junctions with high uniformity and stability on sapphire substrates ( http://arxiv.org/abs/2305.10956v2 )

ライセンス: Link先を確認
Yuzhen Zheng, Shuming Li, Zengqian Ding, Kanglin Xiong, Jiagui Feng, Hui Yang, (参考訳) サファイアのタンタルとアルミニウムは、長いコヒーレントな時間のキュービットのプラットフォームとして広く使われている。 量子チップのスケールアップに伴い、サファイア上のジョセフソン接合数は増加する。 したがって、ジャンクションの均一性と安定性は、スケーラブルな超伝導量子コンピュータ回路や量子制限増幅器のような量子デバイスにとって重要である。 電子線リソグラフィー過程における導電層の形成過程を最適化することにより,サファイア基板上のAl/AlOx/Al接合は0.0169から0.04 {\mu}m2となることがわかった。 これらの接合部の室温抵抗(RN)の標準偏差は15mm×15mmのチップでは1.7%以上、2インチのウエハでは2.66%以上であり、サファイア基板では最も均一である。 接合は、温度が変化するにつれて頑丈で安定である。 温度が4Kに下がると、抵抗はRNに対して9.73%上昇し、温度がRTに戻ると逆の過程で初期値が回復する。 窒素キャビネットに100日間保管された後、接合部の抵抗は平均1.16%変化した。 大規模領域における均一かつ安定なジョセフソン接合の実証は、サファイア基板上に数百量子ビットの超伝導チップを作製する方法を舗装している。

Tantalum and aluminum on sapphire are widely used platforms for qubits of long coherent time. As quantum chips scale up, the number of Josephson junctions on Sapphire increases. Thus, both the uniformity and stability of the junctions are crucial to quantum devices, such as scalable superconducting quantum computer circuit, and quantum-limited amplifiers. By optimizing the fabrication process, especially, the conductive layer during the electron beam lithography process, Al/AlOx/Al junctions of sizes ranging from 0.0169 to 0.04 {\mu}m2 on sapphire substrates were prepared. The relative standard deviation of room temperature resistances (RN) of these junctions is better than 1.7% on 15 mmx15 mm chips, and better than 2.66% on 2 inch wafers, which is the highest uniformity on sapphire substrates has been reported. The junctions are robust and stable in resistances as temperature changes. The resistances increase by the ratio of 9.73% relative to RN as the temperature ramp down to 4K, and restore their initial values in the reverse process as the temperature ramps back to RT. After being stored in a nitrogen cabinet for 100 days, the resistance of the junctions changed by1.16% in average. The demonstration of uniform and stable Josephson junctions in large area paves the way for the fabrication of superconducting chip of hundreds of qubits on sapphire substrates.
翻訳日:2024-05-08 20:33:08 公開日:2024-05-07
# シリコン基板上にスパッタした高品質超伝導α-Ta膜

High-quality superconducting α-Ta film sputtered on heated silicon substrate ( http://arxiv.org/abs/2305.10957v2 )

ライセンス: Link先を確認
Yanfu Wu, Zengqian Ding, Kanglin Xiong, Jiagui Feng, (参考訳) 研究者らは最近、Alpha}-Ta/Al2O3をベースとしたTransmon qubitの長い寿命の発見に興味を抱き、複数の量子ビットを長いコヒーレンス時間で製造する上で有望なプラットフォームであることを発見した。 超伝導量子回路を統合するための要件を満たすため、工業製造と互換性のあるシリコン基板上に {\alpha}-Ta薄膜を成長させることが理想的な方法である。 ここでは、低損失超伝導TiNxバッファ層を有するSi(100)上にスパッタ成長した {\alpha}-Ta膜について報告する。 大きな成長温度の窓を持つ {\alpha}-Ta膜の結晶特性は良好である。 超伝導臨界遷移温度 (Tc) と残留比 (RRR) は, 500 {\deg}Cで成長した。 これらの結果は、超伝導と材料特性の関連を理解するための重要な実験的手がかりを提供し、将来の産業超伝導量子コンピュータのためのシリコン基板上に高品質なナアルファ-Ta膜を作るための新たな経路を開く。

Intrigued by the discovery of the long lifetime in the {\alpha}-Ta/Al2O3-based Transmon qubit, researchers recently found {\alpha}-Ta film is a promising platform for fabricating multi-qubits with long coherence time. To meet the requirements for integrating superconducting quantum circuits, the ideal method is to grow {\alpha}-Ta film on a silicon substrate compatible with industrial manufacturing. Here we report the {\alpha}-Ta film sputter-grown on Si (100) with a low-loss superconducting TiNx buffer layer. The {\alpha}-Ta film with a large growth temperature window has a good crystalline character. The superconducting critical transition temperature (Tc) and residual resistivity ratio (RRR) in the {\alpha}-Ta film grown at 500 {\deg}C are higher than that in the {\alpha}-Ta film grown at room temperature (RT). These results provide crucial experimental clues toward understanding the connection between the superconductivity and the materials' properties in the {\alpha}-Ta film and open a new route for producing a high-quality {\alpha}-Ta film on silicon substrate for future industrial superconducting quantum computers.
翻訳日:2024-05-08 20:33:08 公開日:2024-05-07
# エンティティ・リプレースにおける関係抽出はいかに脆弱か?

How Fragile is Relation Extraction under Entity Replacements? ( http://arxiv.org/abs/2305.13551v3 )

ライセンス: Link先を確認
Yiwei Wang, Bryan Hooi, Fei Wang, Yujun Cai, Yuxuan Liang, Wenxuan Zhou, Jing Tang, Manjuan Duan, Muhao Chen, (参考訳) 関係抽出(RE)は、テキストコンテキストからエンティティ名間の関係を抽出することを目的としている。 原則として、テキストコンテキストは基幹構造関係を決定し、REモデルはテキストコンテキストによって反映される関係を正しく識別できるべきである。 しかし、既存の研究によると、REモデルはエンティティ名パターンを記憶し、テキストコンテキストを無視しながらRE予測を行う。 この作業では、TACREDのREインスタンス上でランダムで制約されたエンティティ置換を運用し、エンティティ置換の下で最先端のREモデルを評価します。 我々は、エンティティ置換の下で最先端のREモデルにおいて、30 %から50 %のF1スコアの低下を観察する。 これらの結果から,エンティティ置換に対して堅牢な効果的なREモデルを開発するには,さらなる努力が必要であることが示唆された。 ソースコードはhttps://github.com/wangywUST/RobustREで公開しています。

Relation extraction (RE) aims to extract the relations between entity names from the textual context. In principle, textual context determines the ground-truth relation and the RE models should be able to correctly identify the relations reflected by the textual context. However, existing work has found that the RE models memorize the entity name patterns to make RE predictions while ignoring the textual context. This motivates us to raise the question: ``are RE models robust to the entity replacements?'' In this work, we operate the random and type-constrained entity replacements over the RE instances in TACRED and evaluate the state-of-the-art RE models under the entity replacements. We observe the 30\% - 50\% F1 score drops on the state-of-the-art RE models under entity replacements. These results suggest that we need more efforts to develop effective RE models robust to entity replacements. We release the source code at https://github.com/wangywUST/RobustRE.
翻訳日:2024-05-08 20:33:08 公開日:2024-05-07
# シャープネスを意識したデータ中毒攻撃

Sharpness-Aware Data Poisoning Attack ( http://arxiv.org/abs/2305.14851v2 )

ライセンス: Link先を確認
Pengfei He, Han Xu, Jie Ren, Yingqian Cui, Hui Liu, Charu C. Aggarwal, Jiliang Tang, (参考訳) 最近の研究は、データ中毒攻撃に対するディープニューラルネットワーク(DNN)の脆弱性を強調している。 これらの攻撃は、トレーニングされたモデルに推論障害があるように、モデルのトレーニングデータセットに毒サンプルを注入することを目的としている。 これまでの研究では、様々な種類の攻撃を実行してきたが、その効果を著しく制限する大きな課題は、再訓練初期化やアルゴリズムを含む中毒サンプルの注入後の再訓練プロセスの不確実性である。 この課題に対処するため、我々は「SAPA(シャープネス・アウェア・データ・ポジショニング・アタック)」と呼ばれる新たな攻撃手法を提案する。 特に、DNNの損失ランドスケープシャープネスの概念を活用して、最悪の再訓練モデルに対する中毒効果を最適化する。 特定の再訓練手順によらず、中毒効果の保存を促進するのに役立ちます。 広範囲にわたる実験により、SAPAは様々な種類の中毒攻撃を著しく増強する一般的で原則化された戦略を提供することが示された。

Recent research has highlighted the vulnerability of Deep Neural Networks (DNNs) against data poisoning attacks. These attacks aim to inject poisoning samples into the models' training dataset such that the trained models have inference failures. While previous studies have executed different types of attacks, one major challenge that greatly limits their effectiveness is the uncertainty of the re-training process after the injection of poisoning samples, including the re-training initialization or algorithms. To address this challenge, we propose a novel attack method called ''Sharpness-Aware Data Poisoning Attack (SAPA)''. In particular, it leverages the concept of DNNs' loss landscape sharpness to optimize the poisoning effect on the worst re-trained model. It helps enhance the preservation of the poisoning effect, regardless of the specific retraining procedure employed. Extensive experiments demonstrate that SAPA offers a general and principled strategy that significantly enhances various types of poisoning attacks.
翻訳日:2024-05-08 20:33:08 公開日:2024-05-07
# 連続表現シフト下における近似ベイズ類連続モデル

Approximate Bayesian Class-Conditional Models under Continuous Representation Shift ( http://arxiv.org/abs/2305.19076v2 )

ライセンス: Link先を確認
Thomas L. Lee, Amos Storkey, (参考訳) ある表現空間における分類器からなるモデルの場合、静止しないデータストリームからオンラインに学習することは、しばしば表現の変化を必要とする。 したがって、この疑問は、表現のシフトに分類器を適応させる最良の方法は何ですか? 現在の手法は、分類器を徐々に表現シフトに変化させ、分類器が表現に不整合しているため、学習にノイズを導入するだけである。 本稿では,この問題を解決するための経験的ベイズ的手法であるDeepCCGを提案する。 DeepCCGは、クラス条件付きガウス分類器の後部を更新することで、分類器が1ステップで表現シフトに適応する。 クラス条件付きガウス分類器を使用することで、DeepCCGはログ条件付き辺縁確率損失を使用して表現を更新できる。 分類器と表現の更新を行うため、DeepCCGはメモリ内の固定されたサンプル数を保持しており、DeepCCGのキー部分は格納するサンプルを選択し、サブセットによって誘導される真の後部と後部の間のKLのばらつきを最小化するサブセットを選択する。 オンライン連続学習(CL)におけるDeepCCGの挙動を考察し、オンラインCL手法のスペクトルに対して良好に機能し、表現シフトによる性能変化を低減することを実証する。

For models consisting of a classifier in some representation space, learning online from a non-stationary data stream often necessitates changes in the representation. So, the question arises of what is the best way to adapt the classifier to shifts in representation. Current methods only slowly change the classifier to representation shift, introducing noise into learning as the classifier is misaligned to the representation. We propose DeepCCG, an empirical Bayesian approach to solve this problem. DeepCCG works by updating the posterior of a class conditional Gaussian classifier such that the classifier adapts in one step to representation shift. The use of a class conditional Gaussian classifier also enables DeepCCG to use a log conditional marginal likelihood loss to update the representation. To perform the update to the classifier and representation, DeepCCG maintains a fixed number of examples in memory and so a key part of DeepCCG is selecting what examples to store, choosing the subset that minimises the KL divergence between the true posterior and the posterior induced by the subset. We explore the behaviour of DeepCCG in online continual learning (CL), demonstrating that it performs well against a spectrum of online CL methods and that it reduces the change in performance due to representation shift.
翻訳日:2024-05-08 20:33:08 公開日:2024-05-07
# 正の非可換多項式によるスペクトル不均一グラフ畳み込み

Spectral Heterogeneous Graph Convolutions via Positive Noncommutative Polynomials ( http://arxiv.org/abs/2305.19872v3 )

ライセンス: Link先を確認
Mingguo He, Zhewei Wei, Shikun Feng, Zhengjie Huang, Weibin Li, Yu Sun, Dianhai Yu, (参考訳) 不均一グラフニューラルネットワーク(HGNN)は、様々な異種グラフ学習タスクで大きな人気を集めている。 しかし、既存のHGNNの多くは、情報収集のための空間的ドメインベースの手法、すなわち、手動で選択したメタパスやヒューリスティックモジュールに依存しており、理論的保証がない。 さらに、これらの手法はスペクトル領域内の任意の有効不均一グラフフィルタを学習することができず、表現性に制限がある。 これらの問題に対処するために、正の非可換多項式による正のスペクトル異質グラフ畳み込みを提案する。 そして、この畳み込みを用いて、新規な正スペクトル不均一グラフ畳み込みネットワークであるPSHGCNを提案する。 PSHGCNは、有効なヘテロジニアスグラフフィルタを学習するための、単純かつ効果的な方法を提供する。 さらに,グラフ最適化フレームワークにおけるPSHGCNの理論的根拠を示す。 我々は、PSHGCNが多様な異種グラフフィルタを学習し、オープンベンチマークで全てのベースラインを上回り得ることを示すために、広範な実験を行った。 特にPSHGCNは、数百万のノードとエッジからなる大規模な実世界のグラフを効率的に処理する、優れたスケーラビリティを示している。 私たちのコードはhttps://github.com/ivam-he/PSHGCN.comで公開されています。

Heterogeneous Graph Neural Networks (HGNNs) have gained significant popularity in various heterogeneous graph learning tasks. However, most existing HGNNs rely on spatial domain-based methods to aggregate information, i.e., manually selected meta-paths or some heuristic modules, lacking theoretical guarantees. Furthermore, these methods cannot learn arbitrary valid heterogeneous graph filters within the spectral domain, which have limited expressiveness. To tackle these issues, we present a positive spectral heterogeneous graph convolution via positive noncommutative polynomials. Then, using this convolution, we propose PSHGCN, a novel Positive Spectral Heterogeneous Graph Convolutional Network. PSHGCN offers a simple yet effective method for learning valid heterogeneous graph filters. Moreover, we demonstrate the rationale of PSHGCN in the graph optimization framework. We conducted an extensive experimental study to show that PSHGCN can learn diverse heterogeneous graph filters and outperform all baselines on open benchmarks. Notably, PSHGCN exhibits remarkable scalability, efficiently handling large real-world graphs comprising millions of nodes and edges. Our codes are available at https://github.com/ivam-he/PSHGCN.
翻訳日:2024-05-08 20:33:08 公開日:2024-05-07
# 量子ネットワークの老化と信頼性

Aging and Reliability of Quantum Networks ( http://arxiv.org/abs/2305.19976v2 )

ライセンス: Link先を確認
Lisa T. Weinbrenner, Lina Vandré, Tim Coopmans, Otfried Gühne, (参考訳) 量子情報科学は、コンピューティング、暗号、センシングの技術的ブレークスルーにつながる可能性がある。 しかし、これらのタスクの実装には、多くのコンポーネントを持つ複雑なデバイスが必要であり、量子的優位性は、少数の部品の故障によって容易に損なわれる可能性がある。 パラダイム的な例は量子ネットワークである。 光子吸収や不完全な量子メモリのようなノイズ源は、待ち時間が長く、忠実度も低いだけでなく、ハードウェアコンポーネントも壊れ、ネットワーク全体が機能不全になる可能性がある。 将来、量子ネットワークの長期展開が成功するためには、設計段階でそのような劣化効果を考慮することが重要である。 信頼性理論と老化理論の手法を用いて,非自明なトポロジに対しても,老化・修復機構下でのネットワークの機能を特徴付ける解析的アプローチを開発する。 数値シミュレーションと組み合わせることで, 経年変化下での長距離絡み合い分布の最適化が可能である。

Quantum information science may lead to technological breakthroughs in computing, cryptography and sensing. For the implementation of these tasks, however, complex devices with many components are needed and the quantum advantage may easily be spoiled by failure of few parts only. A paradigmatic example are quantum networks. There, not only noise sources like photon absorption or imperfect quantum memories lead to long waiting times and low fidelity, but also hardware components may break, leading to a dysfunctionality of the entire network. For the successful long-term deployment of quantum networks in the future, it is important to take such deterioration effects into consideration during the design phase. Using methods from reliability theory and the theory of aging we develop an analytical approach for characterizing the functionality of networks under aging and repair mechanisms, also for non-trivial topologies. Combined with numerical simulations, our results allow to optimize long-distance entanglement distribution under aging effects.
翻訳日:2024-05-08 20:33:08 公開日:2024-05-07
# ReFACT: テキストエンコーダの編集によるテキストから画像への更新

ReFACT: Updating Text-to-Image Models by Editing the Text Encoder ( http://arxiv.org/abs/2306.00738v2 )

ライセンス: Link先を確認
Dana Arad, Hadas Orgad, Yonatan Belinkov, (参考訳) 私たちの世界は、前例のない技術的、グローバル、そして社会的な政治変革に特徴付けられており、テキストから画像への生成モデルにとって大きな課題となっている。 これらのモデルは、パラメータ内の事実関連をエンコードし、すぐに時代遅れになり、エンドユーザの利便性を低下させる。 そこで本研究では,エンドユーザーからの明示的な入力を中継したり,コストのかかる再学習を行うことなく,テキスト・ツー・イメージ・モデルの事実関連を編集する新しい手法であるReFACTを紹介する。 ReFACTはテキストエンコーダ内の特定のレイヤの重みを更新し、モデルのパラメータのごく一部だけを変更し、残りのモデルに影響を与えない。 新たにキュレートされたデータセットとともに、既存のベンチマークでReFACTを実証的に評価する。 他の手法と比較して、ReFACTは関連する概念への一般化と無関係な概念の保存の両方において優れた性能を達成する。 さらに、ReFACTは画像生成の品質を維持しており、テキスト・ツー・イメージ・モデルの事実情報を更新・修正するための実用的なツールである。

Our world is marked by unprecedented technological, global, and socio-political transformations, posing a significant challenge to text-to-image generative models. These models encode factual associations within their parameters that can quickly become outdated, diminishing their utility for end-users. To that end, we introduce ReFACT, a novel approach for editing factual associations in text-to-image models without relaying on explicit input from end-users or costly re-training. ReFACT updates the weights of a specific layer in the text encoder, modifying only a tiny portion of the model's parameters and leaving the rest of the model unaffected. We empirically evaluate ReFACT on an existing benchmark, alongside a newly curated dataset. Compared to other methods, ReFACT achieves superior performance in both generalization to related concepts and preservation of unrelated concepts. Furthermore, ReFACT maintains image generation quality, making it a practical tool for updating and correcting factual information in text-to-image models.
翻訳日:2024-05-08 20:33:08 公開日:2024-05-07
# Data-Copilot: 自律ワークフローで数十億のデータと人間をブリッジする

Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow ( http://arxiv.org/abs/2306.07209v4 )

ライセンス: Link先を確認
Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang, (参考訳) 金融、気象学、エネルギーといった様々な産業が毎日大量の異種データを生産している。 人間がデータを効率的に管理、処理、表示することに対する自然な要求がある。 しかし、労働集約的な努力と、これらのデータ関連のタスクに高いレベルの専門知識を必要とする。 大規模言語モデル(LLM)が意味理解と推論において有望な能力を示すことを考慮し、LLMの展開は、人間に優しい方法で対話し、表示しながら、大量のデータを自律的に管理し、処理することができることを提唱する。 そこで本研究では,一方の端に多数のデータソースを接続し,他方の端に多様な人的要求に対応するLLMベースのシステムであるData-Copilotを提案する。 経験豊富な専門家として、Data-Copilotは、生データをユーザの意図に最も合うマルチフォーム出力に自律的に変換する。 具体的には、クエリ、分析、予測、視覚化など、さまざまなデータ関連の要求を満たすために、まず複数のユニバーサルインターフェースを設計する。 リアルタイム応答では、対応するインターフェイスを呼び出すことで、簡潔なワークフローを自動的に展開する。 プロセス全体がData-Copilotによって完全に制御され、人間の助けがない。 私たちは、大規模な中国の財務データ、例えば株式、ファンド、ニュースを使ってData-Copilot-1.0をリリースします。 実験の結果、トークン使用率を低くして信頼性の高いパフォーマンスを実現し、将来性のあるアプリケーションの見通しを示している。

Various industries such as finance, meteorology, and energy produce vast amounts of heterogeneous data every day. There is a natural demand for humans to manage, process, and display data efficiently. However, it necessitates labor-intensive efforts and a high level of expertise for these data-related tasks. Considering large language models (LLMs) showcase promising capabilities in semantic understanding and reasoning, we advocate that the deployment of LLMs could autonomously manage and process massive amounts of data while interacting and displaying in a human-friendly manner. Based on this, we propose Data-Copilot, an LLM-based system that connects numerous data sources on one end and caters to diverse human demands on the other end. Acting as an experienced expert, Data-Copilot autonomously transforms raw data into multi-form output that best matches the user's intent. Specifically, it first designs multiple universal interfaces to satisfy diverse data-related requests, like querying, analysis, prediction, and visualization. In real-time response, it automatically deploys a concise workflow by invoking corresponding interfaces. The whole process is fully controlled by Data-Copilot, without human assistance. We release Data-Copilot-1.0 using massive Chinese financial data, e.g., stocks, funds, and news. Experiments indicate it achieves reliable performance with lower token consumption, showing promising application prospects.
翻訳日:2024-05-08 20:33:08 公開日:2024-05-07
# 境界時間結晶の量子熱力学

Quantum thermodynamics of boundary time-crystals ( http://arxiv.org/abs/2306.07330v2 )

ライセンス: Link先を確認
Federico Carollo, Igor Lesanovsky, Mauro Antezza, Gabriele De Chiara, (参考訳) 時間変換対称性の破れはマルコフ開量子系における非定常多体相、いわゆる時間結晶の出現のメカニズムである。 時間結晶の動的側面は近年広く研究されている。 しかし、これらの相の内在的な非平衡性のため、熱力学的性質についてはあまり知られていない。 ここでは、有限温度環境におけるパラダイム的境界時間-結晶系について考察し、任意の温度における時間-結晶相の持続性を実証する。 さらに, モデルの熱力学的側面, 特に熱電流, 電力交換, 可逆エントロピー生成について検討した。 我々の研究は、非平衡時間結晶相を持続する熱力学的コストに光を当て、時間結晶を量子センシングの可能な資源として特徴付けるための枠組みを提供する。 熱力学量と集合(磁化)演算子の平均値と共分散を結合するため, トラップイオンや超伝導回路などの実験で検証することができる。

Time-translation symmetry breaking is a mechanism for the emergence of non-stationary many-body phases, so-called time-crystals, in Markovian open quantum systems. Dynamical aspects of time-crystals have been extensively explored over the recent years. However, much less is known about their thermodynamic properties, also due to the intrinsic nonequilibrium nature of these phases. Here, we consider the paradigmatic boundary time-crystal system, in a finite-temperature environment, and demonstrate the persistence of the time-crystalline phase at any temperature. Furthermore, we analyze thermodynamic aspects of the model investigating, in particular, heat currents, power exchange and irreversible entropy production. Our work sheds light on the thermodynamic cost of sustaining nonequilibrium time-crystalline phases and provides a framework for characterizing time-crystals as possible resources for, e.g., quantum sensing. Our results may be verified in experiments, for example with trapped ions or superconducting circuits, since we connect thermodynamic quantities with mean value and covariance of collective (magnetization) operators.
翻訳日:2024-05-08 20:33:08 公開日:2024-05-07
# 量子ドットにおける断熱量子ポンプの熱力学

Thermodynamics of adiabatic quantum pumping in quantum dots ( http://arxiv.org/abs/2306.08621v2 )

ライセンス: Link先を確認
Daniele Nello, Alessandro Silva, (参考訳) 2つのフェルミオンリードに接続された単一レベルの量子ドットである共鳴レベルモデルによる断熱量子ポンピングを考察する。 断熱膨張のツールを用いて, 点のエネルギーレベルと熱浴によるトンネル速度の変動を考慮した, このモデルの一貫した熱力学的記述を開発した。 これにより、発生したエントロピーや消散力など、関連する熱力学量を計算するポンプサイクルの様々な例を研究できる。 これらの量は系の輸送特性、すなわち励起電荷と電荷雑音と比較される。 その結果, 電荷量子化限界ではエントロピー生成速度が消失し, 散逸した電力は同じ限界で量子化されることがわかった。

We consider adiabatic quantum pumping through a resonant level model, a single-level quantum dot connected to two fermionic leads. Using the tools of adiabatic expansion, we develop a consistent thermodynamic description of this model accounting for the variation of the energy level of the dot and the tunnelling rates with the thermal baths. This enables us to study various examples of pumping cycles computing the relevant thermodynamic quantities, such as the entropy produced and the dissipated power. These quantities are compared with the transport properties of the system, i.e. the pumped charge and the charge noise. Among other results, we find that the entropy production rate vanishes in the charge quantization limit while the dissipated power is quantized in the same limit.
翻訳日:2024-05-08 20:23:22 公開日:2024-05-07
# ウエハスケール超伝導量子ビット用平面サファイア基板上のエピタキシャルα-Ta(110)膜

Epitaxial α-Ta (110) film on a-plane sapphire substrate for superconducting qubits on wafer scale ( http://arxiv.org/abs/2306.09568v2 )

ライセンス: Link先を確認
Boyi Zhou, Lina Yang, Tao Wang, Yanfu Wu, Kanglin Xiong, Jiagui Feng, (参考訳) 実用的な超伝導量子コンピューティングの実現には長いコヒーレンス時間を必要とする。 また,c面サファイア上に堆積したTaは,c面サファイアの原子間関係から高品質のTa(110)膜をエピタキシャルに成長させることができる。 ウエハスケールのa面サファイア上に配向した高配向型 {\alpha}-Ta (110) 膜を作製した。 このフィルムは高い残留抵抗比を示す。 これらのフィルムを用いて作製されたトランスモン量子ビットは、150 {\mu}を超える緩和時間を示す。 その結果,a面サファイア上のTa膜は,ウェハスケール上での長時間のコヒーレンス時間クビットに有望な選択であることが示唆された。

Realization of practical superconducting quantum computing requires many qubits of long coherence time. Compared to the commonly used Ta deposited on c-plane sapphire, which occasionally form {\alpha}-Ta (111) grains and \b{eta}-tantalum grains, high quality Ta (110) film can grow epitaxial on a-plane sapphire because of the atomic relationships at the interface. Well-ordered {\alpha}-Ta (110) film on wafer-scale a-plane sapphire has been prepared. The film exhibits high residual resistance ratio. Transmon qubits fabricated using these film shows relaxation times exceeding 150 {\mu}s. The results suggest Ta film on a-plane sapphire is a promising choice for long coherence time qubit on wafer scale.
翻訳日:2024-05-08 20:23:22 公開日:2024-05-07
# PINQI: 定量的MRI再構成のための物理インフォームドアプローチ

PINQI: An End-to-End Physics-Informed Approach to Learned Quantitative MRI Reconstruction ( http://arxiv.org/abs/2306.11023v2 )

ライセンス: Link先を確認
Felix F Zimmermann, Christoph Kolbitsch, Patrick Schuenke, Andreas Kofler, (参考訳) 定量的磁気共鳴イメージング(qMRI)は、生体物理パラメータの再現可能な測定を可能にする。 この課題は、取得した生データから所望の組織パラメーターマップを得るために、非線形で不適切な逆問題を解決することである。 様々な学習的および非学習的アプローチが提案されているが、既存の学習方法は基礎となるMR物理、すなわち信号モデルと取得モデルに関する事前知識を十分に活用することができない。 本稿では、信号、取得モデルに関する知識を統合し、単一エンドツーエンドのトレーニング可能なニューラルネットワークに正規化を学習する新しいqMRI再構成手法であるPINQIを提案する。 提案手法は, 線形および非線形の内的最適化タスクを解くために, 微分可能な最適化ブロックと, 中間定性的画像とパラメータマップの正規化のための畳み込み層を利用する。 この設計により、PINQIは信号モデルと学習正規化の両方の利点を利用することができる。 提案したネットワークの性能を、シミュレーションされた脳データと、健康なボランティアから取得した実データの両方を用いて、高度にアンサンプされた$T_1$-mappingの文脈で最近発表されたアプローチと比較することにより評価した。 その結果,提案手法が既存手法よりも優れていることを示すとともに,現実シナリオにおける提案手法の有効性を強調した。

Quantitative Magnetic Resonance Imaging (qMRI) enables the reproducible measurement of biophysical parameters in tissue. The challenge lies in solving a nonlinear, ill-posed inverse problem to obtain the desired tissue parameter maps from acquired raw data. While various learned and non-learned approaches have been proposed, the existing learned methods fail to fully exploit the prior knowledge about the underlying MR physics, i.e. the signal model and the acquisition model. In this paper, we propose PINQI, a novel qMRI reconstruction method that integrates the knowledge about the signal, acquisition model, and learned regularization into a single end-to-end trainable neural network. Our approach is based on unrolled alternating optimization, utilizing differentiable optimization blocks to solve inner linear and non-linear optimization tasks, as well as convolutional layers for regularization of the intermediate qualitative images and parameter maps. This design enables PINQI to leverage the advantages of both the signal model and learned regularization. We evaluate the performance of our proposed network by comparing it with recently published approaches in the context of highly undersampled $T_1$-mapping, using both a simulated brain dataset, as well as real scanner data acquired from a physical phantom and in-vivo data from healthy volunteers. The results demonstrate the superiority of our proposed solution over existing methods and highlight the effectiveness of our method in real-world scenarios.
翻訳日:2024-05-08 20:23:22 公開日:2024-05-07
# 熱処理と断熱にショートカットを施した量子オットーエンジン

A Quantum Otto Engine with Shortcuts to Thermalization and Adiabaticity ( http://arxiv.org/abs/2306.14847v5 )

ライセンス: Link先を確認
Ali Pedram, Serhat C. Kadıoğlu, Alkan Kabakçıoğlu, Özgür E. Müstecaplıoğlu, (参考訳) 我々は, 量子調和振動子オットーエンジンを, 短絡(拡張・圧縮ストローク)と平衡(ホットアイソコール)に対向断熱駆動(CD)により加速させるエネルギー的優位性について検討した。 各種プロトコルとCD駆動とを比較して, 運転コストを考慮した場合においても, 双方のショートカットを適用すれば, パワーと効率が向上することがわかった。 ハイブリッドプロトコルはリミットサイクルにおいてその優位性を保持するだけでなく、未制御の有限時間オットーサイクルが失敗するパラメータレジームにおけるエンジン機能(すなわち正の出力)を回復する。 サイクルの3ストロークの制御は,2つのアディバティックストロークの制御に比べ,パフォーマンス指標の全体的な改善につながることを示す。 さらに, エンジンのリミットサイクル挙動を数値計算し, 加速した等方性ストロークと断熱性ストロークのエンジンが, この動作モードで優れた出力を示すことを示す。

We investigate the energetic advantage of accelerating a quantum harmonic oscillator Otto engine by use of shortcuts to adiabaticity (for the expansion and compression strokes) and to equilibrium (for the hot isochore), by means of counter-diabatic (CD) driving. By comparing various protocols with and without CD driving, we find that, applying both type of shortcuts leads to enhanced power and efficiency even after the driving costs are taken into account. The hybrid protocol not only retains its advantage in the limit cycle, but also recovers engine functionality (i.e. a positive power output) in parameter regimes where an uncontrolled, finite-time Otto cycle fails. We show that controlling three strokes of the cycle leads to an overall improvement of the performance metrics compared with controlling only the two adiabatic strokes. Moreover, we numerically calculate the limit cycle behavior of the engine and show that the engines with accelerated isochoric and adiabatic strokes display a superior power output in this mode of operation.
翻訳日:2024-05-08 20:23:22 公開日:2024-05-07
# 輸送は変分推論に合致する:制御モンテカルロ拡散

Transport meets Variational Inference: Controlled Monte Carlo Diffusions ( http://arxiv.org/abs/2307.01050v7 )

ライセンス: Link先を確認
Francisco Vargas, Shreyas Padhy, Denis Blessing, Nikolas Nüsken, (参考訳) 最適輸送と変分推論を結びつけることにより,経路空間上の発散を中心とした標本化および生成モデル作成のための,原理的かつ体系的な枠組みを提示する。 本研究は, 拡散モデルにおいて, 前方および後方の両方に重要な適応を行うスコアベースアニーリング技術であるベイズ計算のための<emph{Controlled Monte Carlo Diffusion} sampler (CMCD) の開発において, 本研究の成果である。 そこで本研究では,Shr{\"o}dingerブリッジのEM-algorithmと反復比例フィッティング(IPF)の関係を明らかにするとともに,標準IPF更新の反復的ボトルネックを回避した正規化目的を導出する。 最後に,CMCDは統計物理学からJarzinskyとCrooksのアイデンティティに強い基盤を持ち,様々な実験において競合するアプローチよりも優れていることを示す。

Connecting optimal transport and variational inference, we present a principled and systematic framework for sampling and generative modelling centred around divergences on path space. Our work culminates in the development of the \emph{Controlled Monte Carlo Diffusion} sampler (CMCD) for Bayesian computation, a score-based annealing technique that crucially adapts both forward and backward dynamics in a diffusion model. On the way, we clarify the relationship between the EM-algorithm and iterative proportional fitting (IPF) for Schr{\"o}dinger bridges, deriving as well a regularised objective that bypasses the iterative bottleneck of standard IPF-updates. Finally, we show that CMCD has a strong foundation in the Jarzinsky and Crooks identities from statistical physics, and that it convincingly outperforms competing approaches across a wide array of experiments.
翻訳日:2024-05-08 20:23:22 公開日:2024-05-07
# グラフニューラルネットワークのパワーと活性化関数の役割について

On the power of graph neural networks and the role of the activation function ( http://arxiv.org/abs/2307.04661v5 )

ライセンス: Link先を確認
Sammy Khalife, Amitabh Basu, (参考訳) 本稿では,グラフニューラルネットワーク(GNN)の表現性について述べる。 グラフ入力サイズでアーキテクチャサイズが成長しない任意の多項式アクティベートを持つGNNに対して、GNNが任意の反復数まで根頂点を区別できないような、深さ2の非同型ルート木が一対存在することを証明している。 この証明は対称多項式の代数の道具に依存する。 対照的に、非有界なGNN(グラフサイズでサイズが変更できるもの)は、分割多項式のアクティベーションによって、これらの頂点を2つのイテレーションで区別できることは、すでに知られていた。 また、ReLU(一部線形)の活性化により、有界GNNは非有界GNN(Aamand & Al., 2022)よりも弱いことが知られている。 このアプローチは、Grohe [Grohe,2021] によってより完全に定式化された開問題に答える方向に進む任意の分数次多項式活性化関数を扱うように拡張することで、この結果に追加する。 2つ目の結果は、1つのニューロンパーセプトロンは1つの深さ2の非同型木の根の頂点を区別することができる(我々の結果はシグモイド、双曲タンなどの活性化を保っている)。 このことは、ニューラルネットワークの活性化関数を変更すると、グラフニューラルネットワークのパワーが劇的に変化することを示している。 この結果の証明は、超越数論のリンデマン=ワイエルシュトラウスの定理を利用する。

In this article we present new results about the expressivity of Graph Neural Networks (GNNs). We prove that for any GNN with piecewise polynomial activations, whose architecture size does not grow with the graph input sizes, there exists a pair of non-isomorphic rooted trees of depth two such that the GNN cannot distinguish their root vertex up to an arbitrary number of iterations. The proof relies on tools from the algebra of symmetric polynomials. In contrast, it was already known that unbounded GNNs (those whose size is allowed to change with the graph sizes) with piecewise polynomial activations can distinguish these vertices in only two iterations. It was also known prior to our work that with ReLU (piecewise linear) activations, bounded GNNs are weaker than unbounded GNNs [Aamand & Al., 2022]. Our approach adds to this result by extending it to handle any piecewise polynomial activation function, which goes towards answering an open question formulated by Grohe [Grohe,2021] more completely. Our second result states that if one allows activations that are not piecewise polynomial, then in two iterations a single neuron perceptron can distinguish the root vertices of any pair of nonisomorphic trees of depth two (our results hold for activations like the sigmoid, hyperbolic tan and others). This shows how the power of graph neural networks can change drastically if one changes the activation function of the neural networks. The proof of this result utilizes the Lindemann-Weierstrauss theorem from transcendental number theory.
翻訳日:2024-05-08 20:23:22 公開日:2024-05-07
# PINNsFormer:物理インフォームドニューラルネットワークのためのトランスフォーマーベースのフレームワーク

PINNsFormer: A Transformer-Based Framework For Physics-Informed Neural Networks ( http://arxiv.org/abs/2307.11833v3 )

ライセンス: Link先を確認
Zhiyuan Zhao, Xueying Ding, B. Aditya Prakash, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)の数値解を近似するための有望なディープラーニングフレームワークとして登場した。 しかし、従来のPINNは多層パーセプトロン(MLP)に依存しており、実際的な物理系に固有の重要な時間的依存関係を無視しているため、初期条件制約をグローバルに伝播せず、様々なシナリオ下で真の解を正確に捉えることができなかった。 本稿では,この制限に対処するために,新しいトランスフォーマーベースのフレームワークであるPINNsFormerを紹介する。 PINNsFormerはマルチヘッドアテンション機構を利用してPDEソリューションを正確に近似し、時間的依存関係をキャプチャする。 PINNsFormerは、ポイントワイズ入力を擬似シーケンスに変換し、ポイントワイズPINNの損失をシーケンシャルな損失に置き換える。 さらに、深層ニューラルネットワークを通じてフーリエ分解を予想する新しいアクティベーション機能であるWaveletも組み込まれている。 実証実験の結果、PINNsFormerは、PINNの障害モードや高次元PDEなど、様々なシナリオにおいて、より優れた一般化能力と精度を実現することが示された。 さらに、PINNsFormerは、PINNの既存の学習スキームの統合の柔軟性を提供し、そのパフォーマンスをさらに向上させる。

Physics-Informed Neural Networks (PINNs) have emerged as a promising deep learning framework for approximating numerical solutions to partial differential equations (PDEs). However, conventional PINNs, relying on multilayer perceptrons (MLP), neglect the crucial temporal dependencies inherent in practical physics systems and thus fail to propagate the initial condition constraints globally and accurately capture the true solutions under various scenarios. In this paper, we introduce a novel Transformer-based framework, termed PINNsFormer, designed to address this limitation. PINNsFormer can accurately approximate PDE solutions by utilizing multi-head attention mechanisms to capture temporal dependencies. PINNsFormer transforms point-wise inputs into pseudo sequences and replaces point-wise PINNs loss with a sequential loss. Additionally, it incorporates a novel activation function, Wavelet, which anticipates Fourier decomposition through deep neural networks. Empirical results demonstrate that PINNsFormer achieves superior generalization ability and accuracy across various scenarios, including PINNs failure modes and high-dimensional PDEs. Moreover, PINNsFormer offers flexibility in integrating existing learning schemes for PINNs, further enhancing its performance.
翻訳日:2024-05-08 20:23:22 公開日:2024-05-07
# 自由フェルミオン操作に支配される量子回路のシミュレーションの改善

Improved simulation of quantum circuits dominated by free fermionic operations ( http://arxiv.org/abs/2307.12702v3 )

ライセンス: Link先を確認
Oliver Reardon-Smith, Michał Oszmaniec, Kamil Korzekwa, (参考訳) 本稿では,FLO(Fermionic-linear-optical)ゲートと,非ガウスゲート(Gaussian gates)の「自由」近傍マッチゲートと等価なフェルミオン線形光学(FLO)ゲートからなる量子回路をシミュレーションする古典的アルゴリズムを提案する。 非ガウス的資源状態を用いた任意の位相で制御相ゲートをガジェット化することにより、効率よくシミュレーション可能なFLOサブセトリを普遍量子計算に昇格させる。 我々の重要な貢献は、FLO回路をシミュレートする新しい位相感受性アルゴリズムの開発である。 これにより、密度行列ではなく状態ベクトルのレベルで、ガジェット化から生じる資源状態を自由状態に分解することができる。 与えられた量子回路のボルンルール確率を推定するアルゴリズムの実行時コストは、制御相ゲート数と指数関数的にスケールする新しく導入されたFLO範囲への線形依存を除いて、全ての回路パラメータで多項式的にスケールする。 より正確には、関連するリソース状態を最適に分解した結果、ランタイムは最大でリソースに富んだ(例えば、スワップまたはCZ)ゲートを追加するごとに倍になる。 このコストは、各スワップゲートが約9倍のシミュレーションコストを増大させる、最もよく知られた事前アルゴリズムと比較して非常に好ましい。 任意のFLOユニタリーと$k$制御Zゲートを含む量子回路に対して、先行状態よりも指数関数的に$O(4.5^k)$を得る。

We present a classical algorithm for simulating universal quantum circuits composed of "free" nearest-neighbour matchgates or equivalently fermionic-linear-optical (FLO) gates, and "resourceful" non-Gaussian gates. We achieve the promotion of the efficiently simulable FLO subtheory to universal quantum computation by gadgetizing controlled phase gates with arbitrary phases employing non-Gaussian resource states. Our key contribution is the development of a novel phase-sensitive algorithm for simulating FLO circuits. This allows us to decompose the resource states arising from gadgetization into free states at the level of statevectors rather than density matrices. The runtime cost of our algorithm for estimating the Born-rule probability of a given quantum circuit scales polynomially in all circuit parameters, except for a linear dependence on the newly introduced FLO extent, which scales exponentially with the number of controlled-phase gates. More precisely, as a result of finding optimal decompositions of relevant resource states, the runtime doubles for every maximally resourceful (e.g., swap or CZ) gate added. Crucially, this cost compares very favourably with the best known prior algorithm, where each swap gate increases the simulation cost by a factor of approximately 9. For a quantum circuit containing arbitrary FLO unitaries and $k$ controlled-Z gates, we obtain an exponential improvement $O(4.5^k)$ over the prior state-of-the-art.
翻訳日:2024-05-08 20:23:22 公開日:2024-05-07
# CLIP-KD : CLIPモデル蒸留の実証的研究

CLIP-KD: An Empirical Study of CLIP Model Distillation ( http://arxiv.org/abs/2307.12732v2 )

ライセンス: Link先を確認
Chuanguang Yang, Zhulin An, Libo Huang, Junyu Bi, Xinqiang Yu, Han Yang, Boyu Diao, Yongjun Xu, (参考訳) Contrastive Language-Image Pre-Training (CLIP) は、有望な言語による視覚的事前トレーニングフレームワークとなっている。 本稿では,大規模教師CLIPモデルによって指導される小型CLIPモデルを蒸留することを目的とする。 CLIP-Knowledge Distillation (KD) の有効性を検討するために, 関係, 特徴, 勾配, コントラストパラダイムなどの蒸留手法を提案する。 Mean Squared Error損失による単純な機能模倣が驚くほどうまく機能することを示す。 また,教師と生徒のエンコーダ間での対話的コントラスト学習も性能向上に有効である。 CLIP-KDの成功は,教師と学生の特徴的類似性を最大化することに起因すると説明できる。 CC3M+12Mで訓練された複数の学生モデルを蒸留するために, この統一手法を適用した。 CLIP-KDは、ゼロショットイメージネット分類とクロスモーダル検索ベンチマークよりも、学生のCLIPモデルを一貫して改善する。 Laion-400Mで事前訓練されたViT-L/14を教師として使用する場合、CLIP-KDは57.5\%と55.4\%のゼロショットトップ-1 ImageNetの精度をViT-B/16とResNet-50で達成し、KDのないオリジナルのCLIPをそれぞれ20.5\%と20.1\%のマージンで上回った。 私たちのコードはhttps://github.com/winycg/CLIP-KD.comで公開されています。

Contrastive Language-Image Pre-training (CLIP) has become a promising language-supervised visual pre-training framework. This paper aims to distill small CLIP models supervised by a large teacher CLIP model. We propose several distillation strategies, including relation, feature, gradient and contrastive paradigms, to examine the effectiveness of CLIP-Knowledge Distillation (KD). We show that a simple feature mimicry with Mean Squared Error loss works surprisingly well. Moreover, interactive contrastive learning across teacher and student encoders is also effective in performance improvement. We explain that the success of CLIP-KD can be attributed to maximizing the feature similarity between teacher and student. The unified method is applied to distill several student models trained on CC3M+12M. CLIP-KD improves student CLIP models consistently over zero-shot ImageNet classification and cross-modal retrieval benchmarks. When using ViT-L/14 pretrained on Laion-400M as the teacher, CLIP-KD achieves 57.5\% and 55.4\% zero-shot top-1 ImageNet accuracy over ViT-B/16 and ResNet-50, surpassing the original CLIP without KD by 20.5\% and 20.1\% margins, respectively. Our code is released on https://github.com/winycg/CLIP-KD.
翻訳日:2024-05-08 20:23:22 公開日:2024-05-07
# 固有混合状態量子トポロジー次数

Intrinsic Mixed-state Quantum Topological Order ( http://arxiv.org/abs/2307.13758v2 )

ライセンス: Link先を確認
Zijian Wang, Zhengzhi Wu, Zhong Wang, (参考訳) デコヒーレンス(decoherence)は、ノイズの多い中間スケール量子デバイスにおけるトポロジカル秩序の調製における大きな障害である。 ここでは、デコヒーレンスによって新しいタイプのトポロジカル秩序がもたらされることを示す。 具体的には、局所量子チャネルを介してトーリック符号中のフェルミオン性エノンを増殖させることにより、具体例を構築する。 結果として生じる混合状態は、非ゼロトポロジカルエンタングルメントの負性性を示す長距離エンタングルメントを保持するが、トポロジカル量子メモリはデコヒーレンスによって破壊される。 純状態の空隙のないスピン液体と比較して、同定された状態は、純粋な状態にはない新しい固有の混合状態量子トポロジー秩序を表すことを示す。 1-形式の対称性の量子異常のレンズを通して、本質的な混合状態の量子トポロジカル秩序の一般的な構成を提供し、これらの新しい位相のもう一つの重要な特徴として非ボゾン分解エノンの存在を明らかにする。 混合状態における解離励起の延長の意味と特徴とそれらの統計を解明する。 さらに、これらの分解された素粒子が非自明なブレイディング統計を持つ場合、混合状態 % が任意の二分割に対して長距離絡み合わなければならないことを証明する。 すなわち、そのような混合状態は、任意の二部分離状態から有限深さの局所量子チャネルを介しては生成できない。 さらに,ハニカムデコハニカムモデルと2重セミオンデコハニカムモデルを用いて,本モデルを構築した。 後者の場合、デコヒーレンス(decoherence)という驚くべきシナリオが出現し、デコヒーレンス(decoherence)が付加的なタイプのデコペンデントエノン(deconfined anyon)を引き起こす。

Decoherence is a major obstacle to the preparation of topological order in noisy intermediate-scale quantum devices. Here, we show that decoherence can also give rise to new types of topological order. Specifically, we construct concrete examples by proliferating fermionic anyons in the toric code via local quantum channels. The resulting mixed states retain long-range entanglement, which manifests in the nonzero topological entanglement negativity, though the topological quantum memory is destroyed by decoherence. By comparison to the gapless spin liquid in pure states, we show that the identified states represent a novel intrinsic mixed-state quantum topological order, which has no counterpart in pure states. Through the lens of quantum anomalies of 1-form symmetries, we then provide general constructions of intrinsic mixed-state quantum topological order, and reveal the existence of non-bosonic deconfined anyons as another key feature of these novel phases. The extended meaning and characterization of deconfined excitations and their statistics in mixed states are clarified. Moreover, when these deconfined anyons have nontrivial braiding statistics, we prove that the mixed states %must be bipartite long-range entangled for any bipartition. That is, such mixed states cannot be prepared via finite-depth local quantum channels from any bipartite separable states. We further demonstrate our construction using the decohered Kitaev honeycomb model and the decohered double semion model. In the latter case, a surprising scenario arises where decoherence gives rise to additional types of deconfined anyons.
翻訳日:2024-05-08 20:23:22 公開日:2024-05-07
# 軌道角運動量の固有状態を記述するための経路分布

Path distributions for describing eigenstates of orbital angular momentum ( http://arxiv.org/abs/2308.02884v5 )

ライセンス: Link先を確認
Randall M. Feenstra, (参考訳) 軌道角運動量固有状態の波動関数を構成する経路の確率振幅について述べる。 定常相解析の一般化を用いて、任意の固有状態に対して経路がどのように寄与するかを測る分布が導出される。 長い走行時間の極限において、これらの分布は、経路の終点間の古典的な移動を記述する運動量の変数の実数値で非負の関数であることが判明した(非古典的なものを含む経路は、弾性の言葉で説明される)。 分布は、この特性運動量と、エンドポイントを接続する測地線の座標系のz軸に対して傾きを与える極角の両方の関数である。 結果として得られる記述は、軌道角運動量を記述するためによく知られた「ベクトルモデル」の代替となり、より重要なのは、量子数 $\ell$ が 0 である場合(すなわち s-状態)の扱いを含むことである。

The manner in which probability amplitudes of paths sum up to form wave functions of orbital angular momentum eigenstates is described. Using a generalization of stationary-phase analysis, distributions are derived that provide a measure of how paths contribute towards any given eigenstate. In the limit of long travel-time, these distributions turn out to be real-valued, non-negative functions of a momentum variable that describes classical travel between the endpoints of a path (with the paths explicitly including nonclassical ones, described in terms of elastica). The distributions are functions of both this characteristic momentum as well as a polar angle that provides a tilt, relative to the z-axis of the chosen coordinate system, of the geodesic that connects the endpoints. The resulting description provides a replacement for the well-known "vector model" for describing orbital angular momentum, and importantly, it includes treatment of the case when the quantum number $\ell$ is zero (i.e., s-states).
翻訳日:2024-05-08 20:23:22 公開日:2024-05-07
# Zero Grads: 微分不可能なグラフィクスのための局所サロゲート損失の学習

Zero Grads: Learning Local Surrogate Losses for Non-Differentiable Graphics ( http://arxiv.org/abs/2308.05739v2 )

ライセンス: Link先を確認
Michael Fischer, Tobias Ritschel, (参考訳) グラディエントベースの最適化は現在、グラフィックス全体にわたって至るところで行われているが、不幸にも未定義やゼロ勾配の問題には適用できない。 この問題を回避するために、損失関数は手動で、類似のミニマを持つが微分可能な '`surrogate'' に置き換えることができる。 提案するフレームワークであるZeroGradsは,対象関数の神経近似を学習することで,このプロセスを自動化する。 目的の積極的に円滑なバージョンでサロゲートを訓練し、局所性を奨励し、サロゲートの能力が現在のトレーニングエピソードで重要なものに集中する。 このフィッティングはパラメータ最適化とともにオンラインで行われ、事前計算されたデータや事前訓練されたモデルなしで自己教師される。 対象のサンプリングはコストがかかるため(フルレンダリングやシミュレータ実行が必要)、トラクタブルな実行時間と競争性能を少ないオーバーヘッドで実現可能な効率的なサンプリングスキームを考案する。 本稿では、レンダリングの可視性、手続き型モデリングにおける離散パラメータ空間、物理駆動型アニメーションにおける最適制御など、グラフィックスにおける様々な非凸・非微分可能なブラックボックス問題を最適化する。 他の微分自由アルゴリズムとは対照的に、我々の手法はより高次元にスケールし、最大35kの相互結合変数の問題を実演する。

Gradient-based optimization is now ubiquitous across graphics, but unfortunately can not be applied to problems with undefined or zero gradients. To circumvent this issue, the loss function can be manually replaced by a ``surrogate'' that has similar minima but is differentiable. Our proposed framework, ZeroGrads, automates this process by learning a neural approximation of the objective function, which in turn can be used to differentiate through arbitrary black-box graphics pipelines. We train the surrogate on an actively smoothed version of the objective and encourage locality, focusing the surrogate's capacity on what matters at the current training episode. The fitting is performed online, alongside the parameter optimization, and self-supervised, without pre-computed data or pre-trained models. As sampling the objective is expensive (it requires a full rendering or simulator run), we devise an efficient sampling scheme that allows for tractable run-times and competitive performance at little overhead. We demonstrate optimizing diverse non-convex, non-differentiable black-box problems in graphics, such as visibility in rendering, discrete parameter spaces in procedural modelling or optimal control in physics-driven animation. In contrast to other derivative-free algorithms, our approach scales well to higher dimensions, which we demonstrate on problems with up to 35k interlinked variables.
翻訳日:2024-05-08 20:23:22 公開日:2024-05-07
# 第2回アダプティブサイバー防衛国際ワークショップの開催報告

Proceedings of the 2nd International Workshop on Adaptive Cyber Defense ( http://arxiv.org/abs/2308.09520v4 )

ライセンス: Link先を確認
Marco Carvalho, Damian Marriott, Mark Bilinski, Ahmad Ridley, (参考訳) 第2回アダプティブ・サイバー・ディフェンスに関する国際ワークショップがフロリダ州のフロリダ工科大学で開催された。 このワークショップは、AI(AI)と機械学習(ML)のユニークな応用を、適応型サイバー防御の追求のための基礎的な能力として探求する研究を共有するために組織された。 現在、サイバードメインは、人間の専門家に大きく依存することなく、確実かつ効果的に保護することはできない。 熟練したサイバーディフェンダーは供給不足であり、サイバー脅威に十分早く対応できないことが多い。 AIとMLの最近の進歩に基づいて、サイバー防衛研究コミュニティは、サイバー設定へのAIとML技術の導入を通じて、新しい動的で持続可能な防衛を開発する動機付けを受けている。 AIとサイバー研究者と実践者の致命的なギャップを埋めることによって、サイバー攻撃を認識し、反応し、他のサイバー操作システムや人間の専門家と協力して弱点を発見し、緩和することができる半自律的なサイバー防御を開発する努力を加速することができる。 さらに、これらの防御は適応的で、時間とともに進化し、攻撃者の行動の変化、システムの健全性や準備性の変化、時間の経過とともにユーザー行動の自然な変化を防ぐことが期待されている。 ワークショップは、招待された基調講演、テクニカルプレゼンテーション、AI/MLが現在のサイバー攻撃と将来のサイバー攻撃の自律的緩和を可能にする方法についてのパネルディスカッションで構成された。 ワークショップの提出は、国家と世界の安全保障にとって重要な問題に取り組む6つの技術論文からなる手続きで、ドメイン専門家のパネルによって査読された。 このワークショップへの参加は、適応型および自律型サイバー防衛の新興領域における研究とイノベーションを刺激する新たな機会を提供した。

The 2nd International Workshop on Adaptive Cyber Defense was held at the Florida Institute of Technology, Florida. This workshop was organized to share research that explores unique applications of Artificial Intelligence (AI) and Machine Learning (ML) as foundational capabilities for the pursuit of adaptive cyber defense. The cyber domain cannot currently be reliably and effectively defended without extensive reliance on human experts. Skilled cyber defenders are in short supply and often cannot respond fast enough to cyber threats. Building on recent advances in AI and ML the Cyber defense research community has been motivated to develop new dynamic and sustainable defenses through the adoption of AI and ML techniques to cyber settings. Bridging critical gaps between AI and Cyber researchers and practitioners can accelerate efforts to create semi-autonomous cyber defenses that can learn to recognize and respond to cyber attacks or discover and mitigate weaknesses in cooperation with other cyber operation systems and human experts. Furthermore, these defenses are expected to be adaptive and able to evolve over time to thwart changes in attacker behavior, changes in the system health and readiness, and natural shifts in user behavior over time. The workshop was comprised of invited keynote talks, technical presentations and a panel discussion about how AI/ML can enable autonomous mitigation of current and future cyber attacks. Workshop submissions were peer reviewed by a panel of domain experts with a proceedings consisting of six technical articles exploring challenging problems of critical importance to national and global security. Participation in this workshop offered new opportunities to stimulate research and innovation in the emerging domain of adaptive and autonomous cyber defense.
翻訳日:2024-05-08 20:23:22 公開日:2024-05-07
# 背景除去がファッション画像分類とセグメンテーションにおけるニューラルネットワークの性能に及ぼす影響

The Impact of Background Removal on Performance of Neural Networks for Fashion Image Classification and Segmentation ( http://arxiv.org/abs/2308.09764v2 )

ライセンス: Link先を確認
Junhui Liang, Ying Liu, Vladimir Vlassov, (参考訳) ファッション理解はコンピュータビジョンにおいてホットなトピックであり、多くのアプリケーションが市場で大きなビジネス価値を持っている。 ファッション理解は、衣料の多様さや様々な場面や背景が多様であることから、コンピュータビジョンにとって難しい課題である。 本研究では,ファッション画像から背景を取り除き,データ品質の向上とモデル性能の向上を図る。 完全可視な服装の明らかな人物のファッションイメージを保有することで、Salient Object Detection を用いて、ファッションデータの背景的除去を期待できる。 背景を削除したファッションイメージは"rembg"イメージとして主張され、ファッションデータセットのオリジナルのイメージとは対照的である。 モデルアーキテクチャ,モデル初期化,他のトレーニングトリックとの互換性,データ拡張,ターゲットタスクタイプなど,モデルトレーニングの複数の側面に関する2種類の画像との比較実験を行った。 実験の結果, 背景除去は, 過度に適合しない, 単純かつ浅いネットワークにおいて, ファッションデータに対して効果的に有効であることがわかった。 モデルのスクラッチからトレーニングする場合、FashionStyle14データセットの分類において、最大5%の精度でモデル精度を向上させることができる。 しかし、バックグラウンド除去は、バッチ正規化、事前訓練された初期化、ランダム性を導入したデータ拡張といった他の正規化技術と互換性がないため、ディープニューラルネットワークではうまく機能しない。 背景画素の喪失は、モデルトレーニングにおける多くの既存のトレーニングトリックを無効にし、深層モデルに過度に適合するリスクを追加する。

Fashion understanding is a hot topic in computer vision, with many applications having great business value in the market. Fashion understanding remains a difficult challenge for computer vision due to the immense diversity of garments and various scenes and backgrounds. In this work, we try removing the background from fashion images to boost data quality and increase model performance. Having fashion images of evident persons in fully visible garments, we can utilize Salient Object Detection to achieve the background removal of fashion data to our expectations. A fashion image with the background removed is claimed as the "rembg" image, contrasting with the original one in the fashion dataset. We conducted extensive comparative experiments with these two types of images on multiple aspects of model training, including model architectures, model initialization, compatibility with other training tricks and data augmentations, and target task types. Our experiments show that background removal can effectively work for fashion data in simple and shallow networks that are not susceptible to overfitting. It can improve model accuracy by up to 5% in the classification on the FashionStyle14 dataset when training models from scratch. However, background removal does not perform well in deep neural networks due to incompatibility with other regularization techniques like batch normalization, pre-trained initialization, and data augmentations introducing randomness. The loss of background pixels invalidates many existing training tricks in the model training, adding the risk of overfitting for deep models.
翻訳日:2024-05-08 20:13:36 公開日:2024-05-07
# ランジュ現象の打ち消しに着目した単層人工ニューラルネットワークによる補間精度について

On the accuracy of interpolation based on single-layer artificial neural networks with a focus on defeating the Runge phenomenon ( http://arxiv.org/abs/2308.10720v2 )

ライセンス: Link先を確認
Ferdinando Auricchio, Maria Roberta Belardo, Gianluca Fabiani, Francesco Calabrò, Ariel F. Pascaner, (参考訳) 本稿では,1つの隠れた層ANNを浅層あるいは2層ネットワークとも呼ばれるフィードフォワードアーキテクチャで検討し,その構造をニューロンの数と種類によって決定する。 関数を定義するパラメータの決定は、トレーニングと呼ばれ、近似問題の解決によって行われ、特定のノードの集合を通して補間を行う。 本稿では,線形補間問題につながるエクストリーム学習機械(ELM)と呼ばれる手法を用いて,パラメータを訓練する場合について述べる。 このような仮説では、ANN補間関数の存在が保証される。 次に、与えられたサンプリング補間ノードの外側の補間が等しいとき、チェビチェフ、ランダムに選択された補間ノードの外側の補間精度に焦点が当てられる。 この研究は、よく知られたベル形のルンゲの例によって動機付けられており、大域補間多項式の構成は、好適に選択されたノード、例えばチェビチェフ多項式で訓練された場合に限って正確であることを明確にしている。 補間ノード数を増大させる際の動作を評価するため,ネットワーク内のニューロン数を増加させ,補間多項式と比較する。 Runge関数や他のよく知られた例を使って、異なる正規性でテストする。 予想通り、大域多項式による近似の精度は、チェビチェフノードが考慮される場合にのみ増加する。 代わりに、ANN補間関数の誤差は常に減衰し、ほとんどの場合、この収束はチェビチェフノード上の多項式ケースで観測されるものに従う。

In the present paper, we consider one-hidden layer ANNs with a feedforward architecture, also referred to as shallow or two-layer networks, so that the structure is determined by the number and types of neurons. The determination of the parameters that define the function, called training, is done via the resolution of the approximation problem, so by imposing the interpolation through a set of specific nodes. We present the case where the parameters are trained using a procedure that is referred to as Extreme Learning Machine (ELM) that leads to a linear interpolation problem. In such hypotheses, the existence of an ANN interpolating function is guaranteed. The focus is then on the accuracy of the interpolation outside of the given sampling interpolation nodes when they are the equispaced, the Chebychev, and the randomly selected ones. The study is motivated by the well-known bell-shaped Runge example, which makes it clear that the construction of a global interpolating polynomial is accurate only if trained on suitably chosen nodes, ad example the Chebychev ones. In order to evaluate the behavior when growing the number of interpolation nodes, we raise the number of neurons in our network and compare it with the interpolating polynomial. We test using Runge's function and other well-known examples with different regularities. As expected, the accuracy of the approximation with a global polynomial increases only if the Chebychev nodes are considered. Instead, the error for the ANN interpolating function always decays and in most cases we observe that the convergence follows what is observed in the polynomial case on Chebychev nodes, despite the set of nodes used for training.
翻訳日:2024-05-08 20:13:36 公開日:2024-05-07
# 前向き探索ヒューリスティック学習における許容境界の利用について

On Using Admissible Bounds for Learning Forward Search Heuristics ( http://arxiv.org/abs/2308.11905v3 )

ライセンス: Link先を確認
Carlos Núñez-Molina, Masataro Asai, Pablo Mesejo, Juan Fernández-Olivares, (参考訳) 近年,前方探索アルゴリズムのヒューリスティック関数を学習するために,現代の機械学習技術を活用することへの関心が高まっている。 それにもかかわらず、彼らが何を学べるか、どのようにトレーニングするか、なぜそうするのかについて、理論的にはほとんど理解されていない。 この理解の欠如は、文学における多様な訓練目標(最適対最適コスト対許容ヒューリスティックス)と損失関数(例えば、正方形対絶対誤差)の採用につながった。 本研究では,ヒューリスティック学習において,許容的ヒューリスティックスが提供する情報を効果的に活用する方法に焦点をあてる。 平均二乗誤差(MSE)の最小化による多時間許容ヒューリスティックスからの学習は,単にノイズの多い,計算可能なヒューリスティックの非許容コピーであるため,正しいアプローチではない,と我々は主張する。 その代わりに、学習したヒューリスティックを、学習対象ではなく、この分布の下位境界として、許容可能なヒューリスティックを使用可能な、切り詰めたガウス的としてモデル化することを提案する。 この結果、文献で一般的に用いられるMSEとは異なる損失関数となり、学習したヒューリスティックをガウス分布として暗黙的にモデル化する。 MSEと新規損失関数の両方を最適計画コストからヒューリスティック学習に適用する実験を行った。 その結果,提案手法はトレーニング中により高速に収束し,より優れたヒューリスティックスが得られることがわかった。

In recent years, there has been growing interest in utilizing modern machine learning techniques to learn heuristic functions for forward search algorithms. Despite this, there has been little theoretical understanding of what they should learn, how to train them, and why we do so. This lack of understanding has resulted in the adoption of diverse training targets (suboptimal vs optimal costs vs admissible heuristics) and loss functions (e.g., square vs absolute errors) in the literature. In this work, we focus on how to effectively utilize the information provided by admissible heuristics in heuristic learning. We argue that learning from poly-time admissible heuristics by minimizing mean square errors (MSE) is not the correct approach, since its result is merely a noisy, inadmissible copy of an efficiently computable heuristic. Instead, we propose to model the learned heuristic as a truncated gaussian, where admissible heuristics are used not as training targets but as lower bounds of this distribution. This results in a different loss function from the MSE commonly employed in the literature, which implicitly models the learned heuristic as a gaussian distribution. We conduct experiments where both MSE and our novel loss function are applied to learning a heuristic from optimal plan costs. Results show that our proposed method converges faster during training and yields better heuristics.
翻訳日:2024-05-08 20:13:36 公開日:2024-05-07
# マイクロ波量子プロセッサによる絡み合った光子の研究

Heralding entangled optical photons from a microwave quantum processor ( http://arxiv.org/abs/2308.14173v2 )

ライセンス: Link先を確認
Trond Hjerpekjøn Haug, Anton Frisk Kockum, Raphaël Van Laer, (参考訳) 異なる量子ハードウェアコンポーネントの強みを爆発させることは、新興量子プロセッサの能力を高める可能性がある。 本稿では、超伝導マイクロ波回路によって提供される精巧な量子制御とともに、光の非局所接続を利用する量子アーキテクチャを提案し、解析し、絡み合った光学資源状態を生成する。 超伝導マイクロ波プロセッサ間の絡み合いを光学的に分散する従来の提案とは対照的に,マイクロ波と光のスケザリングを用いて,単一マイクロ波量子プロセッサからのデュアルレール符号化でマイクロ波-光ベルペアを生成する。 さらに、マイクロ波量子プロセッサにより、マイクロ波-光ベル対をより大きなクラスター状態に決定的に絡み合わせることができ、電子レンジ測定により光子を抽出することができる。 提案手法は,光量子計算,通信,および不完全なマイクロ波光トランスデューサを用いたセンシングのために,小型のマイクロ波量子プロセッサが有意な絡み合った光資源状態を生成する方法である。 我々は、超伝導プロセッサの成層圏からの分離の改善により、現在利用可能なハードウェアを用いて、このスキームを実証できることを期待する。

Exploiting the strengths of different quantum hardware components may enhance the capabilities of emerging quantum processors. Here, we propose and analyze a quantum architecture that leverages the non-local connectivity of optics, along with the exquisite quantum control offered by superconducting microwave circuits, to produce entangled optical resource states. Contrary to previous proposals on optically distributing entanglement between superconducting microwave processors, we use squeezing between microwaves and optics to produce microwave-optical Bell pairs in a dual-rail encoding from a single microwave quantum processor. Moreover, the microwave quantum processor allows us to deterministically entangle microwave-optical Bell pairs into larger cluster states, from which entangled optical photons can be extracted through microwave measurements. Our scheme paves the way for small microwave quantum processors to create heralded entangled optical resource states for optical quantum computation, communication, and sensing using imperfect microwave-optics transducers. We expect that improved isolation of the superconducting processor from stray optical fields will allow the scheme to be demonstrated using currently available hardware.
翻訳日:2024-05-08 20:13:36 公開日:2024-05-07
# 視覚言語モデルのためのブラックボックス最適化器としての言語モデル

Language Models as Black-Box Optimizers for Vision-Language Models ( http://arxiv.org/abs/2309.05950v4 )

ライセンス: Link先を確認
Shihong Liu, Zhiqiu Lin, Samuel Yu, Ryan Lee, Tiffany Ling, Deepak Pathak, Deva Ramanan, (参考訳) Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。 しかしながら、多くのVLMはプロプライエタリなデータに依存しており、オープンソースではない。 そこで我々は,自然言語のプロンプトを通じてVLMを最適化するブラックボックスアプローチを開発し,モデルパラメータや機能埋め込み,さらには出力ロジットへのアクセスを回避することを目的とする。 本稿では,VLM に最適なテキストプロンプトを探すために,チャットベースの LLM を提案する。 具体的には,現在のプロンプトの性能を評価し,LLMにテキストフィードバックに基づいてそれらを洗練するよう求めることで,効果的なプロンプトに収束する自動ヒルクライミング手法を採用する。 難易度の高い1ショット画像分類設定では、ImageNetを含む11データセットの平均1.5%のホワイトボックス連続プロンプト法(CoOp)を克服する。 また,本手法は,人間工学的プロンプトとLLM的プロンプトの両方に優れる。 我々は,肯定と否定の両方のプロンプトを組み込んだ会話フィードバックの利点を強調し,LLMがテキストフィードバックにおける暗黙の勾配方向をより効率的な検索に活用できることを示唆した。 さらに、我々の戦略によって生成されたテキストプロンプトは、より解釈可能であるだけでなく、ブラックボックス方式で異なるVLMアーキテクチャ間でうまく転送可能であることを発見した。 最後に,現状のブラックボックスVLM(DALL-E3)をテキスト・ツー・イメージ生成,インバージョン,パーソナライズに最適化するために,我々のフレームワークを適用した。

Vision-language models (VLMs) pre-trained on web-scale datasets have demonstrated remarkable capabilities on downstream tasks when fine-tuned with minimal data. However, many VLMs rely on proprietary data and are not open-source, which restricts the use of white-box approaches for fine-tuning. As such, we aim to develop a black-box approach to optimize VLMs through natural language prompts, thereby avoiding the need to access model parameters, feature embeddings, or even output logits. We propose employing chat-based LLMs to search for the best text prompt for VLMs. Specifically, we adopt an automatic hill-climbing procedure that converges to an effective prompt by evaluating the performance of current prompts and asking LLMs to refine them based on textual feedback, all within a conversational process without human-in-the-loop. In a challenging 1-shot image classification setup, our simple approach surpasses the white-box continuous prompting method (CoOp) by an average of 1.5% across 11 datasets including ImageNet. Our approach also outperforms both human-engineered and LLM-generated prompts. We highlight the advantage of conversational feedback that incorporates both positive and negative prompts, suggesting that LLMs can utilize the implicit gradient direction in textual feedback for a more efficient search. In addition, we find that the text prompts generated through our strategy are not only more interpretable but also transfer well across different VLM architectures in a black-box manner. Lastly, we apply our framework to optimize the state-of-the-art black-box VLM (DALL-E 3) for text-to-image generation, prompt inversion, and personalization.
翻訳日:2024-05-08 20:13:36 公開日:2024-05-07
# フォトニック量子ネットワークにおける非局所性活性化

Nonlocality activation in a photonic quantum network ( http://arxiv.org/abs/2309.06501v2 )

ライセンス: Link先を確認
Luis Villegas-Aguilar, Emanuele Polino, Farzad Ghafari, Marco Túlio Quintino, Kiarn Laverick, Ian R. Berkman, Sven Rogge, Lynden K. Shalm, Nora Tischler, Eric G. Cavalcanti, Sergei Slussarenko, Geoff J. Pryde, (参考訳) ベル非局所性(英: Bell nonlocality)とは、局所因果性という古典的な概念に挑戦する2つの遠方で絡み合った粒子間の相関のこと。 基礎的な重要性の他に、非局所性は量子鍵分布やランダムネス生成のようなデバイスに依存しない技術にとって重要である。 非局所性はノイズの存在下で急速に悪化し、非局所相関の復元には追加の資源が必要である。 これらは多くの場合、入力状態とジョイント測定の多くの例の形で行われ、重要なリソースオーバーヘッドを発生させる。 ここでは,標準ベルの不等式に違反することができないベル局所状態の単一コピーが,複数のパーティの量子ネットワークに埋め込まれた後に非局所性を引き起こすことを実験的に実証する。 初期絡み合った状態は、状態の一部を2つの独立した受信機にブロードキャストする量子チャネルに入力し、調整されたベルのような不等式に違反してネットワーク内の非局所性を認証する。 これらの結果は、準備された状態、量子チャネル、あるいは量子理論の妥当性について仮定することなく得られる。 本研究は,非局所性に基礎的な意味を持ち,ノイズに支配されるシナリオにおいても,実世界のアプリケーションにおいて非局所相関の実践的利用を可能にする。

Bell nonlocality refers to correlations between two distant, entangled particles that challenge classical notions of local causality. Beyond its foundational significance, nonlocality is crucial for device-independent technologies like quantum key distribution and randomness generation. Nonlocality quickly deteriorates in the presence of noise, and restoring nonlocal correlations requires additional resources. These often come in the form of many instances of the input state and joint measurements, incurring a significant resource overhead. Here, we experimentally demonstrate that single copies of Bell-local states, incapable of violating any standard Bell inequality, can give rise to nonlocality after being embedded into a quantum network of multiple parties. We subject the initial entangled state to a quantum channel that broadcasts part of the state to two independent receivers and certify the nonlocality in the resulting network by violating a tailored Bell-like inequality. We obtain these results without making any assumptions about the prepared states, the quantum channel, or the validity of quantum theory. Our findings have fundamental implications for nonlocality and enable the practical use of nonlocal correlations in real-world applications, even in scenarios dominated by noise.
翻訳日:2024-05-08 20:13:36 公開日:2024-05-07
# 目に見える衝突攻撃と事前訓練されたモデルの防御

Seeing Is Not Always Believing: Invisible Collision Attack and Defence on Pre-Trained Models ( http://arxiv.org/abs/2309.13579v2 )

ライセンス: Link先を確認
Minghang Deng, Zhong Zhang, Junming Shao, (参考訳) BERT や GPT のような大規模事前訓練型モデル (PTM) は様々な分野で大きな成功を収めている。 典型的なパラダイムは、大規模なデータセットで大きなディープラーニングモデルを事前訓練し、下流タスクのために小さなタスク固有のデータセットでモデルを微調整することである。 PTMは、広範囲の現実世界のアプリケーションで急速に進歩しているが、潜在的な攻撃のリスクも生じている。 既存のバックドア攻撃やデータ中毒の手法は、攻撃者が被害者のコンピュータに侵入したり、ターゲットデータにアクセスしたりするという仮定を立証することが多い。 本稿では,MD5衝突を増強したPTMに対する目に見えない攻撃のための新しい枠組みを提案する。 鍵となるアイデアは、MD5選択前衝突を利用して、同じMD5チェックサムを持つ2つの等サイズモデルを生成することである。 その後、2つの‘same’モデルが公開ウェブサイトにデプロイされ、被害者に毒モデルをダウンロードするよう誘導する。 ディープラーニングモデルに対する従来の攻撃とは異なり、この新しい攻撃は柔軟で、隠蔽的で、モデルに依存しない。 さらに,MD5選択前衝突を認識するための簡単な防御戦略を提案し,その実現可能性について理論的に正当化する。 提案する攻撃法と防御法の有効性を,異なるモデルとデータセット上で広範囲に検証する。

Large-scale pre-trained models (PTMs) such as BERT and GPT have achieved great success in diverse fields. The typical paradigm is to pre-train a big deep learning model on large-scale data sets, and then fine-tune the model on small task-specific data sets for downstream tasks. Although PTMs have rapidly progressed with wide real-world applications, they also pose significant risks of potential attacks. Existing backdoor attacks or data poisoning methods often build up the assumption that the attacker invades the computers of victims or accesses the target data, which is challenging in real-world scenarios. In this paper, we propose a novel framework for an invisible attack on PTMs with enhanced MD5 collision. The key idea is to generate two equal-size models with the same MD5 checksum by leveraging the MD5 chosen-prefix collision. Afterwards, the two ``same" models will be deployed on public websites to induce victims to download the poisoned model. Unlike conventional attacks on deep learning models, this new attack is flexible, covert, and model-independent. Additionally, we propose a simple defensive strategy for recognizing the MD5 chosen-prefix collision and provide a theoretical justification for its feasibility. We extensively validate the effectiveness and stealthiness of our proposed attack and defensive method on different models and data sets.
翻訳日:2024-05-08 20:13:36 公開日:2024-05-07
# 量子生物学のための特異値分解量子アルゴリズム

Singular value decomposition quantum algorithm for quantum biology ( http://arxiv.org/abs/2309.17391v2 )

ライセンス: Link先を確認
Emily K. Oh, Timothy J. Krogmeier, Anthony W. Schlimgen, Kade Head-Marsden, (参考訳) 近年、現在の量子コンピュータを用いた非単位量子力学のモデリングと予測に対する量子アルゴリズムへの関心が高まっている。 量子生物学の分野は、これらのアルゴリズムが有用であることが証明できる分野の一つであり、生物系は一般に完全な形で扱うことができるが、オープンな量子系アプローチには適用可能である。 ここでは、最近開発された特異値分解アルゴリズムを量子生物学における2つのよく研究されたベンチマークシステムに適用する。 この特異値分解アルゴリズムは,量子シミュレータの実装により,これらのシステムの短時間・長時間の正確なダイナミクスを捉えることが可能であることを実証し,このアルゴリズムが今後の量子生物学に関するシステム研究の有効なツールとなる可能性を示唆する。

There has been a recent interest in quantum algorithms for the modelling and prediction of non-unitary quantum dynamics using current quantum computers. The field of quantum biology is one area where these algorithms could prove to be useful, as biological systems are generally intractable to treat in their complete form, but amenable to an open quantum systems approach. Here we present the application of a recently developed singular value decomposition algorithm to two well-studied benchmark systems in quantum biology: excitonic energy transport through the Fenna-Matthews-Olson complex and the radical pair mechanism for avian navigation. We demonstrate that the singular value decomposition algorithm is capable of capturing accurate short- and long-time dynamics for these systems through implementation on a quantum simulator, and conclude that this algorithm has the potential to be an effective tool for the future study of systems relevant to quantum biology.
翻訳日:2024-05-08 20:13:36 公開日:2024-05-07
# 基礎モデルを用いたワイヤレス世界におけるフェデレーションラーニングの役割

The Role of Federated Learning in a Wireless World with Foundation Models ( http://arxiv.org/abs/2310.04003v3 )

ライセンス: Link先を確認
Zihan Chen, Howard H. Yang, Y. C. Tay, Kai Fong Ernest Chong, Tony Q. S. Quek, (参考訳) ファンデーションモデル(FM)は汎用人工知能(AI)モデルである。 FMの急速な進歩は、フェデレーション学習(FL)が分散ネットワークインテリジェンスの鍵となる次世代無線ネットワークのビジョンの重要な背景となっている。 現在、FMとFLの相互作用の探索はまだ初期段階にある。 当然、FMはFLの性能を高めることができ、FLはFMの訓練を支援するために分散化されたデータや計算資源を利用することもできる。 しかし、FMが計算資源、ストレージ、通信のオーバーヘッドに対して持つ極めて高い要求は、FL対応無線ネットワークにとって重要な課題となる。 本稿では、FMが無線ネットワークよりもFLに適した範囲について検討し、その研究課題と機会を概観する。 特に、FMとFLを統合した未来のインテリジェントネットワークを実現するための複数の新しいパラダイムについて論じる。 また、これらのパラダイムに関連する幅広い研究の方向性を整理する。

Foundation models (FMs) are general-purpose artificial intelligence (AI) models that have recently enabled multiple brand-new generative AI applications. The rapid advances in FMs serve as an important contextual backdrop for the vision of next-generation wireless networks, where federated learning (FL) is a key enabler of distributed network intelligence. Currently, the exploration of the interplay between FMs and FL is still in its nascent stage. Naturally, FMs are capable of boosting the performance of FL, and FL could also leverage decentralized data and computing resources to assist in the training of FMs. However, the exceptionally high requirements that FMs have for computing resources, storage, and communication overhead would pose critical challenges to FL-enabled wireless networks. In this article, we explore the extent to which FMs are suitable for FL over wireless networks, including a broad overview of research challenges and opportunities. In particular, we discuss multiple new paradigms for realizing future intelligent networks that integrate FMs and FL. We also consolidate several broad research directions associated with these paradigms.
翻訳日:2024-05-08 20:13:36 公開日:2024-05-07
# 大規模言語モデルのためのケースベース永続化メモリ

A Case-Based Persistent Memory for a Large Language Model ( http://arxiv.org/abs/2310.08842v2 )

ライセンス: Link先を確認
Ian Watson, (参考訳) 問題解決の方法論としてのケースベース推論(CBR)は、任意の適切な計算手法を用いることができる。 このポジションペーパーは、CBR研究者がディープラーニングと大規模言語モデル(LLM)の最近の発展を幾らか見落としていると主張している。 最近のAIのブレークスルーを可能にした基盤となる技術開発は、CBRと強力なシナジーを持ち、LLMが人工知能に向けて前進するための永続的なメモリを提供するために使用できる。

Case-based reasoning (CBR) as a methodology for problem-solving can use any appropriate computational technique. This position paper argues that CBR researchers have somewhat overlooked recent developments in deep learning and large language models (LLMs). The underlying technical developments that have enabled the recent breakthroughs in AI have strong synergies with CBR and could be used to provide a persistent memory for LLMs to make progress towards Artificial General Intelligence.
翻訳日:2024-05-08 20:13:36 公開日:2024-05-07
# 説明可能なAIの公正性に関する批判的調査

A Critical Survey on Fairness Benefits of Explainable AI ( http://arxiv.org/abs/2310.13007v6 )

ライセンス: Link先を確認
Luca Deck, Jakob Schoeffer, Maria De-Arteaga, Niklas Kühl, (参考訳) この批判的な調査では、説明可能なAI(XAI)と公平性の関係に関する典型的な主張を分析し、これら2つの概念の多次元的関係を解消する。 体系的な文献レビューとそれに続く質的内容分析に基づいて,XAIの公正性に関する175の科学的論文から7つの古文書を抽出した。 我々はこれらの主張に関して重要な注意事項を提示し、特定の公正なデシダラタに対するXAIの可能性と限界に関する今後の議論のエントリポイントを提供する。 重要なのは、クレームが頻繁にあることです。 (i)曖昧で単純である (二)規範的根拠の欠如、又は (三)XAIの実際の能力にそぐわないこと。 我々は、XAIを倫理的パナセアではなく、アルゴリズム的公正性の多次元社会技術的課題にアプローチするための多くのツールの1つとして考えることを提案する。 また、XAIと公正を主張する際には、どのようなXAI手法が使われているのか、どの公平さを軽視しているか、どのように公正性を実現するか、XAIの恩恵を受ける利害関係者は誰か、といった点をより明確にする必要があることを強調する。

In this critical survey, we analyze typical claims on the relationship between explainable AI (XAI) and fairness to disentangle the multidimensional relationship between these two concepts. Based on a systematic literature review and a subsequent qualitative content analysis, we identify seven archetypal claims from 175 scientific articles on the alleged fairness benefits of XAI. We present crucial caveats with respect to these claims and provide an entry point for future discussions around the potentials and limitations of XAI for specific fairness desiderata. Importantly, we notice that claims are often (i) vague and simplistic, (ii) lacking normative grounding, or (iii) poorly aligned with the actual capabilities of XAI. We suggest to conceive XAI not as an ethical panacea but as one of many tools to approach the multidimensional, sociotechnical challenge of algorithmic fairness. Moreover, when making a claim about XAI and fairness, we emphasize the need to be more specific about what kind of XAI method is used, which fairness desideratum it refers to, how exactly it enables fairness, and who is the stakeholder that benefits from XAI.
翻訳日:2024-05-08 20:13:36 公開日:2024-05-07
# GraphGPT: 大規模言語モデルのためのグラフ命令チューニング

GraphGPT: Graph Instruction Tuning for Large Language Models ( http://arxiv.org/abs/2310.13023v3 )

ライセンス: Link先を確認
Jiabin Tang, Yuhao Yang, Wei Wei, Lei Shi, Lixin Su, Suqi Cheng, Dawei Yin, Chao Huang, (参考訳) グラフニューラルネットワーク(GNN)は、再帰的な交換とノード間の集約を通じてグラフ構造を理解するために進化してきた。 堅牢性を高めるために、自己教師付き学習(SSL)はデータ拡張の重要なツールとなっている。 従来の手法は、しばしばタスク固有のラベルによる微調整に依存し、ラベル付きデータが不足している場合の有効性を制限する。 本研究は,ゼロショット学習環境におけるグラフモデルの一般化を推し進めることによって,この問題に対処する。 大規模言語モデル(LLM)の成功に触発されて、下流グラフデータに頼ることなく、様々なデータセットやタスクをまたいだ例外的な一般化が可能なグラフ指向LLMを作ることを目指している。 グラフインストラクションチューニングにより,LLMとグラフ構造知識を統合したGraphGPTフレームワークを提案する。 本フレームワークは、テキストとグラフ構造をリンクするテキスト-グラフグラウンドコンポーネントと、軽量なグラフ-テキストアライメントプロジェクタによる2段階の命令チューニングアプローチを含む。 これらの革新により、LLMは複雑なグラフ構造を理解し、多様なデータセットやタスクへの適応性を高めることができる。 本フレームワークは,教師付きグラフ学習タスクとゼロショットグラフ学習タスクの両方において,既存のベンチマークを上回る優れた一般化を実証する。 GraphGPTのオープンソースモデル実装はhttps://github.com/HKUDS/GraphGPTで公開されています。

Graph Neural Networks (GNNs) have evolved to understand graph structures through recursive exchanges and aggregations among nodes. To enhance robustness, self-supervised learning (SSL) has become a vital tool for data augmentation. Traditional methods often depend on fine-tuning with task-specific labels, limiting their effectiveness when labeled data is scarce. Our research tackles this by advancing graph model generalization in zero-shot learning environments. Inspired by the success of large language models (LLMs), we aim to create a graph-oriented LLM capable of exceptional generalization across various datasets and tasks without relying on downstream graph data. We introduce the GraphGPT framework, which integrates LLMs with graph structural knowledge through graph instruction tuning. This framework includes a text-graph grounding component to link textual and graph structures and a dual-stage instruction tuning approach with a lightweight graph-text alignment projector. These innovations allow LLMs to comprehend complex graph structures and enhance adaptability across diverse datasets and tasks. Our framework demonstrates superior generalization in both supervised and zero-shot graph learning tasks, surpassing existing benchmarks. The open-sourced model implementation of our GraphGPT is available at https://github.com/HKUDS/GraphGPT.
翻訳日:2024-05-08 20:13:36 公開日:2024-05-07
# ZzzGPT:睡眠の質を高めるインタラクティブGPTアプローチ

ZzzGPT: An Interactive GPT Approach to Enhance Sleep Quality ( http://arxiv.org/abs/2310.16242v2 )

ライセンス: Link先を確認
Yonchanok Khaokaew, Kaixin Ji, Thuc Hanh Nguyen, Hiruni Kegalle, Marwah Alaofi, Hao Xue, Flora D. Salim, (参考訳) 本稿では,Large Language Models (LLMs) のパワーを活用した最先端の2段階フレームワークを提案する。 第一の目的は、行動可能なフィードバックと組み合わせた正確な睡眠予測を提供することで、既存のソリューションの限界に対処することである。 この革新的なアプローチは、GLOBEMデータセットとLLMが生成した合成データを活用することである。 その結果,先進的な機械学習技術とユーザ中心の設計倫理を融合させることの有効性が明らかにされた。 この調査を通じて、技術的洗練とユーザフレンドリな設計のギャップを埋め、我々のフレームワークが正確な予測を導き、それらを実用的な洞察へと変換することを保証します。

This paper explores the intersection of technology and sleep pattern comprehension, presenting a cutting-edge two-stage framework that harnesses the power of Large Language Models (LLMs). The primary objective is to deliver precise sleep predictions paired with actionable feedback, addressing the limitations of existing solutions. This innovative approach involves leveraging the GLOBEM dataset alongside synthetic data generated by LLMs. The results highlight significant improvements, underlining the efficacy of merging advanced machine-learning techniques with a user-centric design ethos. Through this exploration, we bridge the gap between technological sophistication and user-friendly design, ensuring that our framework yields accurate predictions and translates them into actionable insights.
翻訳日:2024-05-08 20:13:36 公開日:2024-05-07
# FLIP: CTR予測のためのIDベースモデルと事前学習言語モデルとの微粒なアライメントを目指して

FLIP: Towards Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction ( http://arxiv.org/abs/2310.19453v3 )

ライセンス: Link先を確認
Hangyu Wang, Jianghao Lin, Xiangyang Li, Bo Chen, Chenxu Zhu, Ruiming Tang, Weinan Zhang, Yong Yu, (参考訳) クリックスルーレート(CTR)予測は、さまざまなパーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。 CTR予測のための従来のIDベースのモデルは、特徴相互作用モデリングを通じて協調的な信号をキャプチャする表形式での1ホット符号化ID特徴を入力として捉えている。 しかし、ワンホットエンコーディングは、元のフィーチャーテキストで考え出されたセマンティック情報を破棄する。 近年、PLM(Pretrained Language Models)の出現は、ハードプロンプトテンプレートによって得られるテキストモダリティの文を入力として、意味知識を抽出するためにPLMを採用するという別のパラダイムを生み出している。 しかし、一般的にPLMは入力されたテキストデータをサブワードトークンにトークン化し、フィールドワイドの協調的な信号を無視する。 したがって、これらの2つの研究は、同じ入力データ(例えば、テキストと表のモダリティ)の異なる特性に焦点を当て、相互に相補的な関係を形成する。 本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。 マスク付き言語と表型モデリングの両方のための新しい共同再建事前訓練タスクを設計する。 具体的には、1つのモダリティ(トークンや特徴など)のマスキングされたデータは、他のモダリティの助けを借りて回復し、二重モダリティ間の十分な相互情報抽出によって特徴レベルの相互作用とアライメントを確立する必要がある。 さらに、下流CTR予測タスクにおいて、IDベースモデルとPLMを協調的に微調整し、両モデルの利点を組み合わせることにより、優れた性能を実現することを提案する。 3つの実世界のデータセットに対する大規模な実験により、FLIPはSOTAベースラインより優れており、様々なIDベースのモデルやPLMと高い互換性を持つことが示された。 コードは \url{https://github.com/justarter/FLIP} にある。

Click-through rate (CTR) prediction plays as a core function module in various personalized online services. The traditional ID-based models for CTR prediction take as inputs the one-hot encoded ID features of tabular modality, which capture the collaborative signals via feature interaction modeling. But the one-hot encoding discards the semantic information conceived in the original feature texts. Recently, the emergence of Pretrained Language Models (PLMs) has given rise to another paradigm, which takes as inputs the sentences of textual modality obtained by hard prompt templates and adopts PLMs to extract the semantic knowledge. However, PLMs generally tokenize the input text data into subword tokens and ignore field-wise collaborative signals. Therefore, these two lines of research focus on different characteristics of the same input data (i.e., textual and tabular modalities), forming a distinct complementary relationship with each other. In this paper, we propose to conduct Fine-grained feature-level ALignment between ID-based Models and Pretrained Language Models (FLIP) for CTR prediction. We design a novel joint reconstruction pretraining task for both masked language and tabular modeling. Specifically, the masked data of one modality (i.e., tokens or features) has to be recovered with the help of the other modality, which establishes the feature-level interaction and alignment via sufficient mutual information extraction between dual modalities. Moreover, we propose to jointly finetune the ID-based model and PLM for downstream CTR prediction tasks, thus achieving superior performance by combining the advantages of both models. Extensive experiments on three real-world datasets demonstrate that FLIP outperforms SOTA baselines, and is highly compatible for various ID-based models and PLMs. The code is at \url{https://github.com/justarter/FLIP}.
翻訳日:2024-05-08 20:03:52 公開日:2024-05-07
# 復調性およびサンプル不変連続オブジェクトエンコーダ

Decodable and Sample Invariant Continuous Object Encoder ( http://arxiv.org/abs/2311.00187v4 )

ライセンス: Link先を確認
Dehao Yuan, Furong Huang, Cornelia Fermüller, Yiannis Aloimonos, (参考訳) 我々は超次元関数符号化(HDFE)を提案する。 連続対象(例えば関数)のサンプルが与えられたとき、HDFEは与えられた対象の明示的なベクトル表現を生成し、サンプル分布と密度に不変である。 サンプル分布と密度不変性により、HDFEはサンプリングに関係なく連続オブジェクトを一貫してエンコードすることができ、ニューラルネットワークは分類や回帰といった機械学習タスクの入力として連続オブジェクトを受信することができる。 さらに、HDFEはいかなるトレーニングも必要とせず、オブジェクトを組織化された埋め込みスペースにマッピングすることが証明されており、下流タスクのトレーニングを容易にする。 さらに、エンコーディングは復調可能であり、ニューラルネットワークは、エンコーディングを退避させることで、連続したオブジェクトを退避させることができる。 したがってHDFEは連続したオブジェクトを処理するインターフェースとして機能する。 我々はHDFEを関数対関数マッピングに適用し、バニラHDFEは最先端のアルゴリズムとして競合性能を達成する。 2つのベンチマークにおいて、ポイントネットからHDFEへの簡単な置換により、即座に12%と15%のエラー削減が達成される。 さらに、HDFEをPointNetベースのSOTAネットワークに統合することにより、同じベンチマークでSOTAベースラインを2.5%と1.7%改善する。

We propose Hyper-Dimensional Function Encoding (HDFE). Given samples of a continuous object (e.g. a function), HDFE produces an explicit vector representation of the given object, invariant to the sample distribution and density. Sample distribution and density invariance enables HDFE to consistently encode continuous objects regardless of their sampling, and therefore allows neural networks to receive continuous objects as inputs for machine learning tasks, such as classification and regression. Besides, HDFE does not require any training and is proved to map the object into an organized embedding space, which facilitates the training of the downstream tasks. In addition, the encoding is decodable, which enables neural networks to regress continuous objects by regressing their encodings. Therefore, HDFE serves as an interface for processing continuous objects. We apply HDFE to function-to-function mapping, where vanilla HDFE achieves competitive performance as the state-of-the-art algorithm. We apply HDFE to point cloud surface normal estimation, where a simple replacement from PointNet to HDFE leads to immediate 12% and 15% error reductions in two benchmarks. In addition, by integrating HDFE into the PointNet-based SOTA network, we improve the SOTA baseline by 2.5% and 1.7% in the same benchmarks.
翻訳日:2024-05-08 20:03:52 公開日:2024-05-07
# 分散メタ強化学習による集合的オープンエンディング探索の創発

Emergence of Collective Open-Ended Exploration from Decentralized Meta-Reinforcement Learning ( http://arxiv.org/abs/2311.00651v3 )

ライセンス: Link先を確認
Richard Bornemann, Gautier Hamon, Eleni Nisioti, Clément Moulin-Frier, (参考訳) 近年の研究では、メタ強化学習を用いて訓練されたエージェントにおいて、自己プレイを用いたオープンエンドタスク分布において、複雑な協調行動が出現することが証明されている。 結果が印象的である一方で、自己プレイやその他の集中型トレーニング技術は、分散トレーニングやタスクのオープンな分散を通じて、自然界における一般的な集団探索戦略の出現を正確に反映するものではない、と私たちは主張する。 そこで本研究では,タスクのオープンエンド分布に対して,複数のエージェントがメタ学習を独立的に繰り返し行うような,集合的探索戦略の出現について検討する。 そこで本研究では,5種類のタスクタイプから抽出した複数のサブタスクを動的に組み合わせ,タスクツリーを広範囲に分散したオープンエンドプロシージャ生成タスク空間を新たに導入する。 本研究では,我々の環境で訓練された分散エージェントが,テスト時に新しいオブジェクトに直面すると,強力な一般化能力を示すことを示す。 さらに、訓練中に決して協力せざるを得なかったにもかかわらず、エージェントは訓練中に遭遇したことのない新しい課題を解決するための集団探索戦略を学ぶ。 さらに、エージェントが学習した集合的な探索戦略が、オープンエンドのタスク設定にまで拡張され、トレーニング中に見られたタスクツリーの2倍の深さのタスクツリーを解けることがわかりました。 オープンソースコードとエージェントのビデオは、私たちのコンパニオンWebサイトにある。

Recent works have proven that intricate cooperative behaviors can emerge in agents trained using meta reinforcement learning on open ended task distributions using self-play. While the results are impressive, we argue that self-play and other centralized training techniques do not accurately reflect how general collective exploration strategies emerge in the natural world: through decentralized training and over an open-ended distribution of tasks. In this work we therefore investigate the emergence of collective exploration strategies, where several agents meta-learn independent recurrent policies on an open ended distribution of tasks. To this end we introduce a novel environment with an open ended procedurally generated task space which dynamically combines multiple subtasks sampled from five diverse task types to form a vast distribution of task trees. We show that decentralized agents trained in our environment exhibit strong generalization abilities when confronted with novel objects at test time. Additionally, despite never being forced to cooperate during training the agents learn collective exploration strategies which allow them to solve novel tasks never encountered during training. We further find that the agents learned collective exploration strategies extend to an open ended task setting, allowing them to solve task trees of twice the depth compared to the ones seen during training. Our open source code as well as videos of the agents can be found on our companion website.
翻訳日:2024-05-08 20:03:52 公開日:2024-05-07
# サブセット選択によるベイズ量子回帰:後要約の視点から

Bayesian Quantile Regression with Subset Selection: A Posterior Summarization Perspective ( http://arxiv.org/abs/2311.02043v2 )

ライセンス: Link先を確認
Joseph Feldman, Daniel Kowal, (参考訳) 量子回帰は、共変量が応答分布の特定のパーセンタイルにどのように影響するかを推測する強力なツールである。 既存の方法では、興味のある各量に対して個別に条件量子を推定するか、半パラメトリックモデルまたは非パラメトリックモデルを用いて条件分布全体を推定する。 前者はしばしば実データに対して不十分なモデルを生成し、量子単位間で情報を共有しないが、後者は複雑で制約のあるモデルによって特徴づけられ、計算的に非効率な解釈が困難である。 さらに、どちらのアプローチも量子固有部分集合の選択には適していない。 代わりに、線形量子化推定、不確実量化、およびベイズ決定解析の観点からのサブセット選択の根本的な問題を提起する。 任意のベイズ回帰モデルに対して、各モデルに基づく条件量子化に対して最適かつ解釈可能な線形推定と不確実性定量化を導出する。 提案手法では,量子に焦点をあてた2乗誤差損失を導入し,効率的な閉形式計算を実現し,ワッサーシュタインに基づく密度推定との密接な関係を維持する。 広範にわたるシミュレーション研究において,本手法は,周波数推定精度,変数選択,そして頻繁な競合相手やベイズ的競合相手に対する推論において有意な向上を示した。 ノースカロライナの子どもたちの大きなコホートに対する教育効果に対する社会的・環境的ストレス要因の定量的影響を明らかにするために,これらのツールを適用した。

Quantile regression is a powerful tool for inferring how covariates affect specific percentiles of the response distribution. Existing methods either estimate conditional quantiles separately for each quantile of interest or estimate the entire conditional distribution using semi- or non-parametric models. The former often produce inadequate models for real data and do not share information across quantiles, while the latter are characterized by complex and constrained models that can be difficult to interpret and computationally inefficient. Further, neither approach is well-suited for quantile-specific subset selection. Instead, we pose the fundamental problems of linear quantile estimation, uncertainty quantification, and subset selection from a Bayesian decision analysis perspective. For any Bayesian regression model, we derive optimal and interpretable linear estimates and uncertainty quantification for each model-based conditional quantile. Our approach introduces a quantile-focused squared error loss, which enables efficient, closed-form computing and maintains a close relationship with Wasserstein-based density estimation. In an extensive simulation study, our methods demonstrate substantial gains in quantile estimation accuracy, variable selection, and inference over frequentist and Bayesian competitors. We apply these tools to identify the quantile-specific impacts of social and environmental stressors on educational outcomes for a large cohort of children in North Carolina.
翻訳日:2024-05-08 20:03:52 公開日:2024-05-07
# 正規化多項式汎関数回帰について

On regularized polynomial functional regression ( http://arxiv.org/abs/2311.03036v2 )

ライセンス: Link先を確認
Markus Holzleitner, Sergei Pereverzyev, (参考訳) 本稿では, 多項式汎関数回帰の包括的処理について述べる。 この境界は、一般的な滑らかさ条件、キャパシティ条件、正規化技術を含む様々な側面を含んでいる。 その際、線形汎関数回帰の文脈からいくつかの知見を拡張し、一般化する。 また,高次多項式項を用いることで性能が向上することを示す数値的証拠も提供する。

This article offers a comprehensive treatment of polynomial functional regression, culminating in the establishment of a novel finite sample bound. This bound encompasses various aspects, including general smoothness conditions, capacity conditions, and regularization techniques. In doing so, it extends and generalizes several findings from the context of linear functional regression as well. We also provide numerical evidence that using higher order polynomial terms can lead to an improved performance.
翻訳日:2024-05-08 20:03:52 公開日:2024-05-07
# 解釈可能な地球科学人工知能(XGeoS-AI):画像認識のデミスティファイションへの応用

Interpretable Geoscience Artificial Intelligence (XGeoS-AI): Application to Demystify Image Recognition ( http://arxiv.org/abs/2311.04940v2 )

ライセンス: Link先を確認
Jin-Jian Xu, Hao Zhang, Chao-Sheng Tang, Lin Li, Bin Shi, (参考訳) 地球科学がビッグデータの時代に入るにつれ、人工知能(AI)は地球科学の問題を解決する大きな可能性を提供するだけでなく、地球の行動の複雑でインタラクティブでマルチスケールなプロセスの理解を促進する上でも重要な役割を担っている。 地学AIモデルは、重要な状況において重要な予測のために徐々に活用されているため、地学研究者は、解釈可能性と汎用性をますます要求している。 本研究では,地球科学における画像認識の謎を明らかにするための解析可能な地球科学人工知能(XGeoS-AI)フレームワークを提案する。 XGeoS-AIフレームワークは、人間の視覚のメカニズムにヒントを得て、画像全体の局所領域からしきい値を生成し、認識を完了させる。 SVR(Support Vector Regression)、MLP(Multilayer Perceptron)、CNN(Convolutional Neural Network)など、さまざまな人工知能(AI)手法が提案されているXGeoS-AIフレームワークのAIエンジンとして採用され、地球科学画像認識タスクを効率的に完了する。 実験結果から,提案フレームワークの有効性,汎用性,ヒューリスティックスは,地学画像認識問題の解決に非常に有益であることが示唆された。 解釈可能なAIは、地球科学の分野でますます注目を集めるべきであり、これは地球科学の分野におけるAIのより合理的で広範な応用を促進する鍵である。 さらに、提案された解釈可能なフレームワークは、地球科学における技術革新の先駆者かもしれない。

As Earth science enters the era of big data, artificial intelligence (AI) not only offers great potential for solving geoscience problems, but also plays a critical role in accelerating the understanding of the complex, interactive, and multiscale processes of Earth's behavior. As geoscience AI models are progressively utilized for significant predictions in crucial situations, geoscience researchers are increasingly demanding their interpretability and versatility. This study proposes an interpretable geoscience artificial intelligence (XGeoS-AI) framework to unravel the mystery of image recognition in the Earth sciences, and its effectiveness and versatility is demonstrated by taking computed tomography (CT) image recognition as an example. Inspired by the mechanism of human vision, the proposed XGeoS-AI framework generates a threshold value from a local region within the whole image to complete the recognition. Different kinds of artificial intelligence (AI) methods, such as Support Vector Regression (SVR), Multilayer Perceptron (MLP), Convolutional Neural Network (CNN), can be adopted as the AI engines of the proposed XGeoS-AI framework to efficiently complete geoscience image recognition tasks. Experimental results demonstrate that the effectiveness, versatility, and heuristics of the proposed framework have great potential in solving geoscience image recognition problems. Interpretable AI should receive more and more attention in the field of the Earth sciences, which is the key to promoting more rational and wider applications of AI in the field of Earth sciences. In addition, the proposed interpretable framework may be the forerunner of technological innovation in the Earth sciences.
翻訳日:2024-05-08 20:03:52 公開日:2024-05-07
# マイクロ波量子膜キャパシタ効果

Microwave Quantum Memcapacitor Effect ( http://arxiv.org/abs/2311.06925v2 )

ライセンス: Link先を確認
X. -Y. Qiu, S. Kumar, F. A. Cárdenas-López, G. Alvarado Barrios, E. Solano, F. Albarrán-Arriagada, (参考訳) ニューロモルフィック量子コンピューティングの分野を開発するには、スケーラブルな量子メモリデバイスを設計する必要がある。 本稿では,マイクロ波系における超伝導量子メモリデバイスをマイクロ波量子膜キャパシタとして提案する。 2つの連結共振器で構成され、主共振器は超伝導量子干渉デバイスに結合され、外部磁束による共振器特性の変調を可能にする。 補助共振器は弱い測定によって動作し、一次共振器にフィードバックを与え、安定したメモリ動作を保証する。 この装置は、応答を読みながら一方の空洞の古典的な入力で動作し、マイクロ波量子膜キャパシタの配列に対する基本的な構成要素として機能する。 両部構成がメモリの挙動を保ち、絡み合いや量子相関が得られることを観察する。 本研究は,ニューロモルフィック量子コンピューティングのためのメムキャパシブ超伝導量子デバイスとメモリデバイスアレイの実験的実装の道を開くものである。

Developing the field of neuromorphic quantum computing necessitates designing scalable quantum memory devices. Here, we propose a superconducting quantum memory device in the microwave regime, termed as a microwave quantum memcapacitor. It comprises two linked resonators, the primary one is coupled to a Superconducting Quantum Interference Device, which allows for the modulation of the resonator properties through external magnetic flux. The auxiliary resonator, operated through weak measurements, provides feedback to the primary resonator, ensuring stable memory behaviour. This device operates with a classical input in one cavity while reading the response in the other, serving as a fundamental building block toward arrays of microwave quantum memcapacitors. We observe that a bipartite setup can retain its memory behaviour and gains entanglement and quantum correlations. Our findings pave the way for the experimental implementation of memcapacitive superconducting quantum devices and memory device arrays for neuromorphic quantum computing.
翻訳日:2024-05-08 20:03:52 公開日:2024-05-07
# ブール変動とブール論理バックプロパゲーション

Boolean Variation and Boolean Logic BackPropagation ( http://arxiv.org/abs/2311.07427v2 )

ライセンス: Link先を確認
Van Minh Nguyen, (参考訳) 変動の概念はブール集合に導入され、ブール論理のバックプロパゲーション原理が開発された。 この概念を用いて、ディープモデルはウェイトとアクティベーションをブール数として構築でき、実算術の代わりにブール論理で操作できる。 特に、ブール深度モデルは遅延重みを伴わずにブール領域で直接訓練することができる。 勾配はないが、ロジックは層を通して合成され、バックプロパゲーションされる。

The notion of variation is introduced for the Boolean set and based on which Boolean logic backpropagation principle is developed. Using this concept, deep models can be built with weights and activations being Boolean numbers and operated with Boolean logic instead of real arithmetic. In particular, Boolean deep models can be trained directly in the Boolean domain without latent weights. No gradient but logic is synthesized and backpropagated through layers.
翻訳日:2024-05-08 20:03:52 公開日:2024-05-07
# アモーダル光流

Amodal Optical Flow ( http://arxiv.org/abs/2311.07761v2 )

ライセンス: Link先を確認
Maximilian Luz, Rohit Mohan, Ahmed Rida Sekkat, Oliver Sawade, Elmar Matthes, Thomas Brox, Abhinav Valada, (参考訳) 光フロー推定は、透明または隠蔽された物体の状況において非常に困難である。 本研究では,光フローとアモーダル知覚を統合したアモーダル光フローを導入することで,これらの課題をタスクレベルで解決する。 可視領域のみを表すのではなく、シーンの可視領域と隠蔽領域の両方を包含する多層画素レベルの運動場としてアモーダル光フローを定義する。 この新しいタスクの研究を容易にするため、AmodalSynthDriveデータセットを拡張して、アモーダル光フロー推定のためのピクセルレベルラベルを含める。 解析可能な方法で性能を定量化するために,Amodal Flow Qualityメトリックとともに,いくつかの強いベースラインを示す。 さらに,この課題に対処するための最初のステップとして,新しいAmodalFlowNetを提案する。 AmodalFlowNetはトランスフォーマーベースのコストボリュームエンコーダとリカレントトランスフォーマーデコーダを組み合わせることで、再カレントな階層的特徴伝搬とアモーダルなセマンティックグラウンドディングを容易にする。 広汎な実験において、アモーダル光流のトラクタビリティを実証し、パン光学追跡などの下流タスクにその有用性を示す。 データセット、コード、トレーニングされたモデルをhttp://amodal-flow.cs.uni-freiburg.deで公開しています。

Optical flow estimation is very challenging in situations with transparent or occluded objects. In this work, we address these challenges at the task level by introducing Amodal Optical Flow, which integrates optical flow with amodal perception. Instead of only representing the visible regions, we define amodal optical flow as a multi-layered pixel-level motion field that encompasses both visible and occluded regions of the scene. To facilitate research on this new task, we extend the AmodalSynthDrive dataset to include pixel-level labels for amodal optical flow estimation. We present several strong baselines, along with the Amodal Flow Quality metric to quantify the performance in an interpretable manner. Furthermore, we propose the novel AmodalFlowNet as an initial step toward addressing this task. AmodalFlowNet consists of a transformer-based cost-volume encoder paired with a recurrent transformer decoder which facilitates recurrent hierarchical feature propagation and amodal semantic grounding. We demonstrate the tractability of amodal optical flow in extensive experiments and show its utility for downstream tasks such as panoptic tracking. We make the dataset, code, and trained models publicly available at http://amodal-flow.cs.uni-freiburg.de.
翻訳日:2024-05-08 20:03:52 公開日:2024-05-07
# 不完全なデータシナリオ下でのマルチモーダル感情認識のためのノイズ・ロバスト共同表現の学習

Learning Noise-Robust Joint Representation for Multimodal Emotion Recognition under Incomplete Data Scenarios ( http://arxiv.org/abs/2311.16114v2 )

ライセンス: Link先を確認
Qi Fan, Haolin Zuo, Rui Liu, Zheng Lian, Guanglai Gao, (参考訳) 実践シナリオにおけるマルチモーダル感情認識(MER)は、異なるモダリティにまたがる欠落データや不完全データの存在によって、著しく困難である。 これらの課題を克服するために、研究者はシステム全体の堅牢性を高めるために、トレーニングフェーズ中に不完全な条件をシミュレートすることを目指している。 従来の手法では、データを捨てたり、データセグメントをゼロベクトルで置換することで、これらの不完全性を近似することが多い。 しかし、そのようなアプローチは現実の条件を正確に表現したり、ノイズの多いデータ可用性の問題に適切に対処したりはしない。 例えば、ぼやけた画像は単にゼロベクトルに置き換えることができず、情報を保持することはできない。 この問題に対処し、より正確なMERシステムを構築するために、雑音の多いデータからロバストなマルチモーダルな関節表現を効果的に学習する新しいノイズローバストMERモデルを提案する。 このアプローチには、まず、さまざまな現実的な不完全な状況をエミュレートするために、データのタイプとレベルのノイズを調整するノイズスケジューラという、2つの重要なコンポーネントが含まれている。 次に、可変オートエンコーダ(VAE)ベースのモジュールを用いて、ノイズ入力から頑健なマルチモーダルな関節表現を再構成する。 特に、ノイズスケジューラの導入により、既存の手法では不可能な全く新しいタイプの不完全なデータ条件の探索が可能になる。 ベンチマークデータセットであるIEMOCAPとCMU-MOSEIの大規模な実験により、ノイズスケジューラの有効性と提案モデルの優れた性能が示された。

Multimodal emotion recognition (MER) in practical scenarios is significantly challenged by the presence of missing or incomplete data across different modalities. To overcome these challenges, researchers have aimed to simulate incomplete conditions during the training phase to enhance the system's overall robustness. Traditional methods have often involved discarding data or substituting data segments with zero vectors to approximate these incompletenesses. However, such approaches neither accurately represent real-world conditions nor adequately address the issue of noisy data availability. For instance, a blurry image cannot be simply replaced with zero vectors, and still retain information. To tackle this issue and develop a more precise MER system, we introduce a novel noise-robust MER model that effectively learns robust multimodal joint representations from noisy data. This approach includes two pivotal components: firstly, a noise scheduler that adjusts the type and level of noise in the data to emulate various realistic incomplete situations. Secondly, a Variational AutoEncoder (VAE)-based module is employed to reconstruct these robust multimodal joint representations from the noisy inputs. Notably, the introduction of the noise scheduler enables the exploration of an entirely new type of incomplete data condition, which is impossible with existing methods. Extensive experimental evaluations on the benchmark datasets IEMOCAP and CMU-MOSEI demonstrate the effectiveness of the noise scheduler and the excellent performance of our proposed model.
翻訳日:2024-05-08 20:03:52 公開日:2024-05-07
# テキストと画像を用いた4次元シーン生成のための統一的アプローチ

A Unified Approach for Text- and Image-guided 4D Scene Generation ( http://arxiv.org/abs/2311.16854v3 )

ライセンス: Link先を確認
Yufeng Zheng, Xueting Li, Koki Nagano, Sifei Liu, Karsten Kreis, Otmar Hilliges, Shalini De Mello, (参考訳) 大規模な拡散生成モデルは、ユーザが提供するテキストプロンプトと画像から画像、ビデオ、および3Dアセットの作成を大幅に単純化する。 しかし,拡散誘導によるテキスト・ツー・4次元動的3次元シーン生成の課題は未解決のままである。 まず,(1)3Dと2Dの拡散誘導を利用して,第1段階で高品質な静的な3D資産を効果的に学習するDream-in-4D,(2)学習した静的な資産をその変形から明示的に切り離す変形可能なニューラルラジアンス場,(3)変位総変動損失のある変形場のためのマルチレゾル特徴格子を用いてビデオ拡散誘導を効果的に学習するDream-in-4Dを提案する。 ユーザの嗜好調査を通じて,本手法はベースラインアプローチと比較して,画像品質,3次元一貫性,テキストの忠実度を著しく向上することを示した。 モーションディスタングル表現のおかげで、Dream-in-4Dは、モーション学習ステージを変更することなく、1つまたは複数の画像によって外観が定義される制御可能な世代に容易に適応することができる。 そこで本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一的なアプローチを提供する。

Large-scale diffusion generative models are greatly simplifying image, video and 3D asset creation from user-provided text prompts and images. However, the challenging problem of text-to-4D dynamic 3D scene generation with diffusion guidance remains largely unexplored. We propose Dream-in-4D, which features a novel two-stage approach for text-to-4D synthesis, leveraging (1) 3D and 2D diffusion guidance to effectively learn a high-quality static 3D asset in the first stage; (2) a deformable neural radiance field that explicitly disentangles the learned static asset from its deformation, preserving quality during motion learning; and (3) a multi-resolution feature grid for the deformation field with a displacement total variation loss to effectively learn motion with video diffusion guidance in the second stage. Through a user preference study, we demonstrate that our approach significantly advances image and motion quality, 3D consistency and text fidelity for text-to-4D generation compared to baseline approaches. Thanks to its motion-disentangled representation, Dream-in-4D can also be easily adapted for controllable generation where appearance is defined by one or multiple images, without the need to modify the motion learning stage. Thus, our method offers, for the first time, a unified approach for text-to-4D, image-to-4D and personalized 4D generation tasks.
翻訳日:2024-05-08 19:54:07 公開日:2024-05-07
# Calabi-Yau Four/5/Six-folds as $\mathbb{P}^n_\textbf{w}$ Hyper surfaces: Machine Learning, Approximation, Generation

Calabi-Yau Four/Five/Six-folds as $\mathbb{P}^n_\textbf{w}$ Hypersurfaces: Machine Learning, Approximation, and Generation ( http://arxiv.org/abs/2311.17146v2 )

ライセンス: Link先を確認
Edward Hirst, Tancredi Schettini Gherardini, (参考訳) カラビ・ヤウ四次元多様体は、6重みの重み系によって定義される複素次元5の重み付き射影空間の超曲面として構成することができる。 この研究において、重み系からカラビ・ヤウ・ホッジ数を学ぶためにニューラルネットワークが実装され、そこで勾配の塩分と記号の回帰が、この方法で構築された任意の次元カラビ・ヤウのホッジ数に対するランダウ・ギンズブルグモデル公式のトランケーションを引き起こした。 近似は常に厳密な下限を提供し、計算が劇的に速くなる(計算時間は最大4桁まで削減される)ことが示され、大きな重みを持つ系に対して驚くほど正確な結果が得られる。 さらに, 内部点, 反射率, 可視性特性など, トランスバーシティの必要条件を満たす重量系の相補的データセットを構築した。 全体として、この重みシステムのランドスケープの分類を作成し、さらに機械学習手法で確認した。 この分類の知識と提案した近似の特性を用いて、各トポロジカル特性を計算したカラビ・ヤウの5倍の新しいデータベースを作成した。 さらに、近似ホッジ数を用いて、候補カラビ・ヤウの6倍の等価データベースが生成される。

Calabi-Yau four-folds may be constructed as hypersurfaces in weighted projective spaces of complex dimension 5 defined via weight systems of 6 weights. In this work, neural networks were implemented to learn the Calabi-Yau Hodge numbers from the weight systems, where gradient saliency and symbolic regression then inspired a truncation of the Landau-Ginzburg model formula for the Hodge numbers of any dimensional Calabi-Yau constructed in this way. The approximation always provides a tight lower bound, is shown to be dramatically quicker to compute (with compute times reduced by up to four orders of magnitude), and gives remarkably accurate results for systems with large weights. Additionally, complementary datasets of weight systems satisfying the necessary but insufficient conditions for transversality were constructed, including considerations of the interior point, reflexivity, and intradivisibility properties. Overall producing a classification of this weight system landscape, further confirmed with machine learning methods. Using the knowledge of this classification, and the properties of the presented approximation, a novel dataset of transverse weight systems consisting of 7 weights was generated for a sum of weights $\leq 200$; producing a new database of Calabi-Yau five-folds, with their respective topological properties computed. Further to this an equivalent database of candidate Calabi-Yau six-folds was generated with approximated Hodge numbers.
翻訳日:2024-05-08 19:54:07 公開日:2024-05-07
# ディープアンラーニング: クラスフォーミングに対する高速で効率的なトレーニング不要なアプローチ

Deep Unlearning: Fast and Efficient Training-free Approach to Class Forgetting ( http://arxiv.org/abs/2312.00761v3 )

ライセンス: Link先を確認
Sangamesh Kodge, Gobinda Saha, Kaushik Roy, (参考訳) 機械学習は、ユーザのデータ削除とプライバシー意識の高まりに対する規制の要求により、目立って困難な分野である。 既存のアプローチでは、各削除要求に対して、しばしば計算制限と制限されたデータアクセスによって制約されるモデルまたは複数の微調整ステップを再訓練する。 本研究では,学習モデルから特定のクラスを戦略的に除去する新しいクラスアンラーニングアルゴリズムを提案する。 提案アルゴリズムは,まず,保持クラスと未学習クラスからのサンプルの小さなサブセットに対して,階層的アクティベーションに対してSingular Value Decomposition(Singular Value Decomposition)を用いてRetainとForget Spacesを推定する。 次に、これらの空間間の共有情報を計算し、それを忘れ空間から取り除き、クラス識別的特徴空間を分離する。 最後に、活性化空間からのクラス識別特性を抑えるために重みを更新することにより、未学習モデルを得る。 このアルゴリズムの有効性を、未学習のクラスサンプルに対して1\%以下の精度を維持しながら、元のモデルと比較して精度を保ったまま、わずか$\sim 1.5\%の値のVision Transformerを用いて、ImageNet上で実証する。 さらに、このアルゴリズムは、様々な画像分類データセットやネットワークアーキテクチャに対して平均7.8 %$の改善を示すメンバーシップ推論攻撃を対象とし、他のベースラインと比較すると、より計算効率の高い$\sim 6 \times$である。 私たちのコードはhttps://github.com/sangamesh-kodge/class_forgetting.comで利用可能です。

Machine unlearning is a prominent and challenging field, driven by regulatory demands for user data deletion and heightened privacy awareness. Existing approaches involve retraining model or multiple finetuning steps for each deletion request, often constrained by computational limits and restricted data access. In this work, we introduce a novel class unlearning algorithm designed to strategically eliminate specific classes from the learned model. Our algorithm first estimates the Retain and the Forget Spaces using Singular Value Decomposition on the layerwise activations for a small subset of samples from the retain and unlearn classes, respectively. We then compute the shared information between these spaces and remove it from the forget space to isolate class-discriminatory feature space. Finally, we obtain the unlearned model by updating the weights to suppress the class discriminatory features from the activation spaces. We demonstrate our algorithm's efficacy on ImageNet using a Vision Transformer with only $\sim 1.5\%$ drop in retain accuracy compared to the original model while maintaining under $1\%$ accuracy on the unlearned class samples. Further, our algorithm consistently performs well when subject to Membership Inference Attacks showing $7.8\%$ improvement on average across a variety of image classification datasets and network architectures, as compared to other baselines while being $\sim 6 \times$ more computationally efficient. Our code is available at https://github.com/sangamesh-kodge/class_forgetting.
翻訳日:2024-05-08 19:54:07 公開日:2024-05-07
# 共形コンパクト化ミンコフスキー時空のポテンシャルとそのクォーク分解への応用

Potentials on the conformally compactified Minkowski spacetime and their application to quark deconfinement ( http://arxiv.org/abs/2312.01199v2 )

ライセンス: Link先を確認
M. Kirchbach, J. A. Vallejo, (参考訳) 等角コンパクト化ミンコフスキー時空S^1\times S^3$の3次元球面をパラメータ化する準半径座標における共形計量変形のクラスについて検討する。 関連するラプラス・ベルトラミ作用素をシュル・オジンガー形式に還元する以前に、正確に解けるポテンシャルの対応するクラス(スカラーと勾配項を含むもの)が見つかる。 特に、これらのポテンシャルのスカラー部分は、正確に、あるいは、準特殊解決可能であり、その中で、P\"oschl-Teller, Scarf および Rosen-Morse の三角ポテンシャルを閉包する有限範囲を求める。 論文で開発された結果の適用として、これらのポテンシャルによって記述された相互作用の大規模なコンパクト化半径限界について検討し、この状態が量子力学的クォーク分解機構に関係していることが示されている。

We study a class of conformal metric deformations in the quasi-radial coordinate parameterizing the 3-sphere in the conformally compactified Minkowski spacetime $S^1\times S^3$. Prior to reduction of the associated Laplace-Beltrami operators to a Schr\"odinger form, a corresponding class of exactly solvable potentials (each one containing a scalar and a gradient term) is found. In particular, the scalar piece of these potentials can be exactly or quasi-exactly solvable, and among them we find the finite range confining trigonometric potentials of P\"oschl-Teller, Scarf and Rosen-Morse. As an application of the results developed in the paper, the large compactification radius limit of the interaction described by some of these potentials is studied, and this regime is shown to be relevant to a quantum mechanical quark deconfinement mechanism.
翻訳日:2024-05-08 19:54:07 公開日:2024-05-07
# 二項分類における非線形アルゴリズムバイアスの緩和

Mitigating Nonlinear Algorithmic Bias in Binary Classification ( http://arxiv.org/abs/2312.05429v3 )

ライセンス: Link先を確認
Wendy Hui, Wai Kwong Lau, (参考訳) 本稿では,保護属性の非線形なアルゴリズムバイアスの検出と緩和に因果モデリングを用いることを提案する。 当社のアプローチの概要を概観する。 我々は,UCアーバイン機械学習リポジトリからダウンロード可能なドイツ信用データセットを用いて,(1)ブラックボックスとして扱われる予測モデル,(2)バイアス軽減のための因果モデルを開発する。 本稿では,年齢バイアスと二分分類の問題に焦点をあてる。 若年者では「低リスク」と正しく分類される可能性が低いことを示す。 確率は非線形に増加する。 因果モデルに非線形性を導入するために、高次多項式項を導入する。 適合因果モデルに基づいて,非偏差確率推定値を算出し,全体の分類精度にはほとんど影響を与えない公平性を示す。 因果モデリングは直感的であり、その使用は説明可能性を高め、AIの異なる利害関係者間の信頼を促進する。

This paper proposes the use of causal modeling to detect and mitigate algorithmic bias that is nonlinear in the protected attribute. We provide a general overview of our approach. We use the German Credit data set, which is available for download from the UC Irvine Machine Learning Repository, to develop (1) a prediction model, which is treated as a black box, and (2) a causal model for bias mitigation. In this paper, we focus on age bias and the problem of binary classification. We show that the probability of getting correctly classified as "low risk" is lowest among young people. The probability increases with age nonlinearly. To incorporate the nonlinearity into the causal model, we introduce a higher order polynomial term. Based on the fitted causal model, the de-biased probability estimates are computed, showing improved fairness with little impact on overall classification accuracy. Causal modeling is intuitive and, hence, its use can enhance explicability and promotes trust among different stakeholders of AI.
翻訳日:2024-05-08 19:54:07 公開日:2024-05-07
# RNNとしてのCLIP

CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor ( http://arxiv.org/abs/2312.07661v3 )

ライセンス: Link先を確認
Shuyang Sun, Runjia Li, Philip Torr, Xiuye Gu, Siyang Li, (参考訳) 既存のオープン語彙のイメージセグメンテーション手法では、マスクラベルや画像テキストデータセットを微調整する必要がある。 マスクラベルは労働集約的であり、セグメンテーションデータセットのカテゴリ数を制限する。 これにより、訓練済みVLMの語彙能力は微調整後に著しく低下する。 しかし、微調整なしでは、画像テキストの弱い監督下で訓練されたVLMは、最適なマスクの予測を行う傾向にある。 これらの問題を緩和するために,無関係なテキストを段階的にフィルタリングし,トレーニングを伴わずにマスク品質を向上させる新しい繰り返しフレームワークを導入する。 リカレントユニットは凍結VLM上に作られた2段セグメンタである。 このように、我々のモデルはVLMの広い語彙空間を保持し、セグメンテーション能力を備える。 実験により,本手法はトレーニング不要の手法だけでなく,数百万のデータサンプルを微調整した手法よりも優れており,ゼロショットセマンティクスと参照セグメンテーションの両方に対して,新たな最先端記録を設定できることがわかった。 具体的には,Pascal VOC,COCO Object,Pascal Contextの28.8,16.0,6.9mIoUを改良した。

Existing open-vocabulary image segmentation methods require a fine-tuning step on mask labels and/or image-text datasets. Mask labels are labor-intensive, which limits the number of categories in segmentation datasets. Consequently, the vocabulary capacity of pre-trained VLMs is severely reduced after fine-tuning. However, without fine-tuning, VLMs trained under weak image-text supervision tend to make suboptimal mask predictions. To alleviate these issues, we introduce a novel recurrent framework that progressively filters out irrelevant texts and enhances mask quality without training efforts. The recurrent unit is a two-stage segmenter built upon a frozen VLM. Thus, our model retains the VLM's broad vocabulary space and equips it with segmentation ability. Experiments show that our method outperforms not only the training-free counterparts, but also those fine-tuned with millions of data samples, and sets the new state-of-the-art records for both zero-shot semantic and referring segmentation. Concretely, we improve the current record by 28.8, 16.0, and 6.9 mIoU on Pascal VOC, COCO Object, and Pascal Context.
翻訳日:2024-05-08 19:54:07 公開日:2024-05-07
# 深部ドラム音源分離に向けて

Toward Deep Drum Source Separation ( http://arxiv.org/abs/2312.09663v2 )

ライセンス: Link先を確認
Alessandro Ilic Mezza, Riccardo Giampiccolo, Alberto Bernardini, Augusto Sarti, (参考訳) これまで、ドラムソース分離の分野は、データ可用性が限られており、他の関連するオーディオアプリケーションで成功を収めた最先端のディープラーニング手法の採用を妨げていたため、重大な課題に直面していた。 本稿では,独立した単一構造ドラムステムの大規模オーディオデータセットであるStemGMDを紹介する。 10個の実音響ドラムキットを用いて、各オーディオクリップを表現型ドラム演奏のMIDI記録から合成する。 トータルで1224時間、StemGMDはドラムの最大のオーディオデータセットであり、標準の9ピースドラムキットですべての楽器のための独立したオーディオクリップを初めて作成した。 我々は、StemGMDを利用して、新しいディープドラムソース分離モデルであるLarsNetを開発した。 専用U-Netのバンクを通じて、LarsNetはステレオドラムの混合物から5本の幹をリアルタイムより高速に分離することができ、最先端の非負の分光時間分解法よりも著しく優れていることを示す。

In the past, the field of drum source separation faced significant challenges due to limited data availability, hindering the adoption of cutting-edge deep learning methods that have found success in other related audio applications. In this manuscript, we introduce StemGMD, a large-scale audio dataset of isolated single-instrument drum stems. Each audio clip is synthesized from MIDI recordings of expressive drums performances using ten real-sounding acoustic drum kits. Totaling 1224 hours, StemGMD is the largest audio dataset of drums to date and the first to comprise isolated audio clips for every instrument in a canonical nine-piece drum kit. We leverage StemGMD to develop LarsNet, a novel deep drum source separation model. Through a bank of dedicated U-Nets, LarsNet can separate five stems from a stereo drum mixture faster than real-time and is shown to significantly outperform state-of-the-art nonnegative spectro-temporal factorization methods.
翻訳日:2024-05-08 19:54:07 公開日:2024-05-07
# Paint-it:Deep Convolutional Texture Map Optimizationと物理ベースレンダリングによるテキストからテクスチャへの合成

Paint-it: Text-to-Texture Synthesis via Deep Convolutional Texture Map Optimization and Physically-Based Rendering ( http://arxiv.org/abs/2312.11360v2 )

ライセンス: Link先を確認
Kim Youwang, Tae-Hyun Oh, Gerard Pons-Moll, (参考訳) 本研究では,ニューラルネットワークによる3次元メッシュのテクスチャマップ合成手法であるPaint-itを提案する。 Paint-itは、Score-Distillation Sampling (SDS)を利用して、テキスト記述からテクスチャマップを合成する。 我々は,SDSを直接適用すると,ノイズ勾配が原因で,望ましくないテクスチャ品質が得られることを観察した。 SDSを用いた場合のテクスチャパラメータ化の重要性を明らかにする。 具体的には,Dep Convolutional Physical-Based Rendering (DC-PBR)パラメータ化を提案し,PBRテクスチャマップを標準的なピクセルベースのパラメータ化ではなく,ランダムに初期化した畳み込みベースのニューラルネットワークで再パラメータ化する。 我々は,DC-PBRがテクスチャ周波数に応じて最適化カリキュラムをスケジュールし,SDSからノイズ信号を自然にフィルタすることを示した。 実験では、Paint-itはテキスト記述だけで15分以内で優れたPBRテクスチャマップを得る。 大規模メッシュデータセットに対して高品質なテクスチャマップを合成し、リライティングや一般的なグラフィックスエンジンを用いた材料制御などのテストタイム応用を示すことにより、ペイントイットの一般化性と実用性を実証する。 プロジェクトページ: https://kim-youwang.github.io/paint-it

We present Paint-it, a text-driven high-fidelity texture map synthesis method for 3D meshes via neural re-parameterized texture optimization. Paint-it synthesizes texture maps from a text description by synthesis-through-optimization, exploiting the Score-Distillation Sampling (SDS). We observe that directly applying SDS yields undesirable texture quality due to its noisy gradients. We reveal the importance of texture parameterization when using SDS. Specifically, we propose Deep Convolutional Physically-Based Rendering (DC-PBR) parameterization, which re-parameterizes the physically-based rendering (PBR) texture maps with randomly initialized convolution-based neural kernels, instead of a standard pixel-based parameterization. We show that DC-PBR inherently schedules the optimization curriculum according to texture frequency and naturally filters out the noisy signals from SDS. In experiments, Paint-it obtains remarkable quality PBR texture maps within 15 min., given only a text description. We demonstrate the generalizability and practicality of Paint-it by synthesizing high-quality texture maps for large-scale mesh datasets and showing test-time applications such as relighting and material control using a popular graphics engine. Project page: https://kim-youwang.github.io/paint-it
翻訳日:2024-05-08 19:54:07 公開日:2024-05-07
# Terrapin攻撃:シーケンス数操作によるSSHチャネルのインテリジェンスを破る

Terrapin Attack: Breaking SSH Channel Integrity By Sequence Number Manipulation ( http://arxiv.org/abs/2312.12422v2 )

ライセンス: Link先を確認
Fabian Bäumer, Marcus Brinkmann, Jörg Schwenk, (参考訳) SSHプロトコルは、ネットワークサービス、特にリモート端末のログインや、組織内のファイル転送、オープンインターネット上の1500万以上のサーバへのセキュアなアクセスを提供する。 SSHは認証されたキー交換を使用して、クライアントとサーバの間のセキュアなチャネルを確立する。 セキュアなチャネルは、メッセージ操作、リプレイ、挿入、削除、再注文を防止する。 ネットワークレベルでは、SSHはTCP上のバイナリパケットプロトコルを使用する。 本稿では,SSHバイナリパケットプロトコルがもはやセキュアなチャネルではないことを示す。SSHチャネルの完全性 (INT-PST, aINT-PTXT, INT-sfCTF) は,広く使用されている3つの暗号化モードに対して破壊される。 これにより、SSHチャネルの先頭にある暗号化パケットをクライアントやサーバに通知せずに削除できるプレフィックス・トランケーション攻撃が可能になる。 この攻撃の実際の応用例をいくつか紹介する。 我々は,ユーザ認証のための公開鍵アルゴリズムをダウングレードしたり,OpenSSH 9.5で導入されたキーストロークタイミング攻撃に対する新たな対策をオフにすることができるような,SSH拡張交渉(RFC 8308)を完全に破ることができることを示す。 さらに、AsyncSSHの実装欠陥を特定し、プレフィックスの切り離しとともに、攻撃者は攻撃者が制御するシェルに被害者のログインをリダイレクトすることができる。 また、インターネット全体のスキャンを行い、71.6%のSSHサーバが脆弱な暗号化モードをサポートしており、63.2%はそれを好みの選択肢として挙げている。 まず、SSHハンドシェイクは認証されていないオプションメッセージをサポートします。 第二に、SSHは暗号化キーをアクティベートする際にメッセージシーケンス番号をリセットしない。 この分析に基づいて、攻撃を緩和するSSHの効果的かつ後方互換性のある変更を提案する。

The SSH protocol provides secure access to network services, particularly remote terminal login and file transfer within organizational networks and to over 15 million servers on the open internet. SSH uses an authenticated key exchange to establish a secure channel between a client and a server, which protects the confidentiality and integrity of messages sent in either direction. The secure channel prevents message manipulation, replay, insertion, deletion, and reordering. At the network level, SSH uses the Binary Packet Protocol over TCP. In this paper, we show that the SSH Binary Packet Protocol is no longer a secure channel: SSH channel integrity (INT-PST, aINT-PTXT, and INT-sfCTF) is broken for three widely used encryption modes. This allows prefix truncation attacks where encrypted packets at the beginning of the SSH channel can be deleted without the client or server noticing it. We demonstrate several real-world applications of this attack. We show that we can fully break SSH extension negotiation (RFC 8308), such that an attacker can downgrade the public key algorithms for user authentication or turn off a new countermeasure against keystroke timing attacks introduced in OpenSSH 9.5. Further, we identify an implementation flaw in AsyncSSH that, together with prefix truncation, allows an attacker to redirect the victim's login into a shell controlled by the attacker. We also performed an internet-wide scan and found that 71.6% of SSH servers support a vulnerable encryption mode, while 63.2% even list it as their preferred choice. We identify two root causes that enable these attacks: First, the SSH handshake supports optional messages that are not authenticated. Second, SSH does not reset message sequence numbers when activating encryption keys. Based on this analysis, we propose effective and backward-compatible changes to SSH that mitigate our attacks.
翻訳日:2024-05-08 19:54:07 公開日:2024-05-07
# 指数的高速化による1次元弾性波シミュレーションのための量子コンピューティングの概念

A quantum computing concept for 1-D elastic wave simulation with exponential speedup ( http://arxiv.org/abs/2312.14747v2 )

ライセンス: Link先を確認
Malte Schade, Cyrill Boesch, Vaclav Hapla, Andreas Fichtner, (参考訳) 量子コンピューティングは、少なくとも一部のアプリケーションでは、従来のスーパーコンピュータでは提供できないスピードアップを約束しているため、近年でかなりの注目を集めている。 既存の量子コンピュータは、多くの場合、重要な問題を解決するには小さすぎるが、その将来的なドメイン科学への影響はすでに検討されている。 この文脈内では、理論的な定式化と実量子コンピュータへの実装という、2つの要素を持つ異種媒質における1次元弾性波伝播の量子コンピューティングの概念を示す。 この手法は有限差分近似に基づいており、続いて離散弾性波動方程式をSchr\"{o}dinger方程式に空間保存変換し、ゲートベースの量子コンピュータ上で直接シミュレートすることができる。 誤差のない量子シミュレータの実装は、我々のアプローチを検証し、実量子コンピュータ IBM Brisbane 上の小さな問題による数値実験の基礎を形成する。 後者は、誤りのないバージョンと定性的に一致するが、量子デコヒーレンスとノイズ効果によって汚染されるシミュレーション結果を生成する。 連続バージョンによるSchr\"{o}dinger方程式への離散変換を補完することで、スペクトル要素法のような他の空間離散化スキームによる有限差分を置き換えることができる。 誤り訂正型量子チップの出現を予測し,本手法と結合型マススプリングシステムの解析の類似性から,我々の量子コンピューティングアプローチは,従来のコンピュータのシミュレーションよりも指数関数的に高速に動作する波動場シミュレーションに繋がる可能性が示唆された。

Quantum computing has attracted considerable attention in recent years because it promises speed-ups that conventional supercomputers cannot offer, at least for some applications. Though existing quantum computers are, in most cases, still too small to solve significant problems, their future impact on domain sciences is already being explored now. Within this context, we present a quantum computing concept for 1-D elastic wave propagation in heterogeneous media with two components: a theoretical formulation and an implementation on a real quantum computer. The method rests on a finite-difference approximation, followed by a sparsity-preserving transformation of the discrete elastic wave equation to a Schr\"{o}dinger equation, which can be simulated directly on a gate-based quantum computer. An implementation on an error-free quantum simulator verifies our approach and forms the basis of numerical experiments with small problems on the real quantum computer IBM Brisbane. The latter produce simulation results that qualitatively agree with the error-free version but are contaminated by quantum decoherence and noise effects. Complementing the discrete transformation to the Schr\"{o}dinger equation by a continuous version allows the replacement of finite differences by other spatial discretisation schemes, such as the spectral-element method. Anticipating the emergence of error-corrected quantum chips, an analogy between our method and analyses of coupled mass-spring systems suggests that our quantum computing approach may lead to wave field simulations that run exponentially faster than simulations on classical computers.
翻訳日:2024-05-08 19:54:07 公開日:2024-05-07
# 2次元シュロディンガー方程式の特異ポテンシャルとしてのディラックデルタ

The Dirac Delta as a Singular Potential for the 2D Schrodinger Equation ( http://arxiv.org/abs/2312.15126v3 )

ライセンス: Link先を確認
Michael Maroun, (参考訳) 分布一般化量子論の枠組みにおいて、対象$H\psi$は分布として定義される。 数学的意義は、パラ微分作用素と擬微分作用素の理論(および弱固有値問題の一般化)の穏やかな一般化であり、$\psi$-doシンボル(この一般化の場合、適切な線型作用素ではない)はその係数関数が特異分布値を取ることができる。 ここで、分布が特異であるとは、それが任意の$p\geq 1$に対して L$^p(\mathbb{R}^d)$ でないことを言う。 物理的には、その重要性は数学的に厳密な方法であり、いかなる種類の正規化や正規化にも依存せず、文献と一致した境界状態エネルギーを生成する。 さらに、この方法がラプラス作用素の自己随伴拡張に依存しないという利点もある。 これは、ディラック方程式の場合と同様に、この理論が非シュロディンガー系に適用されるときに重要であり、量子場理論の有限厳密なバージョンに必要な性質である。 分布解釈は、波動関数が定義できない点で評価する必要性を解消する。 $d=2$ の場合、これは $K_o(a|x|)\delta(x)$ であり、$K_o$ はゼロ次マクドナルド関数である。 最後に、形式記号(ic)ハミルトニアンのスケール不変性や、対数関数の共通恒等式($a,\,b\in\mathbb{R}^+$, $\log(ab)=\log)により、不足する異常な長さスケールも識別できる。 (a)+\log (b)$は、引数において一意性を失う。 結果として、エネルギーまたは点スペクトルは、Cスペクトルと呼ばれる(連続体によってインデックス付けされた)スペクトル値の族として一般化される。

In the framework of distributionally generalized quantum theory, the object $H\psi$ is defined as a distribution. The mathematical significance is a mild generalization for the theory of para- and pseudo-differential operators (as well as a generalization of the weak eigenvalue problem), where the $\psi$-do symbol (which is not a proper linear operator in this generalized case) can have its coefficient functions take on singular distributional values. Here, a distribution is said to be singular if it is not L$^p(\mathbb{R}^d)$ for any $p\geq 1$. Physically, the significance is a mathematically rigorous method, which does not rely upon renormalization or regularization of any kind, while producing bound state energy results in agreement with the literature. In addition, another benefit is that the method does not rely upon self-adjoint extensions of the Laplace operator. This is important when the theory is applied to non-Schrodinger systems, as is the case for the Dirac equation and a necessary property of any finite rigorous version of quantum field theory. The distributional interpretation resolves the need to evaluate a wave function at a point where it fails to be defined. For $d=2$, this occurs as $K_o(a|x|)\delta(x)$, where $K_o$ is the zeroth order MacDonald function. Finally, there is also the identification of a missing anomalous length scale, owing to the scale invariance of the formal symbol(ic) Hamiltonian, as well as the common identity for the logarithmic function, with $a,\,b\in\mathbb{R}^+$, $\log(ab)=\log(a)+\log(b)$, which loses unitlessness in its arguments. Consequently, the energy or point spectrum is generalized as a family (set indexed by the continuum) of would-be spectral values, called the C-spectrum.
翻訳日:2024-05-08 19:54:07 公開日:2024-05-07
# $\mathtt{RNN}$の再スケーリング、離散化、線形化について

About rescaling, discretisation and linearisation of $\mathtt{RNN}$ ( http://arxiv.org/abs/2312.15974v2 )

ライセンス: Link先を確認
Mariano Caruso, Cecilia Jarne, (参考訳) 我々は、リカレントニューラルネットワーク(\mathtt{RNN}$s)の数学的基礎と、時間的再スケーリング、離散化、線形化の3つの基本的な手順について検討した。 これらの技術は、時相力学、実用的な計算実装、解析のための線形近似に関する洞察を可能にするために、$\matht{RNN}$sの振る舞いを特徴づけるための必須のツールを提供する。 我々はこれらの手順の柔軟な適用順序について議論し、神経科学および機械学習応用のための$\mathtt{RNN}$sをモデル化し分析することの重要性を強調した。 これらの手順がどのような条件で交換可能かは、ここで明確に記述する。

We explored the mathematical foundations of Recurrent Neural Networks ($\mathtt{RNN}$s) and three fundamental procedures: temporal rescaling, discretisation and linearisation. These techniques provide essential tools for characterizing $\mathtt{RNN}$s behaviour, enabling insights into temporal dynamics, practical computational implementation, and linear approximations for analysis. We discuss the flexible order of application of these procedures, emphasizing their significance in modelling and analyzing $\mathtt{RNN}$s for neuroscience and machine learning applications. We explicitly describe here under what conditions these procedures can be interchangeable.
翻訳日:2024-05-08 19:44:23 公開日:2024-05-07
# 駆動散逸性多体系における量子ジャンプ

Quantum jumps in driven-dissipative disordered many-body systems ( http://arxiv.org/abs/2312.17311v2 )

ライセンス: Link先を確認
Sparsh Gupta, Hari Kumar Yadalam, Manas Kulkarni, Camille Aron, (参考訳) 量子ジャンプが局所化遷移を特徴とする駆動散逸乱多体系における局所化状態にどう影響するかを論じる。 我々は、標準リンドブラッドと開量子系の非ジャンプ非エルミート力学を補間するリンドブラッドマスター方程式の変形を導入する。 プラットフォームとして、我々は、隣同士の相互作用が最寄りで、異なる場所での不整合駆動と消散を受けるような、混乱したハードコアボソンの連鎖を用いる。 変形したリウビリアンの複素固有値の統計統計と物理的関連性の動的可観測値の両方を探索する。 本研究では,現実的なポストセレクションプロトコルによって実現可能な量子ジャンプ数を減らすことで,局所的な位相の出現を促進することを示す。 本研究は, 正確な対角化および時間依存行列生成状態技術に基づく。

We discuss how quantum jumps affect localized regimes in driven-dissipative disordered many-body systems featuring a localization transition. We introduce a deformation of the Lindblad master equation that interpolates between the standard Lindblad and the no-jump non-Hermitian dynamics of open quantum systems. As a platform, we use a disordered chain of hard-core bosons with nearest-neighbor interactions and subject to incoherent drive and dissipation at alternate sites. We probe both the statistics of complex eigenvalues of the deformed Liouvillian and dynamical observables of physical relevance. We show that reducing the number of quantum jumps, achievable through realistic postselection protocols, can promote the emergence of the localized phase. Our findings are based on exact diagonalization and time-dependent matrix-product states techniques.
翻訳日:2024-05-08 19:44:23 公開日:2024-05-07
# 量子エントロピーからの真空エネルギー

Vacuum Energy from Qubit Entropy ( http://arxiv.org/abs/2312.17317v3 )

ライセンス: Link先を確認
Gonçalo M. Quinta, Antonino Flachi, (参考訳) 我々は、量子エントロピーの観点から、場の量子論における真空エネルギーの非伝統的な記述を開発する。 正確には、ゼロ温度における任意の非相互作用量子場の真空エネルギーは、仮想揺らぎに付随するクビット自由度の量子エントロピーに比例することを示す。 フェルミオンに対してこれを証明し、任意のスピンの量子に導出を拡張する。 最後に、これらの結果を用いて、ゼロ温度での非相互作用量子真空に対する熱力学の最初の法則を得る。

We develop a non-conventional description of the vacuum energy in quantum field theory in terms of quantum entropy. Precisely, we show that the vacuum energy of any non-interacting quantum field at zero temperature is proportional to the quantum entropy of the qubit degrees of freedom associated with virtual fluctuations. We prove this for fermions first, and then extend the derivation to quanta of any spin. Finally, we use these results to obtain the first law of thermodynamics for a non-interacting quantum vacuum at zero temperature.
翻訳日:2024-05-08 19:44:23 公開日:2024-05-07
# Motion State: ベンチマークによる新しいオブジェクト追跡

Motion State: A New Benchmark Multiple Object Tracking ( http://arxiv.org/abs/2312.17641v2 )

ライセンス: Link先を確認
Yang Feng, Liao Pan, Wu Di, Liu Bo, Zhang Xingle, (参考訳) ビデオ解析の領域では、複数物体追跡(MOT)の分野は、様々なシナリオにおいて、オブジェクトの運動状態(静的か動的かのどちらか)が重要視される。 しかし、現存する文献は、この側面の探検において顕著な足跡を示している。 深層学習手法は、物体の運動状態を正確に識別する上で困難に直面するが、従来の手法は包括的数学的モデリングに依存しているため、準最適追跡精度が得られる。 これらの課題に対処するために,モデルデータ駆動型動作状態判断法(MoD2T)を提案する。 この革新的なアーキテクチャは、深層学習に基づく多対象追跡フレームワークによる伝統的な数学的モデリングとほぼ一致している。 MoD2Tにおける数学的モデリングとディープラーニングの統合により、物体の動き状態決定の精度が向上し、トラッキング精度が向上する。 我々の実証研究は、無人航空機の監視と道路レベルの追跡を含む様々なシナリオにおけるMoD2Tの有効性を包括的に検証している。 さらに、物体の運動状態を識別する際の手法の精度を評価するために、動作状態検証F1(MVF1)指標を導入する。 動作状態分類の精度を定量的に評価し,MoD2Tの性能を総合的に評価することを目的とする。 実験による検証はMVF1の合理性を裏付ける。 MoD2Tの性能を評価するために、いくつかの有名なデータセットを注意深く注釈付けし、MoD2Tを厳密なテストに対象とします。 注目すべきは、最小または中程度のカメラモーションで特徴づけられる条件下では、達成されたMVF1値は特に注目すべきであり、例としては、KITTIデータセットの0.774、MOT17の0.521、UAVDTの0.827が含まれる。

In the realm of video analysis, the field of multiple object tracking (MOT) assumes paramount importance, with the motion state of objects-whether static or dynamic relative to the ground-holding practical significance across diverse scenarios. However, the extant literature exhibits a notable dearth in the exploration of this aspect. Deep learning methodologies encounter challenges in accurately discerning object motion states, while conventional approaches reliant on comprehensive mathematical modeling may yield suboptimal tracking accuracy. To address these challenges, we introduce a Model-Data-Driven Motion State Judgment Object Tracking Method (MoD2T). This innovative architecture adeptly amalgamates traditional mathematical modeling with deep learning-based multi-object tracking frameworks. The integration of mathematical modeling and deep learning within MoD2T enhances the precision of object motion state determination, thereby elevating tracking accuracy. Our empirical investigations comprehensively validate the efficacy of MoD2T across varied scenarios, encompassing unmanned aerial vehicle surveillance and street-level tracking. Furthermore, to gauge the method's adeptness in discerning object motion states, we introduce the Motion State Validation F1 (MVF1) metric. This novel performance metric aims to quantitatively assess the accuracy of motion state classification, furnishing a comprehensive evaluation of MoD2T's performance. Elaborate experimental validations corroborate the rationality of MVF1. In order to holistically appraise MoD2T's performance, we meticulously annotate several renowned datasets and subject MoD2T to stringent testing. Remarkably, under conditions characterized by minimal or moderate camera motion, the achieved MVF1 values are particularly noteworthy, with exemplars including 0.774 for the KITTI dataset, 0.521 for MOT17, and 0.827 for UAVDT.
翻訳日:2024-05-08 19:44:23 公開日:2024-05-07
# 四次時間におけるスケーラブルネットワーク再構築

Scalable network reconstruction in subquadratic time ( http://arxiv.org/abs/2401.01404v5 )

ライセンス: Link先を確認
Tiago P. Peixoto, (参考訳) ネットワーク再構築は、それらの結合(典型的には、グラフィカルモデルからの時系列または独立したサンプル)に条件づけられた、結果の振る舞いに関する観測データのみを与えられた$N$ノード間の、観測されていないペアワイズ結合を決定することである。 この問題のために提案されたアルゴリズムのスケーラビリティに対する大きな障害は、少なくとも一度は考えられるペアワイズ結合の要求に対応する、$\Omega(N^2)$という一見避けられない二次複雑性である。 ここでは、この2次ベースラインを大幅に上回る幅広い再構成問題に適用可能な一般アルゴリズムを提案する。 我々のアルゴリズムは、確率的に2番目の隣人探索(Dong et al , 2011)に依存し、高い確率で最適なエッジ候補を生成する。 第二隣の探索が対数直線時間で終了する(Baron & Darling, 2020; 2022)という予想を頼りにすれば、我々のアルゴリズムは準四進時間で終了し、データ依存の複雑さは$O(N^{3/2}\log N)$でゆるやかに上界するが、より典型的な対数直線の複雑性は$O(N\log^2N)$である。 実際、我々のアルゴリズムは2次ベースラインよりも桁違いに高速な並列化を実現し、数十万のノードとエッジによるネットワークの再構築を可能にした。

Network reconstruction consists in determining the unobserved pairwise couplings between $N$ nodes given only observational data on the resulting behavior that is conditioned on those couplings -- typically a time-series or independent samples from a graphical model. A major obstacle to the scalability of algorithms proposed for this problem is a seemingly unavoidable quadratic complexity of $\Omega(N^2)$, corresponding to the requirement of each possible pairwise coupling being contemplated at least once, despite the fact that most networks of interest are sparse, with a number of non-zero couplings that is only $O(N)$. Here we present a general algorithm applicable to a broad range of reconstruction problems that significantly outperforms this quadratic baseline. Our algorithm relies on a stochastic second neighbor search (Dong et al., 2011) that produces the best edge candidates with high probability, thus bypassing an exhaustive quadratic search. If we rely on the conjecture that the second-neighbor search finishes in log-linear time (Baron & Darling, 2020; 2022), we demonstrate theoretically that our algorithm finishes in subquadratic time, with a data-dependent complexity loosely upper bounded by $O(N^{3/2}\log N)$, but with a more typical log-linear complexity of $O(N\log^2N)$. In practice, we show that our algorithm achieves a performance that is many orders of magnitude faster than the quadratic baseline -- in a manner consistent with our theoretical analysis -- allows for easy parallelization, and thus enables the reconstruction of networks with hundreds of thousands and even millions of nodes and edges.
翻訳日:2024-05-08 19:44:23 公開日:2024-05-07
# 階層的深部強化学習に基づく車両重量を考慮したリスク予測自律運転戦略

Risk-anticipatory autonomous driving strategies considering vehicles' weights, based on hierarchical deep reinforcement learning ( http://arxiv.org/abs/2401.08661v2 )

ライセンス: Link先を確認
Di Chen, Hao Li, Zhicheng Jin, Huizhao Tu, Meixin Zhu, (参考訳) 自動運転車(AV)は、ドライバーのエラーによる事故を防止し、道路交通のリスクを低減する可能性がある。 衝突がより深刻な事故を引き起こす重車両の性質のため、自動運転車の潜在的なリスクと結果の低減を目的とした運転戦略を行う際には、車両の重量を考慮する必要がある。 本研究は, 周辺車両の重みを考慮し, 階層的深層強化学習を用いて, リスク予測に基づく自律運転戦略を開発する。 リスクフィールド理論に基づいて、周囲の車両重量を統合するリスクインジケータを提案し、自律運転決定に組み込んだ。 ハイブリッドアクションスペースは、左車線変更、右車線変更、車の追尾を可能にするように設計されている。 上記のハイブリッド意思決定問題を解決するため,アテンション機構(AT-HPPO)を備えた階層的近似ポリシ最適化(HPPO)アルゴリズムを開発した。 コンフリクト(PCEC)における潜在的な衝突エネルギーの指標として,潜在的な事故の結果の観点から,開発したAV駆動戦略の性能を評価するための指標が新たに提案されている。 シミュレーションとデータセットによる性能評価の結果から,運転効率の維持と同時に,潜在的な事故の可能性と結果の両方を低減できる運転戦略が得られた。 開発手法は高規格道路を走行する自動車にとって特に意義がある。

Autonomous vehicles (AVs) have the potential to prevent accidents caused by drivers errors and reduce road traffic risks. Due to the nature of heavy vehicles, whose collisions cause more serious crashes, the weights of vehicles need to be considered when making driving strategies aimed at reducing the potential risks and their consequences in the context of autonomous driving. This study develops an autonomous driving strategy based on risk anticipation, considering the weights of surrounding vehicles and using hierarchical deep reinforcement learning. A risk indicator integrating surrounding vehicles weights, based on the risk field theory, is proposed and incorporated into autonomous driving decisions. A hybrid action space is designed to allow for left lane changes, right lane changes and car-following, which enables AVs to act more freely and realistically whenever possible. To solve the above hybrid decision-making problem, a hierarchical proximal policy optimization (HPPO) algorithm with an attention mechanism (AT-HPPO) is developed, providing great advantages in maintaining stable performance with high robustness and generalization. An indicator, potential collision energy in conflicts (PCEC), is newly proposed to evaluate the performance of the developed AV driving strategy from the perspective of the consequences of potential accidents. The performance evaluation results in simulation and dataset demonstrate that our model provides driving strategies that reduce both the likelihood and consequences of potential accidents, at the same time maintaining driving efficiency. The developed method is especially meaningful for AVs driving on highways, where heavy vehicles make up a high proportion of the traffic.
翻訳日:2024-05-08 19:44:23 公開日:2024-05-07
# Link Me Baby One more time: Social Music Discovery on Spotify

Link Me Baby One More Time: Social Music Discovery on Spotify ( http://arxiv.org/abs/2401.08818v2 )

ライセンス: Link先を確認
Shazia'Ayn Babul, Desislava Hristova, Antonio Lima, Renaud Lambiotte, Mariano Beguerisse-Díaz, (参考訳) 個人間音楽レコメンデーションと発見の結果に影響を与える社会的・文脈的要因について検討する。 具体的には、Spotifyのデータを用いて、あるユーザから別のユーザへのリンクが、共有アーティストの音楽に関わる受信者に対してどのように送信されたかを調べる。 本稿では,このプロセスに影響を及ぼす可能性のある要因として,送受信者関係の強さ,Spotifyソーシャルネットワークにおけるユーザの役割,音楽ソーシャル・コヒージョン,新しいアーティストがレシーバーの好みにいかに似ているか,などについて考察する。 リンクの受信側は,(1)送信側と類似した音楽味を持ち,(2)送信側とより強く親密な関係を保ち,(3)共有側が受信側とのつながりの中で人気がある場合,新たなアーティストと結びつく可能性が示唆された。 最後に、これらの知見を用いてランダムフォレスト分類器を構築し、共有された音楽トラックが、レシーバーが共有アーティストとエンゲージメントする結果になるかどうかを予測する。 このモデルでは,多様な特徴が組み込まれている場合にピーク性能が達成されるが,どのような社会的特徴や文脈的特徴が最も予測可能であるかが決定される。 これらの知見は,音楽発見と社会プロセスの相互作用を支える多面的メカニズムに対する新たな洞察を与える。

We explore the social and contextual factors that influence the outcome of person-to-person music recommendations and discovery. Specifically, we use data from Spotify to investigate how a link sent from one user to another results in the receiver engaging with the music of the shared artist. We consider several factors that may influence this process, such as the strength of the sender-receiver relationship, the user's role in the Spotify social network, their music social cohesion, and how similar the new artist is to the receiver's taste. We find that the receiver of a link is more likely to engage with a new artist when (1) they have similar music taste to the sender and the shared track is a good fit for their taste, (2) they have a stronger and more intimate tie with the sender, and (3) the shared artist is popular amongst the receiver's connections. Finally, we use these findings to build a Random Forest classifier to predict whether a shared music track will result in the receiver's engagement with the shared artist. This model elucidates which type of social and contextual features are most predictive, although peak performance is achieved when a diverse set of features are included. These findings provide new insights into the multifaceted mechanisms underpinning the interplay between music discovery and social processes.
翻訳日:2024-05-08 19:44:23 公開日:2024-05-07
# 周期的外部駆動を伴わないシステムにおける時間変換対称性の自発的破壊

Spontaneous breaking of time translation symmetry in a system without periodic external driving ( http://arxiv.org/abs/2401.08824v3 )

ライセンス: Link先を確認
T. T. Sergeev, A. A. Zyablovsky, E. S. Andrianov, Yu. E. Lozovik, (参考訳) 自然時間翻訳対称性の破れは、一定周期で周期的に駆動されるシステムで起こることが知られている。 我々は、外部駆動のない原子空洞系において、共振器の光バイパス時間によって時間スケールが決定される時間変換対称性の自発的な破壊を予測した。 共振器の2つのバイパス後にのみシステム状態が初期状態に戻るパラメータ範囲が存在することを示す。 我々は、予測された現象が、時間結晶場の新しい方向への道を開くと信じている。

It is known that the spontaneous time translation symmetry breaking can occur in systems periodically driven at a certain period. We predict a spontaneous breaking of time translation symmetry in an atom-cavity system without external driving, in which a time scale is determined by the time of light bypass of the resonator. We demonstrate that there is a parameter range, in which a system state returns to its initial state only after two bypasses of the resonator. We believe that the predicted phenomenon opens a way to a new direction in the time crystal field.
翻訳日:2024-05-08 19:44:23 公開日:2024-05-07
# キャッシュからキャッシュレスへ:インドにおけるUPIのスプレッディング行動への影響

From Cash to Cashless: UPI's Impact on Spending Behavior among Indian Users ( http://arxiv.org/abs/2401.09937v2 )

ライセンス: Link先を確認
Harshal Dev, Raj Gupta, Dhruv Kumar, (参考訳) デジタル決済システムの出現は、個人が金融取引を行い、利便性、セキュリティ、効率性を提供する方法を変えてきた。 インドの金融界に波を巻き起こす画期的なイノベーションの1つは、UPI(Unified Payments Interface)である。 既存の研究は、デジタル支払いが国の経済とGDPにどのように貢献するかを探求してきた。 しかし,UPIの導入がインド人の「個人的」レベルでの消費行動に与える影響について検討した。 調査対象者は235名であり,調査対象者は20名であった。 調査の回答者の約75%がUPIによる支出の増加を報告し、わずか7%しか支出を減らしていない。 有意な結果として、回答者の91.5\%はUPIの使用に満足していると回答した。 また、調査回答者の95.2\%がUPIによる支払いを便利だと回答した。 我々はまた、UPIアプリケーションや様々な利害関係者がデジタル決済システムを強化し、ユーザがインフォームド・ディベロップメントを行い、責任ある財務管理を促進することを提案する。

The emergence of digital payment systems has transformed how individuals conduct financial transactions, offering convenience, security, and efficiency. One groundbreaking innovation making waves in the Indian financial landscape is the Unified Payments Interface (UPI). Existing work has explored how digital payments benefit a country's economy and GDP. However, our study explores how the introduction of UPI has influenced spending behavior among Indian users on an "individual" level. We gathered 235 valid survey responses encompassing diverse demographics and interviewed 20 survey respondents. Approximately 75\% of the survey respondents reported increased spending due to UPI, with only 7\% indicating reduced spending. Significantly, 91.5\% of the respondents reported satisfaction with their UPI usage. Also, 95.2\% of the survey respondents found making payments via UPI convenient. Our research also provides suggestions for UPI applications and various stakeholders to enhance digital payment systems, enabling users to make informed decisions and fostering responsible financial management.
翻訳日:2024-05-08 19:44:23 公開日:2024-05-07
# 除去・選択:粗視融合によるRGB赤外線物体検出の改善

Removal and Selection: Improving RGB-Infrared Object Detection via Coarse-to-Fine Fusion ( http://arxiv.org/abs/2401.10731v5 )

ライセンス: Link先を確認
Tianyi Zhao, Maoxun Yuan, Feng Jiang, Nan Wang, Xingxing Wei, (参考訳) 近年,可視光(RGB)と赤外線(IR)画像の物体検出が広く行われている。 オブジェクト検出器は、RGBとIR画像の補完特性を活用して、昼夜の信頼性と堅牢な物体位置決めを提供する。 既存の融合戦略のほとんどは、RGBとIR画像をディープニューラルネットワークに直接入力し、検出性能が劣る。 しかし、RGBとIRの特徴はモーダリティ特有のノイズを持ち、これらの戦略は伝播とともに融合した特徴を悪化させる。 本稿では,人間の脳のマルチモーダル情報処理機構に触発されて,2つのモーダル特徴を浄化・融合する,より粗い視点を導入する。 具体的には、各モード内の干渉情報を粗く除去する冗長スペクトル除去モジュールと、特徴融合のために所望の機能を微調整する動的特徴選択モジュールを設計する。 粗大な核融合戦略の有効性を検証するため, 除去・選択検出器 (RSDet) と呼ばれる新しい物体検出器を構築した。 3つのRGB-IRオブジェクト検出データセットの大規模な実験により,本手法の優れた性能が検証された。

Object detection in visible (RGB) and infrared (IR) images has been widely applied in recent years. Leveraging the complementary characteristics of RGB and IR images, the object detector provides reliable and robust object localization from day to night. Most existing fusion strategies directly input RGB and IR images into deep neural networks, leading to inferior detection performance. However, the RGB and IR features have modality-specific noise, these strategies will exacerbate the fused features along with the propagation. Inspired by the mechanism of the human brain processing multimodal information, in this paper, we introduce a new coarse-to-fine perspective to purify and fuse two modality features. Specifically, following this perspective, we design a Redundant Spectrum Removal module to coarsely remove interfering information within each modality and a Dynamic Feature Selection module to finely select the desired features for feature fusion. To verify the effectiveness of the coarse-to-fine fusion strategy, we construct a new object detector called the Removal and Selection Detector (RSDet). Extensive experiments on three RGB-IR object detection datasets verify the superior performance of our method.
翻訳日:2024-05-08 19:44:23 公開日:2024-05-07
# $k$- positive Mapsの完全な境界付きノルム

Completely Bounded Norms of $k$-positive Maps ( http://arxiv.org/abs/2401.12352v2 )

ライセンス: Link先を確認
Guillaume Aubrun, Kenneth R. Davidson, Alexander Müller-Hermes, Vern I. Paulsen, Mizanur Rahaman, (参考訳) 演算系 $\mathcal{S}$ が与えられたとき、パラメータ $r_k(\mathcal{S})$ (resp) を定義する。 $d_k(\mathcal{S})$) は、任意の作用素系から$\mathcal{S}$ (resp) へのユニタリ $k$-陽性写像の完全有界ノルムの最大値として定義される。 $\mathcal{S}$から任意の演算子システムへ。 行列代数 $M_n$, for $1 \leq k \leq n$ の場合、正確な値 $r_k(M_n) = \frac{2n-k}{k}$ を計算し、パラメータ $d_k(M_n)$ の上と下の境界を示す。 さらに、$\mathcal{S}$ が有限次元作用素系で、Passer と 4番目の著者の最近の結果に適合する場合、$(r_k( \mathcal{S}))$ の列が 1$ になるのは、$\mathcal{S}$ が完全かつ$(d_k(\mathcal{S}))$ の列が 1$ であることと、$\mathcal{S}$ がリフト特性を持つ場合に限る。

Given an operator system $\mathcal{S}$, we define the parameters $r_k(\mathcal{S})$ (resp. $d_k(\mathcal{S})$) defined as the maximal value of the completely bounded norm of a unital $k$-positive map from an arbitrary operator system into $\mathcal{S}$ (resp. from $\mathcal{S}$ into an arbitrary operator system). In the case of the matrix algebras $M_n$, for $1 \leq k \leq n$, we compute the exact value $r_k(M_n) = \frac{2n-k}{k}$ and show upper and lower bounds on the parameters $d_k(M_n)$. Moreover, when $\mathcal{S}$ is a finite-dimensional operator system, adapting recent results of Passer and the 4th author, we show that the sequence $(r_k( \mathcal{S}))$ tends to $1$ if and only if $\mathcal{S}$ is exact and that the sequence $(d_k(\mathcal{S}))$ tends to $1$ if and only if $\mathcal{S}$ has the lifting property.
翻訳日:2024-05-08 19:44:23 公開日:2024-05-07
# 多成分分子生成のためのグラフ拡散変換器

Graph Diffusion Transformer for Multi-Conditional Molecular Generation ( http://arxiv.org/abs/2401.13858v2 )

ライセンス: Link先を確認
Gang Liu, Jiaxin Xu, Tengfei Luo, Meng Jiang, (参考訳) 拡散モデルを用いた逆分子設計は、物質発見と薬物発見の進歩に大きな可能性を秘めている。 無条件分子生成の成功にもかかわらず、条件制約として合成スコアや気体透過性といった複数の特性を拡散モデルに組み込むことは未解明のままである。 多条件分子生成のためのグラフ拡散変換器(Graph DiT)を提案する。 Graph DiTは数値的および分類的特性の表現を学習する条件エンコーダを備えており、Transformerベースのグラフデノイザを用いて条件下での分子グラフデノイジングを実現する。 先行拡散過程における原子と結合に別々にノイズを付加する従来のグラフ拡散モデルとは異なり,分子内のグラフ関連ノイズを正確に推定するためのグラフ依存ノイズモデルを提案する。 マルチコンディショナルポリマーと小分子生成のためのグラフDiTを広範囲に検証した。 その結果、分布学習から分子特性の条件制御まで、メトリクス間の優位性を実証した。 領域の専門家からのフィードバックによるガス分離のための高分子逆設計タスクは、その実用性をさらに実証する。

Inverse molecular design with diffusion models holds great potential for advancements in material and drug discovery. Despite success in unconditional molecule generation, integrating multiple properties such as synthetic score and gas permeability as condition constraints into diffusion models remains unexplored. We present the Graph Diffusion Transformer (Graph DiT) for multi-conditional molecular generation. Graph DiT has a condition encoder to learn the representation of numerical and categorical properties and utilizes a Transformer-based graph denoiser to achieve molecular graph denoising under conditions. Unlike previous graph diffusion models that add noise separately on the atoms and bonds in the forward diffusion process, we propose a graph-dependent noise model for training Graph DiT, designed to accurately estimate graph-related noise in molecules. We extensively validate the Graph DiT for multi-conditional polymer and small molecule generation. Results demonstrate our superiority across metrics from distribution learning to condition control for molecular properties. A polymer inverse design task for gas separation with feedback from domain experts further demonstrates its practical utility.
翻訳日:2024-05-08 19:44:23 公開日:2024-05-07
# 遺伝的完全等距離不変量を用いた材料特性予測の高速化

Accelerating Material Property Prediction using Generically Complete Isometry Invariants ( http://arxiv.org/abs/2401.15089v2 )

ライセンス: Link先を確認
Jonathan Balasingham, Viktor Zamaraev, Vitaliy Kurlin, (参考訳) 近年,機械学習を用いた周期的材料や結晶特性の予測が盛んになり,従来のシミュレーション手法に代わる計算効率が向上している。 これらのアルゴリズムにとって重要な第一歩は、周期結晶の表現である。 分子やタンパク質のような類似の物体は有限個の原子を持ち、それらの表現は有限点の雲の解釈に基づいて構築することができるが、周期結晶は大きさが無制限であるため、その表現はより困難である。 本研究では,学習アルゴリズムの表現として,周期的な点集合に対して連続的かつ総称的に完全アイソメトリ不変の点距離分布 (PDD) を適用する。 PDDはケンブリッジ構造データベースの全ての(660万以上の)周期結晶を、原子型を持たない純粋に周期的な点集合として区別した。 本研究では,空間符号化手法を用いてPDDと合成情報を組み合わせた自己認識機構を改良したトランスフォーマーモデルを開発した。 このモデルは、Material ProjectとJarvis-DFTデータベースの結晶上でテストされ、トレーニング時間と予測時間の両方で数倍高速でありながら、最先端の手法と同等の精度が得られることを示した。

Periodic material or crystal property prediction using machine learning has grown popular in recent years as it provides a computationally efficient replacement for classical simulation methods. A crucial first step for any of these algorithms is the representation used for a periodic crystal. While similar objects like molecules and proteins have a finite number of atoms and their representation can be built based upon a finite point cloud interpretation, periodic crystals are unbounded in size, making their representation more challenging. In the present work, we adapt the Pointwise Distance Distribution (PDD), a continuous and generically complete isometry invariant for periodic point sets, as a representation for our learning algorithm. The PDD distinguished all (more than 660 thousand) periodic crystals in the Cambridge Structural Database as purely periodic sets of points without atomic types. We develop a transformer model with a modified self-attention mechanism that combines PDD with compositional information via a spatial encoding method. This model is tested on the crystals of the Materials Project and Jarvis-DFT databases and shown to produce accuracy on par with state-of-the-art methods while being several times faster in both training and prediction time.
翻訳日:2024-05-08 19:34:38 公開日:2024-05-07
# CascadedGaze: 画像復元のためのグローバルコンテキスト抽出の効率性

CascadedGaze: Efficiency in Global Context Extraction for Image Restoration ( http://arxiv.org/abs/2401.15235v2 )

ライセンス: Link先を確認
Amirhosein Ghasemabadi, Muhammad Kamran Janjua, Mohammad Salameh, Chunhua Zhou, Fengyu Sun, Di Niu, (参考訳) 画像復元タスクは伝統的に畳み込みニューラルネットワークに依存している。 しかし、畳み込み作用素の局所的な性質を考えると、彼らはグローバルな情報を取得するのに苦労している。 トランスフォーマーにおける注意機構の約束は、この問題を回避することであるが、計算オーバーヘッドの集中的なコストが伴う。 画像復元における最近の多くの研究は、Transformerの変種による性能と計算コストのバランスをとることの課題に焦点が当てられている。 本稿では,グローバルコンテキストエクストラクタ(GCE)を用いたエンコーダ・デコーダアーキテクチャであるCascadedGaze Network(CGNet)について述べる。 GCEモジュールは、畳み込み層にまたがる小さなカーネルを活用して、自己注意を必要とせず、グローバルな依存関係を学習する。 大規模な実験結果から,我々の計算効率のよい手法は,合成画像復調タスクや単一画像復調タスクにおける最先端手法と競合し,実画像復調タスクにさらに性能境界を押し付けることが示唆された。

Image restoration tasks traditionally rely on convolutional neural networks. However, given the local nature of the convolutional operator, they struggle to capture global information. The promise of attention mechanisms in Transformers is to circumvent this problem, but it comes at the cost of intensive computational overhead. Many recent studies in image restoration have focused on solving the challenge of balancing performance and computational cost via Transformer variants. In this paper, we present CascadedGaze Network (CGNet), an encoder-decoder architecture that employs Global Context Extractor (GCE), a novel and efficient way to capture global information for image restoration. The GCE module leverages small kernels across convolutional layers to learn global dependencies, without requiring self-attention. Extensive experimental results show that our computationally efficient approach performs competitively to a range of state-of-the-art methods on synthetic image denoising and single image deblurring tasks, and pushes the performance boundary further on the real image denoising task.
翻訳日:2024-05-08 19:34:38 公開日:2024-05-07
# Quantum $X$-Secure $B$-Byzantine $T$-Colluding Private Information Retrieval

Quantum $X$-Secure $B$-Byzantine $T$-Colluding Private Information Retrieval ( http://arxiv.org/abs/2401.17252v2 )

ライセンス: Link先を確認
Mohamed Nomeir, Alptug Aytekin, Sennur Ulukus, (参考訳) 量子プライベート情報検索(QPIR)におけるビザンチンサーバの存在から生じる問題点を考察する。 これは、Byzantineサーバの機能をQPIRコンテキストで正確に定義する最初の作業である。 量子エンコーディングによる可能性から,量子ビザンチンサーバの能力は従来のサーバよりも高いことを示す。 我々は、個々のキューディットに可逆的な操作を適用できる量子ビザンチンサーバーに焦点を当てる。 この場合、ビザンティンサーバは任意のエラーを発生させることができる。 我々は、クロスサブスペースアライメント(CSA)に基づくスキームを設計し、このスキームが超高次符号化ゲインを達成することを示す。

We consider the problems arising from the presence of Byzantine servers in a quantum private information retrieval (QPIR) setting. This is the first work to precisely define what the capabilities of Byzantine servers could be in a QPIR context. We show that quantum Byzantine servers have more capabilities than their classical counterparts due to the possibilities created by quantum encoding procedures. We focus on quantum Byzantine servers that can apply any reversible operation on their individual qudits. In this case, Byzantine servers can generate any error, i.e., this covers \emph{all} possible single qudit operations that can be applied by Byzantine servers on their qudits. We design a scheme based on cross-subspace alignment (CSA) and we show that this scheme achieves superdense coding gain in some cases.
翻訳日:2024-05-08 19:34:38 公開日:2024-05-07
# BrainLeaks: モデル反転攻撃に対するニューロモルフィックアーキテクチャのプライバシ保護特性について

BrainLeaks: On the Privacy-Preserving Properties of Neuromorphic Architectures against Model Inversion Attacks ( http://arxiv.org/abs/2402.00906v2 )

ライセンス: Link先を確認
Hamed Poursiami, Ihsen Alouani, Maryam Parsa, (参考訳) 医療や金融といったセキュリティに敏感な分野への機械学習の主流な統合により、データのプライバシに関する懸念が高まっている。 従来の人工知能ニューラルネットワーク(ANN)は、機密データを漏洩する可能性のあるいくつかの攻撃に対して脆弱であることがわかった。 特に、モデルインバージョン(MI)攻撃は、モデルをトレーニングするために使用されたデータサンプルの再構築を可能にする。 ニューロモルフィックアーキテクチャは、ニューラルネットワークのパラダイムシフトとして現れ、非同期およびエネルギー効率の高い計算を可能にしている。 しかし、モデル逆転に対するニューロモルフィックアーキテクチャのプライバシの調査は、ほとんど、あるいは全く行われていない。 我々の研究は、スパイキングニューラルネットワーク(SNN)の非差別的な側面が、特に勾配に基づく攻撃に対して固有のプライバシー保護特性をもたらすという直感に動機づけられている。 そこで本研究では,SNNのプライバシ保護機能について詳細に検討する。 具体的には、SNNを対象とする新しい逆攻撃戦略を開発し、従来のANNとの比較分析を行う。 各種イベントベースおよび静的なデータセットを用いて実験を行い、提案した攻撃戦略の有効性を実証し、ニューロモルフィックアーキテクチャにおける固有のプライバシー保護の仮定に疑問を呈する。

With the mainstream integration of machine learning into security-sensitive domains such as healthcare and finance, concerns about data privacy have intensified. Conventional artificial neural networks (ANNs) have been found vulnerable to several attacks that can leak sensitive data. Particularly, model inversion (MI) attacks enable the reconstruction of data samples that have been used to train the model. Neuromorphic architectures have emerged as a paradigm shift in neural computing, enabling asynchronous and energy-efficient computation. However, little to no existing work has investigated the privacy of neuromorphic architectures against model inversion. Our study is motivated by the intuition that the non-differentiable aspect of spiking neural networks (SNNs) might result in inherent privacy-preserving properties, especially against gradient-based attacks. To investigate this hypothesis, we propose a thorough exploration of SNNs' privacy-preserving capabilities. Specifically, we develop novel inversion attack strategies that are comprehensively designed to target SNNs, offering a comparative analysis with their conventional ANN counterparts. Our experiments, conducted on diverse event-based and static datasets, demonstrate the effectiveness of the proposed attack strategies and therefore questions the assumption of inherent privacy-preserving in neuromorphic architectures.
翻訳日:2024-05-08 19:34:38 公開日:2024-05-07
# Skip \n:大規模視覚言語モデルにおける幻覚の簡易化手法

Skip \n: A Simple Method to Reduce Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2402.01345v5 )

ライセンス: Link先を確認
Zongbo Han, Zechen Bai, Haiyang Mei, Qianli Xu, Changqing Zhang, Mike Zheng Shou, (参考訳) 大規模視覚言語モデル(LVLM)の最近の進歩は、人間の言語による視覚情報理解における印象的な能力を示している。 これらの進歩にもかかわらず、LVLMは視覚情報に存在しないオブジェクトのテキスト記述を生成するなど、マルチモーダル幻覚の課題に直面している。 しかし、マルチモーダル幻覚の根本原因はいまだに解明されていない。 本稿では,LVLMの固有バイアスが幻覚の重要な要因である可能性が示唆された新しい視点を提案する。 具体的には,学習データ中の「\n\n」の前後の内容が有意な意味変化を示す場合,段落に関する意味変化バイアスを系統的に同定する。 このパターンは、「\n\n」に続く内容が幻覚的記述の少ない先行内容と明らかに異なることを推測し、「\n\n」に続く幻覚的記述の確率を増大させる。 我々は,この仮説を複数の公開LVLM上で検証した。 また、生成した記述に「\n\n」を意図的に挿入すると、より幻覚が引き起こされる。 そこで,LVLMの幻覚を効果的に緩和するために,'\n'の出力をスキップすることで簡単な手法を提案する。

Recent advancements in large vision-language models (LVLMs) have demonstrated impressive capability in visual information understanding with human language. Despite these advances, LVLMs still face challenges with multimodal hallucination, such as generating text descriptions of objects that are not present in the visual information. However, the underlying fundamental reasons of multimodal hallucinations remain poorly explored. In this paper, we propose a new perspective, suggesting that the inherent biases in LVLMs might be a key factor in hallucinations. Specifically, we systematically identify a semantic shift bias related to paragraph breaks (\n\n), where the content before and after '\n\n' in the training data frequently exhibit significant semantic changes. This pattern leads the model to infer that the contents following '\n\n' should be obviously different from the preceding contents with less hallucinatory descriptions, thereby increasing the probability of hallucinatory descriptions subsequent to the '\n\n'. We have validated this hypothesis on multiple publicly available LVLMs. Besides, we find that deliberately inserting '\n\n' at the generated description can induce more hallucinations. A simple method is proposed to effectively mitigate the hallucination of LVLMs by skipping the output of '\n'.
翻訳日:2024-05-08 19:34:38 公開日:2024-05-07
# 低雑音状態における不完全代理モデルのパラメータ不確かさ

Parameter uncertainties for imperfect surrogate models in the low-noise regime ( http://arxiv.org/abs/2402.01810v3 )

ライセンス: Link先を確認
Thomas D Swinburne, Danny Perez, (参考訳) ベイズ回帰は、真の一般化誤差に対する上限である期待損失を最小化することでモデルパラメータを決定する。 しかし、この損失はモデルが不完全である不特定性を無視している。 したがって、ベイズ回帰からのパラメータの不確実性は、大きなデータ限界において著しく過小評価され、消滅する。 これは、不確実性の主な原因が無視されているため、低ノイズまたはほぼ決定論的な計算モデルを構築する場合に特に問題となる。 我々は、科学と工学における幅広い関係の体制である、不特定、ほぼ決定論的サロゲートモデルの一般化誤差を分析する。 この制約を尊重するアンサッツを設計し、線形モデルでは最小限のオーバーヘッドを発生させる。 これは、原子論的機械学習における1000次元データセットに適用する前に、モデル問題で実証される。 提案手法は,既存のスキームがフェールした場合のテストエラーの正確な予測とバウンディングを可能にし,この重要な不確実性の原因を計算ワークフローに組み込むことができる。

Bayesian regression determines model parameters by minimizing the expected loss, an upper bound to the true generalization error. However, the loss ignores misspecification, where models are imperfect. Parameter uncertainties from Bayesian regression are thus significantly underestimated and vanish in the large data limit. This is particularly problematic when building models of low- noise, or near-deterministic, calculations, as the main source of uncertainty is neglected. We analyze the generalization error of misspecified, near-deterministic surrogate models, a regime of broad relevance in science and engineering. We show posterior distributions must cover every training point to avoid a divergent generalization error and design an ansatz that respects this constraint, which for linear models incurs minimal overhead. This is demonstrated on model problems before application to thousand dimensional datasets in atomistic machine learning. Our efficient misspecification-aware scheme gives accurate prediction and bounding of test errors where existing schemes fail, allowing this important source of uncertainty to be incorporated in computational workflows.
翻訳日:2024-05-08 19:34:38 公開日:2024-05-07
# ソーシャルネットワークにおけるリコメンデーションフェアネスの経年変化

Recommendation Fairness in Social Networks Over Time ( http://arxiv.org/abs/2402.03450v2 )

ライセンス: Link先を確認
Meng Cao, Hussain Hussain, Sandipan Sikdar, Denis Helic, Markus Strohmaier, Roman Kern, (参考訳) 社会的レコメンデーションシステムでは、推薦モデルは、性別や人種など、異なる人口集団に対して公平な可視性を提供することが不可欠である。 既存の研究の多くは、通常、時間とともに変化するネットワークの個々の静的スナップショットを研究することでこの問題に対処している。 このギャップに対処するために、時間とともに推薦公正性の進化と動的ネットワーク特性との関係について検討する。 本研究では,6つの推薦アルゴリズムの公正性を評価し,時間とともに公平性とネットワーク特性の関係を解析することにより,実世界の3つの動的ネットワークについて検討する。 さらに、ネットワーク特性に対する介入が、代替進化の結果と異なるネットワーク特性を用いて、対実的なシナリオを調べることによって、公正性にどのように影響するかを考察する。 実験結果から,提案手法によらず,推奨公正性は時間とともに向上することが示唆された。 また,2つのネットワーク特性,マイノリティ比とホモフィリー比が,時間とともに公平性と安定な相関を示すことも見出した。 我々の実証研究は、極度のホモフィリー比が、バランスの取れたマイノリティ比であっても不公平なレコメンデーションに寄与する可能性を示唆している。 我々の研究は、社会科学における動的ネットワークにおける公正性の進化に関する洞察を提供する。 我々は、システムオペレーターや政策立案者が、ソーシャルネットワークにおける公正をターゲットとした時間的変化や介入の影響をよりよく理解するのに役立つと信じている。

In social recommender systems, it is crucial that the recommendation models provide equitable visibility for different demographic groups, such as gender or race. Most existing research has addressed this problem by only studying individual static snapshots of networks that typically change over time. To address this gap, we study the evolution of recommendation fairness over time and its relation to dynamic network properties. We examine three real-world dynamic networks by evaluating the fairness of six recommendation algorithms and analyzing the association between fairness and network properties over time. We further study how interventions on network properties influence fairness by examining counterfactual scenarios with alternative evolution outcomes and differing network properties. Our results on empirical datasets suggest that recommendation fairness improves over time, regardless of the recommendation method. We also find that two network properties, minority ratio, and homophily ratio, exhibit stable correlations with fairness over time. Our counterfactual study further suggests that an extreme homophily ratio potentially contributes to unfair recommendations even with a balanced minority ratio. Our work provides insights into the evolution of fairness within dynamic networks in social science. We believe that our findings will help system operators and policymakers to better comprehend the implications of temporal changes and interventions targeting fairness in social networks.
翻訳日:2024-05-08 19:34:38 公開日:2024-05-07
# X線超蛍光のエルミート確率法

Hermitian stochastic methodology for X-ray superfluorescence ( http://arxiv.org/abs/2402.04069v3 )

ライセンス: Link先を確認
Stasis Chuchurka, Vladislav Sukharnikov, Nina Rohringer, (参考訳) 最近導入されたX線増幅自然放出の力学をモデル化するための理論的枠組みは、他の位相空間サンプリング法と同様に、量子エミッタの密度行列と放射場を確率的にサンプリングすることに基づいている。 第一原理に基づいて価値ある理論的な洞察を与える一方で、元の確率微分方程式は発散性と数値的不安定性を示す。 ここでは、確率成分を摂動的に考慮し、この問題を解決する。 洗練された形式主義は自発放出の特性を正確に再現し、自発放出、増幅自発放出、非線形状態を含む同軸幾何学における集合X線放射の全ての段階を記述するのに普遍的に適用可能である。 数値的な例を通して、1次元近似における超蛍光の重要な特徴を解析する。 重要なことに、基礎となる確率方程式の単一実現は、超蛍光の個々の実験観測として完全に解釈できる。

A recently introduced theoretical framework for modeling the dynamics of X-ray amplified spontaneous emission is based on stochastic sampling of the density matrix of quantum emitters and the radiation field, similarly to other phase-space sampling techniques. While based on first principles and providing valuable theoretical insights, the original stochastic differential equations exhibit divergences and numerical instabilities. Here, we resolve this issue by accounting the stochastic components perturbatively. The refined formalism accurately reproduces the properties of spontaneous emission and proves universally applicable for describing all stages of collective X-ray emission in paraxial geometry, including spontaneous emission, amplified spontaneous emission, and the non-linear regime. Through numerical examples, we analyze key features of superfluorescence in one-dimensional approximation. Importantly, single realizations of the underlying stochastic equations can be fully interpreted as individual experimental observations of superfluorescence.
翻訳日:2024-05-08 19:34:38 公開日:2024-05-07
# NeuroIDBench:脳波ベースの認証研究における方法論の標準化のためのオープンソースのベンチマークフレームワーク

NeuroIDBench: An Open-Source Benchmark Framework for the Standardization of Methodology in Brainwave-based Authentication Research ( http://arxiv.org/abs/2402.08656v4 )

ライセンス: Link先を確認
Avinash Kumar Chaurasia, Matin Fallahi, Thorsten Strufe, Philipp Terhörst, Patricia Arias Cabarcos, (参考訳) 脳活動に基づく生体認証システムは、パスワードに代わるものや、現在の認証技術を補完するものとして提案されている。 個人の独自の脳波パターンを活用することで、これらのシステムは盗難に抵抗し、ハンズフリーでアクセス可能で、さらには取り消しも可能な認証ソリューションを作成することができる。 しかし、この分野では研究の流れが拡大しているにもかかわらず、再現性の問題によって急速な進歩が妨げられている。 パフォーマンス結果やシステム構成に関する標準的な報告スキームの欠如や、一般的な評価ベンチマークの欠如といった問題により、様々なバイオメトリックソリューションのコンパラビリティと適切な評価が困難になる。 さらに、ソースコードが公開されていない場合、バリアは将来の作業のために構築される。 このギャップを埋めるために、脳波ベースの認証モデルをベンチマークする柔軟なオープンソースツールであるNeuroIDBenchを紹介します。 9つの多様なデータセットが組み込まれ、包括的な前処理パラメータと機械学習アルゴリズムを実装し、2つの共通の敵モデル(既知の攻撃者対未知の攻撃者)下でのテストを可能にし、研究者が完全なパフォーマンスレポートと視覚化を生成することができる。 我々はNeuroIDBenchを用いて,本論文で提案されている浅層分類器と深層学習に基づくアプローチを調査し,複数のセッションで堅牢性をテストする。 我々は、未知の攻撃シナリオ(典型的には文献ではテストされていない)に対して、37.6%のEER(Equal Error Rate)の削減を観察し、脳波認証におけるセッション変動の重要性を強調した。 総じて,我々は,アルゴリズムの公正比較を合理化する上で,NeuroIDBenchの有効性と妥当性を実証し,堅牢な方法論的手法による脳波認証の進歩を推し進めた。

Biometric systems based on brain activity have been proposed as an alternative to passwords or to complement current authentication techniques. By leveraging the unique brainwave patterns of individuals, these systems offer the possibility of creating authentication solutions that are resistant to theft, hands-free, accessible, and potentially even revocable. However, despite the growing stream of research in this area, faster advance is hindered by reproducibility problems. Issues such as the lack of standard reporting schemes for performance results and system configuration, or the absence of common evaluation benchmarks, make comparability and proper assessment of different biometric solutions challenging. Further, barriers are erected to future work when, as so often, source code is not published open access. To bridge this gap, we introduce NeuroIDBench, a flexible open source tool to benchmark brainwave-based authentication models. It incorporates nine diverse datasets, implements a comprehensive set of pre-processing parameters and machine learning algorithms, enables testing under two common adversary models (known vs unknown attacker), and allows researchers to generate full performance reports and visualizations. We use NeuroIDBench to investigate the shallow classifiers and deep learning-based approaches proposed in the literature, and to test robustness across multiple sessions. We observe a 37.6% reduction in Equal Error Rate (EER) for unknown attacker scenarios (typically not tested in the literature), and we highlight the importance of session variability to brainwave authentication. All in all, our results demonstrate the viability and relevance of NeuroIDBench in streamlining fair comparisons of algorithms, thereby furthering the advancement of brainwave-based authentication through robust methodological practices.
翻訳日:2024-05-08 19:34:38 公開日:2024-05-07
# グラフ上でのクラスベースと強化されたアクティブラーニング

Class-Balanced and Reinforced Active Learning on Graphs ( http://arxiv.org/abs/2402.10074v3 )

ライセンス: Link先を確認
Chengcheng Yu, Jiapeng Zhu, Xiang Li, (参考訳) グラフニューラルネットワーク(GNN)は、ノード分類、リンク予測、グラフ分類など、さまざまなアプリケーションで大きな成功を収めている。 GNNのアクティブラーニングは、ラベルのないデータから貴重なサンプルを照会して、GNNのパフォーマンスを低コストで最大化することを目的としている。 しかし、GNNにおける強化能動学習のための既存のアルゴリズムのほとんどは、特に高度に歪んだクラスシナリオにおいて、高度に不均衡なクラス分布をもたらす可能性がある。 クラス不均衡なラベル付きデータで訓練されたGNNは、多数派に偏見を抱く可能性があり、マイノリティクラスの低いパフォーマンスは、全体的なパフォーマンスの低下につながる可能性がある。 この問題に対処するために、GNNのための新しいクラスバランスと強化されたアクティブラーニングフレームワーク、すなわちGCBRを提案する。 アノテーションのためのクラスバランスと情報ノードを取得するための最適なポリシーを学び、選択されたラベル付きノードでトレーニングされたGNNのパフォーマンスを最大化する。 GCBRは、クラスバランスを意識した状態と、モデルパフォーマンスとクラスバランスの間のトレードオフを達成する報酬関数を設計する。 強化学習アルゴリズムであるAdvantage Actor-Critic(A2C)を用いて、最適なポリシーを安定かつ効率的に学習する。 我々はさらにGCBRをGCBR++にアップグレードし、よりクラスバランスのよいラベル付き集合を得るための罰則を導入する。 複数のデータセットに対する大規模な実験は、提案手法の有効性を示し、最先端のベースラインよりも優れた性能を実現する。

Graph neural networks (GNNs) have demonstrated significant success in various applications, such as node classification, link prediction, and graph classification. Active learning for GNNs aims to query the valuable samples from the unlabeled data for annotation to maximize the GNNs' performance at a lower cost. However, most existing algorithms for reinforced active learning in GNNs may lead to a highly imbalanced class distribution, especially in highly skewed class scenarios. GNNs trained with class-imbalanced labeled data are susceptible to bias toward majority classes, and the lower performance of minority classes may lead to a decline in overall performance. To tackle this issue, we propose a novel class-balanced and reinforced active learning framework for GNNs, namely, GCBR. It learns an optimal policy to acquire class-balanced and informative nodes for annotation, maximizing the performance of GNNs trained with selected labeled nodes. GCBR designs class-balance-aware states, as well as a reward function that achieves trade-off between model performance and class balance. The reinforcement learning algorithm Advantage Actor-Critic (A2C) is employed to learn an optimal policy stably and efficiently. We further upgrade GCBR to GCBR++ by introducing a punishment mechanism to obtain a more class-balanced labeled set. Extensive experiments on multiple datasets demonstrate the effectiveness of the proposed approaches, achieving superior performance over state-of-the-art baselines.
翻訳日:2024-05-08 19:34:38 公開日:2024-05-07
# Any-Precision LLM:複数サイズ異なるLLMの低コスト展開

Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs ( http://arxiv.org/abs/2402.10517v3 )

ライセンス: Link先を確認
Yeonhong Park, Jake Hyun, SangLyul Cho, Bonggeun Sim, Jae W. Lee, (参考訳) 近年,大規模言語モデル (LLM) の圧縮に多大な努力が注がれている。 一方、実用的重要性にもかかわらず、異なるサイズの複数のLSMをデプロイする際のコストを軽減することには、はるかに注意が払われていない。 そこで本稿では,任意の精度 DNN の概念を LLM に拡張した 'emph{any-precision LLM} を提案する。 そこで我々は,LLMの任意の精度量子化のための軽量な手法を提案し,学習後の量子化フレームワークを活用し,効率的な処理を行うための専用ソフトウェアエンジンを開発した。 その結果,3, 4, ..., $n$bits などの様々なビット幅に量子化された LLM を 1 つの$n$bit LLM に相当するメモリフットプリントにオーバーレイすることで,複数の異なる LLM をデプロイするコストを大幅に削減できることがわかった。 サポートするLLMのビット幅は様々であり、最先端のモデル品質と推論のスループットを示しており、異なるサイズのLLMを複数配置する上で魅力的な選択肢であることが証明されている。 私たちのコードはオープンソースで、オンラインで利用可能です。

Recently, considerable efforts have been directed towards compressing Large Language Models (LLMs), which showcase groundbreaking capabilities across diverse applications but entail significant deployment costs due to their large sizes. Meanwhile, much less attention has been given to mitigating the costs associated with deploying multiple LLMs of varying sizes despite its practical significance. Thus, this paper introduces \emph{any-precision LLM}, extending the concept of any-precision DNN to LLMs. Addressing challenges in any-precision LLM, we propose a lightweight method for any-precision quantization of LLMs, leveraging a post-training quantization framework, and develop a specialized software engine for its efficient serving. As a result, our solution significantly reduces the high costs of deploying multiple, different-sized LLMs by overlaying LLMs quantized to varying bit-widths, such as 3, 4, ..., $n$ bits, into a memory footprint comparable to a single $n$-bit LLM. All the supported LLMs with varying bit-widths demonstrate state-of-the-art model quality and inference throughput, proving itself to be a compelling option for deployment of multiple, different-sized LLMs. Our code is open-sourced and available online.
翻訳日:2024-05-08 19:34:38 公開日:2024-05-07
# ポストホック信頼度推定によるセマンティックセグメンテーションの選択予測と分布シフトによる性能評価

Selective Prediction for Semantic Segmentation using Post-Hoc Confidence Estimation and Its Performance under Distribution Shift ( http://arxiv.org/abs/2402.10665v2 )

ライセンス: Link先を確認
Bruno Laboissiere Camargos Borges, Bruno Machado Pacheco, Danilo Silva, (参考訳) セマンティックセグメンテーションは様々なコンピュータビジョンアプリケーションにおいて重要な役割を果たすが、その効果は高品質なラベル付きデータの欠如によってしばしば妨げられる。 この課題に対処するため、一般的な戦略は、公開データセットなど、さまざまな集団のデータに基づいてトレーニングされたモデルを活用することである。 しかし、このアプローチは分布シフトの問題を引き起こし、関心の人口に対するパフォーマンスが低下する。 モデルエラーが重大な結果をもたらすシナリオでは、選択的な予測手法がリスクを軽減し、専門家の監督への依存を減らす手段を提供する。 本稿では,低リソース環境下でのセマンティックセグメンテーションの選択的予測について検討する。 本稿では,セマンティックセグメンテーションに適した画像レベルの信頼度尺度を提案し,その有効性を示す。 以上の結果から, ポストホック信頼度推定器は, 分布変化の影響を低減するためのコスト効率の高い手法であることがわかった。

Semantic segmentation plays a crucial role in various computer vision applications, yet its efficacy is often hindered by the lack of high-quality labeled data. To address this challenge, a common strategy is to leverage models trained on data from different populations, such as publicly available datasets. This approach, however, leads to the distribution shift problem, presenting a reduced performance on the population of interest. In scenarios where model errors can have significant consequences, selective prediction methods offer a means to mitigate risks and reduce reliance on expert supervision. This paper investigates selective prediction for semantic segmentation in low-resource settings, thus focusing on post-hoc confidence estimators applied to pre-trained models operating under distribution shift. We propose a novel image-level confidence measure tailored for semantic segmentation and demonstrate its effectiveness through experiments on three medical imaging tasks. Our findings show that post-hoc confidence estimators offer a cost-effective approach to reducing the impacts of distribution shift.
翻訳日:2024-05-08 19:34:38 公開日:2024-05-07
# ChemReasoner: 量子化学フィードバックを用いた大規模言語モデルの知識空間上のヒューリスティック検索

ChemReasoner: Heuristic Search over a Large Language Model's Knowledge Space using Quantum-Chemical Feedback ( http://arxiv.org/abs/2402.10980v3 )

ライセンス: Link先を確認
Henry W. Sprueill, Carl Edwards, Khushbu Agarwal, Mariefel V. Olarte, Udishnu Sanyal, Conrad Johnston, Hongbin Liu, Heng Ji, Sutanay Choudhury, (参考訳) 新しい触媒の発見は、持続可能な未来へ移行するために、新しいより効率的な化学プロセスの設計に不可欠である。 量子化学に基づく3次元原子論表現からのフィードバックで言語推論を統一するAI誘導型計算スクリーニングフレームワークを提案する。 提案手法は,大規模言語モデル(LLM)と原子間グラフニューラルネットワーク(GNN)によるフィードバックの反復的組み合わせにより,エージェントが高効率な触媒を積極的に探索する不確実な環境として触媒発見を定式化する。 中間探索段階における同定触媒は, 空間配向, 反応経路, 安定性に基づいて構造評価を行う。 吸着エネルギーとバリアに基づくスコーリング機能は、LLMの知識空間におけるエネルギー的に好適な高効率触媒への探索を後押しする。 本研究では,人間の入力を使わずに探索を自動的に案内する計画手法を導入し,専門家が列挙した化学記述子に基づく実装と競合する性能を提供する。 言語誘導推論と計算化学のフィードバックを統合することで、私たちの研究はAIを加速し、信頼できる触媒発見の先駆者になります。

The discovery of new catalysts is essential for the design of new and more efficient chemical processes in order to transition to a sustainable future. We introduce an AI-guided computational screening framework unifying linguistic reasoning with quantum-chemistry based feedback from 3D atomistic representations. Our approach formulates catalyst discovery as an uncertain environment where an agent actively searches for highly effective catalysts via the iterative combination of large language model (LLM)-derived hypotheses and atomistic graph neural network (GNN)-derived feedback. Identified catalysts in intermediate search steps undergo structural evaluation based on spatial orientation, reaction pathways, and stability. Scoring functions based on adsorption energies and barriers steer the exploration in the LLM's knowledge space toward energetically favorable, high-efficiency catalysts. We introduce planning methods that automatically guide the exploration without human input, providing competitive performance against expert-enumerated chemical descriptor-based implementations. By integrating language-guided reasoning with computational chemistry feedback, our work pioneers AI-accelerated, trustworthy catalyst discovery.
翻訳日:2024-05-08 19:23:11 公開日:2024-05-07
# 大規模事前学習型視覚モデルのタスク特異的蒸留に関するグッドプラクティスについて

On Good Practices for Task-Specific Distillation of Large Pretrained Visual Models ( http://arxiv.org/abs/2402.11305v2 )

ライセンス: Link先を確認
Juliette Marrie, Michael Arbel, Julien Mairal, Diane Larlus, (参考訳) 大きな事前訓練された視覚モデルは、様々な認識タスクにまたがる顕著な一般化を示す。 しかし、現実世界のアプリケーションは特定の問題に合わせたコンパクトなモデルを必要とすることが多い。 このような目的のために、知識蒸留のバリエーションが考案され、タスク固有のコンパクトモデル(学生)が、一般的な大きな事前訓練されたモデル(教師)から学ぶことができるようになった。 本稿では,近年のプレトレーニングモデルにおける優れたロバスト性と汎用性が文献で確立されている共通プラクティスに挑戦することを示し,課題特異的蒸留のための新しいガイドラインのセットを提唱する。 下流タスクにおけるサンプルの欠如に対処するために、安定拡散に基づくMixupの変種が標準データ拡張を補完することを示す。 この戦略は、エンジニアリングされたテキストプロンプトの必要性を排除し、汎用モデルの合理化された特殊ネットワークへの蒸留を改善する。

Large pretrained visual models exhibit remarkable generalization across diverse recognition tasks. Yet, real-world applications often demand compact models tailored to specific problems. Variants of knowledge distillation have been devised for such a purpose, enabling task-specific compact models (the students) to learn from a generic large pretrained one (the teacher). In this paper, we show that the excellent robustness and versatility of recent pretrained models challenge common practices established in the literature, calling for a new set of optimal guidelines for task-specific distillation. To address the lack of samples in downstream tasks, we also show that a variant of Mixup based on stable diffusion complements standard data augmentation. This strategy eliminates the need for engineered text prompts and improves distillation of generic models into streamlined specialized networks.
翻訳日:2024-05-08 19:23:11 公開日:2024-05-07
# 表現外科による自然言語の活用

Natural Language Counterfactuals through Representation Surgery ( http://arxiv.org/abs/2402.11355v3 )

ライセンス: Link先を確認
Matan Avitan, Ryan Cotterell, Yoav Goldberg, Shauli Ravfogel, (参考訳) 言語モデル(LM)の表現空間をターゲットとした介入は、モデル行動に影響を与える効果的な手段として現れてきた。 このような手法は、例えば、モデルの表現内で性別などの人口統計情報のエンコーディングを排除または変更するために使われ、その結果、反事実表現を作成する。 しかしながら、介入は表現空間内で動作するため、それが修正するテキストのどの側面が課題となるのかを正確に理解することは困難である。 本稿では,表現反事実を文字列反事実に変換する方法を提案する。 提案手法は,与えられた表現空間の介入に対応する言語変化を解析し,特定の概念を符号化するために使用する特徴を解釈することを可能にする。 さらに、結果のカウンターファクトは、データ拡張による分類のバイアスを軽減するために使用することができる。

Interventions targeting the representation space of language models (LMs) have emerged as an effective means to influence model behavior. Such methods are employed, for example, to eliminate or alter the encoding of demographic information such as gender within the model's representations and, in so doing, create a counterfactual representation. However, because the intervention operates within the representation space, understanding precisely what aspects of the text it modifies poses a challenge. In this paper, we give a method to convert representation counterfactuals into string counterfactuals. We demonstrate that this approach enables us to analyze the linguistic alterations corresponding to a given representation space intervention and to interpret the features utilized to encode a specific concept. Moreover, the resulting counterfactuals can be used to mitigate bias in classification through data augmentation.
翻訳日:2024-05-08 19:23:11 公開日:2024-05-07
# 回転加速参照フレームにおける軌道角運動量スペクトルと絡み合い

Orbital angular momentum spectrum and entanglement in a rotating accelerated reference frame ( http://arxiv.org/abs/2402.11486v2 )

ライセンス: Link先を確認
Haorong Wu, Xilong Fan, Lixiang Chen, (参考訳) 粒子の定義は異なる理論によって異なる。 曲線時空における場の量子論は、線形加速された観測者の視点からすると、慣性空空間は熱粒子で満たされている可能性があることを示している。 この効果はウンルー効果として知られている。 軌道角運動量(OAM)の自由度を考えると、全てのOAMモードは同じ粒子数を共有する。 本稿では, 回転加速基準フレームにおけるOAMスペクトルについて検討し, 線形加速の場合とスペクトルの相違について検討する。 観測者が回転し始めると、全てのOAMモードが許されず、負のエネルギーモードが現れる。 回転加速オブザーバーが実際にこれらの粒子をどう知覚するかを理解するために、ウンルー・デウィット検出器とその詳細バランスを研究した。 この関係は、共振慣性フレームと残りのフレームの両方で研究される。 これらの結果から, OAMエンタングルメント劣化は, 2次元および高次元のケースでそれぞれ検討された。 その結果,OAMモードのエンタングルメント次元と最高次数は,それぞれ加速度と回転に大きく関係していることが示唆された。 すると、これらの結果はすべての定常軌道に一般化できることが示される。

The particle definition varies across different theories. The quantum field theory in curved spacetime shows that from the perspective of a linearly accelerated observer, an inertial empty space may be full of thermal particles. This effect is known as the Unruh effect. When the degrees of freedom of orbital angular momentum (OAM) are considered, all OAM modes share the same expected particle number. Here, we examine the OAM spectrum in a rotating accelerated reference frame to see how the spectrum differs from the linear accelerated case. When the observer starts to rotate, not all OAM modes are allowed and some negative energy modes show up. To understand how a rotating accelerated observer actually perceives these particles, the Unruh-DeWitt detector and its detailed balance are studied. This relation is studied both in the comoving inertial frame and in the rest frame. Based on these results, the OAM entanglement degradation is explored in two-dimensional and high-dimensional cases, respectively. The results indicate that the entanglement dimension and the highest order of OAM modes are mainly related to the acceleration and the rotation, respectively. It is then demonstrated that these results can be generalized to all stationary trajectories.
翻訳日:2024-05-08 19:23:11 公開日:2024-05-07
# 思考の連鎖が変圧器に根源的なシリアル問題を解く力を与える

Chain of Thought Empowers Transformers to Solve Inherently Serial Problems ( http://arxiv.org/abs/2402.12875v2 )

ライセンス: Link先を確認
Zhiyuan Li, Hong Liu, Denny Zhou, Tengyu Ma, (参考訳) モデルに中間段階、すなわち思考の連鎖(CoT)を生成するように指示することは、算術やシンボリック推論タスクにおいて大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。 しかし、CoTの背後にあるメカニズムは未だに不明である。 この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。 概念的には、CoTはモデルに本質的にシリアルな計算を実行する能力を持たせる。 入力長$n$が与えられたとき、以前の研究は有限精度$\mathsf{poly}(n)$埋め込みサイズを持つ定数深度変換器は、CoTのない$\mathsf{TC}^0$でしか解決できないことを示した。 まず、定数ビット精度を持つ定数深度変換器に対して、より厳密な表現性上限を示す。これは、$ \mathsf{TC}^0$ の固有部分集合である $\mathsf{AC}^0$ の問題を解くことしかできない。 しかし、CoTの$T$ステップでは、定数ビット精度と$O(\log n)$埋め込みサイズを使った定数深度変換器は、サイズ$T$のブール回路で解けるあらゆる問題を解くことができる。 経験的に、CoTを有効にすることで、特に低深度トランスフォーマーにおいて、置換群、反復スクアリング、回路値問題などの並列計算に苦しむタスクの精度が劇的に向上する。

Instructing the model to generate a sequence of intermediate steps, a.k.a., a chain of thought (CoT), is a highly effective method to improve the accuracy of large language models (LLMs) on arithmetics and symbolic reasoning tasks. However, the mechanism behind CoT remains unclear. This work provides a theoretical understanding of the power of CoT for decoder-only transformers through the lens of expressiveness. Conceptually, CoT empowers the model with the ability to perform inherently serial computation, which is otherwise lacking in transformers, especially when depth is low. Given input length $n$, previous works have shown that constant-depth transformers with finite precision $\mathsf{poly}(n)$ embedding size can only solve problems in $\mathsf{TC}^0$ without CoT. We first show an even tighter expressiveness upper bound for constant-depth transformers with constant-bit precision, which can only solve problems in $\mathsf{AC}^0$, a proper subset of $ \mathsf{TC}^0$. However, with $T$ steps of CoT, constant-depth transformers using constant-bit precision and $O(\log n)$ embedding size can solve any problem solvable by boolean circuits of size $T$. Empirically, enabling CoT dramatically improves the accuracy for tasks that are hard for parallel computation, including the composition of permutation groups, iterated squaring, and circuit value problems, especially for low-depth transformers.
翻訳日:2024-05-08 19:23:11 公開日:2024-05-07
# 量子ドットデバイス測定のための説明可能な分類法

Explainable Classification Techniques for Quantum Dot Device Measurements ( http://arxiv.org/abs/2402.13699v3 )

ライセンス: Link先を確認
Daniel Schug, Tyler J. Kovach, M. A. Wolfe, Jared Benson, Sanghyeok Park, J. P. Dodson, J. Corrigan, M. A. Eriksson, Justyna P. Zwolak, (参考訳) 物理科学では、画像データのロバストな特徴表現の必要性が高まっており、画像取得は2次元データの一般化された意味で、現在、量子情報科学を含む多くの分野に広がっている。 このような場合、従来の画像の特徴は広く活用されているが、その利用はニューラルネットワークベースの技術によって急速に置き換えられ、高い精度と引き換えに説明責任を犠牲にしている。 このトレードオフを改善するために、我々は、説明可能な特徴をもたらす合成データベースの手法を提案する。 本稿では, 説明可能なブースティングマシン (EBM) を用いて, 精度を犠牲にすることなく, より優れた説明性を提供することを示す。 具体的には、現段階での人間の介入が必要とされる量子ドットチューニングの文脈において、この手法には有意義な利点があることを示す。

In the physical sciences, there is an increased need for robust feature representations of image data: image acquisition, in the generalized sense of two-dimensional data, is now widespread across a large number of fields, including quantum information science, which we consider here. While traditional image features are widely utilized in such cases, their use is rapidly being supplanted by Neural Network-based techniques that often sacrifice explainability in exchange for high accuracy. To ameliorate this trade-off, we propose a synthetic data-based technique that results in explainable features. We show, using Explainable Boosting Machines (EBMs), that this method offers superior explainability without sacrificing accuracy. Specifically, we show that there is a meaningful benefit to this technique in the context of quantum dot tuning, where human intervention is necessary at the current stage of development.
翻訳日:2024-05-08 19:23:11 公開日:2024-05-07
# SDDGR: クラスインクリメンタルオブジェクト検出のための安定拡散に基づくDeep Generative Replay

SDDGR: Stable Diffusion-based Deep Generative Replay for Class Incremental Object Detection ( http://arxiv.org/abs/2402.17323v2 )

ライセンス: Link先を確認
Junsu Kim, Hoseong Cho, Jihyeon Kim, Yihalem Yimolal Tiruneh, Seungryul Baek, (参考訳) クラスインクリメンタルラーニング(CIL)の分野では、生成モデルの継続的な改善とともに、破滅的な忘れを緩和する方法として、生成的リプレイが注目されている。 しかし、そのクラスインクリメンタルオブジェクト検出(CIOD)への応用は、主に複数のラベルを含むシーンの複雑さのために、大幅に制限されている。 本稿では,CIODのためのSDDGRという新しい手法を提案する。 本手法は,事前学習したテキスト-拡散ネットワークを用いた拡散モデルを用いて,現実的で多様な合成画像を生成する。 SDDGRは、古いクラスを含む高品質な画像を作成するための反復的な改善戦略を取り入れている。 また,合成画像における先行知識の保持性を向上させるため,L2知識蒸留技術を採用した。 さらに,新しいタスクイメージ内の古いオブジェクトを擬似ラベル化することで,背景要素の誤分類を防止する。 COCO 2017データセットに関する大規模な実験は、SDDGRが既存のアルゴリズムを著しく上回り、さまざまなCIODシナリオで新たな最先端を実現していることを示している。 ソースコードは一般公開される予定だ。

In the field of class incremental learning (CIL), generative replay has become increasingly prominent as a method to mitigate the catastrophic forgetting, alongside the continuous improvements in generative models. However, its application in class incremental object detection (CIOD) has been significantly limited, primarily due to the complexities of scenes involving multiple labels. In this paper, we propose a novel approach called stable diffusion deep generative replay (SDDGR) for CIOD. Our method utilizes a diffusion-based generative model with pre-trained text-to-diffusion networks to generate realistic and diverse synthetic images. SDDGR incorporates an iterative refinement strategy to produce high-quality images encompassing old classes. Additionally, we adopt an L2 knowledge distillation technique to improve the retention of prior knowledge in synthetic images. Furthermore, our approach includes pseudo-labeling for old objects within new task images, preventing misclassification as background elements. Extensive experiments on the COCO 2017 dataset demonstrate that SDDGR significantly outperforms existing algorithms, achieving a new state-of-the-art in various CIOD scenarios. The source code will be made available to the public.
翻訳日:2024-05-08 19:23:11 公開日:2024-05-07
# ニューラル質問生成に関する調査研究:方法,応用,展望

A Survey on Neural Question Generation: Methods, Applications, and Prospects ( http://arxiv.org/abs/2402.18267v2 )

ライセンス: Link先を確認
Shasha Guo, Lizi Liao, Cuiping Li, Tat-Seng Chua, (参考訳) 本稿では,ニューラルネットワーク技術を活用した知識ベース,テキスト,画像などの多様な入力から関連する質問を生成する分野であるニューラル質問生成(NQG)の進歩について,詳細な検討を行う。 調査は、タスクの問題定式化、一般的なベンチマークデータセット、確立された評価指標、注目すべきアプリケーションなど、NQGの背景の概要から始まった。 次に、NQGアプローチを3つの主要なカテゴリに分類する。構造化されたデータソースを利用する構造化NQG、テキストやビジュアルコンテンツのようなよりゆるく構造化された入力に焦点を当てる非構造化NQG、多様な入力モダリティに基づくハイブリッドNQGである。 この分類に続いて、各カテゴリに合わせて調整された異なるニューラルネットワークモデルの詳細な分析が行われ、その固有の強度と潜在的な制限が議論される。 この調査は、NQGの軌跡を前方視し、創発的な研究動向と今後の発展の道筋を見極めている。 この調査は、Githubで体系的に組織化された関連研究論文、データセット、コードのキュレートされたコレクションであり、NQGに精通する人々に対する広範な参照を提供する。

In this survey, we present a detailed examination of the advancements in Neural Question Generation (NQG), a field leveraging neural network techniques to generate relevant questions from diverse inputs like knowledge bases, texts, and images. The survey begins with an overview of NQG's background, encompassing the task's problem formulation, prevalent benchmark datasets, established evaluation metrics, and notable applications. It then methodically classifies NQG approaches into three predominant categories: structured NQG, which utilizes organized data sources, unstructured NQG, focusing on more loosely structured inputs like texts or visual content, and hybrid NQG, drawing on diverse input modalities. This classification is followed by an in-depth analysis of the distinct neural network models tailored for each category, discussing their inherent strengths and potential limitations. The survey culminates with a forward-looking perspective on the trajectory of NQG, identifying emergent research trends and prospective developmental paths. Accompanying this survey is a curated collection of related research papers, datasets and codes, systematically organized on Github, providing an extensive reference for those delving into NQG.
翻訳日:2024-05-08 19:23:11 公開日:2024-05-07
# 3DTopia:ハイブリッド拡散プリミティブを用いた大規模テキスト・ツー・3D生成モデル

3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors ( http://arxiv.org/abs/2403.02234v2 )

ライセンス: Link先を確認
Fangzhou Hong, Jiaxiang Tang, Ziang Cao, Min Shi, Tong Wu, Zhaoxi Chen, Shuai Yang, Tengfei Wang, Liang Pan, Dahua Lin, Ziwei Liu, (参考訳) 本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。 最初のステージは、3Dデータから直接学習される前に3D拡散からサンプリングされる。 具体的には、テキスト条件付き3次元潜伏拡散モデルを用いて、高速なプロトタイピングのための粗い3Dサンプルを迅速に生成する。 第2段階は、第1段階から粗い3Dモデルのテクスチャをさらに洗練するために、2次元拡散先行を利用している。 精細化は、高品質なテクスチャ生成のための潜時空間とピクセル空間の最適化の両方から成っている。 提案手法の学習を容易にするため,視覚言語モデルと大規模言語モデルを組み合わせることで,最大規模のオープンソース3DデータセットであるObjaverseをクリーン・キャプションする。 実験結果を質的,定量的に報告し,提案システムの性能を示す。 私たちのコードとモデルはhttps://github.com/3DTopia/3DTopiaで利用可能です。

We present a two-stage text-to-3D generation system, namely 3DTopia, which generates high-quality general 3D assets within 5 minutes using hybrid diffusion priors. The first stage samples from a 3D diffusion prior directly learned from 3D data. Specifically, it is powered by a text-conditioned tri-plane latent diffusion model, which quickly generates coarse 3D samples for fast prototyping. The second stage utilizes 2D diffusion priors to further refine the texture of coarse 3D models from the first stage. The refinement consists of both latent and pixel space optimization for high-quality texture generation. To facilitate the training of the proposed system, we clean and caption the largest open-source 3D dataset, Objaverse, by combining the power of vision language models and large language models. Experiment results are reported qualitatively and quantitatively to show the performance of the proposed system. Our codes and models are available at https://github.com/3DTopia/3DTopia
翻訳日:2024-05-08 19:23:11 公開日:2024-05-07
# 電池セルの1万個以上のCT画像のデータセット

A dataset of over one thousand computed tomography scans of battery cells ( http://arxiv.org/abs/2403.02527v4 )

ライセンス: Link先を確認
Amariah Condon, Bailey Buscarino, Eric Moch, William J. Sehnert, Owen Miles, Patrick K. Herring, Peter M. Attia, (参考訳) バッテリー技術は、グローバルな電化努力にとってますます重要になっている。 しかし、電池は小さな製造のバリエーションに非常に敏感であり、信頼性や安全性の問題を引き起こす可能性がある。 電池品質管理のための重要な技術はCTスキャンであり、様々な臨床・工業分野で非破壊的な3D検査に広く利用されている。 しかし、歴史的に、高ボリューム製造におけるCTスキャンの有用性は、そのスループットの低さと、大きなファイルサイズを扱うことの難しさによって制限されてきた。 本研究では,製造済みの市販電池のCTスキャンを1万回以上行った。 データセットは、様々な化学(リチウムイオンとナトリウムイオン)と、様々な電池形成因子(円筒、ポーチ、プリスマティック)にまたがる。 合計7種類のバッテリについて検討した。 製造の多様性とバッテリーの欠陥の存在は、このデータセットを通して観察することができる。 このデータセットは、バッテリー技術、コンピュータビジョン、あるいはその両方に取り組んでいる科学者やエンジニアにとって興味深い。

Battery technology is increasingly important for global electrification efforts. However, batteries are highly sensitive to small manufacturing variations that can induce reliability or safety issues. An important technology for battery quality control is computed tomography (CT) scanning, which is widely used for non-destructive 3D inspection across a variety of clinical and industrial applications. Historically, however, the utility of CT scanning for high-volume manufacturing has been limited by its low throughput as well as the difficulty of handling its large file sizes. In this work, we present a dataset of over one thousand CT scans of as-produced commercially available batteries. The dataset spans various chemistries (lithium-ion and sodium-ion) as well as various battery form factors (cylindrical, pouch, and prismatic). We evaluate seven different battery types in total. The manufacturing variability and the presence of battery defects can be observed via this dataset. This dataset may be of interest to scientists and engineers working on battery technology, computer vision, or both.
翻訳日:2024-05-08 19:23:11 公開日:2024-05-07
# 自動運転のための世界モデル:最初の調査

World Models for Autonomous Driving: An Initial Survey ( http://arxiv.org/abs/2403.02622v3 )

ライセンス: Link先を確認
Yanchen Guan, Haicheng Liao, Zhenning Li, Jia Hu, Runze Yuan, Yunjian Li, Guohui Zhang, Chengzhong Xu, (参考訳) 自律運転の急速な発展の中で、将来の出来事を正確に予測し、その影響を評価する能力は、安全と効率の両方にとって最重要であり、意思決定プロセスの批判的支援である。 世界モデルは変革的なアプローチとして現れており、自律運転システムは大量のセンサーデータを合成し、解釈し、将来のシナリオを予測し、情報ギャップを補うことができる。 本稿では,自律運転における世界モデルの現状と今後の発展について,その理論的基盤,実践的応用,および既存の限界を克服するための継続的な研究成果を概説する。 この調査は、自律運転技術の進歩における世界モデルの役割を高く評価し、研究コミュニティの基盤となることを目的としており、この急成長する分野への迅速なアクセスと理解を促進し、継続的なイノベーションと探索を刺激している。

In the rapidly evolving landscape of autonomous driving, the capability to accurately predict future events and assess their implications is paramount for both safety and efficiency, critically aiding the decision-making process. World models have emerged as a transformative approach, enabling autonomous driving systems to synthesize and interpret vast amounts of sensor data, thereby predicting potential future scenarios and compensating for information gaps. This paper provides an initial review of the current state and prospective advancements of world models in autonomous driving, spanning their theoretical underpinnings, practical applications, and the ongoing research efforts aimed at overcoming existing limitations. Highlighting the significant role of world models in advancing autonomous driving technologies, this survey aspires to serve as a foundational reference for the research community, facilitating swift access to and comprehension of this burgeoning field, and inspiring continued innovation and exploration.
翻訳日:2024-05-08 19:23:11 公開日:2024-05-07
# 確率モデルによるボンガード・ログ問題の解法

Solving the bongard-logo problem by modeling a probabilistic model ( http://arxiv.org/abs/2403.03173v4 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan, (参考訳) 抽象推論問題は、AIアルゴリズムの知覚的および認知的能力に挑戦し、明示的な画像特徴以上のパターン識別と帰納的推論を要求する。 本研究は, ボナード・ローゴ問題に適した確率モデルであるPMoCを導入し, 独立確率モデルを構築して高い推論精度を実現する。 さらに、Bongard-Logo、RAVEN、I-RAVEN、PGMなどの複雑な抽象的推論タスク用に設計された拡張トランスフォーマーであるPose-Transformerを提案する。 Pose-Transformerは、カプセルネットワークのポーズ行列にインスパイアされた位置情報学習を取り入れ、画像データ処理における局所的な位置関係に焦点を当てる。 PMoCと統合すると、推論精度がさらに向上する。 提案手法は,抽象エンティティの位置変化に伴う推論の難しさを効果的に解決し,OIG,D3$\times$3サブセットのRAVEN,PGMデータベース上でのモデルよりも優れている。 この研究は、抽象的推論と認知パターン認識におけるAIの能力向上に寄与する。

Abstract reasoning problems challenge the perceptual and cognitive abilities of AI algorithms, demanding deeper pattern discernment and inductive reasoning beyond explicit image features. This study introduces PMoC, a tailored probability model for the Bongard-Logo problem, achieving high reasoning accuracy by constructing independent probability models. Additionally, we present Pose-Transformer, an enhanced Transformer-Encoder designed for complex abstract reasoning tasks, including Bongard-Logo, RAVEN, I-RAVEN, and PGM. Pose-Transformer incorporates positional information learning, inspired by capsule networks' pose matrices, enhancing its focus on local positional relationships in image data processing. When integrated with PMoC, it further improves reasoning accuracy. Our approach effectively addresses reasoning difficulties associated with abstract entities' positional changes, outperforming previous models on the OIG, D3$\times$3 subsets of RAVEN, and PGM databases. This research contributes to advancing AI's capabilities in abstract reasoning and cognitive pattern recognition.
翻訳日:2024-05-08 19:13:23 公開日:2024-05-07
# リアルな人間-AIコラボレーションハイブリッドテキストにおけるAI生成文の検出:課題、戦略、洞察

Detecting AI-Generated Sentences in Realistic Human-AI Collaborative Hybrid Texts: Challenges, Strategies, and Insights ( http://arxiv.org/abs/2403.03506v2 )

ライセンス: Link先を確認
Zijie Zeng, Shiqi Liu, Lele Sha, Zhuang Li, Kaixun Yang, Sannyuya Liu, Dragan Gašević, Guanliang Chen, (参考訳) 本研究では,人間-AI協調テキストにおける文レベルAI生成テキスト検出の課題について検討する。 ハイブリッドテキストに対するAI生成テキスト検出の既存の研究は、しばしば合成データセットに依存している。 これらは典型的には、境界が限られているハイブリッドテキストを含む。 ハイブリッドテキスト中のAI生成コンテンツを検出する研究は、現実的な設定で生成されたさまざまなタイプのハイブリッドテキストをカバーし、現実世界のアプリケーションにより良い情報を提供するべきだ、と我々は主張する。 そこで本研究では,マルチターンインタラクションにおけるヒューマンライターとインテリジェントライティングシステムによるコラボレーションを通じて生成される,多種多様なハイブリッドテキストを含むCoAuthorデータセットを用いた。 私たちは2段階のセグメンテーションベースのパイプラインを採用しています。 (i)各セグメントが一貫した著者の文を含む所定のハイブリッドテキスト内のセグメントを検出し、 (ii)各特定セグメントのオーサシップを分類する。 1) ハイブリッドテキストにおけるAI生成文の検出は,(1.1) 個人の嗜好に基づくAI生成文の選択や編集が難しいこと,(1.2) ハイブリッドテキスト内の隣接文間のオーサシップの頻繁な変更は,オーサシップ一貫性のあるセグメントを識別するセグメント検出の困難を生じさせること,(1.3) ハイブリッドテキスト内のテキストセグメントの短さは,信頼性の高いオーサシップ決定のための限定的なスタイリスティックなキューを提供すること,(2) 検出プロセスを開始する前に,ハイブリッドテキスト内のセグメントの平均的な長さを評価することが有用であること,など,全体として難しい課題である。 この評価は (2.1) がより長いセグメントを持つハイブリッドテキストに対してテキストセグメンテーションに基づく戦略を採用するか (2.2) または (2.2) が短いセグメントを持つテキストに対して直接文単位の分類戦略を採用するかを決定するのに役立つ。

This study explores the challenge of sentence-level AI-generated text detection within human-AI collaborative hybrid texts. Existing studies of AI-generated text detection for hybrid texts often rely on synthetic datasets. These typically involve hybrid texts with a limited number of boundaries. We contend that studies of detecting AI-generated content within hybrid texts should cover different types of hybrid texts generated in realistic settings to better inform real-world applications. Therefore, our study utilizes the CoAuthor dataset, which includes diverse, realistic hybrid texts generated through the collaboration between human writers and an intelligent writing system in multi-turn interactions. We adopt a two-step, segmentation-based pipeline: (i) detect segments within a given hybrid text where each segment contains sentences of consistent authorship, and (ii) classify the authorship of each identified segment. Our empirical findings highlight (1) detecting AI-generated sentences in hybrid texts is overall a challenging task because (1.1) human writers' selecting and even editing AI-generated sentences based on personal preferences adds difficulty in identifying the authorship of segments; (1.2) the frequent change of authorship between neighboring sentences within the hybrid text creates difficulties for segment detectors in identifying authorship-consistent segments; (1.3) the short length of text segments within hybrid texts provides limited stylistic cues for reliable authorship determination; (2) before embarking on the detection process, it is beneficial to assess the average length of segments within the hybrid text. This assessment aids in deciding whether (2.1) to employ a text segmentation-based strategy for hybrid texts with longer segments, or (2.2) to adopt a direct sentence-by-sentence classification strategy for those with shorter segments.
翻訳日:2024-05-08 19:13:23 公開日:2024-05-07
# DPOT:大規模PDE事前訓練のための自動回帰デノイング演算子変換器

DPOT: Auto-Regressive Denoising Operator Transformer for Large-Scale PDE Pre-Training ( http://arxiv.org/abs/2403.03542v4 )

ライセンス: Link先を確認
Zhongkai Hao, Chang Su, Songming Liu, Julius Berner, Chengyang Ying, Hang Su, Anima Anandkumar, Jian Song, Jun Zhu, (参考訳) データ・スカース・セッティングにおけるニューラル演算子の訓練効率と性能を向上させるため,事前学習が検討されている。 しかし、それは主に、長い軌跡、多重スケール、偏微分方程式(PDE)データの様々な次元など、固有の複雑さと多様性のため、その初期段階にある。 本稿では、PDEデータに対するより安定的で効率的な事前学習を可能にし、様々なダウンストリームタスクに一般化できる、新しい自己回帰型事前学習戦略を提案する。 さらに、Fourierの注意に基づくフレキシブルでスケーラブルなモデルアーキテクチャを設計することにより、大規模事前学習のためのモデルを簡単にスケールアップできる。 我々は,100k以上の軌道を持つ10以上のPDEデータセットに対して,最大0.5BパラメータでPDEファンデーションモデルをトレーニングする。 大規模な実験により、これらのベンチマークでSOTAを達成し、3Dデータのような様々な下流PDEタスクの性能を大幅に向上させるため、モデルの強力な一般化可能性を検証することができる。 コードは \url{https://github.com/thu-ml/DPOT} で入手できる。

Pre-training has been investigated to improve the efficiency and performance of training neural operators in data-scarce settings. However, it is largely in its infancy due to the inherent complexity and diversity, such as long trajectories, multiple scales and varying dimensions of partial differential equations (PDEs) data. In this paper, we present a new auto-regressive denoising pre-training strategy, which allows for more stable and efficient pre-training on PDE data and generalizes to various downstream tasks. Moreover, by designing a flexible and scalable model architecture based on Fourier attention, we can easily scale up the model for large-scale pre-training. We train our PDE foundation model with up to 0.5B parameters on 10+ PDE datasets with more than 100k trajectories. Extensive experiments show that we achieve SOTA on these benchmarks and validate the strong generalizability of our model to significantly enhance performance on diverse downstream PDE tasks like 3D data. Code is available at \url{https://github.com/thu-ml/DPOT}.
翻訳日:2024-05-08 19:13:23 公開日:2024-05-07
# ビームスプリッタによる2光子のウェーブパレット干渉--テンポラルエンタングルメントからウェーブパレット整形まで-

Wavepacket interference of two photons through a beam splitter: from temporal entanglement to wavepacket shaping ( http://arxiv.org/abs/2403.04432v2 )

ライセンス: Link先を確認
Zhaohua Tian, Qi Liu, Yu Tian, Ying Gu, (参考訳) ビーム分割に基づく量子干渉は、絡み合いに広く用いられている。 しかし、この絡み合いによって促進される絡み合いとウェーブパレット形成の定量的な記述は未解明のままである。 ここでは、ビームスプリッタ(BS)を介して異なる時間的形状を持つ2つの光子の干渉を分析し、その時間的絡み合いと光子の形状形成への応用を提案する。 フォン・ノイマンエントロピーにより記述された時間的絡み合いは、BSの分裂比と入力光子の時間的不明瞭さによって決定される。 最大エンタングルメントは50/50 BS構成で実現できる。 そして、特定のタイミングで絡み合った光子の一方を検出することにより、他方の光子の確率的形成を可能にする。 このプロセスは指数関数的に崩壊する(ED)波束をED正弦形に形成することができ、さらに99\%を超える忠実度を持つガウス形状にすることができる。 干渉に基づく光子の時間的絡み合いと形作りは、大規模光量子ネットワークにおける形状ミスマッチ問題を解くことができる。

Quantum interferences based on beam splitting are widely used for entanglement. However, the quantitative description of the entanglement and wavepacket shaping facilitated by this entanglement remain unexplored. Here we analytically study the interference of two photons with different temporal shapes through a beam splitter (BS), then propose its application in temporal entanglement and shaping of photons. The temporal entanglement described by Von Neumann entropy is determined by the splitting ratio of BS and temporal indistinguishability of input photons. Maximum entanglement can be achieved with a 50/50 BS configuration. Then, detecting one of the entangled photons at a specific time enables the probabilistic shaping of the other photon. This process can shape the exponentially decaying (ED) wavepacket into the ED sine shapes, which can be further shaped into Gaussian shapes with fidelity exceeding 99\%. The temporal entanglement and shaping of photons based on interference may solve the shape mismatch issues in large-scale optical quantum networks.
翻訳日:2024-05-08 19:13:23 公開日:2024-05-07
# Code-Mixed Probesは、事前訓練されたモデルがコード変換されたテキストにどのように一般化するかを示す

Code-Mixed Probes Show How Pre-Trained Models Generalise On Code-Switched Text ( http://arxiv.org/abs/2403.04872v2 )

ライセンス: Link先を確認
Frances A. Laureano De Leon, Harish Tayyar Madabushi, Mark Lee, (参考訳) コードスイッチング(Code-switching)は、多言語的個人が言語間でシームレスに交互に交替する一般的な言語現象である。 この領域で広く使われていることや最近の研究動向にもかかわらず、コードスイッチングの研究は、ラベル付きデータと利用可能なリソースの不足に起因して、独特な課題を呈している。 本研究では,事前学習された言語モデルが3次元のコード切替テキストをどのように扱うかを検討する。 a) PLMがコード変更テキストを検出する能力 b) PLMがコード変更テキストをキャプチャするために利用する構造情報のバリエーション及び c) コード変更文における意味情報表現の整合性 問題となっている言語モデルの体系的かつ制御された評価を行うため、我々は、ソースコードへの並列翻訳とともに、構造化された自然主義的なコードスイッチされたテキストの新しいデータセットを作成する。 この結果から,事前学習した言語モデルは,CSコーパスに表現を一般化するために,これらのモデルの能力に光を当てることによって,コードスイッチによるテキストの一般化に有効であることが判明した。 我々は、新しいコーパスを含むすべてのコードとデータをhttps://github.com/francesita/code-mixed-probes.comでリリースします。

Code-switching is a prevalent linguistic phenomenon in which multilingual individuals seamlessly alternate between languages. Despite its widespread use online and recent research trends in this area, research in code-switching presents unique challenges, primarily stemming from the scarcity of labelled data and available resources. In this study we investigate how pre-trained Language Models handle code-switched text in three dimensions: a) the ability of PLMs to detect code-switched text, b) variations in the structural information that PLMs utilise to capture code-switched text, and c) the consistency of semantic information representation in code-switched text. To conduct a systematic and controlled evaluation of the language models in question, we create a novel dataset of well-formed naturalistic code-switched text along with parallel translations into the source languages. Our findings reveal that pre-trained language models are effective in generalising to code-switched text, shedding light on the abilities of these models to generalise representations to CS corpora. We release all our code and data including the novel corpus at https://github.com/francesita/code-mixed-probes.
翻訳日:2024-05-08 19:13:23 公開日:2024-05-07
# L$^2$GC:ノード分類のためのローレンツ線形グラフ畳み込みネットワーク

L$^2$GC: Lorentzian Linear Graph Convolutional Networks For Node Classification ( http://arxiv.org/abs/2403.06064v2 )

ライセンス: Link先を確認
Qiuyu Liang, Weihua Wang, Feilong Bao, Guanglai Gao, (参考訳) グラフデータのノードを分類するために、線形グラフ畳み込みネットワーク(GCN)が使用される。 しかし、既存のリニアGCNモデルはユークリッド空間でニューラルネットワーク操作を行うため、グラフとしてモデル化された実世界のデータセットで表される木のような階層構造を明示的に捉えない。 本稿では,線形GCNに双曲空間を導入し,ローレンツ線型GCNの新しい枠組みを提案する。 具体的には、グラフノードの学習した特徴を双曲空間にマッピングし、次にローレンツ線形特徴変換を行い、基礎となる木のようなデータ構造を捉える。 半教師付き学習を用いた標準引用ネットワークデータセットの実験結果から,Citeseerでは74.7$\%,PubMedでは81.3$\%の新しい最先端結果が得られることがわかった。 さらに,本手法は,PubMedデータセット上の他の非線形GCNモデルよりも2桁高速にトレーニング可能であることも確認した。 私たちのコードはhttps://github.com/llqy123/LLGC-masterで公開されています。

Linear Graph Convolutional Networks (GCNs) are used to classify the node in the graph data. However, we note that most existing linear GCN models perform neural network operations in Euclidean space, which do not explicitly capture the tree-like hierarchical structure exhibited in real-world datasets that modeled as graphs. In this paper, we attempt to introduce hyperbolic space into linear GCN and propose a novel framework for Lorentzian linear GCN. Specifically, we map the learned features of graph nodes into hyperbolic space, and then perform a Lorentzian linear feature transformation to capture the underlying tree-like structure of data. Experimental results on standard citation networks datasets with semi-supervised learning show that our approach yields new state-of-the-art results of accuracy 74.7$\%$ on Citeseer and 81.3$\%$ on PubMed datasets. Furthermore, we observe that our approach can be trained up to two orders of magnitude faster than other nonlinear GCN models on PubMed dataset. Our code is publicly available at https://github.com/llqy123/LLGC-master.
翻訳日:2024-05-08 19:13:23 公開日:2024-05-07
# 台詞戦略計画による効果的な非協調対話に向けて

Strength Lies in Differences! Towards Effective Non-collaborative Dialogues via Tailored Strategy Planning ( http://arxiv.org/abs/2403.06769v2 )

ライセンス: Link先を確認
Tong Zhang, Chen Huang, Yang Deng, Hongru Liang, Jia Liu, Zujie Wen, Wenqiang Lei, Tat-Seng Chua, (参考訳) 我々は,多様なユーザとの戦略的対話を期待する非協力的対話エージェントについて,システム目標に好意的に依存する相互合意を確保するために検討する。 これは、既存の対話エージェントに2つの大きな課題をもたらす。 1) ユーザ固有の特徴を戦略的計画に組み込むことができないこと、及び 2)多様な利用者に一般化できる戦略プランナーの育成が困難である。 これらの課題に対処するため,我々は,ユーザ対応戦略計画モジュールと人口ベーストレーニングパラダイムを取り入れた,適切な戦略計画の能力を高めるためのTripを提案する。 協調的でない対話タスクのベンチマーク実験を通じて,多様なユーザを対象としたTripの有効性を実証した。

We investigate non-collaborative dialogue agents, which are expected to engage in strategic conversations with diverse users, for securing a mutual agreement that leans favorably towards the system's objectives. This poses two main challenges for existing dialogue agents: 1) The inability to integrate user-specific characteristics into the strategic planning, and 2) The difficulty of training strategic planners that can be generalized to diverse users. To address these challenges, we propose Trip to enhance the capability in tailored strategic planning, incorporating a user-aware strategic planning module and a population-based training paradigm. Through experiments on benchmark non-collaborative dialogue tasks, we demonstrate the effectiveness of Trip in catering to diverse users.
翻訳日:2024-05-08 19:13:23 公開日:2024-05-07
# SE-InceptionV3の改良に基づくサルポックス病の認識モデル

Monkeypox disease recognition model based on improved SE-InceptionV3 ( http://arxiv.org/abs/2403.10087v2 )

ライセンス: Link先を確認
Junzhuo Chen, Zonghan Lu, Shitong Kang, (参考訳) サルポックスの世界的な普及に伴い、正確な疾患認識が重要になっている。 本研究はSE-InceptionV3モデルを改良し,SENetモジュールを組み込み,インセプションV3フレームワークにL2正規化を組み込むことでサルポックス病の検出を向上する。 サルポックスと類似した皮膚条件の画像を含むKaggleMonkeypoxデータセットを用いて、テストセット上で96.71%の精度を示し、従来の手法やディープラーニングモデルよりも優れていた。 SENetモジュールのアテンション機構は特徴表現を著しく高め、L2正規化は堅牢な一般化を保証する。 広範囲にわたる実験は、モデルの精度、リコール、F1スコアにおける優越性を検証し、多種多様な複雑な症例におけるサルポックス病変の鑑別における効果を強調した。 この研究は、医学診断における先進的なCNNアーキテクチャの適用に関する洞察を提供するだけでなく、モデル最適化と高パラメータチューニングのさらなる研究の道を開く。 https://github.com/jzc777/SE-inceptionV3-L2

In the wake of the global spread of monkeypox, accurate disease recognition has become crucial. This study introduces an improved SE-InceptionV3 model, embedding the SENet module and incorporating L2 regularization into the InceptionV3 framework to enhance monkeypox disease detection. Utilizing the Kaggle monkeypox dataset, which includes images of monkeypox and similar skin conditions, our model demonstrates a noteworthy accuracy of 96.71% on the test set, outperforming conventional methods and deep learning models. The SENet modules channel attention mechanism significantly elevates feature representation, while L2 regularization ensures robust generalization. Extensive experiments validate the models superiority in precision, recall, and F1 score, highlighting its effectiveness in differentiating monkeypox lesions in diverse and complex cases. The study not only provides insights into the application of advanced CNN architectures in medical diagnostics but also opens avenues for further research in model optimization and hyperparameter tuning for enhanced disease recognition. https://github.com/jzc777/SE-inceptionV3-L2
翻訳日:2024-05-08 19:13:23 公開日:2024-05-07
# 少ないラベルを持つ未知の領域への一般化に向けて

Towards Generalizing to Unseen Domains with Few Labels ( http://arxiv.org/abs/2403.11674v3 )

ライセンス: Link先を確認
Chamuditha Jayanga Galappaththige, Sanoojan Baliah, Malitha Gunawardhana, Muhammad Haris Khan, (参考訳) 本稿では,半教師付き領域一般化(SSDG)の課題に対処する。 具体的には,ラベル付きデータの限られたサブセットと,ラベル付けされていないデータのプールを活用することで,ドメイン一般化可能な特徴を学習するモデルを得る。 既存のドメイン一般化(DG)手法は、SSDG設定下の半教師付き学習(SSL)法と比較して、ラベルなしデータを利用することができない。 それでもSSLメソッドは、完全に教師されたDGトレーニングと比較して、パフォーマンス改善の余地がかなりある。 SSDGの過度に探索された、かつ非常に実用的な問題に対処するため、以下のコアコントリビューションを行う。 まず,特徴空間の後方分布とモデル出力空間の擬似ラベルとを一致させる特徴ベース整合性手法を提案する。 第2に,特徴空間における意味構造を規則化し,意味論的に互換性のある表現を学習するための意味的アライメント損失を開発する。 本手法はプラグアンドプレイであり,追加パラメータを導入することなく,SSLベースのSSDGベースラインと容易に統合できる。 SSLベースラインが4つある5つのDGベンチマークの大規模な実験結果から,2つのSSDG設定において,本手法が一貫した,顕著な利益をもたらすことが示唆された。

We approach the challenge of addressing semi-supervised domain generalization (SSDG). Specifically, our aim is to obtain a model that learns domain-generalizable features by leveraging a limited subset of labelled data alongside a substantially larger pool of unlabeled data. Existing domain generalization (DG) methods which are unable to exploit unlabeled data perform poorly compared to semi-supervised learning (SSL) methods under SSDG setting. Nevertheless, SSL methods have considerable room for performance improvement when compared to fully-supervised DG training. To tackle this underexplored, yet highly practical problem of SSDG, we make the following core contributions. First, we propose a feature-based conformity technique that matches the posterior distributions from the feature space with the pseudo-label from the model's output space. Second, we develop a semantics alignment loss to learn semantically-compatible representations by regularizing the semantic structure in the feature space. Our method is plug-and-play and can be readily integrated with different SSL-based SSDG baselines without introducing any additional parameters. Extensive experimental results across five challenging DG benchmarks with four strong SSL baselines suggest that our method provides consistent and notable gains in two different SSDG settings.
翻訳日:2024-05-08 19:13:23 公開日:2024-05-07
# FollowIR: 情報検索モデルの評価と指導

FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions ( http://arxiv.org/abs/2403.15246v3 )

ライセンス: Link先を確認
Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, Luca Soldaini, (参考訳) モダン言語モデル(LM)は、広範囲で多様なユーザリクエストを可能にする、長く複雑な命令に従うことができる。 Information Retrieval (IR) モデルは、これらのLMをアーキテクチャのバックボーンとして使用するが、実際には、ユーザがクエリと並行して詳細なインストラクションを提供できないため、複雑な情報要求を満たす能力が制限される。 本研究では,赤外線システムにおける命令の使用について検討する。 まず、厳格なインストラクション評価ベンチマークと、IRモデルによる実世界のインストラクションの学習を支援するトレーニングセットを含む、私たちのデータセットFollowIRを紹介します。 FollowIRは、専門家が検索システムを評価するために開発された詳細な指示(物語とも呼ばれる)を再利用する。 特に,テキスト検索会議(TREC)において,共有タスク用にキュレートされた3つのコレクションからベンチマークを構築した。 これらのコレクションには、クエリ毎に数百から数千のラベル付きドキュメントが含まれています。 このプロセスを通じて、新しいペアワイズ評価フレームワークにより、IRモデルがどのように命令に従うかを測定することができる。 この結果から,既存の検索モデルでは命令を正しく使用できず,基本キーワードとして使用し,長文情報の理解に苦慮していることが示唆された。 我々の新しいFollowIR-7Bモデルは、トレーニングセットを微調整した後、大幅に改善されている。

Modern Language Models (LMs) are capable of following long and complex instructions that enable a large and diverse set of user requests. While Information Retrieval (IR) models use these LMs as the backbone of their architectures, virtually none of them allow users to provide detailed instructions alongside queries, thus limiting their ability to satisfy complex information needs. In this work, we study the use of instructions in IR systems. First, we introduce our dataset FollowIR, which contains a rigorous instruction evaluation benchmark as well as a training set for helping IR models learn to better follow real-world instructions. FollowIR repurposes detailed instructions -- also known as narratives -- developed for professional assessors to evaluate retrieval systems. In particular, we build our benchmark from three collections curated for shared tasks at the Text REtrieval Conference (TREC). These collections contains hundreds to thousands of labeled documents per query, making them suitable for our exploration. Through this process, we can measure how well IR models follow instructions, through a new pairwise evaluation framework. Our results indicate that existing retrieval models fail to correctly use instructions, using them for basic keywords and struggling to understand long-form information. However, we show that it is possible for IR models to learn to follow complex instructions: our new FollowIR-7B model has significant improvements after fine-tuning on our training set.
翻訳日:2024-05-08 19:13:23 公開日:2024-05-07
# AC4:ZKPの回路制約に対する代数計算チェッカ

AC4: Algebraic Computation Checker for Circuit Constraints in ZKPs ( http://arxiv.org/abs/2403.15676v3 )

ライセンス: Link先を確認
Hao Chen, Minyu Chen, Ruibang Liu, Guoqiang Li, Sinka Gao, (参考訳) ZKPシステムは注目され、現代の暗号において基本的な役割を担っている。 Zk-SNARKプロトコルはZKPの利用を支配し、しばしば演算回路プログラミングのパラダイムによって実装される。 しかし、過度に制約された回路や過度に制約された回路はバグを引き起こす可能性がある。 制約の少ない回路は、必要な制約を欠いた回路を指し、結果として回路の予期せぬ解が生まれ、検証者が悪質な証人を受け入れる。 過制約回路は過度に制約された回路を指し、結果として回路は必要な解決策が欠如し、検証者が証人を受け入れることなく回路を無意味にする。 本稿では,ZKP回路の2種類のバグをピンポイントする手法を提案する。 この方法では、算術回路の制約を多項式方程式系に符号化し、代数計算により有限体上の多項式方程式系を解く。 検証結果の分類が洗練され、システムの表現力が大幅に向上する。 我々は,この手法の実装を表現するためのツールAC4を提案した。 実験の結果、AC4は前回の作業に比べてチェック比が29%大きく向上していることがわかった。 可溶範囲内では、AC4のチェックタイムも顕著に改善され、以前の取り組みに比べて大幅に向上した。

ZKP systems have surged attention and held a fundamental role in contemporary cryptography. Zk-SNARK protocols dominate the ZKP usage, often implemented through arithmetic circuit programming paradigm. However, underconstrained or overconstrained circuits may lead to bugs. Underconstrained circuits refer to circuits that lack the necessary constraints, resulting in unexpected solutions in the circuit and causing the verifier to accept a bogus witness. Overconstrained circuits refer to circuits that are constrained excessively, resulting in the circuit lacking necessary solutions and causing the verifier to accept no witness, rendering the circuit meaningless. This paper introduces a novel approach for pinpointing two distinct types of bugs in ZKP circuits. The method involves encoding the arithmetic circuit constraints to polynomial equation systems and solving polynomial equation systems over a finite field by algebraic computation. The classification of verification results is refined, greatly enhancing the expressive power of the system. We proposed a tool, AC4, to represent the implementation of this method. Experiments demonstrate that AC4 represents a substantial 29% increase in the checked ratio compared to prior work. Within a solvable range, the checking time of AC4 has also exhibited noticeable improvement, demonstrating a magnitude increase compared to previous efforts.
翻訳日:2024-05-08 19:13:23 公開日:2024-05-07
# Synapse: 視覚的デモから優先概念を学ぶ

Synapse: Learning Preferential Concepts from Visual Demonstrations ( http://arxiv.org/abs/2403.16689v2 )

ライセンス: Link先を確認
Sadanand Modak, Noah Patton, Isil Dillig, Joydeep Biswas, (参考訳) 本稿では、視覚的入力からユーザ固有の嗜好(例えば「良い駐車場所」、「便利な降車場所」など)を学習することを目的とした嗜好学習の課題に対処する。 現実的な概念(例えば「赤い立方体」)の学習に類似しているにもかかわらず、嗜好学習は主観的な性質と個人固有の訓練データのあいまいさのため、根本的に難しい問題である。 この問題は、限定的なデモンストレーションから優先概念を効率的に学習するために設計された、ニューロシンボリックなアプローチであるSynapseと呼ばれる新しいフレームワークを用いて解決する。 Synapseは、画像上で操作するドメイン特化言語(DSL)において、好みをニューロシンボリックなプログラムとして表現し、視覚解析、大規模言語モデル、プログラム合成という新しい組み合わせを活用して、個々の好みを表すプログラムを学ぶ。 モバイルロボティクスと自律運転におけるモビリティ関連概念に着目したユーザケーススタディを含む,広範な実験によるSynapseの評価を行った。 評価の結果,Synapseは既存のベースラインと独自の改善点を著しく上回っていることがわかった。 コードやその他の詳細はプロジェクトのWebサイト https://amrl.cs.utexas.edu/synapse で見ることができる。

This paper addresses the problem of preference learning, which aims to learn user-specific preferences (e.g., "good parking spot", "convenient drop-off location") from visual input. Despite its similarity to learning factual concepts (e.g., "red cube"), preference learning is a fundamentally harder problem due to its subjective nature and the paucity of person-specific training data. We address this problem using a new framework called Synapse, which is a neuro-symbolic approach designed to efficiently learn preferential concepts from limited demonstrations. Synapse represents preferences as neuro-symbolic programs in a domain-specific language (DSL) that operates over images, and leverages a novel combination of visual parsing, large language models, and program synthesis to learn programs representing individual preferences. We evaluate Synapse through extensive experimentation including a user case study focusing on mobility-related concepts in mobile robotics and autonomous driving. Our evaluation demonstrates that Synapse significantly outperforms existing baselines as well as its own ablations. The code and other details can be found on the project website https://amrl.cs.utexas.edu/synapse .
翻訳日:2024-05-08 19:13:23 公開日:2024-05-07
# データ駆動バイアスを活用してGenAI著作権訴訟をインフォームする、すべての類似性が平等であるとは限らない

Not All Similarities Are Created Equal: Leveraging Data-Driven Biases to Inform GenAI Copyright Disputes ( http://arxiv.org/abs/2403.17691v2 )

ライセンス: Link先を確認
Uri Hacohen, Adi Haviv, Shahar Sarfaty, Bruria Friedman, Niva Elkin-Koren, Roi Livni, Amit H Bermano, (参考訳) GitHub Copilot、OpenAI GPT、Stable Diffusionを含むGenerative Artificial Intelligence(GenAI)モデルの出現は、コンテンツ生成に革命をもたらした。 この変革的技術は、合成コンテンツの急増を招き、著作権侵害に関する法的論争を引き起こした。 これらの課題に対処するために,GPT2および安定拡散モデルを用いて実証された,GenAIモデルの学習能力を活用した著作権法解析手法を提案する。 著作権法は、オリジナル表現とジェネリック表現(Sc\`enes \`a faire)を区別し、前者を保護し、後者の複製を許可する。 しかし、この区別は歴史的に一貫して行うことが困難であり、著作権作品の過剰な保護につながった。 GenAIは、既存の作品の共有パターンを明らかにすることによって、この法律分析を強化する前例のない機会を提供する。 我々は、表現的合成の汎用性を評価するために「データ駆動バイアス」を用いて、GenAIが作成した作品の汎用性を特定するためのデータ駆動アプローチを提案する。 このアプローチは、GenAIの能力を利用して、表現力のある要素を特定して優先順位付けし、モデルのデータセットの頻度に応じてそれらをランク付けすることで、著作権範囲の決定を支援する。 著作権法における表現的汎用性を測定することの潜在的意味は深い。 このようなスコアリングは、訴訟の間、裁判所が著作権の範囲を決定するのを補助し、著作権庁の登録の慣行を通知し、高度にオリジナルな合成作品のみの登録を可能にし、著作権所有者が作品の価値を通知し、より公正なライセンス契約を促進するのに役立つ。 より一般的には、この手法は、GenAI時代の課題に著作権法を適用する政策立案者に貴重な洞察を与える。

The advent of Generative Artificial Intelligence (GenAI) models, including GitHub Copilot, OpenAI GPT, and Stable Diffusion, has revolutionized content creation, enabling non-professionals to produce high-quality content across various domains. This transformative technology has led to a surge of synthetic content and sparked legal disputes over copyright infringement. To address these challenges, this paper introduces a novel approach that leverages the learning capacity of GenAI models for copyright legal analysis, demonstrated with GPT2 and Stable Diffusion models. Copyright law distinguishes between original expressions and generic ones (Sc\`enes \`a faire), protecting the former and permitting reproduction of the latter. However, this distinction has historically been challenging to make consistently, leading to over-protection of copyrighted works. GenAI offers an unprecedented opportunity to enhance this legal analysis by revealing shared patterns in preexisting works. We propose a data-driven approach to identify the genericity of works created by GenAI, employing "data-driven bias" to assess the genericity of expressive compositions. This approach aids in copyright scope determination by utilizing the capabilities of GenAI to identify and prioritize expressive elements and rank them according to their frequency in the model's dataset. The potential implications of measuring expressive genericity for copyright law are profound. Such scoring could assist courts in determining copyright scope during litigation, inform the registration practices of Copyright Offices, allowing registration of only highly original synthetic works, and help copyright owners signal the value of their works and facilitate fairer licensing deals. More generally, this approach offers valuable insights to policymakers grappling with adapting copyright law to the challenges posed by the era of GenAI.
翻訳日:2024-05-08 19:13:23 公開日:2024-05-07
# 低絡み状態の典型的熱化

Typical thermalization of low-entanglement states ( http://arxiv.org/abs/2403.18007v3 )

ライセンス: Link先を確認
Christian Bertoni, Clara Wassner, Giacomo Guarnieri, Jens Eisert, (参考訳) 閉量子系のユニタリ進化から熱化を証明することは、現在でも部分的に解決されている最も古い問題の一つである。 いくつかの試みにより、固有状態熱化仮説と呼ばれる仮説が様々な定式化され、初期状態の特定の条件下での熱化が導かれる。 しかし、これらの条件は仮説の正確な定式化に敏感である。 本研究は, 熱処理実験や量子シミュレーションなど, 様々な自然環境において操作可能な低絡み合い初期状態の重要事例に焦点を当てる。 運用上重要な正確な条件下でこれらの状態が熱化されることを実証する。 より具体的には、避けられない有限分解の議論に動機づけられて、初期状態の絡み合いが低いときに局所的な熱化につながる局所ハミルトニアン上のランダムエネルギー滑らか化を定義する。 最後に、そのような変換は、Gibs状態にも、スペクトル上の一般的な滑らかさ条件の下でも、短時間のダイナミクスにも影響しないことを示す。

Proving thermalization from the unitary evolution of a closed quantum system is one of the oldest questions that is still nowadays only partially resolved. Several efforts have led to various formulations of what is called the eigenstate thermalization hypothesis, which leads to thermalization under certain conditions on the initial states. These conditions, however, are sensitive to the precise formulation of the hypothesis. In this work, we focus on the important case of low entanglement initial states, which are operationally accessible in many natural physical settings, including experimental schemes for testing thermalization and for quantum simulation. We prove thermalization of these states under precise conditions that have operational significance. More specifically, motivated by arguments of unavoidable finite resolution, we define a random energy smoothing on local Hamiltonians that leads to local thermalization when the initial state has low entanglement. Finally we show that such a transformation affects neither the Gibbs state locally nor, under generic smoothness conditions on the spectrum, the short-time dynamics.
翻訳日:2024-05-08 19:13:23 公開日:2024-05-07
# Intelligent Recommenderシステムを第1ステップのレジリエンス尺度として活用する -- データ駆動サプライチェーン破壊応答フレームワーク

Leveraging Intelligent Recommender system as a first step resilience measure -- A data-driven supply chain disruption response framework ( http://arxiv.org/abs/2404.00306v2 )

ライセンス: Link先を確認
Yang Hu, (参考訳) サプライチェーンのレジリエンス(SCRes)を高めるためのデジタル技術の可能性に対する関心は、業界4.0と世界的なパンデミックに光を当てている。 Recommender System(RS)をサプライチェーン(SC)レジリエンス指標として活用することは無視されるが、RSは反応性面からSCレジリエンスを高めるための有効なツールである。 そこで本研究では,インテリジェントレコメンデータシステム技術に基づくデータ駆動型サプライチェーンディスラプション応答フレームワークを提案し,実例による概念モデルの有効性を検証した。 以上の結果から,本フレームワークは,第1の応答フレーズにおいて有効なSC破壊緩和尺度として実装可能であり,SC破壊後の反応性能の向上に有効であることが示唆された。

Interests in the value of digital technologies for its potential uses to increase supply chain resilience (SCRes) are increasing in light to the industry 4.0 and the global pandemic. Utilization of Recommender systems (RS) as a supply chain (SC) resilience measure is neglected although RS is a capable tool to enhance SC resilience from a reactive aspect. To address this problem, this research proposed a novel data-driven supply chain disruption response framework based on the intelligent recommender system techniques and validated the conceptual model through a practical use case. Results show that our framework can be implemented as an effective SC disruption mitigation measure in the very first response phrase and help SC participants get better reaction performance after the SC disruption.
翻訳日:2024-05-08 19:13:23 公開日:2024-05-07
# Label-Agnostic Forgetting: 深層モデルにおける教師なしのアンラーニング

Label-Agnostic Forgetting: A Supervision-Free Unlearning in Deep Models ( http://arxiv.org/abs/2404.00506v2 )

ライセンス: Link先を確認
Shaofei Shen, Chenhao Zhang, Yawen Zhao, Alina Bialkowski, Weitong Tony Chen, Miao Xu, (参考訳) 機械学習の目的は、よく訓練されたモデルで残りのデータセットのデータを保存しながら、忘れられたデータから派生した情報を削除することである。 データプライバシに重点が置かれているため、機械学習に対するいくつかのアプローチが生まれている。 しかし、これらの手法は一般に、学習プロセス全体を通して完全な監督に依存している。 残念ながら、忘れたデータであれ、残るデータであれ、そのような監視を取得することは、実際のデータセットの注釈付けに伴うかなりのコストのために、現実的ではない。 この課題は、アンラーニングプロセス中にラベルを必要とせずに機能する、教師なしのアンラーニングアプローチを提案することを促す。 具体的には、残りのデータに対する表現の分布を近似する変動的アプローチを提案する。 この近似を利用して、元のモデルを適応させ、表現レベルで忘れられたデータから情報を排除します。 地上の真実との整合を阻害する監視情報の欠如にさらに対処するため,残りのデータと元のモデルとの表現の整合を容易にし,予測性能を維持するために,コントラスト的損失を導入する。 各種未学習課題を対象とした実験の結果,ラベルを使わずにLAF(Label-Agnostic Forgetting)の有効性が示された。 さらに,本手法は半教師付きシナリオに優れ,限られた監督情報を活用し,完全に教師付きベースラインを上回ります。 この研究は、深層モデルにおける教師なしのアンラーニングの生存可能性を示すだけでなく、表現レベルでのアンラーニング研究の新たな可能性を開く。

Machine unlearning aims to remove information derived from forgotten data while preserving that of the remaining dataset in a well-trained model. With the increasing emphasis on data privacy, several approaches to machine unlearning have emerged. However, these methods typically rely on complete supervision throughout the unlearning process. Unfortunately, obtaining such supervision, whether for the forgetting or remaining data, can be impractical due to the substantial cost associated with annotating real-world datasets. This challenge prompts us to propose a supervision-free unlearning approach that operates without the need for labels during the unlearning process. Specifically, we introduce a variational approach to approximate the distribution of representations for the remaining data. Leveraging this approximation, we adapt the original model to eliminate information from the forgotten data at the representation level. To further address the issue of lacking supervision information, which hinders alignment with ground truth, we introduce a contrastive loss to facilitate the matching of representations between the remaining data and those of the original model, thus preserving predictive performance. Experimental results across various unlearning tasks demonstrate the effectiveness of our proposed method, Label-Agnostic Forgetting (LAF) without using any labels, which achieves comparable performance to state-of-the-art methods that rely on full supervision information. Furthermore, our approach excels in semi-supervised scenarios, leveraging limited supervision information to outperform fully supervised baselines. This work not only showcases the viability of supervision-free unlearning in deep models but also opens up a new possibility for future research in unlearning at the representation level.
翻訳日:2024-05-08 19:03:36 公開日:2024-05-07
# 皮膚色素分解法の比較

Comparison of Methods in Skin Pigment Decomposition ( http://arxiv.org/abs/2404.00552v3 )

ライセンス: Link先を確認
Hao Gong, Michel Desvignes, (参考訳) 皮膚色素の分解は医療分野において重要な役割を担っている。 ヒトの皮膚はヘモグロビンとメラニンの2つの原始成分に分解することができる。 皮膚癌の診断にこれらの結果を適用することが目的である。 本稿では, 皮膚色素の分解法を比較検討し, 理論的および実験的に各方法の性能評価を行った。 また, 皮膚色素分解の文脈における寸法低減性能を向上させるため, 等尺的特徴マッピング(アイソマップ)を導入している。

Decomposition of skin pigment plays an important role in medical fields. Human skin can be decomposed into two primitive components, hemoglobin and melanin. It is our goal to apply these results for diagnosis of skin cancer. In this paper, various methods for skin pigment decomposition are reviewed comparatively and the performance of each method is evaluated both theoretically and experimentally. In addition, isometric feature mapping (Isomap) is introduced in order to improve the dimensionality reduction performance in context of skin pigment decomposition.
翻訳日:2024-05-08 19:03:36 公開日:2024-05-07
# Vectorized Kernel Mixture (VecKM) を用いた線形時間空間局所点雲幾何エンコーダ

A Linear Time and Space Local Point Cloud Geometry Encoder via Vectorized Kernel Mixture (VecKM) ( http://arxiv.org/abs/2404.01568v3 )

ライセンス: Link先を確認
Dehao Yuan, Cornelia Fermüller, Tahseen Rabbani, Furong Huang, Yiannis Aloimonos, (参考訳) 本稿では,ローカルポイントクラウド幾何エンコーダであるVecKMを提案する。 VecKMは、局所点雲を表すためにカーネル混合物をベクトル化することで、ユニークなアプローチを採用している。 そのような表現の記述性は、局所的な形状の類似性を再構築し保存する能力を検証する2つの定理によって支持される。 局所点クラウドをダウンサンプリングする既存のエンコーダとは異なり、VecKMはすべての近傍点を用いて局所幾何学的エンコーディングを構築し、より記述的なエンコーダを生成する。 VecKMはメモリコストを$(n^2+nKd)$から$(nd+np)$に削減し、主要なランタイムコストを$nK$ MLPsから$n$ MLPsに削減します。 この効率性は、VecKM の特異な分解可能な性質により、点を隣人に明示的にグループ化する必要がなくなるためである。 通常の推定タスクでは、VecKMは推測速度を100倍速くするだけでなく、高い精度と強靭性を示す。 分類とセグメンテーションタスクでは、前処理モジュールとしてVecKMを統合することで、PointNet、PointNet++、ポイントトランスフォーマーベースラインよりも一貫してパフォーマンスが向上し、最大10倍高速に動作する。

We propose VecKM, a local point cloud geometry encoder that is descriptive and efficient to compute. VecKM leverages a unique approach by vectorizing a kernel mixture to represent the local point cloud. Such representation's descriptiveness is supported by two theorems that validate its ability to reconstruct and preserve the similarity of the local shape. Unlike existing encoders downsampling the local point cloud, VecKM constructs the local geometry encoding using all neighboring points, producing a more descriptive encoding. Moreover, VecKM is efficient to compute and scalable to large point cloud inputs: VecKM reduces the memory cost from $(n^2+nKd)$ to $(nd+np)$; and reduces the major runtime cost from computing $nK$ MLPs to $n$ MLPs, where $n$ is the size of the point cloud, $K$ is the neighborhood size, $d$ is the encoding dimension, and $p$ is a marginal factor. The efficiency is due to VecKM's unique factorizable property that eliminates the need of explicitly grouping points into neighbors. In the normal estimation task, VecKM demonstrates not only 100x faster inference speed but also highest accuracy and strongest robustness. In classification and segmentation tasks, integrating VecKM as a preprocessing module achieves consistently better performance than the PointNet, PointNet++, and point transformer baselines, and runs consistently faster by up to 10 times.
翻訳日:2024-05-08 19:03:36 公開日:2024-05-07
# ホモモルフィック暗号化における高速プライベート推論のための非線形演算子の高精度低次元多項式近似

Accurate Low-Degree Polynomial Approximation of Non-polynomial Operators for Fast Private Inference in Homomorphic Encryption ( http://arxiv.org/abs/2404.03216v3 )

ライセンス: Link先を確認
Jianming Tong, Jingtian Dang, Anupam Golder, Callie Hao, Arijit Raychowdhury, Tushar Krishna, (参考訳) マシンラーニング(ML)が医療、顔認識、ブロックチェーンといった分野に浸透するにつれ、機密データを保護する必要性が強まる。 FHE(Fully Homomorphic Encryption)は、暗号化されたデータの推論を可能にし、データのプライバシとMLモデルの両方のプライバシを保存する。 しかし、非ポリノミアル作用素(ReLUとMaxPooling)を高次多項式近似関数(PAF)に置き換える根本原因として、最大5等級の非安全推論を遅くする。 我々は,非多項式演算子を低次PSFに置き換えてPAF近似モデルの精度を回復するフレームワークであるSmartPAFを提案する。(1)係数チューニング(CT) -- 学習前の入力分布に基づいてPAF係数を調整する(2)進行近似(PA) -- 同時に1つの非多項式演算子を段階的に置き換える(3)代替学習(AT) -- 分離された方法でPAFと他の線形演算子間のトレーニングを交換する(4)動的スケール(DS)/静的スケール(SS) -- 動的スケール(DS) - 動的スケール(DS) - 動的スケール(SS) - である。 FHE 1.1のトレーニングでは、スケールをFHEデプロイメントのランニングマックス値として修正する。 CT、PA、AT、DS/SSの相乗効果により、SmartPAFは、複数のデータセットの下で様々な低度のPAFによって近似された様々なモデルの精度を高めることができる。 ImageNet-1kのResNet-18では、SmartPAFが遅延精度トレードオフ空間で発見したPareto-frontierは、1.42倍~13.64倍の精度向上と6.79倍~14.9倍のスピードアップを実現している。 さらに、SmartPAFは14° PAF(f1^2 g_1^2)を、同じ69.4%の置き換え精度でミニマックス近似によって得られる27° PAFと比較して7.81倍のスピードアップを達成することができる。 私たちのコードはhttps://github.com/EfficientFHE/SmartPAF.comで利用可能です。

As machine learning (ML) permeates fields like healthcare, facial recognition, and blockchain, the need to protect sensitive data intensifies. Fully Homomorphic Encryption (FHE) allows inference on encrypted data, preserving the privacy of both data and the ML model. However, it slows down non-secure inference by up to five magnitudes, with a root cause of replacing non-polynomial operators (ReLU and MaxPooling) with high-degree Polynomial Approximated Function (PAF). We propose SmartPAF, a framework to replace non-polynomial operators with low-degree PAF and then recover the accuracy of PAF-approximated model through four techniques: (1) Coefficient Tuning (CT) -- adjust PAF coefficients based on the input distributions before training, (2) Progressive Approximation (PA) -- progressively replace one non-polynomial operator at a time followed by a fine-tuning, (3) Alternate Training (AT) -- alternate the training between PAFs and other linear operators in the decoupled manner, and (4) Dynamic Scale (DS) / Static Scale (SS) -- dynamically scale PAF input value within (-1, 1) in training, and fix the scale as the running max value in FHE deployment. The synergistic effect of CT, PA, AT, and DS/SS enables SmartPAF to enhance the accuracy of the various models approximated by PAFs with various low degrees under multiple datasets. For ResNet-18 under ImageNet-1k, the Pareto-frontier spotted by SmartPAF in latency-accuracy tradeoff space achieves 1.42x ~ 13.64x accuracy improvement and 6.79x ~ 14.9x speedup than prior works. Further, SmartPAF enables a 14-degree PAF (f1^2 g_1^2) to achieve 7.81x speedup compared to the 27-degree PAF obtained by minimax approximation with the same 69.4% post-replacement accuracy. Our code is available at https://github.com/EfficientFHE/SmartPAF.
翻訳日:2024-05-08 19:03:36 公開日:2024-05-07
# 人間の見地における有効性の探求--学際的視点から

On the Quest for Effectiveness in Human Oversight: Interdisciplinary Perspectives ( http://arxiv.org/abs/2404.04059v2 )

ライセンス: Link先を確認
Sarah Sterz, Kevin Baum, Sebastian Biewer, Holger Hermanns, Anne Lauber-Rönsberg, Philip Meinel, Markus Langer, (参考訳) 人間の監視は、現在、リスクの高いAIアプリケーションの負の側面に対処するための潜在的な保護として議論されている。 このことは、これらのシステムの効果的または有意義な人的監督と称されるものに必要な役割と条件を批判的に検討するきっかけとなる。 本稿では,心理学的,法学的,哲学的,技術的領域から洞察を合成し,効果的な人間の監視について検討する。 人的監視の主目的がリスク軽減であるという主張に基づいて、人間的監視における有効性についての現実的な理解を提案する:人的監視が効果的であるためには、人的監視者が持つ必要がある。 a)システムとその効果に関する十分な因果力 b) 状況の関連面への適切なてんかんアクセス (c)自己制御,及び (d)彼らの役割にふさわしい意図。 さらに、このことは、道徳的に責任を持ち、意図に相応しい場合に限って、監督的な人物が効果的であると言うことと等価である、と論じる。 このような背景から,実用化に向けて努力する際,ヒトの監視に有効なファシリテーターや阻害剤を提案する。 本稿では,3つの領域,すなわちシステムの技術的設計,監視対象の個別要因,運用する環境条件について論じる。 最後に,欧州連合の今後のAI法(特に人的監督に関する第14条)を,効果的な人的監督の理解の実践性を研究するための模範的な規制枠組みとして精査する。 欧州AI法(European AI Act)の提案の条項と含意を分析することで、提案が効果的な人間の監視に関する我々の分析と、それが人間の監視における有効性の概念的理解によってどのように豊かになるかについて、どこまで一致しているかを見極めることができる。

Human oversight is currently discussed as a potential safeguard to counter some of the negative aspects of high-risk AI applications. This prompts a critical examination of the role and conditions necessary for what is prominently termed effective or meaningful human oversight of these systems. This paper investigates effective human oversight by synthesizing insights from psychological, legal, philosophical, and technical domains. Based on the claim that the main objective of human oversight is risk mitigation, we propose a viable understanding of effectiveness in human oversight: for human oversight to be effective, the oversight person has to have (a) sufficient causal power with regard to the system and its effects, (b) suitable epistemic access to relevant aspects of the situation, (c) self-control, and (d) fitting intentions for their role. Furthermore, we argue that this is equivalent to saying that an oversight person is effective if and only if they are morally responsible and have fitting intentions. Against this backdrop, we suggest facilitators and inhibitors of effectiveness in human oversight when striving for practical applicability. We discuss factors in three domains, namely, the technical design of the system, individual factors of oversight persons, and the environmental circumstances in which they operate. Finally, this paper scrutinizes the upcoming AI Act of the European Union -- in particular Article 14 on Human Oversight -- as an exemplary regulatory framework in which we study the practicality of our understanding of effective human oversight. By analyzing the provisions and implications of the European AI Act proposal, we pinpoint how far that proposal aligns with our analyses regarding effective human oversight as well as how it might get enriched by our conceptual understanding of effectiveness in human oversight.
翻訳日:2024-05-08 19:03:36 公開日:2024-05-07
# 言語モデルジェイルブレイクを評価する方法の再考

Rethinking How to Evaluate Language Model Jailbreak ( http://arxiv.org/abs/2404.06407v3 )

ライセンス: Link先を確認
Hongyu Cai, Arjun Arunasalam, Leo Y. Lin, Antonio Bianchi, Z. Berkay Celik, (参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションとますます統合されている。 LLMが安全でない応答を生成しないことを保証するため、制限されたコンテンツを指定するセーフガードと整合している。 しかし、このようなアライメントは、一般的にジェイルブレイクと呼ばれる技法を用いて禁止コンテンツを作成するためにバイパスすることができる。 ジェイルブレイクを自動実行する様々なシステムが提案されている。 これらのシステムは、ジェイルブレイクの試みが成功したかどうかを判断するために評価手法に依存している。 しかし,本分析の結果,現在の脱獄評価法には2つの限界があることが判明した。 1) 目的は明確さを欠き, 安全でない応答を識別する目標と一致しない。 2) 2つの結果としてジェイルブレイク結果を過度に単純化する。 本稿では,言語モデルジェイルブレイクを評価するために,保護侵害,情報性,相対真理性の3つの指標を提案する。 さらに、これらの指標が、異なる悪意あるアクターの目標とどのように相関しているかを示す。 これらのメトリクスを計算するために,応答前処理後の自然言語生成評価手法を拡張する多面的手法を提案する。 3つの悪意のある意図的データセットと3つのジェイルブレイクシステムから生成されたベンチマークデータセットで、我々の測定値を評価する。 ベンチマークデータセットには3つのアノテーションがラベル付けされている。 多面的アプローチと既存の3つのジェイルブレイク評価手法を比較した。 実験の結果,F1スコアは既存のベースラインに比べて平均17%向上した。 以上の結果から,脱獄問題のバイナリビューから脱却し,言語モデルの安全性を確保するために,より包括的な評価を組み込むことの必要性が示唆された。

Large language models (LLMs) have become increasingly integrated with various applications. To ensure that LLMs do not generate unsafe responses, they are aligned with safeguards that specify what content is restricted. However, such alignment can be bypassed to produce prohibited content using a technique commonly referred to as jailbreak. Different systems have been proposed to perform the jailbreak automatically. These systems rely on evaluation methods to determine whether a jailbreak attempt is successful. However, our analysis reveals that current jailbreak evaluation methods have two limitations. (1) Their objectives lack clarity and do not align with the goal of identifying unsafe responses. (2) They oversimplify the jailbreak result as a binary outcome, successful or not. In this paper, we propose three metrics, safeguard violation, informativeness, and relative truthfulness, to evaluate language model jailbreak. Additionally, we demonstrate how these metrics correlate with the goal of different malicious actors. To compute these metrics, we introduce a multifaceted approach that extends the natural language generation evaluation method after preprocessing the response. We evaluate our metrics on a benchmark dataset produced from three malicious intent datasets and three jailbreak systems. The benchmark dataset is labeled by three annotators. We compare our multifaceted approach with three existing jailbreak evaluation methods. Experiments demonstrate that our multifaceted evaluation outperforms existing methods, with F1 scores improving on average by 17% compared to existing baselines. Our findings motivate the need to move away from the binary view of the jailbreak problem and incorporate a more comprehensive evaluation to ensure the safety of the language model.
翻訳日:2024-05-08 19:03:36 公開日:2024-05-07
# 単純錯体上のランダムウォーク

Random walks on simplicial complexes ( http://arxiv.org/abs/2404.08803v2 )

ライセンス: Link先を確認
Thomas Bonis, Laurent Decreusefond, Viet Chi Tran, Zhihan Iris Zhang, (参考訳) グラフのラプラシアンの概念は単純複素数やハイパーグラフに一般化することができ、これらの構造の位相に関する情報を含んでいる。 グラフに対しても、関連する単体錯体の考察は、その形状を理解するのが興味深い。 グラフのラプラシアン (Laplacian) は、グラフ上の連続時間マルコフ連鎖の生成元として単純な確率論的解釈を持つが、単純複素数を考えると、物事はそれほど直接ではない。 ここでは、単体錯体上の新しいマルコフ連鎖を定義する。 与えられた順序~$k$に対して、状態空間は、ヌル境界を持つ$k$-プレプレックスの連鎖である$k$-サイクルの集合である。 この新たなフレームワークはグラフ上の正準マルコフ連鎖の自然な一般化である。 マルコフ連鎖の生成元は、離散構造に対する代数トポロジーの文脈で定義される上ラプラシアンであることが示される。 特に、頂点の数が有限であるとき、マルコフ連鎖は正の繰り返しである。 この結果は自明ではない、なぜならサイクルは自身を無界の回数でループすることができるからである。 本研究は, 単体錯体が平坦なトーラスの再精製三角形の列である場合の拡散限界について検討する。 特異ホモロジーとホッジホモロジーの類似性を用いて、この極限を電流の集合で値付けられたものとして表現する。 タイトネスの証明と制限マルティンゲール問題の同定は、フラットノルムを利用し、ジェネレータの収束における誤差項を慎重に制御する。 マーチンゲール問題に対する解の特異性は未解決のままである。 ホール検出への応用を行う。

The notion of Laplacian of a graph can be generalized to simplicial complexes and hypergraphs, and contains information on the topology of these structures. Even for a graph, the consideration of associated simplicial complexes is interesting to understand its shape. Whereas the Laplacian of a graph has a simple probabilistic interpretation as the generator of a continuous time Markov chain on the graph, things are not so direct when considering simplicial complexes. We define here new Markov chains on simplicial complexes. For a given order~$k$, the state space is the set of $k$-cycles that are chains of $k$-simplexes with null boundary. This new framework is a natural generalization of the canonical Markov chains on graphs. We show that the generator of our Markov chain is the upper Laplacian defined in the context of algebraic topology for discrete structure. We establish several key properties of this new process: in particular, when the number of vertices is finite, the Markov chain is positive recurrent. This result is not trivial, since the cycles can loop over themselves an unbounded number of times. We study the diffusive limits when the simplicial complexes under scrutiny are a sequence of ever refining triangulations of the flat torus. Using the analogy between singular and Hodge homologies, we express this limit as valued in the set of currents. The proof of tightness and the identification of the limiting martingale problem make use of the flat norm and carefully controls of the error terms in the convergence of the generator. Uniqueness of the solution to the martingale problem is left open. An application to hole detection is carried.
翻訳日:2024-05-08 19:03:36 公開日:2024-05-07
# TransformerFAM: フィードバックの注意は動作メモリである

TransformerFAM: Feedback attention is working memory ( http://arxiv.org/abs/2404.09173v3 )

ライセンス: Link先を確認
Dongseong Hwang, Weiran Wang, Zhuoyuan Huo, Khe Chai Sim, Pedro Moreno Mengibar, (参考訳) トランスフォーマーはディープラーニングに革命をもたらしたが、その二次的な注意の複雑さは、無限に長い入力を処理する能力を妨げている。 本稿では,フィードバックループを利用する新しいトランスフォーマーアーキテクチャであるFAMを提案する。 この設計により、Transformer内のワーキングメモリの出現が促進され、無限に長いシーケンスを処理できるようになる。 TransformerFAMは追加の重みを必要とせず、事前訓練されたモデルとのシームレスな統合を可能にする。 実験の結果,TransformerFAMは,多種多様なモデルサイズ(1B,8B,24B)にわたる長文タスクにおいて,Transformerのパフォーマンスを著しく向上することがわかった。 これらの結果から,Large Language Models (LLM) を無限長のシーケンスに拡張する可能性が示された。

While Transformers have revolutionized deep learning, their quadratic attention complexity hinders their ability to process infinitely long inputs. We propose Feedback Attention Memory (FAM), a novel Transformer architecture that leverages a feedback loop to enable the network to attend to its own latent representations. This design fosters the emergence of working memory within the Transformer, allowing it to process indefinitely long sequences. TransformerFAM requires no additional weights, enabling seamless integration with pre-trained models. Our experiments show that TransformerFAM significantly improves Transformer performance on long-context tasks across various model sizes (1B, 8B, and 24B). These results showcase the potential to empower Large Language Models (LLMs) to process sequences of unlimited length.
翻訳日:2024-05-08 19:03:36 公開日:2024-05-07
# クラッタ問題におけるELBO勾配の解析近似

Analytical Approximation of the ELBO Gradient in the Context of the Clutter Problem ( http://arxiv.org/abs/2404.10550v2 )

ライセンス: Link先を確認
Roumen Nikolaev Popov, (参考訳) 統計モデルがベイズネットワークであるような変分推論問題におけるエビデンス下界(ELBO)の勾配を近似する解析解を提案する。 この手法は、勾配演算子を期待値内に移動させるために再パラメータ化手法を採用し、確率が観測データよりも分解されるため、確率係数のガウス分布よりも一般的にはコンパクトに支持されるという仮定に依存する。 これにより、個々の確率因子の効率的な局所近似が可能となり、勾配予想を定義する積分に対する解析解が導かれる。 ELBOを最大化するためのEM(Expectation Maximization)アルゴリズムにおいて,提案した勾配近似を期待ステップとして統合し,ラプラス近似,期待伝搬,平均場変分推論などのベイズ推論における古典的決定論的アプローチに対して検証する。 提案手法は線形計算複雑性とともに精度と収束率を示す。

We propose an analytical solution for approximating the gradient of the Evidence Lower Bound (ELBO) in variational inference problems where the statistical model is a Bayesian network consisting of observations drawn from a mixture of a Gaussian distribution embedded in unrelated clutter, known as the clutter problem. The method employs the reparameterization trick to move the gradient operator inside the expectation and relies on the assumption that, because the likelihood factorizes over the observed data, the variational distribution is generally more compactly supported than the Gaussian distribution in the likelihood factors. This allows efficient local approximation of the individual likelihood factors, which leads to an analytical solution for the integral defining the gradient expectation. We integrate the proposed gradient approximation as the expectation step in an EM (Expectation Maximization) algorithm for maximizing ELBO and test against classical deterministic approaches in Bayesian inference, such as the Laplace approximation, Expectation Propagation and Mean-Field Variational Inference. The proposed method demonstrates good accuracy and rate of convergence together with linear computational complexity.
翻訳日:2024-05-08 19:03:36 公開日:2024-05-07
# オンラインテスト時間適応のためのドメイン特化ブロック選択とペアビュー擬似ラベル

Domain-Specific Block Selection and Paired-View Pseudo-Labeling for Online Test-Time Adaptation ( http://arxiv.org/abs/2404.10966v3 )

ライセンス: Link先を確認
Yeonguk Yu, Sungho Shin, Seunghyeok Back, Minhwan Ko, Sangjun Noh, Kyoobin Lee, (参考訳) テスト時適応(TTA)は、事前トレーニングされたモデルを、デプロイ後にソースデータにアクセスすることなく、新しいテストドメインに適応することを目的としている。 既存のアプローチは、テストデータからグラウンドトルースを得ることができないため、通常擬似ラベルによる自己学習に依存している。 疑似ラベルの品質は、安定かつ正確な長期適応には重要であるが、それ以前には言及されていない。 本研究では,(1)ドメイン固有のブロック選択と(2)ペアビュー画像を用いた擬似ラベル生成という2つのコンポーネントからなる,シンプルで効果的なTTAフレームワークであるDPLOTを提案する。 具体的には、ドメイン固有の特徴抽出を含むブロックを選択し、エントロピー最小化によってこれらのブロックを訓練する。 現在のテスト領域に対してブロックを調整した後、与えられたテスト画像とそれに対応するフリップした画像を平均化して擬似ラベルを生成する。 単にフリップ拡張を用いることで、強い拡張によって生じるドメインギャップによって引き起こされる擬似ラベルの品質低下を防止する。 実験の結果、DPLOTはCIFAR10-C、CIFAR100-C、ImageNet-Cベンチマークにおいて従来のTTA手法よりも優れており、エラーを最大5.4%、9.1%、そして2.9%削減できることがわかった。 また,フレームワークの有効性を実証するための広範な分析を行う。 コードはhttps://github.com/gist-ailab/ domain-specific-block-selection-and-paired-view-pseudo-labeling-for-online-TTAで公開されている。

Test-time adaptation (TTA) aims to adapt a pre-trained model to a new test domain without access to source data after deployment. Existing approaches typically rely on self-training with pseudo-labels since ground-truth cannot be obtained from test data. Although the quality of pseudo labels is important for stable and accurate long-term adaptation, it has not been previously addressed. In this work, we propose DPLOT, a simple yet effective TTA framework that consists of two components: (1) domain-specific block selection and (2) pseudo-label generation using paired-view images. Specifically, we select blocks that involve domain-specific feature extraction and train these blocks by entropy minimization. After blocks are adjusted for current test domain, we generate pseudo-labels by averaging given test images and corresponding flipped counterparts. By simply using flip augmentation, we prevent a decrease in the quality of the pseudo-labels, which can be caused by the domain gap resulting from strong augmentation. Our experimental results demonstrate that DPLOT outperforms previous TTA methods in CIFAR10-C, CIFAR100-C, and ImageNet-C benchmarks, reducing error by up to 5.4%, 9.1%, and 2.9%, respectively. Also, we provide an extensive analysis to demonstrate effectiveness of our framework. Code is available at https://github.com/gist-ailab/domain-specific-block-selection-and-paired-view-pseudo-labeling-for-on line-TTA.
翻訳日:2024-05-08 18:53:50 公開日:2024-05-07
# AccidentBlip2:Multi-View MotionBlip2による事故検出

AccidentBlip2: Accident Detection With Multi-View MotionBlip2 ( http://arxiv.org/abs/2404.12149v4 )

ライセンス: Link先を確認
Yihua Shao, Hongyi Cai, Xinwei Long, Weiyi Lang, Zhe Wang, Haoran Wu, Yan Wang, Jiayi Yin, Yang Yang, Yisheng Lv, Zhen Lei, (参考訳) インテリジェントな車両は多くの輸送シナリオにおいて優れた能力を示した。 カメラを用いたニューラルネットワークの推論能力は、複雑な輸送システムにおける事故検出の精度を制限する。 本稿では,AccidentBlip2を提案する。 提案手法はまず,VT-14gを介してマルチビュー画像を処理し,マルチビュー特徴をQ-Formerのクロスアテンション層に送信する。 Blip2のQ-Formerとは異なり、Motion Q-Formerは時間的アテンション層で自己アテンション層を拡張する。 推論プロセスでは、前のフレームから生成されたクエリをMotion Q-Formerに入力し、時間情報を集約する。 クエリは自動回帰戦略で更新され、MLPに送られ、周囲の環境に事故があるかどうかを検出する。 私たちのAccidentBlip2は、各車両にMotion Q-Formerを配置し、自動回帰推論のために生成されたクエリをMLPに融合することにより、複数車両の協調システムに拡張することができる。 本手法は, 単車/多車両システムにおける検出精度において, 既存のビデオ大言語モデルより優れる。

Intelligent vehicles have demonstrated excellent capabilities in many transportation scenarios. The inference capabilities of neural networks using cameras limit the accuracy of accident detection in complex transportation systems. This paper presents AccidentBlip2, a pure vision-based multi-modal large model Blip2 for accident detection. Our method first processes the multi-view images through ViT-14g and sends the multi-view features into the cross-attention layer of Q-Former. Different from Blip2's Q-Former, our Motion Q-Former extends the self-attention layer with the temporal-attention layer. In the inference process, the queries generated from previous frames are input into Motion Q-Former to aggregate temporal information. Queries are updated with an auto-regressive strategy and are sent to a MLP to detect whether there is an accident in the surrounding environment. Our AccidentBlip2 can be extended to a multi-vehicle cooperative system by deploying Motion Q-Former on each vehicle and simultaneously fusing the generated queries into the MLP for auto-regressive inference. Our approach outperforms existing video large language models in detection accuracy in both single-vehicle and multi-vehicle systems.
翻訳日:2024-05-08 18:53:50 公開日:2024-05-07
# 相対表現を用いた強化学習におけるゼロショットスティッチ

Zero-Shot Stitching in Reinforcement Learning using Relative Representations ( http://arxiv.org/abs/2404.12917v2 )

ライセンス: Link先を確認
Antonio Pio Ricciardi, Valentino Maiorca, Luca Moschella, Riccardo Marin, Emanuele Rodolà, (参考訳) ビジュアル強化学習(Visual Reinforcement Learning)は、ディープラーニングのブレークスルーを最大限に活用する、人気があり強力なフレームワークである。 しかし、入力(例えば、季節によってパノラマの色が異なる)やタスク(例えば、車に対する速度制限の変更)のバリエーションは、エージェントの完全な再訓練を必要とすることも知られている。 本研究では,エージェントのコンポーネントをスクラッチから再訓練するのではなく組み合わせることが可能であることを示すために,潜在表現を統一する最近の発展を活用している。 我々は最近、相対表現フレームワークを構築し、それをVisual RLに適用する。 これにより、トレーニング中に見たことのない環境とタスクの組み合わせを処理できる、まったく新しいエージェントを作成することができます。 私たちの仕事は、よりアクセスしやすくフレキシブルな強化学習への道を開く。

Visual Reinforcement Learning is a popular and powerful framework that takes full advantage of the Deep Learning breakthrough. However, it is also known that variations in the input (e.g., different colors of the panorama due to the season of the year) or the task (e.g., changing the speed limit for a car to respect) could require complete retraining of the agents. In this work, we leverage recent developments in unifying latent representations to demonstrate that it is possible to combine the components of an agent, rather than retrain it from scratch. We build upon the recent relative representations framework and adapt it for Visual RL. This allows us to create completely new agents capable of handling environment-task combinations never seen during training. Our work paves the road toward a more accessible and flexible use of reinforcement learning.
翻訳日:2024-05-08 18:53:50 公開日:2024-05-07
# PoseINN: Invertible Neural Networksを用いたリアルタイム視覚ベースのPose回帰とローカライゼーション

PoseINN: Realtime Visual-based Pose Regression and Localization with Invertible Neural Networks ( http://arxiv.org/abs/2404.13288v3 )

ライセンス: Link先を確認
Zirui Zang, Ahmad Amine, Rahul Mangharam, (参考訳) カメラからエゴ位置を推定することは、モバイルロボティクスから拡張現実に至るまで、ロボット工学における重要な問題である。 SOTAモデルはますます正確化が進んでいるが、計算コストが高いため、いまだに扱いにくい。 本稿では,インバータブルニューラルネットワーク(INN)を用いて画像の潜在空間とシーンのポーズのマッピングを求める。 我々のモデルは、訓練が速く、低解像度合成データのオフラインレンダリングしか必要とせず、SOTAと同じような性能を実現している。 正規化フローを用いることで,提案手法は出力に対する不確実性を推定する。 また,移動ロボットにモデルを配置することで,本手法の有効性を実証した。

Estimating ego-pose from cameras is an important problem in robotics with applications ranging from mobile robotics to augmented reality. While SOTA models are becoming increasingly accurate, they can still be unwieldy due to high computational costs. In this paper, we propose to solve the problem by using invertible neural networks (INN) to find the mapping between the latent space of images and poses for a given scene. Our model achieves similar performance to the SOTA while being faster to train and only requiring offline rendering of low-resolution synthetic data. By using normalizing flows, the proposed method also provides uncertainty estimation for the output. We also demonstrated the efficiency of this method by deploying the model on a mobile robot.
翻訳日:2024-05-08 18:53:50 公開日:2024-05-07
# トポロジーを用いた深部回帰表現学習

Deep Regression Representation Learning with Topology ( http://arxiv.org/abs/2404.13904v3 )

ライセンス: Link先を確認
Shihao Zhang, kenji kawaguchi, Angela Yao, (参考訳) 表現学習を研究するほとんどの研究は、分類と無視の回帰にのみ焦点をあてている。 しかし、学習目的と2つのタスクの表現トポロジは基本的に異なる:分類はクラス分離を目標とし、非連結表現につながる。 そこで我々は,回帰表現の有効性が,そのトポロジによってどのように影響されるのかを,インフォメーション・ボトルネック(IB)の原理に基づいて検討する。 IB原則は、有効性表現を学習するための原則を提供する重要なフレームワークである。 我々はそれと回帰表現のトポロジーの間に2つの関係を確立する。 第1の接続は、特徴空間の低い内在次元が表現 Z の複雑さの減少を意味することを明らかにし、この複雑さは、対象空間 Y 上の Z の条件エントロピーとして定量化することができ、一般化誤差の上界として機能する。 第二の接続は、対象空間と位相的に類似した特徴空間を学ぶことが、IB原理とよりよく一致することを示唆している。 これら2つの接続に基づいて,特徴空間の内在次元と対象空間の位相に一致する回帰に特有な正則化器PH-Regを導入する。 合成および実世界の回帰タスクの実験はPH-Regの利点を示している。

Most works studying representation learning focus only on classification and neglect regression. Yet, the learning objectives and therefore the representation topologies of the two tasks are fundamentally different: classification targets class separation, leading to disconnected representations, whereas regression requires ordinality with respect to the target, leading to continuous representations. We thus wonder how the effectiveness of a regression representation is influenced by its topology, with evaluation based on the Information Bottleneck (IB) principle. The IB principle is an important framework that provides principles for learning effectiveness representations. We establish two connections between it and the topology of regression representations. The first connection reveals that a lower intrinsic dimension of the feature space implies a reduced complexity of the representation Z. This complexity can be quantified as the conditional entropy of Z on the target space Y and serves as an upper bound on the generalization error. The second connection suggests learning a feature space that is topologically similar to the target space will better align with the IB principle. Based on these two connections, we introduce PH-Reg, a regularizer specific to regression that matches the intrinsic dimension and topology of the feature space with the target space. Experiments on synthetic and real-world regression tasks demonstrate the benefits of PH-Reg.
翻訳日:2024-05-08 18:53:50 公開日:2024-05-07
# U-net と Modified Convolutional Block Attention Module を用いた胸部X線肺分画の新しいアプローチ

A Novel Approach to Chest X-ray Lung Segmentation Using U-net and Modified Convolutional Block Attention Module ( http://arxiv.org/abs/2404.14322v2 )

ライセンス: Link先を確認
Mohammad Ali Labbaf Khaniki, Mohammad Manthouri, (参考訳) 胸部X線像における肺分画は,様々な肺疾患の診断と治療において重要な役割を担っている。 本稿では,胸部X線像におけるU-netと注意機構を統合した肺分画の新しいアプローチを提案する。 提案手法は, チャネルアテンション, 空間アテンション, ピクセルアテンションの3つの異なるアテンション機構を統一したCBAM (Convolutional Block Attention Module) を組み込むことにより, U-net アーキテクチャを強化する。 チャネルアテンション機構により、モデルは様々なチャネルにまたがる最も情報性の高い特徴に集中することができる。 空間的注意機構は、重要な空間的位置に着目して、モデルの局所化における精度を高める。 最後に、画素アテンション機構により、モデルを個々のピクセルに集中させ、モデルのフォーカスをさらに洗練し、セグメンテーションの精度を向上させる。 CBAMとU-netアーキテクチャの併用は医療画像の分野で大きな進歩を遂げ、診断精度の向上や患者の予後向上に寄与する可能性が示唆された。 本手法の有効性は現代の最先端技術に対して検証され,セグメンテーション性能の優位性を示す。

Lung segmentation in chest X-ray images is of paramount importance as it plays a crucial role in the diagnosis and treatment of various lung diseases. This paper presents a novel approach for lung segmentation in chest X-ray images by integrating U-net with attention mechanisms. The proposed method enhances the U-net architecture by incorporating a Convolutional Block Attention Module (CBAM), which unifies three distinct attention mechanisms: channel attention, spatial attention, and pixel attention. The channel attention mechanism enables the model to concentrate on the most informative features across various channels. The spatial attention mechanism enhances the model's precision in localization by focusing on significant spatial locations. Lastly, the pixel attention mechanism empowers the model to focus on individual pixels, further refining the model's focus and thereby improving the accuracy of segmentation. The adoption of the proposed CBAM in conjunction with the U-net architecture marks a significant advancement in the field of medical imaging, with potential implications for improving diagnostic precision and patient outcomes. The efficacy of this method is validated against contemporary state-of-the-art techniques, showcasing its superiority in segmentation performance.
翻訳日:2024-05-08 18:53:50 公開日:2024-05-07
# 海洋生物音響学における越流学習のための熱帯礁・鳥・無関係音の活用

Leveraging tropical reef, bird and unrelated sounds for superior transfer learning in marine bioacoustics ( http://arxiv.org/abs/2404.16436v2 )

ライセンス: Link先を確認
Ben Williams, Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, Eleni Triantafillou, Abram B. Fleishman, Matthew McKown, Jill E. Munger, Aaron N. Rice, Ashlee Lillis, Clemency E. White, Catherine A. D. Hobbs, Tries B. Razak, Kate E. Jones, Tom Denton, (参考訳) 機械学習は、環境評価のためのパッシブ音響モニタリング(PAM)に革命をもたらす可能性がある。 しかし、高いアノテーションと計算コストは、フィールドの有効性を制限する。 一般化可能な事前訓練ネットワークはこれらのコストを克服することができるが、高品質な事前訓練には膨大な注釈付きライブラリが必要である。 ここではサンゴ礁生物音響学を用いてデータ不足領域に対する最適事前学習戦略を同定する。 ReefSetは大きなアノテートされたサンゴ礁音のライブラリである。 数発の転送学習性能をテストすることにより,鳥の音声による事前学習は,ReefSetや無関係の音声による事前学習に比べ,顕著に優れた一般化性が得られることがわかった。 しかし,本研究の鍵となる知見は,鳥類,サンゴ礁,無関係なオーディオを利用したクロスドメイン混合が,サンゴ礁の汎用性を最大化することである。 事前訓練されたネットワークであるSurfPerchは、最小限のアノテーションと計算コストで海洋PAMデータを自動解析するための強力な基盤を提供する。

Machine learning has the potential to revolutionize passive acoustic monitoring (PAM) for ecological assessments. However, high annotation and compute costs limit the field's efficacy. Generalizable pretrained networks can overcome these costs, but high-quality pretraining requires vast annotated libraries, limiting its current applicability primarily to bird taxa. Here, we identify the optimum pretraining strategy for a data-deficient domain using coral reef bioacoustics. We assemble ReefSet, a large annotated library of reef sounds, though modest compared to bird libraries at 2% of the sample count. Through testing few-shot transfer learning performance, we observe that pretraining on bird audio provides notably superior generalizability compared to pretraining on ReefSet or unrelated audio alone. However, our key findings show that cross-domain mixing which leverages bird, reef and unrelated audio during pretraining maximizes reef generalizability. SurfPerch, our pretrained network, provides a strong foundation for automated analysis of marine PAM data with minimal annotation and compute costs.
翻訳日:2024-05-08 18:53:50 公開日:2024-05-07
# MonoPCC: 内視鏡画像の単眼深度推定のための光量不変サイクル制約

MonoPCC: Photometric-invariant Cycle Constraint for Monocular Depth Estimation of Endoscopic Images ( http://arxiv.org/abs/2404.16571v2 )

ライセンス: Link先を確認
Zhiwei Wang, Ying Zhou, Shiquan He, Ting Li, Fan Huang, Qiang Ding, Xinxia Feng, Mei Liu, Qiang Li, (参考訳) 光度制約は自己教師付き単眼深度推定には不可欠である。 ソースイメージを推定された深さ/目的を使ってターゲットビューにワープし、ワープされた画像とターゲットイメージの差を最小限にする。 しかし、内視鏡内蔵光は大きな明るさ変動を引き起こすため、光度制約は信頼できない。 以前の取り組みは、画像の明るさを調整するための余分なモデルに頼ることで、これを緩和するだけであった。 本稿では,光度制約を周期形式に変換することにより,輝度の不整合を根本的に解消するMonoPCCを提案する。 ソースイメージをワープする代わりに、MonoPCCは、ターゲットからソースへ、そしてターゲットへという2つの反対の前方方向のワープパスからなるクローズドループを構築する。 これにより、ターゲット画像は最終的に自身からワープされた画像サイクルを受け取り、自然に輝度に制約が不変となる。 さらに、MonoPCCは、ソース画像の位相周波数を中間歪画像に移植し、構造損失を回避するとともに、指数的移動平均(EMA)戦略を用いてトレーニングを安定化し、前方歪の頻繁な変化を避ける。 4つの内視鏡的データセットの総合的および広範囲な実験結果から、提案したMonoPCCは、輝度不整合に大きな堅牢性を示し、それぞれ7.27%、9.38%、9.90%、および3.17%の絶対相対誤差を減少させることにより、他の最先端技術を上回ることを示した。

Photometric constraint is indispensable for self-supervised monocular depth estimation. It involves warping a source image onto a target view using estimated depth&pose, and then minimizing the difference between the warped and target images. However, the endoscopic built-in light causes significant brightness fluctuations, and thus makes the photometric constraint unreliable. Previous efforts only mitigate this relying on extra models to calibrate image brightness. In this paper, we propose MonoPCC to address the brightness inconsistency radically by reshaping the photometric constraint into a cycle form. Instead of only warping the source image, MonoPCC constructs a closed loop consisting of two opposite forward-backward warping paths: from target to source and then back to target. Thus, the target image finally receives an image cycle-warped from itself, which naturally makes the constraint invariant to brightness changes. Moreover, MonoPCC transplants the source image's phase-frequency into the intermediate warped image to avoid structure lost, and also stabilizes the training via an exponential moving average (EMA) strategy to avoid frequent changes in the forward warping. The comprehensive and extensive experimental results on four endoscopic datasets demonstrate that our proposed MonoPCC shows a great robustness to the brightness inconsistency, and exceeds other state-of-the-arts by reducing the absolute relative error by at least 7.27%, 9.38%, 9.90% and 3.17%, respectively.
翻訳日:2024-05-08 18:53:50 公開日:2024-05-07
# NTIRE 2024 AI生成コンテンツチャレンジの品質評価(NTIRE 2024)

NTIRE 2024 Quality Assessment of AI-Generated Content Challenge ( http://arxiv.org/abs/2404.16687v2 )

ライセンス: Link先を確認
Xiaohong Liu, Xiongkuo Min, Guangtao Zhai, Chunyi Li, Tengchuan Kou, Wei Sun, Haoning Wu, Yixuan Gao, Yuqin Cao, Zicheng Zhang, Xiele Wu, Radu Timofte, Fei Peng, Huiyuan Fu, Anlong Ming, Chuanming Wang, Huadong Ma, Shuai He, Zifei Dou, Shu Chen, Huacong Zhang, Haiyi Xie, Chengwei Wang, Baoying Chen, Jishen Zeng, Jianquan Yang, Weigang Wang, Xi Fang, Xiaoxin Lv, Jun Yan, Tianwu Zhi, Yabin Zhang, Yaohui Li, Yang Li, Jingwen Xu, Jianzhao Liu, Yiting Liao, Junlin Li, Zihao Yu, Yiting Lu, Xin Li, Hossein Motamednia, S. Farhad Hosseini-Benvidi, Fengbin Guan, Ahmad Mahmoudi-Aznaveh, Azadeh Mansouri, Ganzorig Gankhuyag, Kihwan Yoon, Yifang Xu, Haotian Fan, Fangyuan Kong, Shiling Zhao, Weifeng Dong, Haibing Yin, Li Zhu, Zhiling Wang, Bingchen Huang, Avinab Saha, Sandeep Mishra, Shashank Gupta, Rajesh Sureddi, Oindrila Saha, Luigi Celona, Simone Bianco, Paolo Napoletano, Raimondo Schettini, Junfeng Yang, Jing Fu, Wei Zhang, Wenzhi Cao, Limei Liu, Han Peng, Weijun Yuan, Zhan Li, Yihang Cheng, Yifan Deng, Haohui Li, Bowen Qu, Yao Li, Shuqing Luo, Shunzhou Wang, Wei Gao, Zihao Lu, Marcos V. Conde, Xinrui Wang, Zhibo Chen, Ruling Liao, Yan Ye, Qiulin Wang, Bing Li, Zhaokun Zhou, Miao Geng, Rui Chen, Xin Tao, Xiaoyu Liang, Shangkun Sun, Xingyuan Ma, Jiaze Li, Mengduo Yang, Haoran Xu, Jie Zhou, Shiding Zhu, Bohan Yu, Pengfei Chen, Xinrui Xu, Jiabin Shen, Zhichao Duan, Erfan Asadi, Jiahe Liu, Qi Yan, Youran Qu, Xiaohui Zeng, Lele Wang, Renjie Liao, (参考訳) 本稿では, CVPR 2024におけるNTIRE 2024の品質評価について報告する。 この課題は、AIGC(AIGC)のための画像品質評価(IQA)とビデオ品質評価(VQA)という、画像およびビデオ処理の分野での大きな課題に取り組むことである。 課題は、イメージトラックとビデオトラックに分けられる。 画像トラックはAIIQA-20Kを使用しており、15の一般的な生成モデルによって生成される2万のAI生成画像(AIGI)を含んでいる。 イメージトラックには合計318人の登録参加者がいる。 開発段階では合計1,646件の提出を受け、テスト段階では221件の提出を受ける。 最後に16チームがモデルとファクトシートを提出した。 T2VQA-DBは、9つの人気テキスト・トゥ・ビデオ(T2V)モデルによって生成される1万のAI生成ビデオ(AIGV)を含む。 計196人の参加者がビデオトラックに登録されている。 開発段階では合計991件の提出を受け、試験段階では185件の提出を受ける。 最後に、12の参加チームがモデルとファクトシートを提出した。 いくつかの手法はベースライン法よりも優れた結果を得たが、両トラックの勝利法はAIGCの予測性能に優れていた。

This paper reports on the NTIRE 2024 Quality Assessment of AI-Generated Content Challenge, which will be held in conjunction with the New Trends in Image Restoration and Enhancement Workshop (NTIRE) at CVPR 2024. This challenge is to address a major challenge in the field of image and video processing, namely, Image Quality Assessment (IQA) and Video Quality Assessment (VQA) for AI-Generated Content (AIGC). The challenge is divided into the image track and the video track. The image track uses the AIGIQA-20K, which contains 20,000 AI-Generated Images (AIGIs) generated by 15 popular generative models. The image track has a total of 318 registered participants. A total of 1,646 submissions are received in the development phase, and 221 submissions are received in the test phase. Finally, 16 participating teams submitted their models and fact sheets. The video track uses the T2VQA-DB, which contains 10,000 AI-Generated Videos (AIGVs) generated by 9 popular Text-to-Video (T2V) models. A total of 196 participants have registered in the video track. A total of 991 submissions are received in the development phase, and 185 submissions are received in the test phase. Finally, 12 participating teams submitted their models and fact sheets. Some methods have achieved better results than baseline methods, and the winning methods in both tracks have demonstrated superior prediction performance on AIGC.
翻訳日:2024-05-08 18:53:50 公開日:2024-05-07
# 遮音システムにおける安定な対称性-検出された位相位相

Stable Symmetry-Protected Topological Phases in Systems with Heralded Noise ( http://arxiv.org/abs/2404.16962v2 )

ライセンス: Link先を確認
Sanket Chirame, Fiona J. Burnell, Sarang Gopalakrishnan, Abhinav Prem, (参考訳) 定常状態が安定な混合状態対称性保護位相(SPT)秩序を示す局所量子チャネルの族を示す。 近年、(\emph{herald})デコヒーレンス過程を識別できる「環境変換」技術の実験的な進歩により、バイアス付き消去ノイズを持つオープンシステムを考える。 本研究では,この手法を用いて局所的訂正プロトコルを構築し,誤差を定常状態の短距離対に効果的に閉じ込める。 本稿では,数値シミュレーションと平均場解析を組み合わせることで,SPTの順序を十分に低いデコヒーレンス率で安定化することを示す。 遮蔽ノイズの速度が増加するにつれて、SPTの順序は最終的に有向パーコレーション遷移によって失われる。 さらに,長さと時間スケールの制限でSPT順序が破壊される一方で,その補正プロトコルは局所的なSPT順序が持続することを保証するのに十分であり,相関長は$\xi \sim (1-f_e)^{-1/2}$と発散する。

We present a family of local quantum channels whose steady-states exhibit stable mixed-state symmetry-protected topological (SPT) order. Motivated by recent experimental progress on "erasure conversion" techniques that allow one to identify (\emph{herald}) decoherence processes, we consider open systems with biased erasure noise, which leads to strongly symmetric heralded errors. We utilize this heralding to construct a local correction protocol that effectively confines errors into short-ranged pairs in the steady-state. Using a combination of numerical simulations and mean-field analysis, we show that our protocol stabilizes SPT order against a sufficiently low rate of decoherence. As the rate of heralded noise increases, SPT order is eventually lost through a directed percolation transition. We further find that while introducing unheralded errors destroys SPT order in the limit of long length- and time-scales, the correction protocol is sufficient for ensuring that local SPT order persists, with a correlation length that diverges as $\xi \sim (1-f_e)^{-1/2}$, where $f_e$ is the fraction of errors that are heralded.
翻訳日:2024-05-08 18:53:50 公開日:2024-05-07
# 大規模リコメンダシステムにおけるマルチタスク融合のためのオフポリティ強化学習アルゴリズム

An Off-Policy Reinforcement Learning Algorithm Customized for Multi-Task Fusion in Large-Scale Recommender Systems ( http://arxiv.org/abs/2404.17589v2 )

ライセンス: Link先を確認
Peng Liu, Cong Xu, Ming Zhao, Jiawei Zhu, Bin Wang, Yi Ren, (参考訳) マルチタスク・フュージョン(MTF)は、マルチタスク・ラーニング(MTL)が出力する複数のスコアを最終スコアに組み合わせ、ユーザの満足度を最大化し、最終的なレコメンデーション結果を決定する。 近年,レコメンデーションセッションにおける長期ユーザ満足度を最適化するために,業界におけるMDFには強化学習(Reinforcement Learning, RL)が用いられている。 しかし、これまでのMTFで使われている非政治RLアルゴリズムには、以下の深刻な問題がある。 1) アウト・オブ・ディストリビューション(OOD)問題を避けるため,その制約は過度に厳格であり,その性能を著しく損なう。 2 訓練データの作成に使用する探索政策を意識せず、実環境と相互作用しないため、準最適政策のみを学ぶことができる。 3) 従来の調査方針は非効率であり、ユーザエクスペリエンスを損ないます。 以上の問題を解決するために,大規模RSにおいてMTF用にカスタマイズされたIntegratedRL-MTFを提案する。 IntegratedRL-MTFは、オンライン探索ポリシーと非政治的RLモデルを統合し、過度な制約と複雑な制約を緩和し、その性能を大幅に改善します。 我々はまた、低値探索空間を排除し、潜在的高値状態-作用ペアの探索に焦点を当てた、極めて効率的な探索ポリシーを設計する。 さらに, 探索政策の助けを借りて, モデルの性能を高めるために, プログレッシブ・トレーニング・モードを採用する。 Tencent Newsの短いビデオチャンネルで、大規模なオフラインおよびオンラインの実験を行っています。 その結果,本モデルが他のモデルよりも優れていたことが示唆された。 統合RL-MTFは当社のRSや他のTencentの大規模RSに完全にデプロイされており、大幅な改善が達成されています。

As the last critical stage of RSs, Multi-Task Fusion (MTF) is responsible for combining multiple scores outputted by Multi-Task Learning (MTL) into a final score to maximize user satisfaction, which determines the ultimate recommendation results. Recently, to optimize long-term user satisfaction within a recommendation session, Reinforcement Learning (RL) is used for MTF in the industry. However, the off-policy RL algorithms used for MTF so far have the following severe problems: 1) to avoid out-of-distribution (OOD) problem, their constraints are overly strict, which seriously damage their performance; 2) they are unaware of the exploration policy used for producing training data and never interact with real environment, so only suboptimal policy can be learned; 3) the traditional exploration policies are inefficient and hurt user experience. To solve the above problems, we propose a novel method named IntegratedRL-MTF customized for MTF in large-scale RSs. IntegratedRL-MTF integrates off-policy RL model with our online exploration policy to relax overstrict and complicated constraints, which significantly improves its performance. We also design an extremely efficient exploration policy, which eliminates low-value exploration space and focuses on exploring potential high-value state-action pairs. Moreover, we adopt progressive training mode to further enhance our model's performance with the help of our exploration policy. We conduct extensive offline and online experiments in the short video channel of Tencent News. The results demonstrate that our model outperforms other models remarkably. IntegratedRL-MTF has been fully deployed in our RS and other large-scale RSs in Tencent, which have achieved significant improvements.
翻訳日:2024-05-08 18:53:50 公開日:2024-05-07
# 英国バイオバンクにおける祖先特異的疾患予測のための事前学習と相互作用モデル

Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank ( http://arxiv.org/abs/2404.17626v2 )

ライセンス: Link先を確認
Thomas Le Menestrel, Erin Craig, Robert Tibshirani, Trevor Hastie, Manuel Rivas, (参考訳) 近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示し、遺伝的研究における重要なギャップを浮き彫りにしている。 そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。 英国バイオバンクにおける多様な祖先に着目した疾患予測におけるG群LASSO Interaction-NET(glinternet)とプレトレーニングラッソ(pretrained lasso)の性能評価を行った。 モデルは、ホワイト・ブリティッシュや他の祖先のデータに基づいて訓練され、8つの病気に対して96,000人以上の個人からなるコホートで検証された。 トレーニングした96モデルのうち, 糖尿病, 関節炎, 胆石, 嚢胞炎, 喘息, 変形性関節症において, ROC-AUC スコア (p-value < 0.05) で統計学的に有意な漸増性予測性能を示した16例を報告した。 ベースラインを上回った相互作用モデルと事前訓練されたモデルでは、PSSスコアが予測の背後にある主要なドライバとなった。 以上の結果から, 相互作用項と事前学習の両方が予測精度を向上するが, 限られた疾患のセットと適度な精度向上に寄与することが示唆された。

Recent genome-wide association studies (GWAS) have uncovered the genetic basis of complex traits, but show an under-representation of non-European descent individuals, underscoring a critical gap in genetic research. Here, we assess whether we can improve disease prediction across diverse ancestries using multiomic data. We evaluate the performance of Group-LASSO INTERaction-NET (glinternet) and pretrained lasso in disease prediction focusing on diverse ancestries in the UK Biobank. Models were trained on data from White British and other ancestries and validated across a cohort of over 96,000 individuals for 8 diseases. Out of 96 models trained, we report 16 with statistically significant incremental predictive performance in terms of ROC-AUC scores (p-value < 0.05), found for diabetes, arthritis, gall stones, cystitis, asthma and osteoarthritis. For the interaction and pretrained models that outperformed the baseline, the PRS score was the primary driver behind prediction. Our findings indicate that both interaction terms and pre-training can enhance prediction accuracy but for a limited set of diseases and moderate improvements in accuracy
翻訳日:2024-05-08 18:53:50 公開日:2024-05-07
# PatentGPT:知的財産のための大規模言語モデル

PatentGPT: A Large Language Model for Intellectual Property ( http://arxiv.org/abs/2404.18255v4 )

ライセンス: Link先を確認
Zilong Bai, Ruiji Zhang, Linqing Chen, Qijun Cai, Yuan Zhong, Cong Wang, Yan Fang, Jie Fang, Jing Sun, Weikuan Wang, Lizhi Zhou, Haoran Hua, Tian Qiu, Chaochao Wang, Cheng Sun, Jianping Lu, Yixin Wang, Yubin Xia, Meng Hu, Haowen Liu, Peng Xu, Licong Xu, Fu Bian, Xiaolong Gu, Lisha Zhang, Weilei Wang, Changyang Tu, (参考訳) 近年,大規模言語モデル (LLM) は,様々な自然言語処理タスクにまたがる例外的な性能から注目され,様々な分野に広く応用されている。 しかし、知的財産権(IP)分野における大規模言語モデルの応用は、専門知識、プライバシー保護、この分野における極端に長いテキストの処理の必要性が強いため、困難である。 本技術報告では,IP ドメインのユニークな要件を満たす,IP 指向 LLM をトレーニングするための,低コストで標準化された手順を初めて提示する。 この標準プロセスを用いて,オープンソース事前学習モデルに基づく特許GPTシリーズモデルを訓練した。 オープンソースIP指向ベンチマークMOZIPで評価することにより,提案したトレーニング手順の有効性とIPドメインにおける特許GPTモデルの専門性を示す,ドメイン固有のLCMがGPT-4を上回った。 注目すべきは、2019年の中国特許代理人資格試験において、当社のモデルはGPT-4を上回り、65のスコアと人間の専門家レベルが一致したことです。 さらに、SMoE アーキテクチャを利用する PatentGPT モデルは、IP ドメインの GPT-4 に匹敵する性能を達成し、IP ドメイン内の GPT-4 の代替として機能し、長文タスクのコストパフォーマンスを向上する。

In recent years, large language models(LLMs) have attracted significant attention due to their exceptional performance across a multitude of natural language process tasks, and have been widely applied in various fields. However, the application of large language models in the Intellectual Property (IP) domain is challenging due to the strong need for specialized knowledge, privacy protection, processing of extremely long text in this field. In this technical report, we present for the first time a low-cost, standardized procedure for training IP-oriented LLMs, meeting the unique requirements of the IP domain. Using this standard process, we have trained the PatentGPT series models based on open-source pretrained models. By evaluating them on the open-source IP-oriented benchmark MOZIP, our domain-specific LLMs outperforms GPT-4, indicating the effectiveness of the proposed training procedure and the expertise of the PatentGPT models in the IP domain. Remarkably, our model surpassed GPT-4 on the 2019 China Patent Agent Qualification Examination, scoring 65 and matching human expert levels. Additionally, the PatentGPT model, which utilizes the SMoE architecture, achieves performance comparable to that of GPT-4 in the IP domain and demonstrates a better cost-performance ratio on long-text tasks, potentially serving as an alternative to GPT-4 within the IP domain.
翻訳日:2024-05-08 18:53:50 公開日:2024-05-07
# M3oE: マルチドメインマルチタスク混合専門家推薦フレームワーク

M3oE: Multi-Domain Multi-Task Mixture-of Experts Recommendation Framework ( http://arxiv.org/abs/2404.18465v2 )

ライセンス: Link先を確認
Zijian Zhang, Shuchang Liu, Jiaao Yu, Qingpeng Cai, Xiangyu Zhao, Chunxu Zhang, Ziru Liu, Qidong Liu, Hongwei Zhao, Lantao Hu, Peng Jiang, Kun Gai, (参考訳) マルチドメインレコメンデーションとマルチタスクレコメンデーションは、異なるドメインと目的の共通情報を総合的なユーザモデリングに活用する効果を実証している。 それでも、実際的な推奨は通常、複数のドメインとタスクを同時に直面する。 この目的のために,適応型マルチドメインマルチタスク・ミックス・オブ・エキスパート・レコメンデーションフレームワークであるM3oEを紹介する。 M3oEはマルチドメイン情報を統合し、ドメインとタスク間で知識をマッピングし、複数の目的を最適化する。 共通、ドメイン・アスペクト、タスク・アスペクトの3つのミックス・オブ・エキスパート・モジュールを利用して、複数のドメインとタスク間の複雑な依存関係を、互いに絡み合った方法で処理する。 さらに,多様な領域やタスクをまたいだ特徴抽出と融合を正確に制御するための2段階融合機構を設計する。 動的構造最適化を可能にするAutoML技術を適用することにより、フレームワークの適応性はさらに向上する。 著者たちの知る限りでは、M3oEはマルチドメインのマルチタスクレコメンデーションを自己適応的に解決する最初の試みです。 多様なベースラインに対する2つのベンチマークデータセットの大規模な実験は、M3oEの優れたパフォーマンスを示している。 実装コードは再現性を保証するために利用可能である。

Multi-domain recommendation and multi-task recommendation have demonstrated their effectiveness in leveraging common information from different domains and objectives for comprehensive user modeling. Nonetheless, the practical recommendation usually faces multiple domains and tasks simultaneously, which cannot be well-addressed by current methods. To this end, we introduce M3oE, an adaptive multi-domain multi-task mixture-of-experts recommendation framework. M3oE integrates multi-domain information, maps knowledge across domains and tasks, and optimizes multiple objectives. We leverage three mixture-of-experts modules to learn common, domain-aspect, and task-aspect user preferences respectively to address the complex dependencies among multiple domains and tasks in a disentangled manner. Additionally, we design a two-level fusion mechanism for precise control over feature extraction and fusion across diverse domains and tasks. The framework's adaptability is further enhanced by applying AutoML technique, which allows dynamic structure optimization. To the best of the authors' knowledge, our M3oE is the first effort to solve multi-domain multi-task recommendation self-adaptively. Extensive experiments on two benchmark datasets against diverse baselines demonstrate M3oE's superior performance. The implementation code is available to ensure reproducibility.
翻訳日:2024-05-08 18:53:50 公開日:2024-05-07
# 骨格法に基づくトポロジカル精度のための境界セグメンテーションの強化

Enhancing Boundary Segmentation for Topological Accuracy with Skeleton-based Methods ( http://arxiv.org/abs/2404.18539v2 )

ライセンス: Link先を確認
Chuni Liu, Boyuan Ma, Xiaojuan Ban, Yujie Xie, Hao Wang, Weihua Xue, Jingchao Ma, Ke Xu, (参考訳) トポロジカル一貫性は、ニューロンの電子顕微鏡像における細胞膜セグメンテーション、物質顕微鏡像における粒界セグメンテーション、空中画像における道路セグメンテーションといった、網膜画像の境界セグメンテーションのタスクにおいて重要な役割を果たす。 これらの分野では、セグメンテーション結果のトポロジカルな変化が下流のタスクに深刻な影響を与え、境界自体のミスアライメントを超えることさえある。 セグメンテーション結果の位相精度を高めるために,各物体の形状と画素の位相的意義を考慮に入れた新たな損失関数であるSkea-Topo Aware Losを提案する。 2つの構成要素から構成される。 第一に、スケルトンを意識した重み付き損失は、物体形状をスケルトンでより良くモデル化することにより、セグメント化の精度を向上させる。 第二に、境界補正項は、地上の真実と予測において、前景と背景の骨格の両方を用いて予測誤差の位相的臨界画素を効果的に識別し、強調する。 実験により,3つの境界セグメンテーションデータセットの客観的および主観的評価に基づいて,Ve における位相的一貫性を最大 7 ポイント向上することを示す。 コードはhttps://github.com/clovermini/Skea_topo.comで公開されている。

Topological consistency plays a crucial role in the task of boundary segmentation for reticular images, such as cell membrane segmentation in neuron electron microscopic images, grain boundary segmentation in material microscopic images and road segmentation in aerial images. In these fields, topological changes in segmentation results have a serious impact on the downstream tasks, which can even exceed the misalignment of the boundary itself. To enhance the topology accuracy in segmentation results, we propose the Skea-Topo Aware loss, which is a novel loss function that takes into account the shape of each object and topological significance of the pixels. It consists of two components. First, a skeleton-aware weighted loss improves the segmentation accuracy by better modeling the object geometry with skeletons. Second, a boundary rectified term effectively identifies and emphasizes topological critical pixels in the prediction errors using both foreground and background skeletons in the ground truth and predictions. Experiments prove that our method improves topological consistency by up to 7 points in VI compared to 13 state-of-art methods, based on objective and subjective assessments across three different boundary segmentation datasets. The code is available at https://github.com/clovermini/Skea_topo.
翻訳日:2024-05-08 18:43:55 公開日:2024-05-07
# 力学系における未観測状態の統治方程式の学習

Learning Governing Equations of Unobserved States in Dynamical Systems ( http://arxiv.org/abs/2404.18572v2 )

ライセンス: Link先を確認
Gevik Grigorian, Sandip V. George, Simon Arridge, (参考訳) データ駆動モデリングと科学機械学習は、データを記述するのに適したモデルを決定する上で大きな進歩を担っている。 力学系の中では、システム方程式がニューラルネットワークによって制御されるように設定されているニューラル常微分方程式(ODE)が近年、この課題の一般的なツールとなっている。 しかし、部分的にしか守られていないシステムにはあまり重点を置いていない。 本研究では,システム方程式をニューラルネットワークとドメイン固有知識の組み合わせと記号回帰(SR)の組み合わせで制御し,部分的に観測された力学系の制御方程式を学習するハイブリッドニューラルネットワークODE構造を用いる。 このアプローチは、ロトカ・ボルテラ系の3次元モデルとローレンツ系の5次元モデルという2つのケーススタディで検証する。 本手法は, 観測ノイズに頑健さを伴って, 観測対象外状態の真の支配方程式を学習できることを実証する。

Data-driven modelling and scientific machine learning have been responsible for significant advances in determining suitable models to describe data. Within dynamical systems, neural ordinary differential equations (ODEs), where the system equations are set to be governed by a neural network, have become a popular tool for this challenge in recent years. However, less emphasis has been placed on systems that are only partially-observed. In this work, we employ a hybrid neural ODE structure, where the system equations are governed by a combination of a neural network and domain-specific knowledge, together with symbolic regression (SR), to learn governing equations of partially-observed dynamical systems. We test this approach on two case studies: A 3-dimensional model of the Lotka-Volterra system and a 5-dimensional model of the Lorenz system. We demonstrate that the method is capable of successfully learning the true underlying governing equations of unobserved states within these systems, with robustness to measurement noise.
翻訳日:2024-05-08 18:43:54 公開日:2024-05-07
# ガウスの量子誤差補正と絡み合ったガウス状態蒸留における非ゴー限界を超える方法

How to surpass no-go limits in Gaussian quantum error correction and entangled Gaussian state distillation? ( http://arxiv.org/abs/2404.18586v2 )

ライセンス: Link先を確認
En-Jui Chang, Ching-Yi Lai, (参考訳) 連続可変(CV)量子情報キャリアを用いたガウス量子情報処理は、量子通信や量子インターネットへの応用において大きな可能性を秘めている。 しかし、ガウス状態蒸留と量子誤り補正(QEC)の適用は、局所ガウスユニタリ演算と古典的通信に関する非ゴー結果によって課される制限に直面している。 本稿では,ガウス資源のみに依存するガウスQECプロトコルを提案する。 提案手法の重要な要素は、量子チャネル上の部分的な転置操作の実装を容易にする、絡み合ったガウス状態を用いたCVゲートの伝送である。 これにより、2つのうるさいガウス流路から2モードの雑音分極チャネルを効率的に構築できる。 さらに、このQECプロトコルは自然に非局所ガウス状態蒸留プロトコルに拡張される。

Gaussian quantum information processing with continuous-variable (CV) quantum information carriers holds significant promise for applications in quantum communication and quantum internet. However, applying Gaussian state distillation and quantum error correction (QEC) faces limitations imposed by no-go results concerning local Gaussian unitary operations and classical communications. This paper introduces a Gaussian QEC protocol that relies solely on local Gaussian resources. A pivotal component of our approach is CV gate teleportation using entangled Gaussian states, which facilitates the implementation of the partial transpose operation on a quantum channel. Consequently, we can efficiently construct a two-mode noise-polarized channel from two noisy Gaussian channels. Furthermore, this QEC protocol naturally extends to a nonlocal Gaussian state distillation protocol.
翻訳日:2024-05-08 18:43:54 公開日:2024-05-07
# 未知のスクリプト: スクリプトが言語間移動に与える影響

Unknown Script: Impact of Script on Cross-Lingual Transfer ( http://arxiv.org/abs/2404.18810v2 )

ライセンス: Link先を確認
Wondimagegnhue Tsegaye Tufa, Ilia Markov, Piek Vossen, (参考訳) 言語間移動は、言語間で知識を伝達する効果的な方法となっている。 本稿では,言語モデルのソース言語が言語伝達性能に与える影響について考察する。 対象言語とそのスクリプトが事前訓練されたモデルの一部ではない場合を考える。 我々は、異なるトークン化法で事前訓練された単言語モデルと多言語モデルに関する一連の実験を行い、特異なスクリプトを持つ新しい言語への言語間移動に影響を与える要因を決定する。 この結果から, 共通スクリプト, 言語類似性, モデルサイズよりも, トークン化の重要性が示唆された。

Cross-lingual transfer has become an effective way of transferring knowledge between languages. In this paper, we explore an often overlooked aspect in this domain: the influence of the source language of a language model on language transfer performance. We consider a case where the target language and its script are not part of the pre-trained model. We conduct a series of experiments on monolingual and multilingual models that are pre-trained on different tokenization methods to determine factors that affect cross-lingual transfer to a new language with a unique script. Our findings reveal the importance of the tokenizer as a stronger factor than the shared script, language similarity, and model size.
翻訳日:2024-05-08 18:43:54 公開日:2024-05-07
# TwinDiffusion:拡散モデルを用いたパノラマ画像生成におけるコヒーレンスと効率の向上

TwinDiffusion: Enhancing Coherence and Efficiency in Panoramic Image Generation with Diffusion Models ( http://arxiv.org/abs/2404.19475v2 )

ライセンス: Link先を確認
Teng Zhou, Yongchuan Tang, (参考訳) 拡散モデルは、多種多様な高品質なコンテンツを生成する効果的なツールとして登場した。 しかし、特にパノラマ画像の高解像度画像生成におけるそれらの能力は、目に見えるシームや不整合遷移といった課題に直面している。 本稿では,品質向上のためのクロップフュージョンと効率最適化のためのクロスサンプリングという,これらの課題に対処するための最適化フレームワークであるTwinDiffusionを提案する。 本研究では,隣接する画像領域の類似性を改善するためのトレーニング不要最適化ステージと,収穫過程中に動的パッチを出力するインターリーブサンプリング戦略を導入する。 TwinDiffusionと既存の手法を比較し,コヒーレンス,忠実度,適合性,効率性などの要因を考慮した総合評価を行った。 その結果、シームレスでコヒーレントなパノラマ生成における我々のアプローチの優れた性能を示し、パノラマ画像生成のための新しい品質と効率の基準を設定した。

Diffusion models have emerged as effective tools for generating diverse and high-quality content. However, their capability in high-resolution image generation, particularly for panoramic images, still faces challenges such as visible seams and incoherent transitions. In this paper, we propose TwinDiffusion, an optimized framework designed to address these challenges through two key innovations: Crop Fusion for quality enhancement and Cross Sampling for efficiency optimization. We introduce a training-free optimizing stage to refine the similarity of the adjacent image areas, as well as an interleaving sampling strategy to yield dynamic patches during the cropping process. A comprehensive evaluation is conducted to compare TwinDiffusion with the existing methods, considering factors including coherence, fidelity, compatibility, and efficiency. The results demonstrate the superior performance of our approach in generating seamless and coherent panoramas, setting a new standard in quality and efficiency for panoramic image generation.
翻訳日:2024-05-08 18:43:54 公開日:2024-05-07
# 反復推論選好最適化

Iterative Reasoning Preference Optimization ( http://arxiv.org/abs/2404.19733v2 )

ライセンス: Link先を確認
Richard Yuanzhe Pang, Weizhe Yuan, Kyunghyun Cho, He He, Sainbayar Sukhbaatar, Jason Weston, (参考訳) 反復的選好最適化法は、最近、一般的な命令チューニングタスクに対してうまく機能することが示されているが、推論タスクにはほとんど改善がない(Yuan et al , 2024, Chen et al , 2024)。 本研究は、競合する生成したChain-of-Thought(CoT)候補間の選好を最適化する反復的アプローチを開発する。 我々は、修正DPO損失(Rafailov et al , 2023)を、追加の負の対数類似項でトレーニングする。 このスキームの繰り返し繰り返しにおける推論の改善を示す。 Llama-2-70B-Chat の GSM8K, MATH, ARC-Challenge の精度は向上し,Llama-2 をベースとした他のモデルよりも優れている。 例えば、GSM8Kは55.6%から81.6%に大きく改善され、精度は88.7%となり、32のサンプルのうち多数が投票した。

Iterative preference optimization methods have recently been shown to perform well for general instruction tuning tasks, but typically make little improvement on reasoning tasks (Yuan et al., 2024, Chen et al., 2024). In this work we develop an iterative approach that optimizes the preference between competing generated Chain-of-Thought (CoT) candidates by optimizing for winning vs. losing reasoning steps that lead to the correct answer. We train using a modified DPO loss (Rafailov et al., 2023) with an additional negative log-likelihood term, which we find to be crucial. We show reasoning improves across repeated iterations of this scheme. While only relying on examples in the training set, our approach results in increasing accuracy on GSM8K, MATH, and ARC-Challenge for Llama-2-70B-Chat, outperforming other Llama-2-based models not relying on additionally sourced datasets. For example, we see a large improvement from 55.6% to 81.6% on GSM8K and an accuracy of 88.7% with majority voting out of 32 samples.
翻訳日:2024-05-08 18:43:54 公開日:2024-05-07
# 量子増強センシングの資源としての離散時間結晶相

Discrete Time Crystal Phase as a Resource for Quantum Enhanced Sensing ( http://arxiv.org/abs/2405.00328v2 )

ライセンス: Link先を確認
Rozhin Yousefjani, Krzysztof Sacha, Abolfazl Bayat, (参考訳) 離散時間結晶(英: Discrete Time Crystals)は、周期的な駆動パルスによって時間変換対称性が破られる特殊な物質相である。 そこで本研究では, 有限サイズシステムにおいても, 不確定な持続振動を持つ無秩序多体系において, 安定な離散時間結晶相を生成するための有効機構を提案し, 特徴付ける。 次に、スピン交換結合を測定するために、このシステムのセンシング能力について検討する。 その結果,時間結晶相を通じて強い量子増強感度が得られた。 スピン交換結合が変化するにつれて、システムは鋭い相転移を経て、プローブの性能が著しく低下する非時間結晶相に入る。 この相転移を2次型として特徴付け、包括的有限サイズスケーリング解析によりその臨界特性を決定する。 我々のプローブの性能は初期状態とは独立であり、駆動パルスの不完全性から恩恵を受けるかもしれない。

Discrete time crystals are a special phase of matter in which time translational symmetry is broken through a periodic driving pulse. Here, we first propose and characterize an effective mechanism to generate a stable discrete time crystal phase in a disorder-free many-body system with indefinite persistent oscillations even in finite-size systems. Then we explore the sensing capability of this system to measure the spin exchange coupling. The results show strong quantum-enhanced sensitivity throughout the time crystal phase. As the spin exchange coupling varies, the system goes through a sharp phase transition and enters a non-time crystal phase in which the performance of the probe considerably decreases. We characterize this phase transition as a second-order type and determine its critical properties through a comprehensive finite-size scaling analysis. The performance of our probe is independent of the initial states and may even benefit from imperfections in the driving pulse.
翻訳日:2024-05-08 18:43:54 公開日:2024-05-07
# Unbundle-Rewrite-Rebundle: JavaScriptバンドルにおけるプライバシハーミングコードの実行時検出と書き換え

Unbundle-Rewrite-Rebundle: Runtime Detection and Rewriting of Privacy-Harming Code in JavaScript Bundles ( http://arxiv.org/abs/2405.00596v2 )

ライセンス: Link先を確認
Mir Masood Ali, Peter Snyder, Chris Kanich, Hamed Haddadi, (参考訳) 本研究では,バンドルされたJavaScriptコードのプライバシ保護部分を検出するシステムであるUnbundle-Rewrite-Rebundle(URR)について紹介する。 URRはJavaScriptバンドルの問題に対する新しい解決策であり、Webサイトは複数のコードユニットを単一のファイルにプリコンパイルする。 従来のコンテンツフィルタリングツールがURLに依存している場合、URRはASTレベルでコードを解析し、有害なASTサブツリーをプライバシと機能的な代替品に置き換える。 本稿では,Firefox エクステンションとして URR をオープンソースとして実装し,Tranco 10k 上にデプロイされた最も一般的なバンドルシステム (Webpack) によって生成された JavaScript バンドルに対して評価する。 JavaScriptバンドルに含まれる3つの代表的なプライバシ障害ライブラリを検出して書き直す際に、精度(1.00)、リコール(0.95)、スピード(0.43s per-script)で測定されたパフォーマンスを測定し、現在のプライバシツールに従わない大規模で成長中のブラインドスポットに対する効果的なアプローチとして、IRRを見出した。

This work presents Unbundle-Rewrite-Rebundle (URR), a system for detecting privacy-harming portions of bundled JavaScript code, and rewriting that code at runtime to remove the privacy harming behavior without breaking the surrounding code or overall application. URR is a novel solution to the problem of JavaScript bundles, where websites pre-compile multiple code units into a single file, making it impossible for content filters and ad-blockers to differentiate between desired and unwanted resources. Where traditional content filtering tools rely on URLs, URR analyzes the code at the AST level, and replaces harmful AST sub-trees with privacy-and-functionality maintaining alternatives. We present an open-sourced implementation of URR as a Firefox extension, and evaluate it against JavaScript bundles generated by the most popular bundling system (Webpack) deployed on the Tranco 10k. We measure the performance, measured by precision (1.00), recall (0.95), and speed (0.43s per-script) when detecting and rewriting three representative privacy harming libraries often included in JavaScript bundles, and find URR to be an effective approach to a large-and-growing blind spot unaddressed by current privacy tools.
翻訳日:2024-05-08 18:43:54 公開日:2024-05-07
# テンソルネットワークを用いたフーリエ型オプション価格の学習パラメータ依存性

Learning parameter dependence for Fourier-based option pricing with tensor networks ( http://arxiv.org/abs/2405.00701v3 )

ライセンス: Link先を確認
Rihito Sakurai, Haruto Takahashi, Koichi Miyamoto, (参考訳) 数学ファイナンスにおける長年の問題として、価格オプションのスピードアップ、特にマルチアセットオプションがあげられる。 最近の研究では、テンソルネットワークの高次元テンソル圧縮能力を活用して、テンソルトレイン学習アルゴリズムを用いてフーリエ変換(FT)に基づくオプション価格の高速化が提案されている。 テンソルネットワークのもう1つの用途は、パラメータ依存を含む関数を圧縮することである。 そこで本研究では,FTベースのオプション価格に現れる関数をパラメータ依存で近似したテンソルトレインを構築し,入力パラメータのオプション価格を効率的に算出する,テンソル学習アルゴリズムを提案する。 ベンチマークテストとして,様々な揮発性の値と現在の資産価格に対するマルチアセットオプションの価格設定を行う。 提案手法は, 最大11個の資産を含む試験ケースにおいて, モンテカルロシミュレーションを計算複雑性の観点から10^5$パスで比較し, 精度を同等に保った。

A long-standing issue in mathematical finance is the speed-up of pricing options, especially multi-asset options. A recent study has proposed to use tensor train learning algorithms to speed up Fourier transform (FT)-based option pricing, utilizing the ability of tensor networks to compress high-dimensional tensors. Another usage of the tensor network is to compress functions, including their parameter dependence. In this study, we propose a pricing method, where, by a tensor learning algorithm, we build tensor trains that approximate functions appearing in FT-based option pricing with their parameter dependence and efficiently calculate the option price for the varying input parameters. As a benchmark test, we run the proposed method to price a multi-asset option for the various values of volatilities and present asset prices. We show that, in the tested cases involving up to 11 assets, the proposed method is comparable to or outperforms Monte Carlo simulation with $10^5$ paths in terms of computational complexity, keeping the comparable accuracy.
翻訳日:2024-05-08 18:43:54 公開日:2024-05-07
# 最小記述長原理によるネットワーク再構築

Network reconstruction via the minimum description length principle ( http://arxiv.org/abs/2405.01015v2 )

ライセンス: Link先を確認
Tiago P. Peixoto, (参考訳) 動的データや行動データからネットワークを再構築する作業に関わる根本的な問題は、過度な適合を防止し、統計的に正当化可能なエッジ数を持つ推論ネットワークを生成する方法で、最も適切なモデル複雑性を決定することである。 この文脈におけるステータスクオは、$L_{1}$正規化とクロスバリデーションの組み合わせに基づいている。 しかし、計算コストが高いことに加えて、この一般的なアプローチは、スパーシティの促進と重みの「収縮」を不必要に結び付ける。 この組み合わせは、縮小によって導入されたバイアスとネットワークの間隔の間のトレードオフを強制し、しばしばクロスバリデーションの後にもかなりの過度なオーバーフィッティングをもたらす。 本研究では,階層的ベイズ推定と重み量子化に基づく別の非パラメトリック正則化スキームを提案する。 提案手法は最小記述長(MDL)の原理に従い,データ圧縮の最大化を可能にする重み分布を明らかにする。 後者のプロパティは、完全なデータに適合する単一のデータを必要とするため、我々のアプローチをかなり高速に採用します。 その結果、先述したエッジの数を必要とせず、多種多様な生成モデルで使用できる原理的かつ効率的な推論スキームが得られた。 また,本手法は,人工ネットワークと経験ネットワークの再構築において,体系的に精度が向上することを示した。 本手法は, 微生物群集間の相互作用ネットワークの再構築と, 10^{4}$から10^{5}$種を含む大規模個体群間の相互作用ネットワークの再構築に有効であることを示すとともに, システム内の介入の結果を予測するために, 推定モデルをどのように利用できるかを示す。

A fundamental problem associated with the task of network reconstruction from dynamical or behavioral data consists in determining the most appropriate model complexity in a manner that prevents overfitting, and produces an inferred network with a statistically justifiable number of edges. The status quo in this context is based on $L_{1}$ regularization combined with cross-validation. However, besides its high computational cost, this commonplace approach unnecessarily ties the promotion of sparsity with weight "shrinkage". This combination forces a trade-off between the bias introduced by shrinkage and the network sparsity, which often results in substantial overfitting even after cross-validation. In this work, we propose an alternative nonparametric regularization scheme based on hierarchical Bayesian inference and weight quantization, which does not rely on weight shrinkage to promote sparsity. Our approach follows the minimum description length (MDL) principle, and uncovers the weight distribution that allows for the most compression of the data, thus avoiding overfitting without requiring cross-validation. The latter property renders our approach substantially faster to employ, as it requires a single fit to the complete data. As a result, we have a principled and efficient inference scheme that can be used with a large variety of generative models, without requiring the number of edges to be known in advance. We also demonstrate that our scheme yields systematically increased accuracy in the reconstruction of both artificial and empirical networks. We highlight the use of our method with the reconstruction of interaction networks between microbial communities from large-scale abundance samples involving in the order of $10^{4}$ to $10^{5}$ species, and demonstrate how the inferred model can be used to predict the outcome of interventions in the system.
翻訳日:2024-05-08 18:43:54 公開日:2024-05-07
# 合成倫理変化による包括的顔認識に向けて

Towards Inclusive Face Recognition Through Synthetic Ethnicity Alteration ( http://arxiv.org/abs/2405.01273v2 )

ライセンス: Link先を確認
Praveen Kumar Chandaliya, Kiran Raja, Raghavendra Ramachandra, Zahid Akhtar, Christoph Busch, (参考訳) 多くの研究が、商業的なものを含む既存の顔認識システム(FRS)は、表現不足のデータによって特定の民族に対する偏見を示すことが多いことを示している。 本研究では,データセットの多様性を高めるために合成顔画像生成法を用いて,民族性の変化と肌色の変化について検討する。 まず,アジア,黒人,インディアンの3民族を表わすバランスのとれた顔画像データセットを構築し,詳細な分析を行う。 次に、既存のGAN(Generative Adversarial Network-based Image-to-image translation)と多様体学習モデルを用いて、それぞれの民族性を変化させる。 さらに、個別型付けアングル(ITA)を用いて、現実的な肌色表現を研究することにより、これらのデータセットのFRSに対する適合性を評価するために、体系的な分析を行った。 さらに,既存の顔画像品質評価(FIQA)手法を用いて品質特性を解析する。 次に、4つの異なるシステムを用いて総合的なFRS性能解析を行う。 我々の研究成果は今後の研究の道のりを拓いている。 一 特定の民族と一般の民族変更モデルの両方を発達させること。 (二)このようなアプローチを拡張して、多様な肌色を持つデータベースを作成すること。 三 様々な民族を表わすデータセットを作成し、プライバシー上の懸念に対処しながらバイアスを軽減するのに役立ちます。

Numerous studies have shown that existing Face Recognition Systems (FRS), including commercial ones, often exhibit biases toward certain ethnicities due to under-represented data. In this work, we explore ethnicity alteration and skin tone modification using synthetic face image generation methods to increase the diversity of datasets. We conduct a detailed analysis by first constructing a balanced face image dataset representing three ethnicities: Asian, Black, and Indian. We then make use of existing Generative Adversarial Network-based (GAN) image-to-image translation and manifold learning models to alter the ethnicity from one to another. A systematic analysis is further conducted to assess the suitability of such datasets for FRS by studying the realistic skin-tone representation using Individual Typology Angle (ITA). Further, we also analyze the quality characteristics using existing Face image quality assessment (FIQA) approaches. We then provide a holistic FRS performance analysis using four different systems. Our findings pave the way for future research works in (i) developing both specific ethnicity and general (any to any) ethnicity alteration models, (ii) expanding such approaches to create databases with diverse skin tones, (iii) creating datasets representing various ethnicities which further can help in mitigating bias while addressing privacy concerns.
翻訳日:2024-05-08 18:43:54 公開日:2024-05-07
# Bayesian Few-Shot 分類における高速化収束

Accelerating Convergence in Bayesian Few-Shot Classification ( http://arxiv.org/abs/2405.01507v3 )

ライセンス: Link先を確認
Tianjun Ke, Haoqun Cao, Feng Zhou, (参考訳) ベイズ的数発分類は、数発学習の分野において焦点となっている。 本稿では,ミラー降下に基づく変分推論をガウス過程に基づく少数ショット分類にシームレスに統合し,非共役推論の課題に対処する。 非ユークリッド幾何学を活用することにより、ミラー降下は対応する多様体に沿って最も急勾配の方向を与えることにより加速収束を達成する。 また、変分分布に関するパラメータ化不変性を示す。 実験により, 競争的分類精度, 不確実性定量化の改善, ベースラインモデルと比較して収束の速さが示された。 さらに,過度パラメータと成分の影響について検討する。 コードはhttps://github.com/keanson/MD-BSFCで公開されている。

Bayesian few-shot classification has been a focal point in the field of few-shot learning. This paper seamlessly integrates mirror descent-based variational inference into Gaussian process-based few-shot classification, addressing the challenge of non-conjugate inference. By leveraging non-Euclidean geometry, mirror descent achieves accelerated convergence by providing the steepest descent direction along the corresponding manifold. It also exhibits the parameterization invariance property concerning the variational distribution. Experimental results demonstrate competitive classification accuracy, improved uncertainty quantification, and faster convergence compared to baseline models. Additionally, we investigate the impact of hyperparameters and components. Code is publicly available at https://github.com/keanson/MD-BSFC.
翻訳日:2024-05-08 18:43:54 公開日:2024-05-07
# 論理型カリキュラムチューニングによる知識グラフによる複雑な推論の改善

Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning ( http://arxiv.org/abs/2405.01649v2 )

ライセンス: Link先を確認
Tianle Xia, Liang Ding, Guojia Wan, Yibing Zhan, Bo Du, Dacheng Tao, (参考訳) 不完全知識グラフ(KG)上で複雑な論理的クエリを答えることは困難である。 これまでのほとんどの研究は、エンティティ/リレーション埋め込みの学習と、ニューラルネットワークによる一階述語論理演算子のシミュレートに重点を置いていた。 しかし、それらは論理的推論を改善するために世界知識を共有することができないためにボトルネックとなり、結果として準最適性能をもたらす。 本稿では,大規模言語モデル(LLM)に基づく知識グラフ上の複雑な論理推論スキーマを提案する。 具体的には、任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。 複雑な問合せの難易度に対処するため,我々はシンプルで柔軟な論理型学習フレームワークを設計する。 広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善され(平均+5.5%のMRRスコアを得る)、新しい最先端技術を実現している。 コードとモデルはすぐにGitHubでリリースされ、抱きしめます。

Answering complex logical queries over incomplete knowledge graphs (KGs) is challenging. Most previous works have focused on learning entity/relation embeddings and simulating first-order logic operators with various neural networks. However, they are bottlenecked by the inability to share world knowledge to improve logical reasoning, thus resulting in suboptimal performance. In this paper, we propose a complex logical reasoning schema over knowledge graphs upon large language models (LLMs), containing a curriculum-based logical-aware instruction tuning framework, named LACT. Specifically, we augment the arbitrary first-order logical queries via binary tree decomposition, to stimulate the reasoning capability of LLMs. To address the difficulty gap among different types of complex queries, we design a simple and flexible logic-aware curriculum learning framework. Experiments across widely used datasets demonstrate that LACT has substantial improvements~(brings an average +5.5% MRR score) over advanced methods, achieving the new state-of-the-art. Our code and model will be released at GitHub and huggingface soon.
翻訳日:2024-05-08 18:43:54 公開日:2024-05-07
# タンパク質複合体モデリングのための深層強化学習

Deep Reinforcement Learning for Modelling Protein Complexes ( http://arxiv.org/abs/2405.02299v2 )

ライセンス: Link先を確認
Ziqi Gao, Tao Feng, Jiaxuan You, Chenyi Zi, Yan Zhou, Chen Zhang, Jia Li, (参考訳) AlphaFoldは単鎖と多鎖のタンパク質構造予測の両方に使用できるが、後者は鎖の数が増えるにつれて非常に困難になる。 本研究では、各鎖をノードとして、組立作用をエッジとして、多鎖タンパク質複合体(つまりタンパク質複合体モデリング、PCM)の構造を予測するために非環状無向連結グラフを使用できることを示す。 しかし、まだ2つの課題があります。 1) PCM問題に対する$N^{N-2}$$(N$は鎖数)の巨大な組合せ最適化空間は、計算コストの増大につながる。 2) タンパク質複合体のスケールは鎖数のばらつきによる分布変化を示し, 様々なスケールのモデリング複合体の一般化を求める。 これらの課題に対処するため、我々は、自動PCM予測のためのポリシー勾配を通して、ドメイン固有の報酬と敵の損失を生かしたジェネレーティブ・アドバイサル・ポリシー・ネットワークであるGAPNを提案する。 具体的には、GAPNは巨大なアセンブリ空間を効率的に探索し、ポリシー勾配を通じて直接ドッキング報酬を最適化することを学ぶ。 重要なことは、モデルの受容場を高めるために、敵の報酬関数を設計することである。 このようにして、GAPNは特定の複合体のバッチと、様々な鎖数を持つ錯体から得られたグローバルアセンブリルールに同時にフォーカスする。 実験により, RMSD と TM-Score で測定した精度と, PCM ソフトウェアと比較した場合の効率改善を両立した。

AlphaFold can be used for both single-chain and multi-chain protein structure prediction, while the latter becomes extremely challenging as the number of chains increases. In this work, by taking each chain as a node and assembly actions as edges, we show that an acyclic undirected connected graph can be used to predict the structure of multi-chain protein complexes (a.k.a., protein complex modelling, PCM). However, there are still two challenges: 1) The huge combinatorial optimization space of $N^{N-2}$ ($N$ is the number of chains) for the PCM problem can easily lead to high computational cost. 2) The scales of protein complexes exhibit distribution shift due to variance in chain numbers, which calls for the generalization in modelling complexes of various scales. To address these challenges, we propose GAPN, a Generative Adversarial Policy Network powered by domain-specific rewards and adversarial loss through policy gradient for automatic PCM prediction. Specifically, GAPN learns to efficiently search through the immense assembly space and optimize the direct docking reward through policy gradient. Importantly, we design an adversarial reward function to enhance the receptive field of our model. In this way, GAPN will simultaneously focus on a specific batch of complexes and the global assembly rules learned from complexes with varied chain numbers. Empirically, we have achieved both significant accuracy (measured by RMSD and TM-Score) and efficiency improvements compared to leading PCM softwares.
翻訳日:2024-05-08 18:34:09 公開日:2024-05-07
# 高精細ナノファイバーファイバFabry-Pérot共振器

High-finesse nanofiber Fabry-Pérot resonator in a portable storage container ( http://arxiv.org/abs/2405.02304v2 )

ライセンス: Link先を確認
S. Horikawa, S. Yang, T. Tanaka, T. Aoki, S. Kato, (参考訳) ナノファイバーファイバFabry-P\'{e}rot共振器のキャラクタリゼーションと保存法について述べる。 共振器の両端からの反射分光により、共振器内のミラー透過率と光損失を評価することができる。 製造後, ナノファイバー共振器の品質を維持するため, 携帯型蓄電容器を開発した。 容器を乾いたクリーンな窒素ガスで満たすことで、貯蔵中のナノファイバーの汚染を防止することができる。 このアプローチにより、光学損失を1週間で0.08%未満に抑えることができる。 携帯容器は、異なる場所で共振器の製造およびその後の実験を容易にする。 この柔軟性は、量子光学、通信、センシングを含む応用範囲を広げる。

We present characterization and storage methods for a high-finesse nanofiber Fabry-P\'{e}rot resonator. Reflection spectroscopy from both ends of the resonator allows for evaluation of the mirror transmittances and optical loss inside the resonator. To maintain the quality of the nanofiber resonator after the fabrication, we have developed a portable storage container. By filling the container with dry, clean nitrogen gas, we can prevent contamination of the nanofiber during storage. This approach allows us to minimize the additional optical loss to less than 0.08% over a week. The portable container facilitates both the fabrication and subsequent experimentation with the resonator in different locations. This flexibility expands the range of applications, including quantum optics, communication, and sensing.
翻訳日:2024-05-08 18:34:09 公開日:2024-05-07
# 情報ボトルネック原理によるフェデレーショングラフの凝縮

Federated Graph Condensation with Information Bottleneck Principles ( http://arxiv.org/abs/2405.03911v1 )

ライセンス: Link先を確認
Bo Yan, (参考訳) グラフ凝縮は、小さな縮合グラフを置換として合成することで、大規模グラフのサイズを小さくするが、すぐに様々なグラフ学習タスクの恩恵を受けている。 しかし、既存のグラフ凝縮法は、実際の分散データ配信では不可能な集中データストレージと、データ保持者のプライバシ保護要件に頼っている。 このギャップを埋めるために,グラフニューラルネットワーク(GNN)におけるフェデレーショングラフ凝縮の新たな問題を提案し,検討する。 具体的には、まず、グラフ凝縮の典型的な勾配マッチングプロセスをクライアント側勾配計算とサーバ側勾配マッチングに分離する、連合グラフ凝縮のための一般的なフレームワークを提案する。 このようにして、クライアント側の負担のかかる計算コストは、ほとんど軽減されます。 さらに,我々の実証実験により, 凝縮グラフは, フェデレーション設定下において, 常にデータメンバーシップのプライバシーを漏らし, すなわち, フェデレーショントレーニング中の凝縮グラフを, メンバーシップ推論攻撃(MIA)下でのトレーニングデータを盗むことができることを示した。 この問題に対処するために,我々は,情報ボトルネックの原理をフェデレートグラフ縮合に革新的に取り入れる。これは,局所的な事前学習段階において部分ノードの特徴を抽出し,フェデレーショントレーニング中に特徴を利用する必要がある。 実世界のデータセットに関する大規模な実験は、我々のフレームワークがトレーニング中にメンバーシップのプライバシを一貫して保護できることを示しています。 一方、既存の集中型グラフ凝縮法やフェデレーション付きグラフ学習法に対して、同等で優れたパフォーマンスを実現している。

Graph condensation, which reduces the size of a large-scale graph by synthesizing a small-scale condensed graph as its substitution, has immediately benefited various graph learning tasks. However, existing graph condensation methods rely on centralized data storage, which is unfeasible for real-world decentralized data distribution, and overlook data holders' privacy-preserving requirements. To bridge the gap, we propose and study the novel problem of federated graph condensation for graph neural networks (GNNs). Specifically, we first propose a general framework for federated graph condensation, in which we decouple the typical gradient matching process for graph condensation into client-side gradient calculation and server-side gradient matching. In this way, the burdensome computation cost in client-side is largely alleviated. Besides, our empirical studies show that under the federated setting, the condensed graph will consistently leak data membership privacy, i.e., the condensed graph during the federated training can be utilized to steal the training data under the membership inference attacks (MIA). To tackle this issue, we innovatively incorporate information bottleneck principles into the federated graph condensation, which only needs to extract partial node features in one local pre-training step and utilize the features during federated training. Extensive experiments on real-world datasets demonstrate that our framework can consistently protect membership privacy during training. Meanwhile, it also achieves comparable and even superior performance against existing centralized graph condensation and federated graph learning methods.
翻訳日:2024-05-08 15:48:10 公開日:2024-05-07
# 量子ノード多重化のための窒化リチウム薄膜近赤外プラットフォーム

A Thin Film Lithium Niobate Near-Infrared Platform for Multiplexing Quantum Nodes ( http://arxiv.org/abs/2405.03912v1 )

ライセンス: Link先を確認
Daniel Assumpcao, Dylan Renaud, Aida Baradari, Beibei Zeng, Chawina De-Eknamkul, C. J. Xin, Amirhassan Shams-Ansari, David Barton, Bartholomeus Machielse, Marko Loncar, (参考訳) 現実的な量子ネットワークは、多くのメモリ量子ビットからなる量子ノードを必要とする。 これにより、各量子ビットを制御するのに必要なフォトニック回路の複雑さが増大し、メモリを多重化し、遷移周波数の不均一分布を克服する戦略が必要になる。 可視から近赤外線(VNIR)波長範囲で動作する集積フォトニクスは、主要な量子メモリシステムの遷移周波数と互換性があり、これらのニーズに対する解決策を提供することができる。 本研究では,これらの要件を満たすために,VNIR薄膜窒化リチウム(TFLN)集積フォトニクスプラットフォームを実現する。 例えば、低損失のカップル($1 dB/facet)、スイッチ($20 dB)、高帯域幅の電気光学変調器($50 GHz)などがある。 これらのデバイスでは、高効率かつCW互換の周波数シフト(50ドル以上)と、ネスト変調器構造による同時レーザ振幅と周波数制御を実証する。 最後に、実証されたTFLNコンポーネントを使用して量子メモリを多重化するアーキテクチャを強調し、このプラットフォームが単一メモリノード上での絡み合い率を2桁改善する方法について概説する。 この結果から,TFLNは大規模量子ノードを実現するために必要な性能とスケーラビリティのベンチマークを満たすことができることがわかった。

Practical quantum networks will require quantum nodes consisting of many memory qubits. This in turn will increase the complexity of the photonic circuits needed to control each qubit and will require strategies to multiplex memories and overcome the inhomogeneous distribution of their transition frequencies. Integrated photonics operating at visible to near-infrared (VNIR) wavelength range, compatible with the transition frequencies of leading quantum memory systems, can provide solutions to these needs. In this work, we realize a VNIR thin-film lithium niobate (TFLN) integrated photonics platform with the key components to meet these requirements. These include low-loss couplers ($<$ 1 dB/facet), switches ($>$ 20 dB extinction), and high-bandwidth electro-optic modulators ($>$ 50 GHz). With these devices we demonstrate high-efficiency and CW-compatible frequency shifting ($>$ 50 $\%$ efficiency at 15 GHz), as well as simultaneous laser amplitude and frequency control through a nested modulator structure. Finally, we highlight an architecture for multiplexing quantum memories using the demonstrated TFLN components, and outline how this platform can enable a 2-order of magnitude improvement in entanglement rates over single memory nodes. Our results demonstrate that TFLN can meet the necessary performance and scalability benchmarks to enable large-scale quantum nodes.
翻訳日:2024-05-08 15:48:10 公開日:2024-05-07
# 生物システムのためのデジタル双対校正:細胞培養プロセス

Digital Twin Calibration for Biological System-of-Systems: Cell Culture Manufacturing Process ( http://arxiv.org/abs/2405.03913v1 )

ライセンス: Link先を確認
Fuqiang Cheng, Wei Xie, Hua Zheng, (参考訳) バイオマニュファクチャリングの革新は、プロセスと製品の品質を最適化するための実験(DoE)の効率的な設計に依存している。 従来のDOE法は、基盤となるバイオプロセッシング機構を無視し、しばしば解釈可能性の欠如とサンプル効率の欠如に悩まされる。 この制限は、デジタルツインモデルキャリブレーションのためのシーケンシャルなDoEをガイドする、新しい最適学習アプローチを作成する動機となります。 本研究では,細胞培養プロセスのマルチスケール力学モデル(バイオシステム・オブ・システム(Bio-SoS))を我々のディジタルツインとして検討する。 サブモデルで構成されたモジュラー設計のこのモデルは、さまざまな生産プロセスにまたがるデータの統合を可能にします。 そこで,Bio-SoSディジタルツインを校正するために,モデル予測の平均2乗誤差を評価し,個々のサブモデルのパラメータ推定誤差がデジタルツインの予測精度に与える影響を定量化する計算手法を開発した。

Biomanufacturing innovation relies on an efficient design of experiments (DoE) to optimize processes and product quality. Traditional DoE methods, ignoring the underlying bioprocessing mechanisms, often suffer from a lack of interpretability and sample efficiency. This limitation motivates us to create a new optimal learning approach that can guide a sequential DoEs for digital twin model calibration. In this study, we consider a multi-scale mechanistic model for cell culture process, also known as Biological Systems-of-Systems (Bio-SoS), as our digital twin. This model with modular design, composed of sub-models, allows us to integrate data across various production processes. To calibrate the Bio-SoS digital twin, we evaluate the mean squared error of model prediction and develop a computational approach to quantify the impact of parameter estimation error of individual sub-models on the prediction accuracy of digital twin, which can guide sample-efficient and interpretable DoEs.
翻訳日:2024-05-08 15:48:10 公開日:2024-05-07
# KVキャッシュはチャネル当たり1ビット:結合量子化を用いた効率的な大言語モデル推論

KV Cache is 1 Bit Per Channel: Efficient Large Language Model Inference with Coupled Quantization ( http://arxiv.org/abs/2405.03917v1 )

ライセンス: Link先を確認
Tianyi Zhang, Jonah Yi, Zhaozhuo Xu, Anshumali Shrivastava, (参考訳) LLM(Large Language Models)の効率的なデプロイには、スループットを改善するために、複数のリクエストをバッチ化する必要がある。 バッチサイズ、コンテキスト長、モデルサイズが大きくなるにつれて、キーと値(KV)キャッシュのサイズは、GPUメモリ使用量と推論レイテンシのボトルネックの主な原因となり得る。 KVキャッシュ圧縮の有効な手法として量子化が登場したが、既存の手法は依然として非常に低ビット幅で失敗している。 キー/値のアクティベーション埋め込みの異なるチャネルは高い相互依存性を示し、複数のチャネルの結合エントロピーは、その辺縁エントロピーの和よりも遅い速度で成長する。 この知見に基づいて、複数のキー/値チャネルを結合して相互依存性を活用し、より情報効率の良い方法でアクティベーションを符号化する結合量子化(CQ)を提案する。 大規模な実験により、CQはモデル品質を維持する上で、既存のベースラインよりも優れているか、競争的であることが明らかになった。 さらに,KVキャッシュを1ビットまで量子化することで,CQがモデル品質を保てることを示す。

Efficient deployment of Large Language Models (LLMs) requires batching multiple requests together to improve throughput. As the batch size, context length, or model size increases, the size of the key and value (KV) cache can quickly become the main contributor to GPU memory usage and the bottleneck of inference latency. Quantization has emerged as an effective technique for KV cache compression, but existing methods still fail at very low bit widths. We observe that distinct channels of a key/value activation embedding are highly inter-dependent, and the joint entropy of multiple channels grows at a slower rate than the sum of their marginal entropies. Based on this insight, we propose Coupled Quantization (CQ), which couples multiple key/value channels together to exploit their inter-dependency and encode the activations in a more information-efficient manner. Extensive experiments reveal that CQ outperforms or is competitive with existing baselines in preserving model quality. Furthermore, we demonstrate that CQ can preserve model quality with KV cache quantized down to 1-bit.
翻訳日:2024-05-08 15:48:10 公開日:2024-05-07
# グラディエントベースモデルプルーニングによる非学習型バックドアアタック

Unlearning Backdoor Attacks through Gradient-Based Model Pruning ( http://arxiv.org/abs/2405.03918v1 )

ライセンス: Link先を確認
Kealan Dunnett, Reza Arablouei, Dimity Miller, Volkan Dedeoglu, Raja Jurdak, (参考訳) サイバーセキュリティの脅威に対する懸念が高まっている時代には、マシンラーニングモデルの完全性と信頼性を保証する上で、バックドア攻撃に対する防御が最重要である。 しかし、既存の多くのアプローチでは、効果的な緩和のためにかなりの量のデータを必要とし、実践的なデプロイメントにおいて重大な課題を提起している。 そこで本研究では,その軽減を未学習課題として扱うことによって,バックドア攻撃に対抗する新しい手法を提案する。 我々は、モデル内のバックドア要素を特定し、排除するために、未学習の損失勾配を利用して、ターゲットとなるモデルプルーニング戦略によってこの課題に取り組む。 しっかりとした理論的洞察に基づいて構築されたこのアプローチは、単純さと有効性を提供し、データ可用性に制限のあるシナリオに適しています。 我々の手法は、適切な未学習の損失を定式化し、畳み込みニューラルネットワークに適したモデル解析手法を考案することを含む。 包括的評価は, 現状のアプローチと比較して, 特に現実的なデータ設定において, 提案手法の有効性を示す。

In the era of increasing concerns over cybersecurity threats, defending against backdoor attacks is paramount in ensuring the integrity and reliability of machine learning models. However, many existing approaches require substantial amounts of data for effective mitigation, posing significant challenges in practical deployment. To address this, we propose a novel approach to counter backdoor attacks by treating their mitigation as an unlearning task. We tackle this challenge through a targeted model pruning strategy, leveraging unlearning loss gradients to identify and eliminate backdoor elements within the model. Built on solid theoretical insights, our approach offers simplicity and effectiveness, rendering it well-suited for scenarios with limited data availability. Our methodology includes formulating a suitable unlearning loss and devising a model-pruning technique tailored for convolutional neural networks. Comprehensive evaluations demonstrate the efficacy of our proposed approach compared to state-of-the-art approaches, particularly in realistic data settings.
翻訳日:2024-05-08 15:48:10 公開日:2024-05-07
# マルチリンガル・マルチモーダル領域独立検出のためのロードマップ

A Roadmap for Multilingual, Multimodal Domain Independent Deception Detection ( http://arxiv.org/abs/2405.03920v1 )

ライセンス: Link先を確認
Dainis Boumber, Rakesh M. Verma, Fatima Zahra Qachfar, (参考訳) 人間のコミュニケーションの一般的な側面である騙しは、デジタル時代において大きな変化を遂げた。 オンラインインタラクションのグローバル化により、個人は複数の言語でコミュニケーションし、ソーシャルメディア上で言語を混合し、さまざまなデータが各言語と方言で利用できるようになる。 同時に、詐欺検出技術はボード全体で類似している。 近年の研究では、英語の領域にまたがって、普遍的な言語的手がかりが存在する可能性が示されているが、他の言語にそのような手がかりが存在するかどうかは不明である。 さらに、低リソース言語における誤検出の実践的課題は、ラベル付きデータがないため、よく研究されている問題ではない。 もう1つの偽りの次元は多様性である。 例えば、偽ニュースや偽情報のキャプションが変更された写真が存在する場合もある。 本稿は,コンピュータセキュリティと自然言語処理の領域における言語境界とモダリティにまたがる認知言語の複雑さの包括的調査と,多言語トランスフォーマーモデルとラベル付きデータを多言語で使用して,誤検出の課題を普遍的に解決する可能性について述べる。

Deception, a prevalent aspect of human communication, has undergone a significant transformation in the digital age. With the globalization of online interactions, individuals are communicating in multiple languages and mixing languages on social media, with varied data becoming available in each language and dialect. At the same time, the techniques for detecting deception are similar across the board. Recent studies have shown the possibility of the existence of universal linguistic cues to deception across domains within the English language; however, the existence of such cues in other languages remains unknown. Furthermore, the practical task of deception detection in low-resource languages is not a well-studied problem due to the lack of labeled data. Another dimension of deception is multimodality. For example, a picture with an altered caption in fake news or disinformation may exist. This paper calls for a comprehensive investigation into the complexities of deceptive language across linguistic boundaries and modalities within the realm of computer security and natural language processing and the possibility of using multilingual transformer models and labeled data in various languages to universally address the task of deception detection.
翻訳日:2024-05-08 15:48:10 公開日:2024-05-07
# NeurDB: AIを活用した自律型データシステム

NeurDB: An AI-powered Autonomous Data System ( http://arxiv.org/abs/2405.03924v1 )

ライセンス: Link先を確認
Beng Chin Ooi, Shaofeng Cai, Gang Chen, Kian Lee Tan, Yuncheng Wu, Xiaokui Xiao, Naili Xing, Cong Yue, Lingze Zeng, Meihui Zhang, Zhanhao Zhao, (参考訳) 人工知能(AI)の急速な進歩を受けて、私たちはデータシステムの変革的な飛躍の瀬戸際に立つ。 AIとDB(AIxDB)の急激な融合により、すべての業界におけるエンドユーザの負担を軽減し、パーソナライズされ、自動化されたデータベース内AIによる分析、システムパフォーマンス向上のための自動運転機能など、AIを強化した機能を備えている。 本稿では,AIとDBの融合の深化に着目し,データシステムの進化を考察する。 私たちはNeurDBを紹介します。NeurDBは、主要なシステムコンポーネントにAI設計を完全に取り入れ、データベース内AIによる分析を提供するように設計された次世代データシステムです。 我々はNeurDBの概念的およびアーキテクチャ的概要を概説し、その設計選択と重要なコンポーネントについて議論し、その現況と今後の計画について報告する。

In the wake of rapid advancements in artificial intelligence (AI), we stand on the brink of a transformative leap in data systems. The imminent fusion of AI and DB (AIxDB) promises a new generation of data systems, which will relieve the burden on end-users across all industry sectors by featuring AI-enhanced functionalities, such as personalized and automated in-database AI-powered analytics, self-driving capabilities for improved system performance, etc. In this paper, we explore the evolution of data systems with a focus on deepening the fusion of AI and DB. We present NeurDB, our next-generation data system designed to fully embrace AI design in each major system component and provide in-database AI-powered analytics. We outline the conceptual and architectural overview of NeurDB, discuss its design choices and key components, and report its current development and future plan.
翻訳日:2024-05-08 15:48:10 公開日:2024-05-07
# Codexity: セキュアなAI支援コード生成

Codexity: Secure AI-assisted Code Generation ( http://arxiv.org/abs/2405.03927v1 )

ライセンス: Link先を確認
Sung Yong Kim, Zhiyu Fan, Yannic Noller, Abhik Roychoudhury, (参考訳) ソフトウェア開発活動において、LLM(Large Language Models)の印象的なパフォーマンスにもかかわらず、最近の研究は、AIプログラミングアシスタント(Copilot、CodeWhispererなど)によるソフトウェアコードベースへの脆弱性の導入に関する懸念を示している。 本稿では,5つのLLMを統合したセキュリティ重視のコード生成フレームワークであるCodexityを紹介する。 Codexityは、InferやCppCheckといった静的解析ツールのフィードバックを活用して、LLM生成プログラムのセキュリティ脆弱性を軽減する。 751を自動生成する脆弱性のある被験者による実世界のベンチマークで評価したところ、Codexityは、ソフトウェア開発者が公開する脆弱性の60%を防止できます。

Despite the impressive performance of Large Language Models (LLMs) in software development activities, recent studies show the concern of introducing vulnerabilities into software codebase by AI programming assistants (e.g., Copilot, CodeWhisperer). In this work, we present Codexity, a security-focused code generation framework integrated with five LLMs. Codexity leverages the feedback of static analysis tools such as Infer and CppCheck to mitigate security vulnerabilities in LLM-generated programs. Our evaluation in a real-world benchmark with 751 automatically generated vulnerable subjects demonstrates Codexity can prevent 60% of the vulnerabilities being exposed to the software developer.
翻訳日:2024-05-08 15:48:10 公開日:2024-05-07
# Unicorn: 畳み込みニューラル正規微分方程式を用いた海氷予測のためのU-Net

Unicorn: U-Net for Sea Ice Forecasting with Convolutional Neural Ordinary Differential Equations ( http://arxiv.org/abs/2405.03929v1 )

ライセンス: Link先を確認
Jaesung Park, Sungchul Hong, Yoonseo Cho, Jong-June Jeon, (参考訳) 北極の海氷は地球規模の気候動態に欠かせない。 しかし、海氷の正確な予測は、複数の変数間の複雑な相互作用のために大きな課題となる。 複数の入力と強力なパフォーマンスをシームレスに統合する能力を活用することで、多くの研究が海氷予測のためのニューラルネットワークに転換している。 本稿では,毎週の海氷予測を目的とした,Unicornという新しい深層建築について紹介する。 本モデルでは,アーキテクチャ内に複数の時系列画像を統合することにより,予測性能を向上する。 さらに、U-Netアーキテクチャにボトルネック層を組み込み、畳み込み演算を伴うニューラル常微分方程式として機能し、潜伏変数の時空間ダイナミクスを捉える。 1998年から2021年にかけてのデータセットを用いた実データ解析により,海氷濃度予測作業における最先端モデルに対する大幅な改善が示された。 ベンチマークモデルと比較して平均12%のMAE改善を実現している。 さらに,本手法は,海氷範囲予測における既存の手法よりも優れており,約18%の分類性能向上を実現している。 これらの実験結果は,提案手法の優位性を示すものである。

Sea ice at the North Pole is vital to global climate dynamics. However, accurately forecasting sea ice poses a significant challenge due to the intricate interaction among multiple variables. Leveraging the capability to integrate multiple inputs and powerful performances seamlessly, many studies have turned to neural networks for sea ice forecasting. This paper introduces a novel deep architecture named Unicorn, designed to forecast weekly sea ice. Our model integrates multiple time series images within its architecture to enhance its forecasting performance. Moreover, we incorporate a bottleneck layer within the U-Net architecture, serving as neural ordinary differential equations with convolution operations, to capture the spatiotemporal dynamics of latent variables. Through real data analysis with datasets spanning from 1998 to 2021, our proposed model demonstrates significant improvements over state-of-the-art models in the sea ice concentration forecasting task. It achieves an average MAE improvement of 12% compared to benchmark models. Additionally, our method outperforms existing approaches in sea ice extent forecasting, achieving a classification performance improvement of approximately 18%. These experimental results show the superiority of our proposed model.
翻訳日:2024-05-08 15:48:10 公開日:2024-05-07
# CleanGraph: ヒューマン・イン・ザ・ループの知識グラフのリファインメントとコンプリート

CleanGraph: Human-in-the-loop Knowledge Graph Refinement and Completion ( http://arxiv.org/abs/2405.03932v1 )

ライセンス: Link先を確認
Tyler Bikaun, Michael Stewart, Wei Liu, (参考訳) 本稿では,知識グラフの洗練と完成を容易にするインタラクティブなWebベースツールであるCleanGraphを提案する。 高品質でエラーのない事実に根ざした知識グラフの信頼性を維持することは、質問応答や情報検索システムといった現実世界のアプリケーションにとって不可欠である。 これらのグラフは、しばしば、情報抽出を通じて意味的な三つ組を抽出することで、テキストソースから自動的に組み立てられる。 しかし、特に大規模なデータセットや低品質データセットを扱う場合、抽出されたトリプルの品質を保証することは大きな課題となり、下流アプリケーションの性能に悪影響を及ぼす可能性がある。 CleanGraphを使用すると、ユーザはグラフ上でCreate, Read, Update, Delete (CRUD)操作を実行でき、グラフのリファインメントと完了タスクのためのプラグインの形式でモデルを適用することができる。 これらの機能により、ユーザはグラフデータの完全性と信頼性を高めることができる。 CleanGraphとそのソースコードのデモは、MITライセンス下でhttps://github.com/nlp-tlp/CleanGraphでアクセスすることができる。

This paper presents CleanGraph, an interactive web-based tool designed to facilitate the refinement and completion of knowledge graphs. Maintaining the reliability of knowledge graphs, which are grounded in high-quality and error-free facts, is crucial for real-world applications such as question-answering and information retrieval systems. These graphs are often automatically assembled from textual sources by extracting semantic triples via information extraction. However, assuring the quality of these extracted triples, especially when dealing with large or low-quality datasets, can pose a significant challenge and adversely affect the performance of downstream applications. CleanGraph allows users to perform Create, Read, Update, and Delete (CRUD) operations on their graphs, as well as apply models in the form of plugins for graph refinement and completion tasks. These functionalities enable users to enhance the integrity and reliability of their graph data. A demonstration of CleanGraph and its source code can be accessed at https://github.com/nlp-tlp/CleanGraph under the MIT License.
翻訳日:2024-05-08 15:48:10 公開日:2024-05-07
# 短い指示と合成位置を持つ長文脈アライメント

Long Context Alignment with Short Instructions and Synthesized Positions ( http://arxiv.org/abs/2405.03939v1 )

ライセンス: Link先を確認
Wenhao Wu, Yizhong Wang, Yao Fu, Xiang Yue, Dawei Zhu, Sujian Li, (参考訳) 非常に長いコンテキストで命令を効果的に処理することは、高品質の長いデータとかなりの計算資源を必要とする大規模言語モデル(LLM)にとって依然として課題である。 本稿では,ステップ・スキッピング・アライメント(SkipAlign, SkipAlign, SkipAlign, SkipAlign, SkipAlign)について紹介する。 SkipAlignは、LLMの長期的コンテクスト能力を高めるために、長距離依存が基本的なものであるという前提で開発されている。 SkipAlignは単に入力サンプルの長さを拡大するだけでなく、位置インデックスの側面から長距離依存関係を合成する。 これは、データの意味構造を利用してコンテキストを効果的に拡張する命令追従サンプルにスキップされた位置を戦略的に挿入することで達成される。 さまざまなコンテキストウィンドウサイズを持つベースモデルに関する広範な実験を通じて、SkipAlignは長いコンテキストタスクの範囲でその効果を実証している。 特に注目すべきは、ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。

Effectively handling instructions with extremely long context remains a challenge for Large Language Models (LLMs), typically necessitating high-quality long data and substantial computational resources. This paper introduces Step-Skipping Alignment (SkipAlign), a new technique designed to enhance the long-context capabilities of LLMs in the phase of alignment without the need for additional efforts beyond training with original data length. SkipAlign is developed on the premise that long-range dependencies are fundamental to enhancing an LLM's capacity of long context. Departing from merely expanding the length of input samples, SkipAlign synthesizes long-range dependencies from the aspect of positions indices. This is achieved by the strategic insertion of skipped positions within instruction-following samples, which utilizes the semantic structure of the data to effectively expand the context. Through extensive experiments on base models with a variety of context window sizes, SkipAlign demonstrates its effectiveness across a spectrum of long-context tasks. Particularly noteworthy is that with a careful selection of the base model and alignment datasets, SkipAlign with only 6B parameters achieves it's best performance and comparable with strong baselines like GPT-3.5-Turbo-16K on LongBench.
翻訳日:2024-05-08 15:38:26 公開日:2024-05-07
# 連続実験における協調的インテリジェンス--創薬のための人間中心のフレームワーク

Collaborative Intelligence in Sequential Experiments: A Human-in-the-Loop Framework for Drug Discovery ( http://arxiv.org/abs/2405.03942v1 )

ライセンス: Link先を確認
Jinghai He, Cheng Hua, Yingfei Wang, Zeyu Zheng, (参考訳) 薬物発見は複雑なプロセスであり、標的となる性質を持つ分子を連続的にスクリーニングし、分析する。 このプロセスはシーケンシャルな実験とも呼ばれ、膨大な探索空間、標的分子の希少性、限られたデータと実験予算によって課される制約による課題に直面している。 これらの課題に対処するために,創薬のシーケンシャルな実験を行うためのHuman-in-the-loopフレームワークを提案する。 この協調的なアプローチは、人間の専門家の知識とディープラーニングアルゴリズムを組み合わせることで、特定の実験予算内で標的分子の発見を促進する。 提案アルゴリズムは実験データを処理し、有望な分子と、その性能を人間の専門家に改善できる分子の両方を推奨する。 人間の専門家は、これらのレコメンデーションと、アルゴリズムのレコメンデーションをオーバーライドする機能を含むドメインの専門知識に基づいて、最終的な意思決定権限を保持します。 実世界のデータを用いた薬物発見タスクに本手法を適用し,人間やアルゴリズムにのみ依存するものを含む,すべての基本手法を一貫して上回っていることを確認した。 これは、人間の専門家とアルゴリズムの相補性を示す。 その結果,人間のドメイン知識のレベル,メタ知識の重要性,効果的な作業委譲戦略に関する重要な知見が得られた。 これらの枠組みは,人的・人工知能の長所を生かして,新たなワクチンや医薬品の開発を著しく加速する可能性が示唆された。

Drug discovery is a complex process that involves sequentially screening and examining a vast array of molecules to identify those with the target properties. This process, also referred to as sequential experimentation, faces challenges due to the vast search space, the rarity of target molecules, and constraints imposed by limited data and experimental budgets. To address these challenges, we introduce a human-in-the-loop framework for sequential experiments in drug discovery. This collaborative approach combines human expert knowledge with deep learning algorithms, enhancing the discovery of target molecules within a specified experimental budget. The proposed algorithm processes experimental data to recommend both promising molecules and those that could improve its performance to human experts. Human experts retain the final decision-making authority based on these recommendations and their domain expertise, including the ability to override algorithmic recommendations. We applied our method to drug discovery tasks using real-world data and found that it consistently outperforms all baseline methods, including those which rely solely on human or algorithmic input. This demonstrates the complementarity between human experts and the algorithm. Our results provide key insights into the levels of humans' domain knowledge, the importance of meta-knowledge, and effective work delegation strategies. Our findings suggest that such a framework can significantly accelerate the development of new vaccines and drugs by leveraging the best of both human and artificial intelligence.
翻訳日:2024-05-08 15:38:26 公開日:2024-05-07
# 電子カルテ上での時間図表表現による予測モデル

Predictive Modeling with Temporal Graphical Representation on Electronic Health Records ( http://arxiv.org/abs/2405.03943v1 )

ライセンス: Link先を確認
Jiayuan Chen, Changchang Yin, Yuanlong Wang, Ping Zhang, (参考訳) EHR(Electronic Health Records)を活用したディープラーニングベースの予測モデルは、医療において注目を集めている。 患者のERHの効果的な表現は、歴史的訪問と医療イベントの時間的関係と、これらの要素の中で固有の構造情報の両方を階層的に包含するべきである。 既存の患者表現法は、大まかに、シーケンシャルな表現とグラフィカルな表現に分類することができる。 シーケンシャルな表現法は, 来訪者間の時間的関係にのみ焦点をあてる。 一方、グラフィカルな表現は、様々な医療イベント間のグラフ構造的関係の抽出に適しているが、時間的情報を効果的に統合するには不十分である。 両タイプの情報を収集するために,患者のERHを新しい時間的異種グラフとしてモデル化する。 このグラフには、過去の訪問ノードと医療イベントノードが含まれている。 医療イベントノードから訪問ノードへの構造化情報を伝達し、タイムアウェアな訪問ノードを使用して患者の健康状態の変化をキャプチャする。 さらに、時間的エッジ特徴、大域的位置エンコーディング、局所的構造エンコーディングをヘテロジニアスグラフ畳み込みに統合し、時間的情報と構造的情報の両方をキャプチャする新しい時間的グラフトランスフォーマー(TRANS)を導入する。 実世界の3つのデータセットに対する広範囲な実験を通してTransの有効性を検証する。 その結果,提案手法は最先端の性能を達成できることが示唆された。

Deep learning-based predictive models, leveraging Electronic Health Records (EHR), are receiving increasing attention in healthcare. An effective representation of a patient's EHR should hierarchically encompass both the temporal relationships between historical visits and medical events, and the inherent structural information within these elements. Existing patient representation methods can be roughly categorized into sequential representation and graphical representation. The sequential representation methods focus only on the temporal relationships among longitudinal visits. On the other hand, the graphical representation approaches, while adept at extracting the graph-structured relationships between various medical events, fall short in effectively integrate temporal information. To capture both types of information, we model a patient's EHR as a novel temporal heterogeneous graph. This graph includes historical visits nodes and medical events nodes. It propagates structured information from medical event nodes to visit nodes and utilizes time-aware visit nodes to capture changes in the patient's health status. Furthermore, we introduce a novel temporal graph transformer (TRANS) that integrates temporal edge features, global positional encoding, and local structural encoding into heterogeneous graph convolution, capturing both temporal and structural information. We validate the effectiveness of TRANS through extensive experiments on three real-world datasets. The results show that our proposed approach achieves state-of-the-art performance.
翻訳日:2024-05-08 15:38:26 公開日:2024-05-07
# 6G無線通信におけるセンシングとコンピュータビジョンの役割

Role of Sensing and Computer Vision in 6G Wireless Communications ( http://arxiv.org/abs/2405.03945v1 )

ライセンス: Link先を確認
Seungnyun Kim, Jihoon Moon, Jinhong Kim, Yongjun Ahn, Donghoon Kim, Sunwoo Kim, Kyuhong Shim, Byonghyo Shim, (参考訳) 近年,自動運転,ロボット工学,メタバースにおけるセンサ技術の進歩と普及が目覚ましい。 センサ情報を解析するためのコンピュータビジョン(CV)技術の急速な進歩を考えると,センサ技術とCV技術を利用した無線アプリケーションの普及が期待できる。 本稿では,6G用センサおよびCV支援無線通信(SVWC)フレームワークについて概観する。 強力なCV技術を用いて高分解能センシング情報を解析することにより、SVWCは無線環境を迅速かつ正確に理解し、無線タスクを実行することができる。 SVWCの有効性を実証するために,センサデータセット収集,DLモデルトレーニング,現実的な無線タスクの実行を含むSVWCの全過程を設計する。 6G通信シナリオにおける数値評価から,SVWCは位置決め精度,データレート,アクセス遅延の観点から,従来の5Gシステムよりもかなりの性能向上を実現していることを示す。

Recently, we are witnessing the remarkable progress and widespread adoption of sensing technologies in autonomous driving, robotics, and metaverse. Considering the rapid advancement of computer vision (CV) technology to analyze the sensing information, we anticipate a proliferation of wireless applications exploiting the sensing and CV technologies in 6G. In this article, we provide a holistic overview of the sensing and CV-aided wireless communications (SVWC) framework for 6G. By analyzing the high-resolution sensing information through the powerful CV techniques, SVWC can quickly and accurately understand the wireless environments and then perform the wireless tasks. To demonstrate the efficacy of SVWC, we design the whole process of SVWC including the sensing dataset collection, DL model training, and execution of realistic wireless tasks. From the numerical evaluations on 6G communication scenarios, we show that SVWC achieves considerable performance gains over the conventional 5G systems in terms of positioning accuracy, data rate, and access latency.
翻訳日:2024-05-08 15:38:26 公開日:2024-05-07
# FedSC:非i.d.データに対するスペクトルコントラストオブジェクトを用いた有望なフェデレーション型自己教師型学習

FedSC: Provable Federated Self-supervised Learning with Spectral Contrastive Objective over Non-i.i.d. Data ( http://arxiv.org/abs/2405.03949v1 )

ライセンス: Link先を確認
Shusen Jing, Anlan Yu, Shuai Zhang, Songyang Zhang, (参考訳) 近年,自己教師型学習(SSL)と連邦学習(FL)の枠組みを統合する取り組みが進められている。 フェデレートされた自己教師型学習(FedSSL)のユニークな課題の1つは、FedSSLのグローバルな目的は通常、ローカルSSLの目的の重み付け総和に等しいものではないことである。 したがって、フェデレート平均化(FedAvg)のような従来の手法は、FedSSLのグローバルな目的を正確に最小化することができず、特にデータが非i.dである場合、しばしば準最適性能をもたらす。 このギャップを埋めるために、スペクトルコントラスト目的に基づいてFedSCという証明可能なFedSSLアルゴリズムを提案する。 FedSCでは、クライアントは周期的な重み付けに加えてデータ表現の相関行列を共有し、クライアント間のコントラストと縮合に加えて、データサンプル間のコントラストを可能にすることにより、データ表現の品質が向上する。 差分プライバシー(DP)保護は、相関行列の共有時に、ローカルデータセットのさらなるプライバシー漏洩を制御するためにデプロイされる。 また、収束と余分なプライバシー漏洩に関する理論的分析も提供する。 実験の結果,提案アルゴリズムの有効性が検証された。

Recent efforts have been made to integrate self-supervised learning (SSL) with the framework of federated learning (FL). One unique challenge of federated self-supervised learning (FedSSL) is that the global objective of FedSSL usually does not equal the weighted sum of local SSL objectives. Consequently, conventional approaches, such as federated averaging (FedAvg), fail to precisely minimize the FedSSL global objective, often resulting in suboptimal performance, especially when data is non-i.i.d.. To fill this gap, we propose a provable FedSSL algorithm, named FedSC, based on the spectral contrastive objective. In FedSC, clients share correlation matrices of data representations in addition to model weights periodically, which enables inter-client contrast of data samples in addition to intra-client contrast and contraction, resulting in improved quality of data representations. Differential privacy (DP) protection is deployed to control the additional privacy leakage on local datasets when correlation matrices are shared. We also provide theoretical analysis on the convergence and extra privacy leakage. The experimental results validate the effectiveness of our proposed algorithm.
翻訳日:2024-05-08 15:38:26 公開日:2024-05-07
# Relating-Up: グラフ間関係によるグラフニューラルネットワークの強化

Relating-Up: Advancing Graph Neural Networks through Inter-Graph Relationships ( http://arxiv.org/abs/2405.03950v1 )

ライセンス: Link先を確認
Qi Zou, Na Yu, Daoliang Zhang, Wei Zhang, Rui Gao, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造データからの学習、特に1つのグラフ内の関係、すなわちグラフ内関係の理解に長けている。 彼らの成功にもかかわらず、GNNはグラフ間の関係、すなわちグラフ間の関係を無視することで制限される。 機能拡張の可能性を認識し,グラフ間関係を利用してGNNを強化するプラグイン・アンド・プレイモジュールであるRelating-Upを導入する。 このモジュールにはリレーショナル・アウェア・エンコーダとフィードバック・トレーニング・ストラテジーが組み込まれている。 前者は、GNNがグラフ間の関係をキャプチャし、集合コンテキストを通じて関係認識グラフ表現を豊かにすることを可能にする。 後者は、これらの表現を再帰的に洗練するためのフィードバックループ機構を利用し、グラフ間ダイナミクスの精製からフィードバックループの実行への洞察を利用する。 これら2つのイノベーションの相乗効果は、堅牢で汎用的なモジュールをもたらす。 Relating-UpはGNNの表現性を向上し、より高精度なグラフ関係をカプセル化する。 16のベンチマークデータセットに対する評価では,グラフ表現学習タスクの幅広い領域において,関係アップをGNNアーキテクチャに組み込むことで,関係アップを重要な選択肢として位置づけることにより,性能が大幅に向上することが示された。

Graph Neural Networks (GNNs) have excelled in learning from graph-structured data, especially in understanding the relationships within a single graph, i.e., intra-graph relationships. Despite their successes, GNNs are limited by neglecting the context of relationships across graphs, i.e., inter-graph relationships. Recognizing the potential to extend this capability, we introduce Relating-Up, a plug-and-play module that enhances GNNs by exploiting inter-graph relationships. This module incorporates a relation-aware encoder and a feedback training strategy. The former enables GNNs to capture relationships across graphs, enriching relation-aware graph representation through collective context. The latter utilizes a feedback loop mechanism for the recursively refinement of these representations, leveraging insights from refining inter-graph dynamics to conduct feedback loop. The synergy between these two innovations results in a robust and versatile module. Relating-Up enhances the expressiveness of GNNs, enabling them to encapsulate a wider spectrum of graph relationships with greater precision. Our evaluations across 16 benchmark datasets demonstrate that integrating Relating-Up into GNN architectures substantially improves performance, positioning Relating-Up as a formidable choice for a broad spectrum of graph representation learning tasks.
翻訳日:2024-05-08 15:38:26 公開日:2024-05-07
# 光子数符号化状態を用いた損失チャネルによる絡み合い交換

Entanglement swapping via lossy channels using photon-number-encoded states ( http://arxiv.org/abs/2405.03951v1 )

ライセンス: Link先を確認
Wan Zo, Bohdan Bilash, Donghwa Lee, Yosep Kim, Hyang-Tag Lim, Kyunghwan Oh, Syed M. Assad, Yong-Su Kim, (参考訳) 遠方のパーティ間で共有される絡み合いは、量子ネットワークにおける鍵となるリソースである。 しかし、量子チャネルにおける光子損失は、チャネル透過と4次にスケールする絡み合い共有の成功確率を著しく低下させる。 エンタングルメントスワップを用いた量子リピータは、この効果を軽減することができるが、通常、フォトニック量子ビットを同期させるために高性能なフォトニック量子メモリを必要とする。 本研究では,光量子メモリを必要とせずに,量子チャネル損失を効果的に軽減できる光子数符号化状態を用いた絡み合わせ交換プロトコルを理論的,実験的に検討する。 本稿では,このプロトコルがチャネル伝送と線形にスケールする成功確率を示すことを示す。 さらに,非平衡チャネル損失は共有絡み合いを劣化させることができるが,この効果は初期絡み合い状態の最適調整によって補正できることを示す。 本研究は、損失量子ネットワークにおけるロバストな絡み合い分布を実現するための光子数符号化の可能性を強調した。

Entanglement shared between distant parties is a key resource in quantum networks. However, photon losses in quantum channels significantly reduce the success probability of entanglement sharing, which scales quadratically with the channel transmission. Quantum repeaters using entanglement swapping can mitigate this effect, but usually require high-performance photonic quantum memories to synchronize photonic qubits. In this work, we theoretically and experimentally investigate an entanglement swapping protocol using photon-number-encoded states that can effectively alleviate quantum channel losses without requiring photonic quantum memories. We demonstrate that the protocol exhibits a success probability scaling linearly with the channel transmission. Furthermore, we show that while unbalanced channel losses can degrade the shared entanglement, this effect can be compensated by optimally adjusting the initial entangled states. Our results highlight the potential of photon-number encoding for realizing robust entanglement distribution in lossy quantum networks.
翻訳日:2024-05-08 15:38:26 公開日:2024-05-07
# HAFFormer:自発音声からのアルツハイマー病検出のための階層的注意自由フレームワーク

HAFFormer: A Hierarchical Attention-Free Framework for Alzheimer's Disease Detection From Spontaneous Speech ( http://arxiv.org/abs/2405.03952v1 )

ライセンス: Link先を確認
Zhongren Dong, Zixing Zhang, Weixiang Xu, Jing Han, Jianjun Ou, Björn W. Schuller, (参考訳) 自然発声からアルツハイマー病(AD)を自動的に検出することは早期診断において重要な役割を担っている。 最近のアプローチは、長距離コンテキストの依存関係をモデル化する効率性のため、Transformerアーキテクチャに大きく依存している。 しかしながら、自己注意と音声の長さに関連する計算複雑性の二次的増加は、エッジデバイスにそのようなモデルをデプロイする際の課題となっている。 この文脈では、AD検出のための長い発話をよりよく扱うために、階層型注意・自由変換器(HAFFormer)という新しいフレームワークを構築している。 具体的には,マルチスケールデプスワイズ・コンボリューション(Multi-Scale Depthwise Convolution)の無注意モジュールを用いて自己注意を置き換え,コストのかかる計算を回避し,GELUベースのGated Linear Unitを用いてフィードフォワード層を置き換え,冗長情報を自動フィルタリングする。 さらに,階層構造を設計して,フレームレベルから対話レベルまで,さまざまな情報粒の学習を強制的に行う。 ADReSS-Mデータセットに関する広範な実験を行うことで、紹介されたHAFFormerは他の最近の研究と競合する結果(82.6%の精度)を達成できるが、標準的なTransformerと比較して計算量やモデルサイズを削減できる。 これは、AD検出のための長いオーディオを扱う際のHAFFormerの効率を示している。

Automatically detecting Alzheimer's Disease (AD) from spontaneous speech plays an important role in its early diagnosis. Recent approaches highly rely on the Transformer architectures due to its efficiency in modelling long-range context dependencies. However, the quadratic increase in computational complexity associated with self-attention and the length of audio poses a challenge when deploying such models on edge devices. In this context, we construct a novel framework, namely Hierarchical Attention-Free Transformer (HAFFormer), to better deal with long speech for AD detection. Specifically, we employ an attention-free module of Multi-Scale Depthwise Convolution to replace the self-attention and thus avoid the expensive computation, and a GELU-based Gated Linear Unit to replace the feedforward layer, aiming to automatically filter out the redundant information. Moreover, we design a hierarchical structure to force it to learn a variety of information grains, from the frame level to the dialogue level. By conducting extensive experiments on the ADReSS-M dataset, the introduced HAFFormer can achieve competitive results (82.6% accuracy) with other recent work, but with significant computational complexity and model size reduction compared to the standard Transformer. This shows the efficiency of HAFFormer in dealing with long audio for AD detection.
翻訳日:2024-05-08 15:38:26 公開日:2024-05-07
# IPFed: ユーザ認証のためのアイデンティティ保護されたフェデレーション学習

IPFed: Identity protected federated learning for user authentication ( http://arxiv.org/abs/2405.03955v1 )

ライセンス: Link先を確認
Yosuke Kaga, Yusei Suzuki, Kenta Takahashi, (参考訳) プライバシー保護に関する法律や規制の発達に伴い、個人データを収集して機械学習を行うのが困難になっている。 この文脈では、個人データを共有せずに分散学習を行うフェデレーション学習が提案されている。 本稿では,ユーザ認証のためのフェデレーション学習に着目した。 既存の手法では,プライバシ保護と高精度の両立が困難であることを示す。 これらの課題に対処するために,クラス埋め込みのためのランダムプロジェクションを用いたプライバシー保護フェデレーション学習であるIPFedを提案する。 さらに,IPFedは最先端の手法と同等の学習が可能であることを証明した。 顔画像データセットの実験では、IPFedは最先端の手法の精度を維持しながら、個人情報のプライバシを保護することができる。

With the development of laws and regulations related to privacy preservation, it has become difficult to collect personal data to perform machine learning. In this context, federated learning, which is distributed learning without sharing personal data, has been proposed. In this paper, we focus on federated learning for user authentication. We show that it is difficult to achieve both privacy preservation and high accuracy with existing methods. To address these challenges, we propose IPFed which is privacy-preserving federated learning using random projection for class embedding. Furthermore, we prove that IPFed is capable of learning equivalent to the state-of-the-art method. Experiments on face image datasets show that IPFed can protect the privacy of personal data while maintaining the accuracy of the state-of-the-art method.
翻訳日:2024-05-08 15:38:26 公開日:2024-05-07
# 注意層上でのシンプルなドロップインロラ条件は拡散モデルを改善する

Simple Drop-in LoRA Conditioning on Attention Layers Will Improve Your Diffusion Model ( http://arxiv.org/abs/2405.03958v1 )

ライセンス: Link先を確認
Joo Young Choi, Jaesung R. Park, Inkyu Park, Jaewoong Cho, Albert No, Ernest K. Ryu, (参考訳) 現在の最先端拡散モデルでは、畳み込み層と(qkv)自己アテンション層を含むU-Netアーキテクチャを採用している。 U-Netは、サンプリングステップ毎にタイム埋め込み入力と、所望の条件生成に対応するクラスまたはキャプション埋め込み入力とに基づいて、条件付きで画像を処理する。 このような条件付けは、畳み込み層へのスケール・アンド・シフト操作を含むが、注意層に直接影響しない。 これらの標準的なアーキテクチャ選択は確かに有効であるが、注意層を条件付けしないことは任意であり、潜在的に最適であると感じている。 本研究では,U-Netアーキテクチャの他の部分を変更・調整することなく,LoRAコンディショニングをアテンション層に追加するだけで画像生成品質が向上することを示す。 例えば、EDM拡散モデルにLoRA条件を付加すると、不条件およびクラス条件のCIFAR-10生成に対するFIDスコアが 1.91/1.75 となり、ベースラインが 1.97/1.79 となる。

Current state-of-the-art diffusion models employ U-Net architectures containing convolutional and (qkv) self-attention layers. The U-Net processes images while being conditioned on the time embedding input for each sampling step and the class or caption embedding input corresponding to the desired conditional generation. Such conditioning involves scale-and-shift operations to the convolutional layers but does not directly affect the attention layers. While these standard architectural choices are certainly effective, not conditioning the attention layers feels arbitrary and potentially suboptimal. In this work, we show that simply adding LoRA conditioning to the attention layers without changing or tuning the other parts of the U-Net architecture improves the image generation quality. For example, a drop-in addition of LoRA conditioning to EDM diffusion model yields FID scores of 1.91/1.75 for unconditional and class-conditional CIFAR-10 generation, improving upon the baseline of 1.97/1.79.
翻訳日:2024-05-08 15:38:26 公開日:2024-05-07
# 部分指紋の同一性検証と相対値の同時推定

Joint Estimation of Identity Verification and Relative Pose for Partial Fingerprints ( http://arxiv.org/abs/2405.03959v1 )

ライセンス: Link先を確認
Xiongjun Guan, Zhiyu Pan, Jianjiang Feng, Jie Zhou, (参考訳) 現在、ポータブル電子機器はますます人気が高まっている。 軽量な考慮のために、指紋認識モジュールは通常、限られたサイズのセンサーを使用する。 しかし、部分的な指紋は、特に指圧姿勢や画像品質の違いがある場合に、適合する特徴がほとんどないため、部分的な指紋認証は困難である。 既存のほとんどの手法では、指紋位置の正当性検証を独立したタスクとみなし、それらの間の結合関係を無視している - 相対的なポーズ推定は通常、アンカーとしてペア化された特徴に依存しており、認証精度はより正確なポーズアライメントによって改善される傾向にある。 そこで本稿では, 指紋の正当性検証と相対的なポーズを共同で推定する手法を提案する。 これを実現するために,マルチタスクCNN-Transformerハイブリッドネットワークを提案し,特徴抽出能力を高めるための事前学習タスクを設計する。 複数の公開データセット (NIST SD14, FVC 2002 DB1A & DB3A, FVC 2004 DB1A & DB2A, FVC 2006 DB1A) および社内データセットを用いた実験により, 本手法は指紋部分認証と相対ポーズ推定の両方において, 従来手法よりも効率的でありながら, 最先端性能を実現していることが示された。

Currently, portable electronic devices are becoming more and more popular. For lightweight considerations, their fingerprint recognition modules usually use limited-size sensors. However, partial fingerprints have few matchable features, especially when there are differences in finger pressing posture or image quality, which makes partial fingerprint verification challenging. Most existing methods regard fingerprint position rectification and identity verification as independent tasks, ignoring the coupling relationship between them -- relative pose estimation typically relies on paired features as anchors, and authentication accuracy tends to improve with more precise pose alignment. Consequently, in this paper we propose a method that jointly estimates identity verification and relative pose for partial fingerprints, aiming to leverage their inherent correlation to improve each other. To achieve this, we propose a multi-task CNN (Convolutional Neural Network)-Transformer hybrid network, and design a pre-training task to enhance the feature extraction capability. Experiments on multiple public datasets (NIST SD14, FVC2002 DB1A & DB3A, FVC2004 DB1A & DB2A, FVC2006 DB1A) and an in-house dataset show that our method achieves state-of-the-art performance in both partial fingerprint verification and relative pose estimation, while being more efficient than previous methods.
翻訳日:2024-05-08 15:38:26 公開日:2024-05-07
# ESIHGNN:会話感情認識のための不均一グラフニューラルネットワークのイベント-状態相互作用

ESIHGNN: Event-State Interactions Infused Heterogeneous Graph Neural Network for Conversational Emotion Recognition ( http://arxiv.org/abs/2405.03960v1 )

ライセンス: Link先を確認
Xupeng Zha, Huan Zhao, Zixing Zhang, (参考訳) 会話感情認識(英語: Conversational Emotion Recognition, CER)とは、会話中に発話によって表現される感情を予測することである。 既存のグラフベースの手法は、主に会話の文脈を理解するためのイベントインタラクションに焦点を当て、話者の感情状態がイベントに直接影響することを見落としている。 加えて、会話のリアルタイムモデリングは現実世界のアプリケーションには不可欠であるが、考慮されることは稀である。 そこで本研究では,話者の感情状態を組み込んだ異種事象-状態相互作用グラフを構築し,会話をモデル化する,イベント-状態相互作用を注入したヘテロジニアスグラフニューラルネットワーク(ESIHGNN)を提案する。 具体的には、不均一な非巡回グラフニューラルネットワークを用いて、各ターンにおける事象や感情状態の表現を動的に更新し、拡張し、会話の一貫性と一貫性を向上させる。 さらに、CERの性能をさらに向上するために、グラフのエッジを外部知識で強化する。 公開された4つのCERデータセットに対する実験結果から,我々のアプローチの優位性と,導入した異種事象状態相互作用グラフの有効性が示された。

Conversational Emotion Recognition (CER) aims to predict the emotion expressed by an utterance (referred to as an ``event'') during a conversation. Existing graph-based methods mainly focus on event interactions to comprehend the conversational context, while overlooking the direct influence of the speaker's emotional state on the events. In addition, real-time modeling of the conversation is crucial for real-world applications but is rarely considered. Toward this end, we propose a novel graph-based approach, namely Event-State Interactions infused Heterogeneous Graph Neural Network (ESIHGNN), which incorporates the speaker's emotional state and constructs a heterogeneous event-state interaction graph to model the conversation. Specifically, a heterogeneous directed acyclic graph neural network is employed to dynamically update and enhance the representations of events and emotional states at each turn, thereby improving conversational coherence and consistency. Furthermore, to further improve the performance of CER, we enrich the graph's edges with external knowledge. Experimental results on four publicly available CER datasets show the superiority of our approach and the effectiveness of the introduced heterogeneous event-state interaction graph.
翻訳日:2024-05-08 15:38:26 公開日:2024-05-07
# ボクセルグリッドのノイズ化による構造的薬物設計

Structure-based drug design by denoising voxel grids ( http://arxiv.org/abs/2405.03961v1 )

ライセンス: Link先を確認
Pedro O. Pinheiro, Arian Jamasb, Omar Mahmood, Vishnu Sresht, Saeed Saremi, (参考訳) タンパク質構造を条件とした新しい3次元分子のスコアベース生成モデルであるVoxBindを提案する。 我々のアプローチは分子を3次元原子密度格子として表現し、学習と生成に3次元ボクセル除去ネットワークを活用する。 神経経験的ベイズ形式(Saremi & Hyvarinen, 2019)を条件設定に拡張し、2段階の手順で構造条件分子を生成する。 i)学習スコア関数と学習スコア関数を用いたアンダーダムLangevin MCMCを用いたガウス平滑条件分布のサンプルノイズ分子 (II) 単段脱ノイズによるノイズサンプルからクリーン分子を推定する。 現在の最先端と比較すると、我々のモデルは訓練が簡単で、サンプルからかなり速くなり、サイリコのベンチマークでより優れた結果が得られる。

We present VoxBind, a new score-based generative model for 3D molecules conditioned on protein structures. Our approach represents molecules as 3D atomic density grids and leverages a 3D voxel-denoising network for learning and generation. We extend the neural empirical Bayes formalism (Saremi & Hyvarinen, 2019) to the conditional setting and generate structure-conditioned molecules with a two-step procedure: (i) sample noisy molecules from the Gaussian-smoothed conditional distribution with underdamped Langevin MCMC using the learned score function and (ii) estimate clean molecules from the noisy samples with single-step denoising. Compared to the current state of the art, our model is simpler to train, significantly faster to sample from, and achieves better results on extensive in silico benchmarks -- the generated molecules are more diverse, exhibit fewer steric clashes, and bind with higher affinity to protein pockets.
翻訳日:2024-05-08 15:38:26 公開日:2024-05-07
# AdsorbDiff:条件付きdenoising Diffusionによる吸着配置

AdsorbDiff: Adsorbate Placement via Conditional Denoising Diffusion ( http://arxiv.org/abs/2405.03962v1 )

ライセンス: Link先を確認
Adeesh Kolluru, John R Kitchin, (参考訳) スラブ (adslab) 上の吸着剤の最適構成を決定することは、様々な用途にまたがる新規触媒の探索において重要である。 伝統的に、最も低いエネルギー吸着率の探索は、吸着剤をスラブに配置し、次に最適化プロセスを行う。 それまでの方法論は、ヒューリスティックス、問題固有の直観、または吸着配置を導くためのブルートフォースアプローチに依存してきた。 そこで本研究では,デノジング拡散を用いた吸着配置のための新しいフレームワークを提案する。 このモデルは、最も低いエネルギー配置に対応する最適な吸着部位と配向を予測するように設計されている。 さらに,拡散予測されたアドラブ構成を事前訓練された機械学習力場を用いて最適化し,最終的に密度汎関数理論(DFT)を用いて評価する,エンドツーエンド評価フレームワークも備えている。 以上の結果から,従来の最良アプローチと比較して,最大5倍,3.5倍の精度向上が見られた。 このフレームワークとアプリケーションの新規性を考えると、事前トレーニングやモデルアーキテクチャの影響についての洞察を提供し、このアプローチの重要性を裏付ける広範な実験を行います。

Determining the optimal configuration of adsorbates on a slab (adslab) is pivotal in the exploration of novel catalysts across diverse applications. Traditionally, the quest for the lowest energy adslab configuration involves placing the adsorbate onto the slab followed by an optimization process. Prior methodologies have relied on heuristics, problem-specific intuitions, or brute-force approaches to guide adsorbate placement. In this work, we propose a novel framework for adsorbate placement using denoising diffusion. The model is designed to predict the optimal adsorbate site and orientation corresponding to the lowest energy configuration. Further, we have an end-to-end evaluation framework where diffusion-predicted adslab configuration is optimized with a pretrained machine learning force field and finally evaluated with Density Functional Theory (DFT). Our findings demonstrate an acceleration of up to 5x or 3.5x improvement in accuracy compared to the previous best approach. Given the novelty of this framework and application, we provide insights into the impact of pre-training, model architectures, and conduct extensive experiments to underscore the significance of this approach.
翻訳日:2024-05-08 15:38:26 公開日:2024-05-07
# ERATTA: 大規模言語モデルで答えるテーブルのための極端なRAG

ERATTA: Extreme RAG for Table To Answers with Large Language Models ( http://arxiv.org/abs/2405.03963v1 )

ライセンス: Link先を確認
Sohini Roychowdhury, Marko Krema, Anvar Mahammad, Brian Moore, Arijit Mukherjee, Punit Prakashchandra, (参考訳) 大規模言語モデル(LLMs)は、近年、拡張型AIソリューションに最適な選択肢となっている。 しかしながら、RAGをLLMに組み込んだユースケースの選択は、汎用的あるいは極端にドメイン特化されているため、RAG-LLMアプローチのスケーラビリティと一般化性に疑問が呈されている。 本研究では,データ認証,ユーザクエリルーティング,データ検索,カスタムプロンプトなどを実現するために,高度に可変かつ大規模なデータテーブルから複数のLSMを起動する,ユニークなLCMベースのシステムを提案する。 当社のシステムは,エンタープライズレベルのデータ製品から情報を抽出し,リアルタイム応答を10秒以下で行うように調整されている。 1つのプロンプトは、ユーザ間認証を管理し、3つのプロンプトでルーティングし、データをフェッチし、カスタマイズ可能な自然言語応答を生成する。 さらに,LLM応答の幻覚を検知し,報告する5つの評価モジュールを提案する。 提案するシステムと評価基準は,持続可能性,財務状況,ソーシャルメディア領域において,数百のユーザクエリに対して,90%以上の信頼性スコアを達成している。 提案した極端なRAGアーキテクチャの拡張は、LLMを用いた異種ソースクエリを可能にする。

Large language models (LLMs) with residual augmented-generation (RAG) have been the optimal choice for scalable generative AI solutions in the recent past. However, the choice of use-cases that incorporate RAG with LLMs have been either generic or extremely domain specific, thereby questioning the scalability and generalizability of RAG-LLM approaches. In this work, we propose a unique LLM-based system where multiple LLMs can be invoked to enable data authentication, user query routing, data retrieval and custom prompting for question answering capabilities from data tables that are highly varying and large in size. Our system is tuned to extract information from Enterprise-level data products and furnish real time responses under 10 seconds. One prompt manages user-to-data authentication followed by three prompts to route, fetch data and generate a customizable prompt natural language responses. Additionally, we propose a five metric scoring module that detects and reports hallucinations in the LLM responses. Our proposed system and scoring metrics achieve >90% confidence scores across hundreds of user queries in the sustainability, financial health and social media domains. Extensions to the proposed extreme RAG architectures can enable heterogeneous source querying using LLMs.
翻訳日:2024-05-08 15:38:26 公開日:2024-05-07
# SwiftRL: リアルタイム処理インメモリシステムにおける効率的な強化学習を目指して

SwiftRL: Towards Efficient Reinforcement Learning on Real Processing-In-Memory Systems ( http://arxiv.org/abs/2405.03967v1 )

ライセンス: Link先を確認
Kailash Gogineni, Sai Santosh Dayapule, Juan Gómez-Luna, Karthikeya Gogineni, Peng Wei, Tian Lan, Mohammad Sadrosadati, Onur Mutlu, Guru Venkataramani, (参考訳) 強化学習(RL)は、経験データセットから報酬信号を最大化することにより、エージェントに最適な行動を学ぶように訓練する。 しかしながら、RLトレーニングはメモリ制限に直面することが多く、実行遅延やトレーニング時間の短縮につながる。 これを解決するために、SwiftRLは、RLワークロードを高速化するために、Processing-In-Memory(PIM)アーキテクチャを調査している。 UPMEM PIM システム上で Tabular Q-learning や SARSA などのRL アルゴリズムを実装し,ハードウェアの最適化により,ニア線形性能のスケーリングを実現する。 UPMEMハードウェアを用いたOpenAI GYM環境の実験は、CPUやGPUの実装と比較して優れた性能を示した。

Reinforcement Learning (RL) trains agents to learn optimal behavior by maximizing reward signals from experience datasets. However, RL training often faces memory limitations, leading to execution latencies and prolonged training times. To overcome this, SwiftRL explores Processing-In-Memory (PIM) architectures to accelerate RL workloads. We achieve near-linear performance scaling by implementing RL algorithms like Tabular Q-learning and SARSA on UPMEM PIM systems and optimizing for hardware. Our experiments on OpenAI GYM environments using UPMEM hardware demonstrate superior performance compared to CPU and GPU implementations.
翻訳日:2024-05-08 15:28:42 公開日:2024-05-07
# パウリ追跡ライブラリを用いた量子回路最適化とMBQCスケジューリング

Quantum Circuit Optimisation and MBQC Scheduling with a Pauli Tracking Library ( http://arxiv.org/abs/2405.03970v1 )

ライセンス: Link先を確認
Jannis Ruh, Simon Devitt, (参考訳) 量子クリフォード回路によるパウリ作用素の可換化のためのソフトウェアライブラリについて述べる。 パウリ演算子を追跡することで、量子ハードウェア上で実行しなければならないパウリゲートの数を減らすことができる。 これは測定ベースの量子コンピューティングやクリフォード回路で実装された誤り訂正回路に関係している。 さらに、測定に基づく量子コンピューティングにおける量子ビットスケジューリングの問題点と、測定順序の制約をパウリ追跡がどのように捉えることができるかを検討する。

We present a software library for the commutation of Pauli operators through quantum Clifford circuits, which is called Pauli tracking. Tracking Pauli operators allows one to reduce the number of Pauli gates that must be executed on quantum hardware. This is relevant for measurement-based quantum computing and for error-corrected circuits that are implemented through Clifford circuits. Furthermore, we investigate the problem of qubit scheduling in measurement-based quantum computing and how Pauli tracking can be used to capture the constraints on the order of measurements.
翻訳日:2024-05-08 15:28:42 公開日:2024-05-07
# 統一エンドツーエンドV2X協調自動運転

Unified End-to-End V2X Cooperative Autonomous Driving ( http://arxiv.org/abs/2405.03971v1 )

ライセンス: Link先を確認
Zhiwei Li, Bozhen Zhang, Lei Yang, Tianyu Shen, Nuo Xu, Ruosen Hao, Weiting Li, Tao Yan, Huaping Liu, (参考訳) V2Xの協力は、車両とインフラの両方からのセンサーデータを統合することで、自動運転技術の進歩への重要なアプローチと考えられている。 現在の研究は、主に知覚精度の向上に焦点を当てており、しばしばエンドツーエンド学習による事故予測精度の体系的な改善を見越して、自律運転の安全性問題への注意が不足している。 この課題に対処するため,本研究では,V2X統合エンドツーエンド自動運転システムであるUniE2EV2Xフレームワークを導入し,キー駆動モジュールを統一ネットワーク内で統合する。 このフレームワークは変形可能な注意ベースのデータ融合戦略を採用し、車とインフラの協調を効果的に促進する。 主な利点は以下のとおりである。 1) エージェントの認識及び動作予測能力を大幅に向上させ、事故予測の精度を向上させる。 2) データ融合プロセスにおいて高い信頼性を確保すること。 3) モジュラーアプローチに比べてエンドツーエンドの知覚が優れている。 さらに,V2X協調運転のためのシミュレーションデータセットであるDeepAccidentに,UniE2EV2Xフレームワークを実装した。

V2X cooperation, through the integration of sensor data from both vehicles and infrastructure, is considered a pivotal approach to advancing autonomous driving technology. Current research primarily focuses on enhancing perception accuracy, often overlooking the systematic improvement of accident prediction accuracy through end-to-end learning, leading to insufficient attention to the safety issues of autonomous driving. To address this challenge, this paper introduces the UniE2EV2X framework, a V2X-integrated end-to-end autonomous driving system that consolidates key driving modules within a unified network. The framework employs a deformable attention-based data fusion strategy, effectively facilitating cooperation between vehicles and infrastructure. The main advantages include: 1) significantly enhancing agents' perception and motion prediction capabilities, thereby improving the accuracy of accident predictions; 2) ensuring high reliability in the data fusion process; 3) superior end-to-end perception compared to modular approaches. Furthermore, We implement the UniE2EV2X framework on the challenging DeepAccident, a simulation dataset designed for V2X cooperative driving.
翻訳日:2024-05-08 15:28:42 公開日:2024-05-07
# TBNet:信頼された実行環境におけるDNNモデル保護を実現するニューラルネットワークアーキテクチャ防衛フレームワーク

TBNet: A Neural Architectural Defense Framework Facilitating DNN Model Protection in Trusted Execution Environments ( http://arxiv.org/abs/2405.03974v1 )

ライセンス: Link先を確認
Ziyu Liu, Tong Zhou, Yukui Luo, Xiaolin Xu, (参考訳) Trusted Execution Environments (TEE)は、エッジデバイス上でDNNモデルをセキュアにするための有望なソリューションとなっている。 しかし、既存のソリューションは、不十分な保護を提供するか、大きなパフォーマンスオーバーヘッドをもたらすかのいずれかである。 本稿では,DNNモデルをニューラルネットワークの観点から保護するTEEベースの防衛フレームワークTBNetについて述べる。 具体的には,TBNetは,(1)信頼できないRich Execution Environment(REE)の計算資源を遅延低減に利用し,(2)物理的に分離されたTEEをモデル保護に利用するために,新しい2分岐置換モデルを生成する。 多様なDNNモデルアーキテクチャとデータセットにわたるRaspberry Piの実験結果は、TBNetが効率的なモデル保護を低コストで達成できることを実証している。

Trusted Execution Environments (TEEs) have become a promising solution to secure DNN models on edge devices. However, the existing solutions either provide inadequate protection or introduce large performance overhead. Taking both security and performance into consideration, this paper presents TBNet, a TEE-based defense framework that protects DNN model from a neural architectural perspective. Specifically, TBNet generates a novel Two-Branch substitution model, to respectively exploit (1) the computational resources in the untrusted Rich Execution Environment (REE) for latency reduction and (2) the physically-isolated TEE for model protection. Experimental results on a Raspberry Pi across diverse DNN model architectures and datasets demonstrate that TBNet achieves efficient model protection at a low cost.
翻訳日:2024-05-08 15:28:42 公開日:2024-05-07
# 論文の再現性について説明できるか? : 機械学習論文を事例として

Can citations tell us about a paper's reproducibility? A case study of machine learning papers ( http://arxiv.org/abs/2405.03977v1 )

ライセンス: Link先を確認
Rochana R. Obadage, Sarah M. Rajtmajer, Jian Wu, (参考訳) 機械学習(ML)と人工知能(AI)における作業の反復的特徴と、ベンチマークデータセットとの比較への依存は、その文献における再現性の重要性を強調している。 しかし、リソースの制約やドキュメントの不十分さは、レプリケーションの実行を特に困難にします。 我々の研究は、下流の引用コンテキストを再現可能性のシグナルとして用いる可能性を探究する。 本稿では,再現の試みの肯定的あるいは否定的な結果を理解するために,機械学習再現性課題に関わる論文の引用文脈に適用した感情分析フレームワークを提案する。 コントリビューションには、再現性関連コンテキストと感情分析のためのトレーニング分類器、引用文脈の感情と再現性スコアの相関について調べる。 研究データ、ソフトウェア、およびアーティファクトの付録はhttps://github.com/lamps-lab/ccair-ai-reproducibility で公開されている。

The iterative character of work in machine learning (ML) and artificial intelligence (AI) and reliance on comparisons against benchmark datasets emphasize the importance of reproducibility in that literature. Yet, resource constraints and inadequate documentation can make running replications particularly challenging. Our work explores the potential of using downstream citation contexts as a signal of reproducibility. We introduce a sentiment analysis framework applied to citation contexts from papers involved in Machine Learning Reproducibility Challenges in order to interpret the positive or negative outcomes of reproduction attempts. Our contributions include training classifiers for reproducibility-related contexts and sentiment analysis, and exploring correlations between citation context sentiment and reproducibility scores. Study data, software, and an artifact appendix are publicly available at https://github.com/lamps-lab/ccair-ai-reproducibility .
翻訳日:2024-05-08 15:28:42 公開日:2024-05-07
# VMambaCC: クラウドカウントのためのビジュアルステートスペースモデル

VMambaCC: A Visual State Space Model for Crowd Counting ( http://arxiv.org/abs/2405.03978v1 )

ライセンス: Link先を確認
Hao-Yuan Ma, Li Zhang, Shuai Shi, (参考訳) 深層学習モデルとして、Visual Mamba(VMamba)は計算複雑性が低く、大域的受容場を持ち、画像の分類と検出に成功している。 アプリケーションを拡張するために,VMambaをクラウドカウントに適用し,新しいVMambaCC(VMamba Crowd Counting)モデルを提案する。 当然、VMambaCCはVMambaの利点を継承する。 さらに,VMambaCCのためのマルチヘッドハイレベル特徴(MHF)アテンション機構を設計する。 MHFは、高レベルのセマンティックな特徴を活用して低レベルのセマンティックな特徴を増強し、より高精度な空間的特徴表現を向上する新しいアテンションメカニズムである。 MHF上に構築された高レベルセマンティック監視特徴ピラミッドネットワーク(HS2PFN)は,低レベルセマンティック情報と段階的に統合し,高レベルセマンティック情報を強化する。 5つの公開データセットの大規模な実験結果により,本手法の有効性が検証された。 例えば,ShangHaiTech\_PartAデータセットの平均絶対誤差は51.87であり,平均2乗誤差は81.3である。 私たちのコードはもうすぐ来る。

As a deep learning model, Visual Mamba (VMamba) has a low computational complexity and a global receptive field, which has been successful applied to image classification and detection. To extend its applications, we apply VMamba to crowd counting and propose a novel VMambaCC (VMamba Crowd Counting) model. Naturally, VMambaCC inherits the merits of VMamba, or global modeling for images and low computational cost. Additionally, we design a Multi-head High-level Feature (MHF) attention mechanism for VMambaCC. MHF is a new attention mechanism that leverages high-level semantic features to augment low-level semantic features, thereby enhancing spatial feature representation with greater precision. Building upon MHF, we further present a High-level Semantic Supervised Feature Pyramid Network (HS2PFN) that progressively integrates and enhances high-level semantic information with low-level semantic information. Extensive experimental results on five public datasets validate the efficacy of our approach. For example, our method achieves a mean absolute error of 51.87 and a mean squared error of 81.3 on the ShangHaiTech\_PartA dataset. Our code is coming soon.
翻訳日:2024-05-08 15:28:42 公開日:2024-05-07
# 深層学習を用いた画像を用いたAQI解析による肺疾患の重症度予測

Predicting Lung Disease Severity via Image-Based AQI Analysis using Deep Learning Techniques ( http://arxiv.org/abs/2405.03981v1 )

ライセンス: Link先を確認
Anvita Mahajan, Sayali Mate, Chinmayee Kulkarni, Suraj Sawant, (参考訳) 大気汚染は世界中で重要な健康上の問題であり、様々な呼吸器疾患に寄与している。 スマートシティの出現とInternet-of-Thingsセンサーデバイスの普及による大気質マッピングの進歩は、利用可能なデータの増加につながり、大気汚染予測の勢いを増している。 本研究の目的は、画像データを用いて空気質を予測するための統合的なアプローチを考案し、その後、空気質指標(AQI)に基づいて肺疾患の重症度を評価することである。 本研究の目的は,AQIおよび肺疾患重症度予測の精度を向上させるため,既存の手法を改良し,統合的アプローチを実現することである。 この研究は、PM2.5レベルに加えて、AQI、PM10、O3、CO、SO2、NO2などの大気汚染物質を予測することを目的としている。 さらに,本研究は,提案手法と既存手法を比較し,その有効性を示すことを目的とする。 本稿では,画像の特徴抽出にVGG16モデル,AQI予測にニューラルネットワークを用い,肺疾患の重症度を予測するために,支援ベクトル分類器(SVC)とK-Nearest Neighbors(KNN)アルゴリズムを用いる。 AQI予測のためのニューラルネットワークモデルは、損失関数を用いて測定された88.54 %のトレーニング精度と87.44%のテスト精度を達成し、一方、肺疾患の重症度を予測するために使用されるKNNモデルは、98.4%のトレーニング精度と97.5%のテスト精度を達成した。 将来のスコープには、予測機能を強化するためにトランスファーラーニングと高度なディープラーニングモジュールを実装することが含まれる。 本研究はインドに焦点をあてるが、その目的は、その範囲を広げてグローバルなカバー範囲を広げることである。

Air pollution is a significant health concern worldwide, contributing to various respiratory diseases. Advances in air quality mapping, driven by the emergence of smart cities and the proliferation of Internet-of-Things sensor devices, have led to an increase in available data, fueling momentum in air pollution forecasting. The objective of this study is to devise an integrated approach for predicting air quality using image data and subsequently assessing lung disease severity based on Air Quality Index (AQI).The aim is to implement an integrated approach by refining existing techniques to improve accuracy in predicting AQI and lung disease severity. The study aims to forecast additional atmospheric pollutants like AQI, PM10, O3, CO, SO2, NO2 in addition to PM2.5 levels. Additionally, the study aims to compare the proposed approach with existing methods to show its effectiveness. The approach used in this paper uses VGG16 model for feature extraction in images and neural network for predicting AQI.In predicting lung disease severity, Support Vector Classifier (SVC) and K-Nearest Neighbors (KNN) algorithms are utilized. The neural network model for predicting AQI achieved training accuracy of 88.54 % and testing accuracy of 87.44%,which was measured using loss function, while the KNN model used for predicting lung disease severity achieved training accuracy of 98.4% and testing accuracy of 97.5% In conclusion, the integrated approach presented in this study forecasts air quality and evaluates lung disease severity, achieving high testing accuracies of 87.44% for AQI and 97.5% for lung disease severity using neural network, KNN, and SVC models. The future scope involves implementing transfer learning and advanced deep learning modules to enhance prediction capabilities. While the current study focuses on India, the objective is to expand its scope to encompass global coverage.
翻訳日:2024-05-08 15:28:42 公開日:2024-05-07
# SORAの使用意欲に影響する要因

Factors Influencing User Willingness To Use SORA ( http://arxiv.org/abs/2405.03986v1 )

ライセンス: Link先を確認
Gustave Florentin Nkoulou Mvondo, Ben Niu, (参考訳) Soraは、ビジュアルコンテンツの作り方を再定義することを約束している。 数多くの予測された利点にもかかわらず、ユーザーがテキスト・ツー・ビデオ(T2V)モデルを使う意思のあるドライバは未知数である。 本研究は、テクノロジーの受容と利用に関する拡張された統一理論(UTAUT2)を拡張し、現実主義と新規性の価値を認識した。 提案手法を用いて,米国940名の回答者のデータを収集し,共分散に基づく構造方程式モデリングとファジィ集合定性比較分析(fsQCA)を用いて分析した。 その結果、すべての仮説化された関係が支持され、最も影響力のあるドライバーとして認識されるリアリズムが出現し、新規性の価値が続くことが明らかとなった。 さらに、fsQCAは、使用意欲の高低につながる5つの構成を特定し、モデルが高い予測妥当性を示し、理論の進歩に寄与する。 我々の研究は、開発者やマーケッターに貴重な洞察を与え、T2Vモデルの普及を促進する戦略的決定のためのガイダンスを提供する。

Sora promises to redefine the way visual content is created. Despite its numerous forecasted benefits, the drivers of user willingness to use the text-to-video (T2V) model are unknown. This study extends the extended unified theory of acceptance and use of technology (UTAUT2) with perceived realism and novelty value. Using a purposive sampling method, we collected data from 940 respondents in the US and analyzed the sample using covariance-based structural equation modeling and fuzzy set qualitative comparative analysis (fsQCA). The findings reveal that all hypothesized relationships are supported, with perceived realism emerging as the most influential driver, followed by novelty value. Moreover, fsQCA identifies five configurations leading to high and low willingness to use, and the model demonstrates high predictive validity, contributing to theory advancement. Our study provides valuable insights for developers and marketers, offering guidance for strategic decisions to promote the widespread adoption of T2V models.
翻訳日:2024-05-08 15:28:42 公開日:2024-05-07
# 潜流による化学空間の航行

Navigating Chemical Space with Latent Flows ( http://arxiv.org/abs/2405.03987v1 )

ライセンス: Link先を確認
Guanghao Wei, Yining Huang, Chenru Duan, Yue Song, Yuanqi Du, (参考訳) ビジョンと言語領域における深層生成モデルの最近の進歩は、分子のようなより構造化されたデータ生成に大きな関心を喚起している。 しかし、新しいランダム分子の生成、効率的な探索、広大な化学空間の包括的理解は、分子科学と薬物設計および物質発見への応用において非常に重要である。 本稿では,分子生成モデルによって学習された潜伏空間をフローを通してナビゲートすることで,化学空間を横断する新しいフレームワークであるChemFlowを提案する。 分子分布の質量を所望の分子特性や構造多様性を持つ領域へ輸送するベクトル場を学習するために問題を定式化する力学系の観点を導入する。 本枠組みでは, 分子潜在空間トラバーサルと最適化に関する従来のアプローチを統一し, 異なる物理項を組み込んだ競合手法を提案する。 分子操作におけるChemFlowの有効性と,分子探索と教師なしの両方の条件下での単目的および多目的分子最適化タスクの有効性を検証した。 コードとデモはGitHubでhttps://github.com/garywei944/ChemFlowで公開されている。

Recent progress of deep generative models in the vision and language domain has stimulated significant interest in more structured data generation such as molecules. However, beyond generating new random molecules, efficient exploration and a comprehensive understanding of the vast chemical space are of great importance to molecular science and applications in drug design and materials discovery. In this paper, we propose a new framework, ChemFlow, to traverse chemical space through navigating the latent space learned by molecule generative models through flows. We introduce a dynamical system perspective that formulates the problem as learning a vector field that transports the mass of the molecular distribution to the region with desired molecular properties or structure diversity. Under this framework, we unify previous approaches on molecule latent space traversal and optimization and propose alternative competing methods incorporating different physical priors. We validate the efficacy of ChemFlow on molecule manipulation and single- and multi-objective molecule optimization tasks under both supervised and unsupervised molecular discovery settings. Codes and demos are publicly available on GitHub at https://github.com/garywei944/ChemFlow.
翻訳日:2024-05-08 15:28:42 公開日:2024-05-07
# 産業応用のための大規模言語モデルからの勧告への知識適応

Knowledge Adaptation from Large Language Model to Recommendation for Practical Industrial Application ( http://arxiv.org/abs/2405.03988v1 )

ライセンス: Link先を確認
Jian Jia, Yipei Wang, Yan Li, Honggang Chen, Xuehan Bai, Zhaocheng Liu, Jian Liang, Quan Chen, Han Li, Peng Jiang, Kun Gai, (参考訳) 現代のレコメンデータシステムは、主に協調フィルタリング技術に依存しており、ユーザやアイテム間の潜伏関係を捉えるためにID埋め込みを使用している。 しかし,本手法は,項目のテキスト記述に埋め込まれた意味情報の豊富さを克服し,コールドスタートシナリオにおける準最適性能とロングテールユーザレコメンデーションを実現する。 大規模テキストコーパスで事前訓練されたLarge Language Models(LLM)の機能を活用することで、オープンワールドのドメイン知識を統合することでレコメンダシステムを強化するための有望な方法が提示される。 本稿では,Llm-driven knowlEdge Adaptive RecommeNdation (LEARN) フレームワークを提案する。 我々は,事前学習したLLMをアイテムエンコーダとして利用し,LLMパラメータを凍結することにより,破滅的な忘れ込みを回避し,オープンワールドの知識を保存し,計算複雑性の懸念に対処する。 オープンワールドとコラボレーティブドメインのギャップを埋めるために、推奨タスクによって監督されるツイントウ構造を設計し、実用的な産業用途に適合させる。 大規模産業データセットのオフライン実験とA/Bテストのオンライン実験を通じて,本手法の有効性を実証した。

Contemporary recommender systems predominantly rely on collaborative filtering techniques, employing ID-embedding to capture latent associations among users and items. However, this approach overlooks the wealth of semantic information embedded within textual descriptions of items, leading to suboptimal performance in cold-start scenarios and long-tail user recommendations. Leveraging the capabilities of Large Language Models (LLMs) pretrained on massive text corpus presents a promising avenue for enhancing recommender systems by integrating open-world domain knowledge. In this paper, we propose an Llm-driven knowlEdge Adaptive RecommeNdation (LEARN) framework that synergizes open-world knowledge with collaborative knowledge. We address computational complexity concerns by utilizing pretrained LLMs as item encoders and freezing LLM parameters to avoid catastrophic forgetting and preserve open-world knowledge. To bridge the gap between the open-world and collaborative domains, we design a twin-tower structure supervised by the recommendation task and tailored for practical industrial application. Through offline experiments on the large-scale industrial dataset and online experiments on A/B tests, we demonstrate the efficacy of our approach.
翻訳日:2024-05-08 15:28:42 公開日:2024-05-07
# TrimCaching: 無線エッジネットワークにおけるパラメータ共有AIモデルキャッシュ

TrimCaching: Parameter-sharing AI Model Caching in Wireless Edge Networks ( http://arxiv.org/abs/2405.03990v1 )

ライセンス: Link先を確認
Guanqiao Qu, Zheng Lin, Fangming Liu, Xianhao Chen, Kaibin Huang, (参考訳) 次世代のモバイルネットワークは、エンドユーザへの高速なAIモデルダウンロードを容易にすることが期待されている。 エッジサーバにモデルをキャッシュすることで、モバイルネットワークは低レイテンシでエンドユーザにモデルを配信することが可能になる。 本稿では,パラメータ共有モデルキャッシング(TrimCaching)と呼ばれる新しいモデル配置手法を提案する。 TrimCachingは、畳み込みニューラルネットワークや大規模言語モデルといった幅広いAIモデルが、再利用可能な知識を含むパラメータブロックのかなりの割合を共有できるため、ストレージ効率が向上する、という重要な観察を活用する。 この目的のために、ストレージ効率とサービスレイテンシの基本的なトレードオフをバランスさせて、パラメータ共有モデル配置問題を定式化し、マルチエッジ無線ネットワークにおけるキャッシュヒット率を最大化する。 定式化問題は、多項式時間近似アルゴリズムが存在しない部分モジュラー制約を持つ部分モジュラー最大化問題であることを示す。 この課題を克服するために、モデル間で少数のパラメータブロックが共有される重要なケースについて検討する。 そのような場合、$\left(1-\epsilon\right)/2$-approximationが保証される多項式時間アルゴリズムを開発する。 その後、グリーディアルゴリズムを考案し、一般事例の原問題に対処する。 シミュレーションの結果,提案したTrimCachingフレームワークは,AIモデルで共有パラメータを利用することなく,最先端のコンテンツキャッシュと比較してキャッシュヒット率を大幅に向上することが示された。

Next-generation mobile networks are expected to facilitate fast AI model downloading to end users. By caching models on edge servers, mobile networks can deliver models to end users with low latency, resulting in a paradigm called edge model caching. In this paper, we develop a novel model placement scheme, called parameter-sharing model caching (TrimCaching). TrimCaching exploits the key observation that a wide range of AI models, such as convolutional neural networks or large language models, can share a significant proportion of parameter blocks containing reusable knowledge, thereby improving storage efficiency. To this end, we formulate a parameter-sharing model placement problem to maximize the cache hit ratio in multi-edge wireless networks by balancing the fundamental tradeoff between storage efficiency and service latency. We show that the formulated problem is a submodular maximization problem with submodular constraints, for which no polynomial-time approximation algorithm exists. To overcome this challenge, we study an important special case, where a small fixed number of parameter blocks are shared across models, which often holds in practice. In such a case, a polynomial-time algorithm with $\left(1-\epsilon\right)/2$-approximation guarantee is developed. Subsequently, we address the original problem for the general case by developing a greedy algorithm. Simulation results demonstrate that the proposed TrimCaching framework significantly improves the cache hit ratio compared with state-of-the-art content caching without exploiting shared parameters in AI models.
翻訳日:2024-05-08 15:28:42 公開日:2024-05-07
# Assemblage: 機械学習のための自動バイナリデータセット構築

Assemblage: Automatic Binary Dataset Construction for Machine Learning ( http://arxiv.org/abs/2405.03991v1 )

ライセンス: Link先を確認
Chang Liu, Rebecca Saul, Yihao Sun, Edward Raff, Maya Fuchs, Townsend Southard Pantano, James Holt, Kristopher Micinski, (参考訳) バイナリコードは普及しており、バイナリ分析はリバースエンジニアリング、マルウェア分類、脆弱性発見において重要なタスクである。 残念なことに、悪意のあるバイナリの大量のコーパスが存在する一方で、現代のシステムの良質なバイナリの高品質なコーパスを取得することは、難しい(例えば、ライセンスの問題)。 その結果、バイナリ分析のための機械学習ベースのパイプラインは、高価な商用コーパス(例: VirusTotal)またはオープンソースのバイナリ(例: coreutils)を限られた量で使用することができる。 これらの問題に対処するために、Assemblage: Windows PEバイナリをクロールし、構成し、ビルドする拡張可能なクラウドベースの分散システム。 過去1年間、AWS上でAssemblageを実行し、29構成で890kのWindows PEと428kのLinux ELFバイナリを生成しました。 Assemblageは再現性と拡張性の両方に設計されており、ユーザはデータセットの“レシピ”を公開でき、幅広い機能の抽出を容易にする。 我々は、Assemblageのデータを用いて、コンパイラの証明とバイナリ関数の類似性に関する現代の学習ベースのパイプラインをトレーニングすることで、Assemblageを評価した。 この結果から,現代学習に基づくバイナリ分析の訓練において,高品質なWindows PEバイナリの堅牢なコーパスの必要性が示唆された。 Assemblageはhttps://assemblage-dataset.netからダウンロードできる。

Binary code is pervasive, and binary analysis is a key task in reverse engineering, malware classification, and vulnerability discovery. Unfortunately, while there exist large corpuses of malicious binaries, obtaining high-quality corpuses of benign binaries for modern systems has proven challenging (e.g., due to licensing issues). Consequently, machine learning based pipelines for binary analysis utilize either costly commercial corpuses (e.g., VirusTotal) or open-source binaries (e.g., coreutils) available in limited quantities. To address these issues, we present Assemblage: an extensible cloud-based distributed system that crawls, configures, and builds Windows PE binaries to obtain high-quality binary corpuses suitable for training state-of-the-art models in binary analysis. We have run Assemblage on AWS over the past year, producing 890k Windows PE and 428k Linux ELF binaries across 29 configurations. Assemblage is designed to be both reproducible and extensible, enabling users to publish "recipes" for their datasets, and facilitating the extraction of a wide array of features. We evaluated Assemblage by using its data to train modern learning-based pipelines for compiler provenance and binary function similarity. Our results illustrate the practical need for robust corpuses of high-quality Windows PE binaries in training modern learning-based binary analyses. Assemblage can be downloaded from https://assemblage-dataset.net
翻訳日:2024-05-08 15:28:42 公開日:2024-05-07
# 自律運転におけるディープイベントに基づく物体検出:サーベイ

Deep Event-based Object Detection in Autonomous Driving: A Survey ( http://arxiv.org/abs/2405.03995v1 )

ライセンス: Link先を確認
Bingquan Zhou, Jie Jiang, (参考訳) 物体検出は自律運転において重要な役割を担い、高速移動シーンにおける物体を正確かつ効率的に検出することが重要である。 従来のフレームベースのカメラは、レイテンシと帯域幅のバランスをとる上で課題に直面しており、革新的なソリューションの必要性も必要である。 イベントカメラは、低レイテンシ、高ダイナミックレンジ、低消費電力のために、自動運転のための有望なセンサーとして登場した。 しかし、非同期かつスパースなイベントデータを有効に活用することは、特に低レイテンシとオブジェクト検出のための軽量なアーキテクチャを維持する上で、課題となる。 本稿では,自律走行におけるイベントデータを用いた物体検出の概要について述べる。

Object detection plays a critical role in autonomous driving, where accurately and efficiently detecting objects in fast-moving scenes is crucial. Traditional frame-based cameras face challenges in balancing latency and bandwidth, necessitating the need for innovative solutions. Event cameras have emerged as promising sensors for autonomous driving due to their low latency, high dynamic range, and low power consumption. However, effectively utilizing the asynchronous and sparse event data presents challenges, particularly in maintaining low latency and lightweight architectures for object detection. This paper provides an overview of object detection using event data in autonomous driving, showcasing the competitive benefits of event cameras.
翻訳日:2024-05-08 15:28:42 公開日:2024-05-07
# Sketchが生成する: インクリメンタルなフィードバックの提供と言語指向のコードスケッチによるLLMコード生成のガイド

Sketch Then Generate: Providing Incremental User Feedback and Guiding LLM Code Generation through Language-Oriented Code Sketches ( http://arxiv.org/abs/2405.03998v1 )

ライセンス: Link先を確認
Chen Zhu-Tian, Zeyu Xiong, Xiaoshuo Yao, Elena Glassman, (参考訳) コード生成やLLM(Large Language Models)による編集のための効果的なプロンプトの作成は容易ではない。 特に、即時かつ安定したフィードバックがない場合は、コードが生成されるまで、ユーザーが精神的に予測できる結果が残されるため、効果的なインタラクションを妨げます。 これに対してLanguage-Oriented Code Sketchingというインタラクティブなアプローチを導入しました。 このアプローチは、プロンプト内の固有の言語構造を活用し、古典的な自然言語処理技術を適用して、プロンプトをコードスケッチに変換する。 スケッチは、意図したコード構造をプレビューするだけでなく、所望のコードに向けてLLMを誘導する中間のプレースホルダーとして機能し、それによって人間とLLMのインタラクションが向上する。 我々は、アプローチの適用性と今後の計画について議論することで締めくくります。

Crafting effective prompts for code generation or editing with Large Language Models (LLMs) is not an easy task. Particularly, the absence of immediate, stable feedback during prompt crafting hinders effective interaction, as users are left to mentally imagine possible outcomes until the code is generated. In response, we introduce Language-Oriented Code Sketching, an interactive approach that provides instant, incremental feedback in the form of code sketches (i.e., incomplete code outlines) during prompt crafting. This approach converts a prompt into a code sketch by leveraging the inherent linguistic structures within the prompt and applying classic natural language processing techniques. The sketch then serves as an intermediate placeholder that not only previews the intended code structure but also guides the LLM towards the desired code, thereby enhancing human-LLM interaction. We conclude by discussing the approach's applicability and future plans.
翻訳日:2024-05-08 15:28:42 公開日:2024-05-07
# フーリエニューラル演算子を用いた拡散レジームにおける高エネルギー密度放射移動

High Energy Density Radiative Transfer in the Diffusion Regime with Fourier Neural Operators ( http://arxiv.org/abs/2405.04003v1 )

ライセンス: Link先を確認
Joseph Farmer, Ethan Smith, William Bennett, Ryan McClarren, (参考訳) 放射熱伝達は高エネルギー密度物理学と慣性融合の基本的な過程である。 マーシャク波の挙動を幅広い材料特性と駆動条件で正確に予測することは、これらのシステムの設計と解析に不可欠である。 従来の数値解法と解析近似は、精度と計算効率の点でしばしば課題に直面している。 本研究では,フーリエニューラル演算子(FNO)を用いたマーシャック波のモデル化手法を提案する。 本研究では,(1)ハマー・アンド・ローゼン(2003)による広く用いられている解析モデルに基づく解近似への駆動条件と材料特性のマッピングを学習するベースモデルと,(2)より正確な数値解へのマッピングを学習して解析近似の不正確さを補正するモデルである。 その結果、FNOの強い一般化能力を示し、ベース解析モデルと比較して予測精度が大幅に向上した。

Radiative heat transfer is a fundamental process in high energy density physics and inertial fusion. Accurately predicting the behavior of Marshak waves across a wide range of material properties and drive conditions is crucial for design and analysis of these systems. Conventional numerical solvers and analytical approximations often face challenges in terms of accuracy and computational efficiency. In this work, we propose a novel approach to model Marshak waves using Fourier Neural Operators (FNO). We develop two FNO-based models: (1) a base model that learns the mapping between the drive condition and material properties to a solution approximation based on the widely used analytic model by Hammer & Rosen (2003), and (2) a model that corrects the inaccuracies of the analytic approximation by learning the mapping to a more accurate numerical solution. Our results demonstrate the strong generalization capabilities of the FNOs and show significant improvements in prediction accuracy compared to the base analytic model.
翻訳日:2024-05-08 15:28:42 公開日:2024-05-07
# SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing

SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing ( http://arxiv.org/abs/2405.04007v1 )

ライセンス: Link先を確認
Yuying Ge, Sijie Zhao, Chen Li, Yixiao Ge, Ying Shan, (参考訳) 本稿では,SEED-Data-Editについて紹介する。SEED-Data-Editは命令誘導画像編集のためのユニークなハイブリッドデータセットであり,オープンフォーム言語を用いた画像操作を容易にすることを目的としている。 SEED-Data-Edit は,(1) 自動パイプラインによって生成される高品質な編集データである。 2)インターネットから収集した実世界のシナリオデータは,実世界の画像編集の実践的応用を促進するためのユーザ意図の複雑さを捉えている。 (3) 反復編集過程を模擬する複数ラウンドの編集を含む,人間によって注釈付けされた高精度なマルチターン編集データ。 これらの多様なデータソースを組み合わせることで、SEED-Data-Editは言語誘導画像編集モデルをトレーニングするための包括的で汎用的なデータセットになる。 我々は、SEED-Data-Editで理解と生成を統一する事前訓練されたマルチモーダル大言語モデル(MLLM)を微調整する。 インストラクションチューニングモデルは有望な結果を示し、インストラクショナル画像編集の分野を前進させるSEED-Data-Editの可能性と有効性を示す。 データセットはhttps://huggingface.co/datasets/AILab-CVC/SEED-Data-Editでリリースされている。

In this technical report, we introduce SEED-Data-Edit: a unique hybrid dataset for instruction-guided image editing, which aims to facilitate image manipulation using open-form language. SEED-Data-Edit is composed of three distinct types of data: (1) High-quality editing data produced by an automated pipeline, ensuring a substantial volume of diverse image editing pairs. (2) Real-world scenario data collected from the internet, which captures the intricacies of user intentions for promoting the practical application of image editing in the real world. (3) High-precision multi-turn editing data annotated by humans, which involves multiple rounds of edits for simulating iterative editing processes. The combination of these diverse data sources makes SEED-Data-Edit a comprehensive and versatile dataset for training language-guided image editing model. We fine-tune a pretrained Multimodal Large Language Model (MLLM) that unifies comprehension and generation with SEED-Data-Edit. The instruction tuned model demonstrates promising results, indicating the potential and effectiveness of SEED-Data-Edit in advancing the field of instructional image editing. The datasets are released in https://huggingface.co/datasets/AILab-CVC/SEED-Data-Edit.
翻訳日:2024-05-08 15:18:57 公開日:2024-05-07
# 変換器を用いた対話型セグメンテーションにおける構造的クリック制御

Structured Click Control in Transformer-based Interactive Segmentation ( http://arxiv.org/abs/2405.04009v1 )

ライセンス: Link先を確認
Long Xu, Yongquan Chen, Rui Huang, Feng Wu, Shiwu Lai, (参考訳) クリックポイントに基づくインタラクティブセグメンテーションは、その効率性から広く注目を集めている。 しかし、既存のアルゴリズムでは、複数クリックで正確で堅牢な応答を得るのは難しい。 この場合、セグメンテーションの結果は変化が少ないか、以前よりもさらに悪い傾向にある。 ユーザクリックトランスフォーマートークンのグローバルな類似性を利用してグラフノードを適応的に取得するグラフニューラルネットワークに基づく構造化クリックインテントモデルを提案する。 次にグラフノードを集約して、構造化された相互作用機能を得る。 最後に、デュアル・クロスアテンションを使用して、構造化された相互作用機能を視覚変換器機能に注入し、セグメンテーション結果のクリック制御を強化する。 大規模な実験により、提案アルゴリズムはTransformerベースの対話セグメントを改善するための一般的な構造として機能するか? オン・パフォーマンス コードとデータはhttps://github.com/hahamyt/scc.orgで公開される。

Click-point-based interactive segmentation has received widespread attention due to its efficiency. However, it's hard for existing algorithms to obtain precise and robust responses after multiple clicks. In this case, the segmentation results tend to have little change or are even worse than before. To improve the robustness of the response, we propose a structured click intent model based on graph neural networks, which adaptively obtains graph nodes via the global similarity of user-clicked Transformer tokens. Then the graph nodes will be aggregated to obtain structured interaction features. Finally, the dual cross-attention will be used to inject structured interaction features into vision Transformer features, thereby enhancing the control of clicks over segmentation results. Extensive experiments demonstrated the proposed algorithm can serve as a general structure in improving Transformer-based interactive segmenta?tion performance. The code and data will be released at https://github.com/hahamyt/scc.
翻訳日:2024-05-08 15:18:57 公開日:2024-05-07
# 説明可能性インフォームド・ターゲット型マルウェアの誤分類

Explainability-Informed Targeted Malware Misclassification ( http://arxiv.org/abs/2405.04010v1 )

ライセンス: Link先を確認
Quincy Card, Kshitiz Aryal, Maanak Gupta, (参考訳) 近年、重要なインフラをまたいだマルウェア攻撃が急増しており、マルウェアの検出と分類において適切な対応と修復戦略のさらなる研究と開発が求められている。 いくつかの研究では、マルウェアを分類するために機械学習モデルを使用しており、ディープニューラルネットワークは有望な結果を示している。 しかし、これらのモデルは意図的な敵攻撃に対する脆弱性を示しており、悪意のあるファイルの誤分類をもたらす。 本稿では,ニューラルネットワークを用いたマルウェア分類システムの動的およびオンライン解析環境における敵的脆弱性について検討する。 提案手法を評価するために,動的およびオンライン分析環境から得られた特徴に基づいてマルウェアカテゴリを分類するために,FFNN(Feed Forward Neural Networks)を訓練した。 我々は、マルウェア分類に寄与する特徴として、最先端のSHAP(SHapley Additive exPlanations)を用いて、攻撃者に対して、分類決定に重要な重要な特徴を知らせる。 本稿では,FGSM(Fast Gradient Sign Method)とPGD(Projected Gradient Descent)を用いて,学習した分類器に対するターゲットミス分類逆ホワイトボックス回避攻撃を行う。 その結果,攻撃事例では高い回避率を示し,そのような攻撃に対するマルウェア分類器の脆弱性が明らかとなった。 我々は、バランスのとれたアプローチの推奨と、マルウェア分類器に対する回避攻撃に関する、待望の将来の研究のためのベンチマークを提供し、より堅牢で信頼性の高いソリューションを開発します。

In recent years, there has been a surge in malware attacks across critical infrastructures, requiring further research and development of appropriate response and remediation strategies in malware detection and classification. Several works have used machine learning models for malware classification into categories, and deep neural networks have shown promising results. However, these models have shown its vulnerabilities against intentionally crafted adversarial attacks, which yields misclassification of a malicious file. Our paper explores such adversarial vulnerabilities of neural network based malware classification system in the dynamic and online analysis environments. To evaluate our approach, we trained Feed Forward Neural Networks (FFNN) to classify malware categories based on features obtained from dynamic and online analysis environments. We use the state-of-the-art method, SHapley Additive exPlanations (SHAP), for the feature attribution for malware classification, to inform the adversarial attackers about the features with significant importance on classification decision. Using the explainability-informed features, we perform targeted misclassification adversarial white-box evasion attacks using the Fast Gradient Sign Method (FGSM) and Projected Gradient Descent (PGD) attacks against the trained classifier. Our results demonstrated high evasion rate for some instances of attacks, showing a clear vulnerability of a malware classifier for such attacks. We offer recommendations for a balanced approach and a benchmark for much-needed future research into evasion attacks against malware classifiers, and develop more robust and trustworthy solutions.
翻訳日:2024-05-08 15:18:57 公開日:2024-05-07
# マルチスケールバイオプロセス確率的反応ネットワークにおける随伴感度解析

Adjoint Sensitivity Analysis on Multi-Scale Bioprocess Stochastic Reaction Network ( http://arxiv.org/abs/2405.04011v1 )

ライセンス: Link先を確認
Keilung Choy, Wei Xie, (参考訳) 生物製造プロセスにおけるデジタル双極子開発におけるプレス課題に触発され,機械的モデルパラメータの学習を迅速化するための随伴感度解析(SA)手法が導入された。 本稿では, 多様な生産プロセスから異なるデータを統合し, 既存のマクロ動態モデルとゲノムスケールモデルからの情報を活用できる, マルチスケールのバイオプロセス力学モデルを表現する酵素的確率的反応ネットワークについて考察する。 本研究では, モデルパラメータと入力(例えば初期状態)の摂動が, 酵素反応ネットワークを介して伝播し, 出力軌道予測に与える影響について, 収束随伴SAアルゴリズムを開発した。 このSAは、その因果依存性を考慮に入れた入力と出力の間の感度を評価するための、効率的で解釈可能なサンプルを提供することができる。 我々の実証研究は、これらの感度のレジリエンスを強調し、感度を通してバイオプロセスの背後にある制御機構の深い理解を照らす。

Motivated by the pressing challenges in the digital twin development for biomanufacturing process, we introduce an adjoint sensitivity analysis (SA) approach to expedite the learning of mechanistic model parameters. In this paper, we consider enzymatic stochastic reaction networks representing a multi-scale bioprocess mechanistic model that allows us to integrate disparate data from diverse production processes and leverage the information from existing macro-kinetic and genome-scale models. To support forward prediction and backward reasoning, we develop a convergent adjoint SA algorithm studying how the perturbations of model parameters and inputs (e.g., initial state) propagate through enzymatic reaction networks and impact on output trajectory predictions. This SA can provide a sample efficient and interpretable way to assess the sensitivities between inputs and outputs accounting for their causal dependencies. Our empirical study underscores the resilience of these sensitivities and illuminates a deeper comprehension of the regulatory mechanisms behind bioprocess through sensitivities.
翻訳日:2024-05-08 15:18:57 公開日:2024-05-07
# 分散リーチ回避特性下におけるMDPの認証政策検証と合成

Certified Policy Verification and Synthesis for MDPs under Distributional Reach-avoidance Properties ( http://arxiv.org/abs/2405.04015v1 )

ライセンス: Link先を確認
S. Akshay, Krishnendu Chatterjee, Tobias Meggendorfer, Đorđe Žikelić, (参考訳) マルコフ決定プロセス(MDP)は、不確実性の存在下での意思決定の古典的なモデルである。 多くの場合、それらはMDP状態を越える経路に関して定義された計画目標を持つ状態変換器と見なされる。 人気が高まっている別の選択肢は、これらを分布変換器と見なすことで、MDP状態上の確率分布の列を生じさせることである。 例えば、ロボット群や化学反応ネットワークの到達性と安全性は、状態上の確率分布の観点から自然に定義される。 このような分布特性の検証は困難であることが知られており、しばしば古典的状態に基づく検証技術の範囲を超えている。 本研究では,分散リーチ回避仕様の下でのMDPにおける認証ポリシ(すなわちコントローラ)の検証と合成の問題点について考察する。 認証により、政策とともに、MDPが実際にその財産を満足することを保証する(確認可能な)証明書の合成も目指している。 したがって、MDP状態上の分布のターゲットセットと安全でない分布の集合を考えると、我々のゴールは、所定のポリシーの証明書を合成するか、または証明書と共にポリシーを合成し、不正な分布を回避しつつ目標分布に到達できることを証明することである。 そこで本研究では,(1)所定のポリシの証明書を合成するための自動手順と,(2)証明の正確性に関する公式な保証を提供するとともに,その証明書とともにポリシーを合成する手法を提案する。 実験により,本手法は,マルチエージェントロボット・ショームモデルを含むいくつかの非自明な事例を解決し,認証ポリシーを合成し,既存のポリシーを認証する能力を示す。

Markov Decision Processes (MDPs) are a classical model for decision making in the presence of uncertainty. Often they are viewed as state transformers with planning objectives defined with respect to paths over MDP states. An increasingly popular alternative is to view them as distribution transformers, giving rise to a sequence of probability distributions over MDP states. For instance, reachability and safety properties in modeling robot swarms or chemical reaction networks are naturally defined in terms of probability distributions over states. Verifying such distributional properties is known to be hard and often beyond the reach of classical state-based verification techniques. In this work, we consider the problems of certified policy (i.e. controller) verification and synthesis in MDPs under distributional reach-avoidance specifications. By certified we mean that, along with a policy, we also aim to synthesize a (checkable) certificate ensuring that the MDP indeed satisfies the property. Thus, given the target set of distributions and an unsafe set of distributions over MDP states, our goal is to either synthesize a certificate for a given policy or synthesize a policy along with a certificate, proving that the target distribution can be reached while avoiding unsafe distributions. To solve this problem, we introduce the novel notion of distributional reach-avoid certificates and present automated procedures for (1) synthesizing a certificate for a given policy, and (2) synthesizing a policy together with the certificate, both providing formal guarantees on certificate correctness. Our experimental evaluation demonstrates the ability of our method to solve several non-trivial examples, including a multi-agent robot-swarm model, to synthesize certified policies and to certify existing policies.
翻訳日:2024-05-08 15:18:57 公開日:2024-05-07
# 深部ニューラルネットワークを用いた時間差学習の有限時間解析の改良

An Improved Finite-time Analysis of Temporal Difference Learning with Deep Neural Networks ( http://arxiv.org/abs/2405.04017v1 )

ライセンス: Link先を確認
Zhifa Ke, Zaiwen Wen, Junyu Zhang, (参考訳) ニューラルネットワーク機能パラメータ化を用いた時間差学習アルゴリズムは,多くの大規模強化学習タスクにおいて実証的な成功を収めている。 しかし、これらのアルゴリズムの理論的理解は、作用値近似の非線形性のため、依然として困難である。 本稿では,一般の$L$層ニューラルネットワークを用いたニューラルTD法の非漸近解析を改良した。 新しい証明手法が開発され、新しい$\tilde{\mathcal{O}}(\epsilon^{-1})$サンプルの複雑さが導出される。 我々の知る限り、これはマルコフサンプリングの下での$\tilde{\mathcal{O}}(\epsilon^{-1})$複雑性を達成するニューラルなTDの有限時間解析であり、既存の文献における$\tilde{\mathcal{O}}(\epsilon^{-2})$複雑性とは対照的である。

Temporal difference (TD) learning algorithms with neural network function parameterization have well-established empirical success in many practical large-scale reinforcement learning tasks. However, theoretical understanding of these algorithms remains challenging due to the nonlinearity of the action-value approximation. In this paper, we develop an improved non-asymptotic analysis of the neural TD method with a general $L$-layer neural network. New proof techniques are developed and an improved new $\tilde{\mathcal{O}}(\epsilon^{-1})$ sample complexity is derived. To our best knowledge, this is the first finite-time analysis of neural TD that achieves an $\tilde{\mathcal{O}}(\epsilon^{-1})$ complexity under the Markovian sampling, as opposed to the best known $\tilde{\mathcal{O}}(\epsilon^{-2})$ complexity in the existing literature.
翻訳日:2024-05-08 15:18:57 公開日:2024-05-07
# 低エントロピー速度ランダム性源のためのロバストかつ再利用可能なファジィ外乱子

Robust and Reusable Fuzzy Extractors for Low-entropy Rate Randomness Sources ( http://arxiv.org/abs/2405.04021v1 )

ライセンス: Link先を確認
Somnath Panja, Shaoquan Jiang, Reihaneh Safavi-Naini, (参考訳) ファジィ抽出器(英: Fuzzy extractor, FE)は、バイオメトリックソースのようなノイズの多い現実世界のランダムソースから信頼できる暗号鍵を抽出する暗号プリミティブである。 FE生成アルゴリズムは、ソースサンプルを取得し、キーを抽出し、再生アルゴリズムがキーを復元するために使用するヘルパーデータを生成する。 FEの再利用性は、FEが同じソースで複数回使用される場合にセキュリティが保持されることを保証する。 本稿では,情報理論的 FE を考察し,再利用可能性の強い概念を定義し,再利用可能性と堅牢性という最強の複合概念を提供する強靭で再利用可能な FE (srrFE) を提案する。 我々は、再利用可能なFEと、構造化されたソースに対する情報理論(IT)セキュリティを備えたsrrFEの2つの構成を提供する。 構成は構造化されたソースのためのものであり、サンプル-then-lockアプローチを使用する。 それぞれの構成について論じ、その特性を既存の作業に関連付けて示す。 コンストラクション2は、ランダムなオラクルを仮定せずにITセキュリティを備えた最初の堅牢で再利用可能なFEである。 この堅牢性は、キーシフト攻撃に対するセキュリティを備えたITセキュアMACを使用することで実現される。

Fuzzy extractors (FE) are cryptographic primitives that extract reliable cryptographic key from noisy real world random sources such as biometric sources. The FE generation algorithm takes a source sample, extracts a key and generates some helper data that will be used by the reproduction algorithm to recover the key. Reusability of FE guarantees that security holds when FE is used multiple times with the same source, and robustness of FE requires tampering with the helper data be detectable. In this paper, we consider information theoretic FEs, define a strong notion of reusability, and propose strongly robust and reusable FEs (srrFE) that provides the strongest combined notion of reusability and robustness for FEs. We give two constructions, one for reusable FEs and one for srrFE with information theoretic (IT) security for structured sources. The constructions are for structured sources and use sample-then-lock approach. We discuss each construction and show their unique properties in relation to existing work. Construction 2 is the first robust and reusable FE with IT-security without assuming random oracle. The robustness is achieved by using an IT-secure MAC with security against key-shift attack, which can be of independent interest.
翻訳日:2024-05-08 15:18:57 公開日:2024-05-07
# AIを用いたT2MRI画像における腰椎腫瘍の分離と局在

Lumbar Spine Tumor Segmentation and Localization in T2 MRI Images Using AI ( http://arxiv.org/abs/2405.04023v1 )

ライセンス: Link先を確認
Rikathi Pal, Sudeshna Mondal, Aditi Gupta, Priya Saha, Somoballi Ghoshal, Amlan Chakrabarti, Susmita Sur-Kolay, (参考訳) 医用画像では、三次元(3D)空間における脊髄腫瘍の分節化と局在化は、主にデータ可用性の制限から生じる重要な計算上の課題を引き起こす。 そこで本研究では, 脊椎腫瘍の領域分割と局所化をAIアプローチで自動化することを目的とした, 新たなデータ拡張手法を提案する。 ファジィなc-meansクラスタリングとランダムフォレストアルゴリズムの融合を利用して、この手法は、当初医療画像の領域の専門家が定義していたマスクに基づいて、脊柱腫瘍のセグメンテーションに成功した。 その後、腫瘍分類には畳み込みニューラルネットワーク(CNN)アーキテクチャが使用される。 さらに, 腰椎腫瘍の正確な位置を特定するために, 3次元椎体分割法とラベル付け法が用いられている。 その結果, 腫瘍分節の99%の精度, 腫瘍分類の98%の精度, 腫瘍局在の99%の精度が得られた。 これらの指標は、クラスの精度の指標に関する優れたDice Score、Class Accuracy、Intersection over Union(IOU)によって証明されているように、既存の最先端技術の有効性を超越している。 この革新的な手法は、脊髄腫瘍の検出および特徴付けにおける診断能力の向上を約束し、より効果的な臨床的意思決定を容易にする。

In medical imaging, segmentation and localization of spinal tumors in three-dimensional (3D) space pose significant computational challenges, primarily stemming from limited data availability. In response, this study introduces a novel data augmentation technique, aimed at automating spine tumor segmentation and localization through AI approaches. Leveraging a fusion of fuzzy c-means clustering and Random Forest algorithms, the proposed method achieves successful spine tumor segmentation based on predefined masks initially delineated by domain experts in medical imaging. Subsequently, a Convolutional Neural Network (CNN) architecture is employed for tumor classification. Moreover, 3D vertebral segmentation and labeling techniques are used to help pinpoint the exact location of the tumors in the lumbar spine. Results indicate a remarkable performance, with 99% accuracy for tumor segmentation, 98% accuracy for tumor classification, and 99% accuracy for tumor localization achieved with the proposed approach. These metrics surpass the efficacy of existing state-of-the-art techniques, as evidenced by superior Dice Score, Class Accuracy, and Intersection over Union (IOU) on class accuracy metrics. This innovative methodology holds promise for enhancing the diagnostic capabilities in detecting and characterizing spinal tumors, thereby facilitating more effective clinical decision-making.
翻訳日:2024-05-08 15:18:57 公開日:2024-05-07
# 線形後処理による最適群フェア分類器

Optimal Group Fair Classifiers from Linear Post-Processing ( http://arxiv.org/abs/2405.04025v1 )

ライセンス: Link先を確認
Ruicheng Xian, Han Zhao, (参考訳) 本稿では, モデルバイアスを, 統計的パリティ, 平等機会, 等化確率を含むグループフェアネス基準の下で緩和し, マルチクラス問題に適用し, 属性認識と属性盲の設定の両方を考慮し, モデルバイアスを緩和する, フェア分類のための後処理アルゴリズムを提案する。 与えられたベースモデルの出力スコアを、(予測された)グループのメンバシップの線形結合である「公正コスト」で再計算することで、公平性を達成する。 本アルゴリズムは、損失関数とグループ予測器の線形後処理として最適値分類器を表現できることを示す表現結果に基づいており、これらを十分な統計量として利用して、公正値分類問題を線形プログラムとして再構成する。 後処理器のパラメータは経験的LPを解くことで推定する。 ベンチマークデータセットの実験では、特に大きな問題において、既存のアルゴリズムと比較して差を減らし、アルゴリズムの効率と有効性を示す。

We propose a post-processing algorithm for fair classification that mitigates model bias under a unified family of group fairness criteria covering statistical parity, equal opportunity, and equalized odds, applicable to multi-class problems and both attribute-aware and attribute-blind settings. It achieves fairness by re-calibrating the output score of the given base model with a "fairness cost" -- a linear combination of the (predicted) group memberships. Our algorithm is based on a representation result showing that the optimal fair classifier can be expressed as a linear post-processing of the loss function and the group predictor, derived via using these as sufficient statistics to reformulate the fair classification problem as a linear program. The parameters of the post-processor are estimated by solving the empirical LP. Experiments on benchmark datasets show the efficiency and effectiveness of our algorithm at reducing disparity compared to existing algorithms, including in-processing, especially on larger problems.
翻訳日:2024-05-08 15:18:57 公開日:2024-05-07
# マルコフ決定過程におけるフェデレート制御

Federated Control in Markov Decision Processes ( http://arxiv.org/abs/2405.04026v1 )

ライセンス: Link先を確認
Hao Jin, Yang Peng, Liangyu Zhang, Zhihua Zhang, (参考訳) マルコフ決定過程におけるフェデレーション制御の問題点について検討する。 大規模な状態空間を持つMDPを解決するために、複数の学習エージェントを導入して、局所的に収集された経験を伝達することなく、最適なポリシーを協調的に学習する。 私たちの設定では、これらのエージェントは限られた能力を持ち、トレーニングプロセス中に状態空間全体の異なる領域に制限される。 制限領域の違いに直面して、まず、そのような不均一性が学習プロセスにどのように影響するかを理解するための漏洩確率の概念を導入し、次に、エージェントの制限領域に関する知識を定期的に集約し、さらなる訓練のために学習問題を修正したフェデレーションQプロトコル(FedQ)と呼ばれる新しい通信プロトコルを提案する。 理論的解析の観点では、通信プロトコルとしてのFedQの正しさを正当化し、導出アルゴリズムFedQ-XとRLオラクルとのサンプル複雑性に関する一般的な結果を与え、最終的にFedQ-SynQのサンプル複雑性に関する詳細な研究を行う。 特に、FedQ-Xは、作業負荷がエージェント間で均一に分散される場合、サンプルの複雑さの観点から線形スピードアップを楽しむことが示されている。 さらに,本手法の効率を正当化するために,様々な環境で実験を行う。

We study problems of federated control in Markov Decision Processes. To solve an MDP with large state space, multiple learning agents are introduced to collaboratively learn its optimal policy without communication of locally collected experience. In our settings, these agents have limited capabilities, which means they are restricted within different regions of the overall state space during the training process. In face of the difference among restricted regions, we firstly introduce concepts of leakage probabilities to understand how such heterogeneity affects the learning process, and then propose a novel communication protocol that we call Federated-Q protocol (FedQ), which periodically aggregates agents' knowledge of their restricted regions and accordingly modifies their learning problems for further training. In terms of theoretical analysis, we justify the correctness of FedQ as a communication protocol, then give a general result on sample complexity of derived algorithms FedQ-X with the RL oracle , and finally conduct a thorough study on the sample complexity of FedQ-SynQ. Specifically, FedQ-X has been shown to enjoy linear speedup in terms of sample complexity when workload is uniformly distributed among agents. Moreover, we carry out experiments in various environments to justify the efficiency of our methods.
翻訳日:2024-05-08 15:18:57 公開日:2024-05-07
# プライバシ保護と公聴可能なフェデレーション学習の実現

Enabling Privacy-Preserving and Publicly Auditable Federated Learning ( http://arxiv.org/abs/2405.04029v1 )

ライセンス: Link先を確認
Huang Zeng, Anjia Yang, Jian Weng, Min-Rong Chen, Fengjun Xiao, Yi Liu, Ye Yao, (参考訳) フェデレーテッド・ラーニング(FL)は、プライベートデータセットを移動せずに複数の参加者によるモデルの共同トレーニングをサポートするため、広く注目を集めている。 しかし、FLには議論に値するセキュリティ問題がまだたくさんある。 本稿では,3つの主要な課題について考察する。 1) 第三者による公開監査の実施を確実にする方法 2 悪意ある参加者が研修に影響を及ぼすのを避ける方法 3) プライベートなグラデーションとモデルが第三者にリークされないようにする方法。 これらの問題に対処するために多くの解が提案されているが、上記の3つの問題を同時に解くことはめったにない。 本稿では、不正な方向で勾配をアップロードする悪意のある参加者に対して抵抗性があり、誰でもトレーニングプロセスの正しさを監査し検証できる、公的な監査可能かつプライバシー保護型フェデレーション学習方式を提案する。 特に、悪意のある参加者から間違った方向の勾配を検出できる頑健な集約アルゴリズムを設計する。 そして、ランダムなベクトル生成アルゴリズムを設計し、それをゼロ共有とブロックチェーン技術と組み合わせて、共同トレーニングプロセスを公開監査可能にする。 最後に、一連の実験を行い、実験結果から、プロトコルによって生成されたモデルは、セキュリティ上の優位性を保ちながら、元のFLアプローチに匹敵する精度を示す。

Federated learning (FL) has attracted widespread attention because it supports the joint training of models by multiple participants without moving private dataset. However, there are still many security issues in FL that deserve discussion. In this paper, we consider three major issues: 1) how to ensure that the training process can be publicly audited by any third party; 2) how to avoid the influence of malicious participants on training; 3) how to ensure that private gradients and models are not leaked to third parties. Many solutions have been proposed to address these issues, while solving the above three problems simultaneously is seldom considered. In this paper, we propose a publicly auditable and privacy-preserving federated learning scheme that is resistant to malicious participants uploading gradients with wrong directions and enables anyone to audit and verify the correctness of the training process. In particular, we design a robust aggregation algorithm capable of detecting gradients with wrong directions from malicious participants. Then, we design a random vector generation algorithm and combine it with zero sharing and blockchain technologies to make the joint training process publicly auditable, meaning anyone can verify the correctness of the training. Finally, we conduct a series of experiments, and the experimental results show that the model generated by the protocol is comparable in accuracy to the original FL approach while keeping security advantages.
翻訳日:2024-05-08 15:18:57 公開日:2024-05-07
# 局所的個人的インテクスト学習

Locally Differentially Private In-Context Learning ( http://arxiv.org/abs/2405.04032v1 )

ライセンス: Link先を確認
Chunyan Zheng, Keke Sun, Wenhao Zhao, Haibo Zhou, Lixin Jiang, Shaoyang Song, Chunlai Zhou, (参考訳) 大規模な事前学習言語モデル(LLM)は、驚くべきインコンテキスト学習(ICL)能力を示している。 大きな言語モデルをデプロイする上で重要なアプリケーションは、特定のタスクのためにプライベートデータベースでLLMを拡張することである。 この有望な商用利用の大きな問題は、LSMがトレーニングデータを記憶し、その迅速なデータは、メンバーシップ推論攻撃(MIA)に脆弱で、即座に漏洩する攻撃に対して脆弱であることが示されていることである。 この問題に対処するために,LLMをプライバシーに不信頼なものとして扱うとともに,ラベルが機密性のある設定において,ローカルで微分的にプライベートなインコンテキスト学習フレームワーク(LDP-ICL)を提案する。 本研究では,トランスフォーマーにおける勾配降下によるインコンテキスト学習のメカニズムを考慮し,LDP-ICLにおけるプライバシーとユーティリティのトレードオフの分析を行う。 さらに, LDP-ICL を離散分布推定問題に適用する。 最後に,分析結果を実証するためにいくつかの実験を行った。

Large pretrained language models (LLMs) have shown surprising In-Context Learning (ICL) ability. An important application in deploying large language models is to augment LLMs with a private database for some specific task. The main problem with this promising commercial use is that LLMs have been shown to memorize their training data and their prompt data are vulnerable to membership inference attacks (MIA) and prompt leaking attacks. In order to deal with this problem, we treat LLMs as untrusted in privacy and propose a locally differentially private framework of in-context learning(LDP-ICL) in the settings where labels are sensitive. Considering the mechanisms of in-context learning in Transformers by gradient descent, we provide an analysis of the trade-off between privacy and utility in such LDP-ICL for classification. Moreover, we apply LDP-ICL to the discrete distribution estimation problem. In the end, we perform several experiments to demonstrate our analysis results.
翻訳日:2024-05-08 15:18:57 公開日:2024-05-07
# 公正な回帰のための個人的ポストプロセッシング

Differentially Private Post-Processing for Fair Regression ( http://arxiv.org/abs/2405.04034v1 )

ライセンス: Link先を確認
Ruicheng Xian, Qiaobo Li, Gautam Kamath, Han Zhao, (参考訳) 本稿では,統計的妥当性を満たすフェアレグレッタを学習するための,個別にプライベートなポストプロセッシングアルゴリズムについて述べるとともに,センシティブなデータに基づいてトレーニングされた機械学習モデルのプライバシー問題と,それらの歴史的バイアスを伝播する可能性に関する公平性に関する懸念について述べる。 我々のアルゴリズムは任意の回帰器を後処理し、出力を再マッピングすることで公平性を向上させることができる。 まず、出力分布はヒストグラム密度推定とラプラス機構によってプライベートに推定され、次にワッサーシュタインのバリセンタが計算され、バリセンタへの最適な輸送は、公正性を満たすために後処理に使用される。 我々は,本アルゴリズムのサンプルの複雑さを分析し,統計的バイアスとヒストグラム中のビン数選択による分散とのトレードオフを明らかにする。

This paper describes a differentially private post-processing algorithm for learning fair regressors satisfying statistical parity, addressing privacy concerns of machine learning models trained on sensitive data, as well as fairness concerns of their potential to propagate historical biases. Our algorithm can be applied to post-process any given regressor to improve fairness by remapping its outputs. It consists of three steps: first, the output distributions are estimated privately via histogram density estimation and the Laplace mechanism, then their Wasserstein barycenter is computed, and the optimal transports to the barycenter are used for post-processing to satisfy fairness. We analyze the sample complexity of our algorithm and provide fairness guarantee, revealing a trade-off between the statistical bias and variance induced from the choice of the number of bins in the histogram, in which using less bins always favors fairness at the expense of error.
翻訳日:2024-05-08 15:18:57 公開日:2024-05-07
# Ethereumブロックチェーン上での自己複製と自己実装型スマートコントラクト

Self-Replicating and Self-Employed Smart Contract on Ethereum Blockchain ( http://arxiv.org/abs/2405.04038v1 )

ライセンス: Link先を確認
Atsushi Masumori, Norihiro Maruyama, Takashi Ikegami, (参考訳) ブロックチェーンはBitcoinなどの暗号通貨の基盤技術である。 Blockchainはロバストな分散台帳で、コンセンサスアルゴリズムを使用してトランザクションを分散的に承認し、悪意のある改ざんを極めて困難にする。 ブロックチェーンの1つであるEthereumは、チューリング完全プログラムを実行可能な世界中のユーザによって共有される、停止不能なコンピュータと見なすことができる。 Ethereum上でプログラムを実行するには、Ether(Ethereum上の通貨)が必要である。 言い換えれば、EtherはEthereumの世界では一種のエネルギーと見なすことができる。 私たちはEthereumブロックチェーン上で、自己複製と自己雇用のエージェントを開発しました。 エージェントはトークンを発行し、トークンが売られるたびにEtherを取得することができる。 ある量のエーテルが蓄積されると、エージェントは自分自身を複製し、子孫を残します。 このプロジェクトの目的は、現実世界に接続されたオープンなサイバー空間において、人間のためのツールとしてではなく、自分自身のために生きる人工エージェントを実装することである。

Blockchain is the underlying technology for cryptocurrencies such as Bitcoin. Blockchain is a robust distributed ledger that uses consensus algorithms to approve transactions in a decentralized manner, making malicious tampering extremely difficult. Ethereum, one of the blockchains, can be seen as an unstoppable computer which shared by users around the world that can run Turing-complete programs. In order to run any program on Ethereum, Ether (currency on Ethereum) is required. In other words, Ether can be seen as a kind of energy in the Ethereum world. We developed self-replicating and self-employed agents who earn the energy by themselves to replicate them, on the Ethereum blockchain. The agents can issued their token and gain Ether each time the tokens are sold. When a certain amount of Ether is accumulated, the agent replicates itself and leaves offspring. The goal of this project is to implement artificial agents that lives for itself, not as a tool for humans, in the open cyber space connected to the real world.
翻訳日:2024-05-08 15:18:57 公開日:2024-05-07
# GPTによるテキスト要約の強化 : 幻覚を最小化するための戦略

Utilizing GPT to Enhance Text Summarization: A Strategy to Minimize Hallucinations ( http://arxiv.org/abs/2405.04039v1 )

ライセンス: Link先を確認
Hassan Shakil, Zeydy Ortiz, Grant C. Forbes, (参考訳) 本研究では,DistilBERTモデルを用いて抽出要約を生成するとともに,T5モデルを用いて抽象要約を生成する。 また, DistilBERT モデルと T5 モデルを組み合わせてハイブリッド要約を生成する。 我々の研究の中心は、AI生成サマリーで起こる幻覚の一般的な問題を最小化するために、GPTベースの精錬プロセスの実装である。 我々は,未精錬サマリーの評価を行い,精錬後,精錬サマリーの精度と信頼性が顕著に向上したことを示すとともに,精錬サマリーの評価を行った。 その結果,幻覚内容の減少が顕著に改善し,要約の事実的整合性が向上した。

In this research, we uses the DistilBERT model to generate extractive summary and the T5 model to generate abstractive summaries. Also, we generate hybrid summaries by combining both DistilBERT and T5 models. Central to our research is the implementation of GPT-based refining process to minimize the common problem of hallucinations that happens in AI-generated summaries. We evaluate unrefined summaries and, after refining, we also assess refined summaries using a range of traditional and novel metrics, demonstrating marked improvements in the accuracy and reliability of the summaries. Results highlight significant improvements in reducing hallucinatory content, thereby increasing the factual integrity of the summaries.
翻訳日:2024-05-08 15:18:57 公開日:2024-05-07
# 機能モジュールの特徴マップ収束評価

Feature Map Convergence Evaluation for Functional Module ( http://arxiv.org/abs/2405.04041v1 )

ライセンス: Link先を確認
Ludan Zhang, Chaoyi Chen, Lei He, Keqiang Li, (参考訳) 自律運転知覚モデルは通常、環境理解を達成するために複雑な関係を通して相互作用する複数の機能モジュールで構成されている。 しかし、知覚モデルは、主にエンドツーエンドのトレーニングを通じてブラックボックスとして最適化され、機能モジュールの独立した評価が欠如しており、解釈可能性や最適化の難しさを招いている。 そこで本研究では,モデル収束度を計測し,機能モジュールのトレーニング成熟度を評価するため,特徴マップ解析に基づく評価手法を提案する。 本研究では,FMCS (Feature Map Convergence Score) と呼ばれる定量的な尺度を構築し,それぞれモデル収束度を計測し,予測するためにFMCE-Net (Feature Map Convergence Evaluation Network) を開発した。 FMCE-Netは、複数の画像分類実験におけるFMCSの顕著な予測精度を実現し、提案手法の有効性とロバスト性を検証した。 我々の知る限り、これは機能モジュールに対する最初の独立した評価手法であり、知覚モデルに対するトレーニングアセスメントのための新しいパラダイムを提供する。

Autonomous driving perception models are typically composed of multiple functional modules that interact through complex relationships to accomplish environment understanding. However, perception models are predominantly optimized as a black box through end-to-end training, lacking independent evaluation of functional modules, which poses difficulties for interpretability and optimization. Pioneering in the issue, we propose an evaluation method based on feature map analysis to gauge the convergence of model, thereby assessing functional modules' training maturity. We construct a quantitative metric named as the Feature Map Convergence Score (FMCS) and develop Feature Map Convergence Evaluation Network (FMCE-Net) to measure and predict the convergence degree of models respectively. FMCE-Net achieves remarkable predictive accuracy for FMCS across multiple image classification experiments, validating the efficacy and robustness of the introduced approach. To the best of our knowledge, this is the first independent evaluation method for functional modules, offering a new paradigm for the training assessment towards perception models.
翻訳日:2024-05-08 15:09:09 公開日:2024-05-07
# ビデオオブジェクトセグメンテーションのための時空間強化ネットワーク

Space-time Reinforcement Network for Video Object Segmentation ( http://arxiv.org/abs/2405.04042v1 )

ライセンス: Link先を確認
Yadang Chen, Wentao Zhu, Zhi-Xin Yang, Enhua Wu, (参考訳) 近年、ビデオオブジェクトセグメンテーション(VOS)ネットワークは一般的にメモリベースの手法を用いており、各クエリフレームに対して、マスクはメモリフレームとの時空間マッチングによって予測される。 これらの方法が優れたパフォーマンスを持つにもかかわらず、それらは2つの問題に悩まされる。 1)隣り合うビデオフレーム間の時間的コヒーレンスを破壊することができる。 2) 画素レベルのマッチングは,ノイズや乱れによる望ましくないミスマッチにつながる。 上記の問題に対処するために、まず、隣接するフレーム間で補助的なフレームを生成し、クエリーの暗黙の短時間参照として機能することを提案する。 次に、各ビデオオブジェクトのプロトタイプを学習し、クエリとメモリの間にプロトタイプレベルのマッチングを実装する。 この実験は、我々のネットワークがDAVIS 2017で最先端の手法を上回り、J&Fスコアが86.4%に達し、YouTube VOS 2018で85.0%の競争結果を得たことを実証した。 さらに,このネットワークは32FPS以上の高速な推論速度を示す。

Recently, video object segmentation (VOS) networks typically use memory-based methods: for each query frame, the mask is predicted by space-time matching to memory frames. Despite these methods having superior performance, they suffer from two issues: 1) Challenging data can destroy the space-time coherence between adjacent video frames. 2) Pixel-level matching will lead to undesired mismatching caused by the noises or distractors. To address the aforementioned issues, we first propose to generate an auxiliary frame between adjacent frames, serving as an implicit short-temporal reference for the query one. Next, we learn a prototype for each video object and prototype-level matching can be implemented between the query and memory. The experiment demonstrated that our network outperforms the state-of-the-art method on the DAVIS 2017, achieving a J&F score of 86.4%, and attains a competitive result 85.0% on YouTube VOS 2018. In addition, our network exhibits a high inference speed of 32+ FPS.
翻訳日:2024-05-08 15:09:09 公開日:2024-05-07
# データ拡張と修正推論によるスケーラブルな垂直フェデレーション学習

Scalable Vertical Federated Learning via Data Augmentation and Amortized Inference ( http://arxiv.org/abs/2405.04043v1 )

ライセンス: Link先を確認
Conor Hassan, Matthew Sutton, Antonietta Mira, Kerrie Mengersen, (参考訳) 垂直連合学習(VFL)は、複数のクライアント間で協調的なモデル推定のパラダイムとして登場し、それぞれが異なる共変量を持つ。 本稿では、VFL設定にベイズモデルを適用するための最初の包括的枠組みを紹介する。 本稿では,VFL問題を既存のベイズ連邦学習アルゴリズムと互換性のある形式に変換するために,データ拡張手法を活用する新しい手法を提案する。 本稿では,共同確率がクライアント固有確率の積に分解される,特定のVFLシナリオに対する革新的モデル定式化を提案する。 観測数やクライアント数に応じてスケールするデータ拡張による次元性の課題を軽減するため,観測数に依存しない拡張性を実現する因子的補正変分近似を開発した。 我々は,ロジスティック回帰,多レベル回帰,新しい階層型ベイズ分割ニューラルネットモデルに関する広範な数値実験を通じて,我々のフレームワークの有効性を実証する。 我々の研究は、垂直に分割されたデータシナリオにおけるプライバシー保護と分散化ベイズ推論の道を開き、様々な分野の研究や応用のための新たな道を開く。

Vertical federated learning (VFL) has emerged as a paradigm for collaborative model estimation across multiple clients, each holding a distinct set of covariates. This paper introduces the first comprehensive framework for fitting Bayesian models in the VFL setting. We propose a novel approach that leverages data augmentation techniques to transform VFL problems into a form compatible with existing Bayesian federated learning algorithms. We present an innovative model formulation for specific VFL scenarios where the joint likelihood factorizes into a product of client-specific likelihoods. To mitigate the dimensionality challenge posed by data augmentation, which scales with the number of observations and clients, we develop a factorized amortized variational approximation that achieves scalability independent of the number of observations. We showcase the efficacy of our framework through extensive numerical experiments on logistic regression, multilevel regression, and a novel hierarchical Bayesian split neural net model. Our work paves the way for privacy-preserving, decentralized Bayesian inference in vertically partitioned data scenarios, opening up new avenues for research and applications in various domains.
翻訳日:2024-05-08 15:09:09 公開日:2024-05-07
# DMOFC: 識別基準の最適化された特徴圧縮

DMOFC: Discrimination Metric-Optimized Feature Compression ( http://arxiv.org/abs/2405.04044v1 )

ライセンス: Link先を確認
Changsheng Gao, Yiheng Jiang, Li Li, Dong Liu, Feng Wu, (参考訳) 機械用ビデオ符号化(VCM)の重要な分野として機能圧縮が注目されている。 しかし、既存の手法は主に機能間関係の重要性を無視しつつ、再建された特徴とオリジナルの特徴の間の平均正方形誤差(MSE)のような機能内類似性に重点を置いている。 本稿では,機能間関係を解析し,マシンビジョンにおける特徴識別性に着目し,特徴圧縮におけるその意義を強調する。 再構成された特徴の特徴識別性を維持するために,特徴圧縮のための識別基準を導入する。 判別基準は、同一カテゴリの特徴間の距離が、異なるカテゴリの特徴間の距離よりも小さいことを保証するように設計されている。 さらに,識別基準と原特徴の識別可能性との関係について検討した。 実験により,提案手法の有効性を確認し,識別基準と原特徴の識別性との間にトレードオフが存在することを明らかにした。

Feature compression, as an important branch of video coding for machines (VCM), has attracted significant attention and exploration. However, the existing methods mainly focus on intra-feature similarity, such as the Mean Squared Error (MSE) between the reconstructed and original features, while neglecting the importance of inter-feature relationships. In this paper, we analyze the inter-feature relationships, focusing on feature discriminability in machine vision and underscoring its significance in feature compression. To maintain the feature discriminability of reconstructed features, we introduce a discrimination metric for feature compression. The discrimination metric is designed to ensure that the distance between features of the same category is smaller than the distance between features of different categories. Furthermore, we explore the relationship between the discrimination metric and the discriminability of the original features. Experimental results confirm the effectiveness of the proposed discrimination metric and reveal there exists a trade-off between the discrimination metric and the discriminability of the original features.
翻訳日:2024-05-08 15:09:09 公開日:2024-05-07
# MBCT:オンチェーン動的セッションキーネゴシエーションを用いたモネロ型カバート伝送方式

MBCT: A Monero-Based Covert Transmission Approach with On-chain Dynamic Session Key Negotiation ( http://arxiv.org/abs/2405.04046v1 )

ライセンス: Link先を確認
Zhenshuai Yue, Haoran Zhu, Xiaolin Chang, Jelena Mišić, Vojislav B. Mišić, Junchao Fan, (参考訳) 従来のカバートトランスミッション(CT)アプローチはCTアプリケーションを妨げる一方で、ブロックチェーン技術は新たな道を提供する。 現在のブロックチェーンベースのCTアプローチでは、重要な情報のオフチェーンネゴシエーションが必要で、動的セッションキーの更新を見落としていることが多いため、メッセージやキーリークのリスクが高まる。 さらに、いくつかのアプローチでは、サードパーティが容易に検出できる明らかな特徴を隠蔽トランザクションが示している。 さらに、ほとんどのアプローチは、ブロックチェーン攻撃シナリオにおけるメッセージ送信の信頼性の低下の問題に対処していない。 BitcoinとEthereumベースのアプローチにも、Moneroのプライバシ保護メカニズムのため、Moneroベースのアプローチで対処できるトランザクションリンク性の問題がある。 しかし, モネロをベースとしたCTでは, 送受信拒否の問題がある。 本稿では,オンチェーンセッションキーをオフチェーンネゴシエーションなしで動的に更新できる新しいモネロベースCT手法(MBCT)を提案する。 MBCTは、送信参加者の非検査、鍵の機密性、メッセージ送信の信頼性、観測不能な特性を保証できる。 MBCTの3つのコンポーネント、すなわち、送信者認証方法、動的オンチェーンセッションキー更新方法、状態フィードバック方法によって達成される。 MBCT を Monero-0.18.1.0 に実装し,MBCT の埋め込み能力を示す実験結果を得た。

Traditional covert transmission (CT) approaches have been hindering CT application while blockchain technology offers new avenue. Current blockchain-based CT approaches require off-chain negotiation of critical information and often overlook the dynamic session keys updating, which increases the risk of message and key leakage. Additionally, in some approaches the covert transactions exhibit obvious characteristics that can be easily detected by third-parties. Moreover, most approaches do not address the issue of decreased reliability of message transmission in blockchain attack scenarios. Bitcoin- and Ethereum-based approaches also have the issue of transaction linkability, which can be tackled by Monero-based approaches because of the privacy protection mechanisms in Monero. However, Monero-based CT has the problem of sender repudiation. In this paper, we propose a novel Monero-Based CT approach (MBCT), which enables on-chain session key dynamically updating without off-chain negotiation. MBCT can assure non-repudiation of transmission participants, confidentiality of keys, reliability of message transmission and less observable characteristics. There are achieved by the three components in MBCT, namely, a sender authentication method, a dynamically on-chain session key updating method and a state feedback method. We implement MBCT in Monero-0.18.1.0 and the experiment results demonstrate its high embedding capacity of MBCT.
翻訳日:2024-05-08 15:09:09 公開日:2024-05-07
# 深層学習時代の認知科学の哲学

Philosophy of Cognitive Science in the Age of Deep Learning ( http://arxiv.org/abs/2405.04048v1 )

ライセンス: Link先を確認
Raphaël Millière, (参考訳) ディープラーニングは、人工知能研究のほとんどの領域で大きな進歩をもたらした。 この顕著な進歩は単なる工学的成果を超えて、認知科学の哲学に重大な関連性を持っている。 ディープニューラルネットワークは、認知に関する哲学的議論の中心的な段階を占めていた古いコネクショナリストモデルの限界を克服するために大きな進歩を遂げてきた。 この発展は認知科学の哲学における長年の理論的議論に直接関係している。 さらに、ディープニューラルネットワークの比較評価に関連する方法論上の課題は、哲学と認知科学との学際的なコラボレーションから大きな恩恵を受けている。 哲学者にとって、深層学習と認知に関する基礎的な問題を探求する時期は熟し、この視点では、その貢献が特に実りのある重要な領域を調査する。

Deep learning has enabled major advances across most areas of artificial intelligence research. This remarkable progress extends beyond mere engineering achievements and holds significant relevance for the philosophy of cognitive science. Deep neural networks have made significant strides in overcoming the limitations of older connectionist models that once occupied the centre stage of philosophical debates about cognition. This development is directly relevant to long-standing theoretical debates in the philosophy of cognitive science. Furthermore, ongoing methodological challenges related to the comparative evaluation of deep neural networks stand to benefit greatly from interdisciplinary collaboration with philosophy and cognitive science. The time is ripe for philosophers to explore foundational issues related to deep learning and cognition; this perspective paper surveys key areas where their contributions can be especially fruitful.
翻訳日:2024-05-08 15:09:09 公開日:2024-05-07
# ウォーターマーク型ニューロモルフィック脳:スパイクニューラルネットワークにおける知的財産保護

Watermarking Neuromorphic Brains: Intellectual Property Protection in Spiking Neural Networks ( http://arxiv.org/abs/2405.04049v1 )

ライセンス: Link先を確認
Hamed Poursiami, Ihsen Alouani, Maryam Parsa, (参考訳) スパイクニューラルネットワーク(SNN)がニューロモルフィックコンピューティングソリューションの展開において勢いを増すにつれ、知的財産権(IP)の保護が重要になっている。 適切な保護がなければ、プロプライエタリなSNNアーキテクチャは盗難、複製、誤用のリスクがあり、所有者に大きな損失をもたらす可能性がある。 IP保護技術は、人工知能ニューラルネットワーク(ANN)で広く研究されているが、SNNのユニークな特性に対する適用性と有効性は、まだ明らかにされていない。 本研究では,指紋ベースとバックドアベースという2つの重要な透かし手法を応用し,独自のSNNアーキテクチャをセキュアにするための研究のパイオニアとなる。 我々は,これらの透かし技術をSNNに適用する場合の,忠実度,上書き脅威に対するレジリエンス,圧縮攻撃に対する耐性への影響を評価するための徹底的な実験を行い,その比較を行った。 本研究は、SNNの特異なダイナミクスに合わせて、ニューロモルフィックを意識したIP保護戦略を開発するための基礎研究である。

As spiking neural networks (SNNs) gain traction in deploying neuromorphic computing solutions, protecting their intellectual property (IP) has become crucial. Without adequate safeguards, proprietary SNN architectures are at risk of theft, replication, or misuse, which could lead to significant financial losses for the owners. While IP protection techniques have been extensively explored for artificial neural networks (ANNs), their applicability and effectiveness for the unique characteristics of SNNs remain largely unexplored. In this work, we pioneer an investigation into adapting two prominent watermarking approaches, namely, fingerprint-based and backdoor-based mechanisms to secure proprietary SNN architectures. We conduct thorough experiments to evaluate the impact on fidelity, resilience against overwrite threats, and resistance to compression attacks when applying these watermarking techniques to SNNs, drawing comparisons with their ANN counterparts. This study lays the groundwork for developing neuromorphic-aware IP protection strategies tailored to the distinctive dynamics of SNNs.
翻訳日:2024-05-08 15:09:09 公開日:2024-05-07
# 線形ブロック誤り訂正符号の学習

Learning Linear Block Error Correction Codes ( http://arxiv.org/abs/2405.04050v1 )

ライセンス: Link先を確認
Yoni Choukroun, Lior Wolf, (参考訳) 誤り訂正符号は物理通信層の重要な部分であり、ノイズのあるチャネル上でのデータ転送を確実にする。 効率的な復号化が可能な最適線形ブロック符号の設計は特に短いブロック長において大きな関心事である。 ニューラルデコーダは、最近、古典的デコーダ技術よりも優位性を示しているが、コードのニューラルデザインは依然として課題である。 本研究では,バイナリ線形ブロック符号の統一エンコーダデコーダトレーニングを初めて提案する。 この目的のために、符号化設定を適用して、2つのガロア場に対するエンドツーエンド最適化のためのコードの効率的で微分可能な訓練を支援する。 また,コード勾配の効率的なバックプロパゲーションのために,自己注意マスキングを行うトランスフォーマーモデルを提案する。 私たちの結果は (i)提案されたデコーダは、従来の符号における既存のニューラルデコーダよりも優れる。 (ii)提案されたフレームワークは,従来のコードより優れたコードを生成し, 3) 開発した符号はデコーダに優れるだけでなく,従来のデコード技術による性能向上も示している。

Error correction codes are a crucial part of the physical communication layer, ensuring the reliable transfer of data over noisy channels. The design of optimal linear block codes capable of being efficiently decoded is of major concern, especially for short block lengths. While neural decoders have recently demonstrated their advantage over classical decoding techniques, the neural design of the codes remains a challenge. In this work, we propose for the first time a unified encoder-decoder training of binary linear block codes. To this end, we adapt the coding setting to support efficient and differentiable training of the code for end-to-end optimization over the order two Galois field. We also propose a novel Transformer model in which the self-attention masking is performed in a differentiable fashion for the efficient backpropagation of the code gradient. Our results show that (i) the proposed decoder outperforms existing neural decoding on conventional codes, (ii) the suggested framework generates codes that outperform the {analogous} conventional codes, and (iii) the codes we developed not only excel with our decoder but also show enhanced performance with traditional decoding techniques.
翻訳日:2024-05-08 15:09:09 公開日:2024-05-07
# OpenAIのGPTを用いた大規模言語モデルによるテキスト要約の評価

Evaluating Text Summaries Generated by Large Language Models Using OpenAI's GPT ( http://arxiv.org/abs/2405.04053v1 )

ライセンス: Link先を確認
Hassan Shakil, Atqiya Munawara Mahi, Phuoc Nguyen, Zeydy Ortiz, Mamoun T. Mardini, (参考訳) 本研究は,Hugging Face: DistilBART, BERT, ProphetNet, T5, BART, PEGASUSの6つのトランスフォーマーモデルから生成されたテキスト要約の独立評価器として,OpenAIのGPTモデルの有効性を検討する。 ROUGEやLatent Semantic Analysis(LSA)といった従来の指標を用いて,高品質な要約(簡潔さ,妥当性,コヒーレンス,可読性)の本質的特性に基づいて,これらの要約を評価した。 また, GPT を要約器としてではなく, 評価器として用いることで, 事前に定義された指標を使わずに, 要約品質を独立して評価することができる。 分析の結果,GPT評価と従来の指標との間に有意な相関が認められた。 その結果、GPTは、テキスト要約を評価するための堅牢なツールとしての可能性を示し、確立されたメトリクスを補完する洞察を提供し、自然言語処理タスクにおけるトランスフォーマーモデルの比較分析の基盤を提供する。

This research examines the effectiveness of OpenAI's GPT models as independent evaluators of text summaries generated by six transformer-based models from Hugging Face: DistilBART, BERT, ProphetNet, T5, BART, and PEGASUS. We evaluated these summaries based on essential properties of high-quality summary - conciseness, relevance, coherence, and readability - using traditional metrics such as ROUGE and Latent Semantic Analysis (LSA). Uniquely, we also employed GPT not as a summarizer but as an evaluator, allowing it to independently assess summary quality without predefined metrics. Our analysis revealed significant correlations between GPT evaluations and traditional metrics, particularly in assessing relevance and coherence. The results demonstrate GPT's potential as a robust tool for evaluating text summaries, offering insights that complement established metrics and providing a basis for comparative analysis of transformer-based models in natural language processing tasks.
翻訳日:2024-05-08 15:09:09 公開日:2024-05-07
# プラズモニック・メタサーフェスの設計のための双方向対向オートエンコーダ

Bidirectional Adversarial Autoencoders for the design of Plasmonic Metasurfaces ( http://arxiv.org/abs/2405.04056v1 )

ライセンス: Link先を確認
Yuansan Liu, Jeygopi Panisilvam, Peter Dower, Sejeong Kim, James Bailey, (参考訳) ディープラーニングは、計算的に効率的かつ正確である逆設計手法の設計において重要な部分である。 この例として、フォトルミネッセンススペクトルを入力データとして利用して、トポロジを予測するフォトニック変成層の設計がある。 これらのシステムの基本的な課題の1つは、異なる次元を持つデータの集合間の非線形関係を表現する能力である。 既存の設計手法では、この問題を解決するために条件付きジェネレーティブ・アドバイサル・ネットワークを実装していることが多いが、多くの場合、検証時に複数のピークを提供する構造を生成することはできない。 対象のスペクトルに応答して、双方向適応型オートエンコーダは、複数のピークを提供する構造を複数回生成できることが示されている。 その結果, 提案手法は, 高度な地表面設計に利用できる非線形フォトニック変成層の生成に向けた重要な進展を示す。

Deep Learning has been a critical part of designing inverse design methods that are computationally efficient and accurate. An example of this is the design of photonic metasurfaces by using their photoluminescent spectrum as the input data to predict their topology. One fundamental challenge of these systems is their ability to represent nonlinear relationships between sets of data that have different dimensionalities. Existing design methods often implement a conditional Generative Adversarial Network in order to solve this problem, but in many cases the solution is unable to generate structures that provide multiple peaks when validated. It is demonstrated that in response to the target spectrum, the Bidirectional Adversarial Autoencoder is able to generate structures that provide multiple peaks on several occasions. As a result the proposed model represents an important advance towards the generation of nonlinear photonic metasurfaces that can be used in advanced metasurface design.
翻訳日:2024-05-08 15:09:09 公開日:2024-05-07
# 一般化コーシーシュワルツ分岐とその応用

Generalized Cauchy-Schwarz Divergence and Its Deep Learning Applications ( http://arxiv.org/abs/2405.04061v1 )

ライセンス: Link先を確認
Mingfei Lu, Shujian Yu, Robert Jenssen, Badong Chen, (参考訳) 多様性測定は機械学習において中心的な役割を担い、ディープラーニングにおいてますます不可欠なものになりつつある。 しかし、複数の(2つ以上の)分布に対する有効かつ効率的な分散尺度は、ほとんど研究されていない。 これは、複数のディストリビューションの同時管理が避けられず、必要不可欠な領域において、特に重要になる。 例えばクラスタリング、マルチソースドメイン適応、一般化、マルチビュー学習などがある。 任意の2つの分布間の対距離の平均を計算することは、複数の分布間の全ばらつきを定量化する共通の方法であるが、このアプローチは単純ではなく、重要な計算資源を必要とすることを認識することが重要である。 本研究では,古典的なコーシー=シュワルツ発散にインスパイアされた一般コーシー=シュヴァルツ発散(GCSD)と呼ばれる複数の分布に対する新しい発散尺度を導入する。 さらに、カーネル密度推定に基づくクローズドフォームサンプル推定器を提供し、様々な機械学習アプリケーションで簡単に利用できるようにした。 最後に,提案したGCSDを,ディープラーニングベースのクラスタリングとマルチソースドメイン適応の2つの課題に応用する。 実験結果は、両方のタスクにおけるGCSDの印象的なパフォーマンスを示し、複数の分布の定量化に関わる機械学習分野への応用の可能性を強調している。

Divergence measures play a central role in machine learning and become increasingly essential in deep learning. However, valid and computationally efficient divergence measures for multiple (more than two) distributions are scarcely investigated. This becomes particularly crucial in areas where the simultaneous management of multiple distributions is both unavoidable and essential. Examples include clustering, multi-source domain adaptation or generalization, and multi-view learning, among others. Although calculating the mean of pairwise distances between any two distributions serves as a common way to quantify the total divergence among multiple distributions, it is crucial to acknowledge that this approach is not straightforward and requires significant computational resources. In this study, we introduce a new divergence measure for multiple distributions named the generalized Cauchy-Schwarz divergence (GCSD), which is inspired by the classic Cauchy-Schwarz divergence. Additionally, we provide a closed-form sample estimator based on kernel density estimation, making it convenient and straightforward to use in various machine-learning applications. Finally, we apply the proposed GCSD to two challenging machine learning tasks, namely deep learning-based clustering and the problem of multi-source domain adaptation. The experimental results showcase the impressive performance of GCSD in both tasks, highlighting its potential application in machine-learning areas that involve quantifying multiple distributions.
翻訳日:2024-05-08 15:09:09 公開日:2024-05-07
# xNose: C#用のテストスモール検出器

xNose: A Test Smell Detector for C# ( http://arxiv.org/abs/2405.04063v1 )

ライセンス: Link先を確認
Partha P. Paul, Md Tonoy Akanda, M. Raihan Ullah, Dipto Mondal, Nazia S. Chowdhury, Fazle M. Tawsif, (参考訳) テストの臭いは、コードの臭いに似ているが、テストコードとテスト中のプロダクションコードの両方に悪影響を及ぼす可能性がある。 Java、Scala、Pythonなどの言語でテストの臭いに関する広範な研究にもかかわらず、C#でテストの臭いを検出する自動ツールが不足している。 このpa-perは、テストの臭いをC#に拡張することでこのギャップを埋めることを目的としており、このlan-guageでテストの臭いを識別し、プロジェクト間の分散を分析するツール(xNose)を開発している。 言語に依存しず,C#に等価な特徴を有し,xNoseの精度は96.97%,リコール率は96.03%であった。 さらに,xUnitをベースとしたC#プロジェクトにおいて,テストの匂いの頻度を決定するための実験的検討を行った。 この分析は、テストの匂いの頻度と分布に光を当て、C#プロジェクトやテストスイートへの影響についてより深く理解します。 xNoseの開発とC#コードにおけるテストの臭いの分析は、開発プロセスの初期段階で潜在的な問題に対処することで、開発者がコード品質を維持するのを支援することを目的としています。

Test smells, similar to code smells, can negatively impact both the test code and the production code being tested. Despite extensive research on test smells in languages like Java, Scala, and Python, automated tools for detecting test smells in C# are lacking. This pa- per aims to bridge this gap by extending the study of test smells to C#, and developing a tool (xNose) to identify test smells in this lan- guage and analyze their distribution across projects. We identified 16 test smells from prior studies that were language-independent and had equivalent features in C# and evaluated xNose, achieving a precision score of 96.97% and a recall score of 96.03%. In addition, we conducted an empirical study to determine the prevalence of test smells in xUnit-based C# projects. This analysis sheds light on the frequency and distribution of test smells, deepening our understanding of their impact on C# projects and test suites. The development of xNose and our analysis of test smells in C# code aim to assist developers in maintaining code quality by addressing potential issues early in the development process.
翻訳日:2024-05-08 15:09:09 公開日:2024-05-07
# MFA-Net:肝腫瘍セグメンテーションのためのマルチスケール機能融合アテンションネットワーク

MFA-Net: Multi-Scale feature fusion attention network for liver tumor segmentation ( http://arxiv.org/abs/2405.04064v1 )

ライセンス: Link先を確認
Yanli Yuan, Bingbing Wang, Chuan Zhang, Jingyi Xu, Ximeng Liu, Liehuang Zhu, (参考訳) 医学的CT画像に注目する臓器の分別は疾患の診断に有用である。 完全畳み込みニューラルネットワーク(F-CNN)に基づく最近の手法は、多くのセグメンテーションタスクで成功しているが、異なるスケールの画像から特徴を融合させることは依然として課題である:(1)空間認識の欠如により、F-CNNは異なる空間位置で同じ重みを共有する。 2)F-CNNは,局所受容野を通してのみ周辺情報を取得することができる。 この課題に対処するため,MFA-Net(Multi-Scale Feature Fusion Attention Network)と呼ばれるアテンション機構に基づく新たなセグメンテーションフレームワークを提案する。 提案するフレームワークは,複数のスケールでより意味のある特徴マップを学習し,より正確な自動セグメンテーションを実現する。 提案したMFA-NetとSOTA法を2つの2次元肝CTデータセットで比較した。 実験結果から,MFA-Netはスケールの異なる画像に対してより精密なセグメンテーションを生成することがわかった。

Segmentation of organs of interest in medical CT images is beneficial for diagnosis of diseases. Though recent methods based on Fully Convolutional Neural Networks (F-CNNs) have shown success in many segmentation tasks, fusing features from images with different scales is still a challenge: (1) Due to the lack of spatial awareness, F-CNNs share the same weights at different spatial locations. (2) F-CNNs can only obtain surrounding information through local receptive fields. To address the above challenge, we propose a new segmentation framework based on attention mechanisms, named MFA-Net (Multi-Scale Feature Fusion Attention Network). The proposed framework can learn more meaningful feature maps among multiple scales and result in more accurate automatic segmentation. We compare our proposed MFA-Net with SOTA methods on two 2D liver CT datasets. The experimental results show that our MFA-Net produces more precise segmentation on images with different scales.
翻訳日:2024-05-08 15:09:09 公開日:2024-05-07
# FlashBack:ロングコンテキスト推論のための効率的な検索言語モデリング

FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference ( http://arxiv.org/abs/2405.04065v1 )

ライセンス: Link先を確認
Runheng Liu, Xingchen Xiao, Heyan Huang, Zewen Chi, Zhijing Wu, (参考訳) 大規模言語モデル(LLM)を外部コーパスから関連文書と統合することにより,LLMが事前学習コーパスの範囲を超えて情報を生成できることが証明された方法である。 検索したコンテンツを利用する以前の作業は、検索したコンテンツが入力に反映されるのを単純に予測するだけで、高い実行時問題が発生し、キーバリュー(KV)キャッシュを効率的に使用できないため、LLMの推論効率が低下する。 本稿では,LLMの知識の整合性を著しく損なうことなく,特定の微調整後の良好な性能を維持しつつ,付加コンテキストパターンによるALMの推論効率を向上させるために設計されたモジュールALMである。 \textsc{FlashBack} は、検索したドキュメントをコンテキストの最後に付加し、KVキャッシュをプリコンパイルする代わりに効率的に活用する。 実験の結果,7B LLM (Llama 2) の予測法よりも最大4\times$の高速な推論速度が得られた。 不要な再計算を回避し、推論速度を著しく速くすることで進歩を示し、この高効率化は推論コストを大幅に削減する。 私たちのコードは公開されます。

Retrieval-Augmented Language Modeling (RALM) by integrating large language models (LLM) with relevant documents from an external corpus is a proven method for enabling the LLM to generate information beyond the scope of its pre-training corpus. Previous work using utilizing retrieved content by simply prepending retrieved contents to the input poses a high runtime issue, which degrades the inference efficiency of the LLMs because they fail to use the Key-Value (KV) cache efficiently. In this paper, we propose \textsc{FlashBack}, a modular RALM designed to improve the inference efficiency of RALM with appending context pattern while maintaining decent performance after specific fine-tuning without heavily destruct the knowledge integrity of the LLM. \textsc{FlashBack} appends retrieved documents at the end of the context for efficiently utilizing the KV cache instead of prepending them. Our experiment shows that the inference speed of \textsc{FlashBack} is up to $4\times$ faster than the prepending method on a 7B LLM (Llama 2). Via bypassing unnecessary re-computation, it demonstrates an advancement by achieving significantly faster inference speed, and this heightened efficiency will substantially reduce inferential cost. Our code will be publicly available.
翻訳日:2024-05-08 15:09:09 公開日:2024-05-07
# PVO-kの再構成マッピングに基づく可逆的データハイディングアルゴリズムの改良

An Improved Reversible Data Hiding Algorithm Based on Reconstructed Mapping for PVO-k ( http://arxiv.org/abs/2405.04068v1 )

ライセンス: Link先を確認
Yusen Zhang, Haoyun Xu, Jingwen Li, (参考訳) Reversible Data Hiding (RDH)は、情報暗号化のための実用的で効率的な技術である。 その方法の中で、Pixel-Value Ordering (PVO)アルゴリズムとその変種は、主に情報を埋め込むために予測エラーを変更する。 しかし、古典的なPVOとIPVOやPVO-kのような改善されたバージョンは共通の制限を共有している。 これは、大量のデータを画像に埋め込む必要がある場合の課題である。 これらの問題に対して,本研究ではPVO-kアルゴリズムをターゲットとした改良型設計を提案する。 我々は,PVO-kアルゴリズムのマッピング方式を再構築し,暗号化された情報を埋め込み可能な画素数を最大化する。 実験により,提案手法はデータ埋め込み能力の最大値において,従来のアルゴリズムをはるかに上回っていることがわかった。 例えば、飛行機のグレースケール画像に情報を埋め込む場合、PVO-kが11,207ビット、PVOが8,004ビット、IPVOが4,562ビットを超える。 その結果,提案アルゴリズムは既存の手法よりも大きな優位性を示し,革新的なマッピング手法を導入し,画像に隠された可逆データ研究の基盤を築き上げている。

Reversible Data Hiding (RDH) is a practical and efficient technique for information encryption. Among its methods, the Pixel-Value Ordering (PVO) algorithm and its variants primarily modify prediction errors to embed information. However, both the classic PVO and its improved versions, such as IPVO and PVO-k, share a common limitation: their maximum data embedding capacity for a given grayscale image is relatively low. This poses a challenge when large amounts of data need to be embedded into an image. In response to these issues, this paper proposes an improved design targeting the PVO-k algorithm. We have reconstructed the mapping scheme of the PVO-k algorithm to maximize the number of pixels that can embed encrypted information. Experimental validations show that our proposed scheme significantly surpasses previous algorithms in terms of the maximum data embedding capacity. For instance, when embedding information into a grayscale image of an airplane, our method's capacity exceeds that of PVO-k by 11,207 bits, PVO by 8,004 bits, and IPVO by 4,562 bits. The results demonstrate that our algorithm holds substantial advantages over existing methods and introduces innovative mapping ideas, laying a foundation for future research in reversible data hiding in images.
翻訳日:2024-05-08 15:09:09 公開日:2024-05-07
# IMUを用いたイベントベースステレオビジュアルオドメトリー

IMU-Aided Event-based Stereo Visual Odometry ( http://arxiv.org/abs/2405.04071v1 )

ライセンス: Link先を確認
Junkai Niu, Sheng Zhong, Yi Zhou, (参考訳) イベントベースのビジュアルオドメトリーの直接手法は、イベントの生成モデルが利用される方法で暗黙のデータアソシエーションを確立することで、マッピングとカメラのポーズ追跡のサブプロブレムを解決する。 この分野で最先端の研究が直面している主なボトルネックは、マッピングの計算複雑性の高さと追跡の精度の制限である。 本稿では,従来の直接パイプラインであるtextit{Event-based Stereo Visual Odometry} を精度と効率の観点から改善する。 マッピング操作を高速化するために,イベントの局所的ダイナミクスに応じたエッジピクセルサンプリングの効率的な戦略を提案する。 また、時間的ステレオ結果と静的ステレオ結果を組み合わせることで、完全性および局所的滑らか性の観点からマッピング性能も向上する。 一般的な6-DoFモーションのヤウ成分を回収する際のカメラポーズトラッキングのデジェネリティー問題を回避するため,前積分によるジャイロスコープ測定を前倒しに導入した。 公開データセットの実験は、私たちの改善を正当化します。 この分野での今後の研究のためのオープンソースソフトウェアとして、パイプラインをリリースします。

Direct methods for event-based visual odometry solve the mapping and camera pose tracking sub-problems by establishing implicit data association in a way that the generative model of events is exploited. The main bottlenecks faced by state-of-the-art work in this field include the high computational complexity of mapping and the limited accuracy of tracking. In this paper, we improve our previous direct pipeline \textit{Event-based Stereo Visual Odometry} in terms of accuracy and efficiency. To speed up the mapping operation, we propose an efficient strategy of edge-pixel sampling according to the local dynamics of events. The mapping performance in terms of completeness and local smoothness is also improved by combining the temporal stereo results and the static stereo results. To circumvent the degeneracy issue of camera pose tracking in recovering the yaw component of general 6-DoF motion, we introduce as a prior the gyroscope measurements via pre-integration. Experiments on publicly available datasets justify our improvement. We release our pipeline as an open-source software for future research in this field.
翻訳日:2024-05-08 14:59:23 公開日:2024-05-07
# 量子不予測性

Quantum Unpredictability ( http://arxiv.org/abs/2405.04072v1 )

ライセンス: Link先を確認
Tomoyuki Morimae, Shogo Yamada, Takashi Yamakawa, (参考訳) 予測不能関数(UPF)は、メッセージ認証コード(MAC)やデジタル署名など、古典暗号において重要な役割を果たす。 本稿では、予測不能状態発生器(UPSG)と呼ばれるUPFの量子アナログを紹介する。 UPSGは擬似乱数関数(PRF)の量子アナログである擬似乱数関数様状態発生器(PRFS)によって暗示されるため、擬似乱数状態発生器(PRSG)や一方向状態発生器(OWSG)、EFIのような最近導入された他のプリミティブと同様に、擬似乱数関数が存在しない場合でもUPSGは存在することができる。 古典暗号ではUPFはPRFと等価であるが、量子の場合、等価性は明確ではなく、UPSGはPRFSよりも弱い可能性がある。 それにもかかわらず、PRFSの既知のすべての応用がUPSGで達成可能であることを実証する。 IND-CPA-Secure Secret-Key暗号化とEUF-CMA-Secure MACs with unclonable tagsがある。 以上の結果から,多くの応用において,量子擬似ランダム性よりも量子的不予測性が十分であることが示唆された。

Unpredictable functions (UPFs) play essential roles in classical cryptography, including message authentication codes (MACs) and digital signatures. In this paper, we introduce a quantum analog of UPFs, which we call unpredictable state generators (UPSGs). UPSGs are implied by pseudorandom function-like states generators (PRFSs), which are a quantum analog of pseudorandom functions (PRFs), and therefore UPSGs could exist even if one-way functions do not exist, similar to other recently introduced primitives like pseudorandom state generators (PRSGs), one-way state generators (OWSGs), and EFIs. In classical cryptography, UPFs are equivalent to PRFs, but in the quantum case, the equivalence is not clear, and UPSGs could be weaker than PRFSs. Despite this, we demonstrate that all known applications of PRFSs are also achievable with UPSGs. They include IND-CPA-secure secret-key encryption and EUF-CMA-secure MACs with unclonable tags. Our findings suggest that, for many applications, quantum unpredictability, rather than quantum pseudorandomness, is sufficient.
翻訳日:2024-05-08 14:59:23 公開日:2024-05-07
# 深部ニューラルネットワークの学習応答に関する簡単な理論

A simple theory for training response of deep neural networks ( http://arxiv.org/abs/2405.04074v1 )

ライセンス: Link先を確認
Kenichi Nakazato, (参考訳) ディープニューラルネットワークは、トレーニングデータセットの入力と出力の関係をモデル化する強力な方法を提供します。 適応メモリとして機能する多くの人工ニューロンからなる複雑な適応システムとみなすことができる。 ネットワークの動作は、損失関数の評価からフィードバックループで動的にトレーニングする。 トレーニングのレスポンスが一定であることや、いくつかの理想的な状況で法則のような老化を示すことは、すでに分かっています。 しかし、これらの発見と、ネットワークの脆弱性のような他の複雑な現象との間にはまだギャップがあります。 ギャップを埋めるため、非常に単純なネットワークを導入し、分析する。 トレーニング段階、アクティベーション機能、トレーニング方法に基づいて、トレーニング応答がいくつかの異なる要因から成り立っていることを示す。 さらに,ネットワークの脆弱性を生じさせる確率的トレーニングダイナミクスの効果として,特徴空間の削減を示す。 最後に,深層ネットワークの複雑な現象について論じる。

Deep neural networks give us a powerful method to model the training dataset's relationship between input and output. We can regard that as a complex adaptive system consisting of many artificial neurons that work as an adaptive memory as a whole. The network's behavior is training dynamics with a feedback loop from the evaluation of the loss function. We already know the training response can be constant or shows power law-like aging in some ideal situations. However, we still have gaps between those findings and other complex phenomena, like network fragility. To fill the gap, we introduce a very simple network and analyze it. We show the training response consists of some different factors based on training stages, activation functions, or training methods. In addition, we show feature space reduction as an effect of stochastic training dynamics, which can result in network fragility. Finally, we discuss some complex phenomena of deep networks.
翻訳日:2024-05-08 14:59:23 公開日:2024-05-07
# WISER:がんにおける薬物反応予測を改善するための弱スーパービシオンとsupErvised Representation Learning

WISER: Weak supervISion and supErvised Representation learning to improve drug response prediction in cancer ( http://arxiv.org/abs/2405.04078v1 )

ライセンス: Link先を確認
Kumar Shubham, Aishwarya Jayagopal, Syed Mohammed Danish, Prathosh AP, Vaibhav Rajan, (参考訳) 世界規模の死因であるがんは、ゲノム的変化によって発生し、患者間で不均一に現れる。 パーソナライズされた治療戦略の研究を進めるために, 実験室環境において, がん由来細胞(細胞株)に対する各種薬剤の有効性を実験的に決定する。 それでも、細胞株とヒト間のゲノムデータの分布と薬物応答の変動は、生物学的および環境的差異によって生じる。 さらに、多くのがん患者のゲノムプロファイルが容易に利用可能であるが、対応する薬物反応データの不足は、患者の薬物反応を効果的に予測できる機械学習モデルを訓練する能力を制限している。 近年のがん薬物応答予測法は、制御されていないドメイン不変表現学習のパラダイムに従っており、その後下流の薬物応答分類段階が続いている。 薬物に対する不均一な患者反応と限定的な薬物反応データにより、両段階の監督の導入は困難である。 本稿では,第1フェーズにおける表現学習手法と第2フェーズにおける監督の弱さを通じて,これらの課題に対処する。 実際の患者データを用いた実験結果から, パーソナライズされた薬物反応の予測に対する最先端の代替手段に対する本法(WISER)の有効性が示された。

Cancer, a leading cause of death globally, occurs due to genomic changes and manifests heterogeneously across patients. To advance research on personalized treatment strategies, the effectiveness of various drugs on cells derived from cancers (`cell lines') is experimentally determined in laboratory settings. Nevertheless, variations in the distribution of genomic data and drug responses between cell lines and humans arise due to biological and environmental differences. Moreover, while genomic profiles of many cancer patients are readily available, the scarcity of corresponding drug response data limits the ability to train machine learning models that can predict drug response in patients effectively. Recent cancer drug response prediction methods have largely followed the paradigm of unsupervised domain-invariant representation learning followed by a downstream drug response classification step. Introducing supervision in both stages is challenging due to heterogeneous patient response to drugs and limited drug response data. This paper addresses these challenges through a novel representation learning method in the first phase and weak supervision in the second. Experimental results on real patient data demonstrate the efficacy of our method (WISER) over state-of-the-art alternatives on predicting personalized drug response.
翻訳日:2024-05-08 14:59:23 公開日:2024-05-07
# 抽象論における対実的・半実的説明--形式的基礎・複雑性・計算

Counterfactual and Semifactual Explanations in Abstract Argumentation: Formal Foundations, Complexity and Computation ( http://arxiv.org/abs/2405.04081v1 )

ライセンス: Link先を確認
Gianvincenzo Alfano, Sergio Greco, Francesco Parisi, Irina Trubitsyna, (参考訳) 説明可能な人工知能と形式的議論は近年大きな注目を集めている。 議論ベースのシステムは、意思決定プロセスをサポートしながら説明責任を欠くことが多い。 対実的および半実的説明(英: Counterfactual and semifactual explanations)は、別の仮説インスタンスを生成することによって、モデルの結果に対する洞察を提供する解釈可能性技術である。 機械学習モデルに対する反実的および半実的説明に関する重要な研究はあったが、議論におけるこのような問題にはあまり関心が向けられていない。 本稿では,抽象的論証フレームワークにおける反実的・半実的推論について考察する。 反事実的および半事実的推論問題の計算複雑性について検討し、信頼性や懐疑的受け入れのような古典的議論問題よりも一般に難しいことを示す。 最後に, 対実的および半実的クエリを弱制約のArgumentation Frameworkに符号化し, ASPソルバによる計算戦略を提案する。

Explainable Artificial Intelligence and Formal Argumentation have received significant attention in recent years. Argumentation-based systems often lack explainability while supporting decision-making processes. Counterfactual and semifactual explanations are interpretability techniques that provide insights into the outcome of a model by generating alternative hypothetical instances. While there has been important work on counterfactual and semifactual explanations for Machine Learning models, less attention has been devoted to these kinds of problems in argumentation. In this paper, we explore counterfactual and semifactual reasoning in abstract Argumentation Framework. We investigate the computational complexity of counterfactual- and semifactual-based reasoning problems, showing that they are generally harder than classical argumentation problems such as credulous and skeptical acceptance. Finally, we show that counterfactual and semifactual queries can be encoded in weak-constrained Argumentation Framework, and provide a computational strategy through ASP solvers.
翻訳日:2024-05-08 14:59:23 公開日:2024-05-07
# 弱スーパービジョンを用いた言語モデルの推論能力の最適化

Optimizing Language Model's Reasoning Abilities with Weak Supervision ( http://arxiv.org/abs/2405.04086v1 )

ライセンス: Link先を確認
Yongqi Tong, Sizhe Wang, Dawei Li, Yifan Wang, Simeng Han, Zi Lin, Chengsong Huang, Jiaxin Huang, Jingbo Shang, (参考訳) 大規模言語モデル(LLM)は複雑なクエリを扱う能力を示したが、過去の作業の多くは、人間の専門家による広範囲な注釈付きデータセットに依存していた。 しかし、この完全に教師されたアノテーションへの依存は、特にモデルやデータ要求が増加するにつれて、スケーラビリティの課題を引き起こす。 これを軽減するため,LLMの推論能力を高める可能性について,人間の監督を最小限に抑えて検討する。 本研究では,注釈付き質問の小さな集合を用いて,モデルのスーパービジョン・ファインチューニング(SFT)から始まる自己強化を導入する。 そして、ラベルなし質問に対するSFTと未修正モデルからの応答の違いから学習することで、LCMを反復的に改善する。 我々のアプローチは、広範囲な人手による説明に大きく依存することなく、効率的なアプローチを提供する。 しかし、現在の推論ベンチマークは一般的にゴールデン参照の回答や合理性しか含まない。 そこで我々は,25,147の複雑な質問,回答,人為的合理性を含む弱教師付きベンチマークである「textsc{PuzzleBen}」を,脳触手,パズル,滑車,パラジャンブル,批判的推論タスクなど,さまざまな領域にわたって提示する。 データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。 我々の実験は, 今後の取り組みにおける有望な方向としての方法論の有効性とともに, textsc{PuzzleBen} の重要性を浮き彫りにした。 私たちのデータセットとコードは、もうすぐtexttt{Anonymity Link}で公開されます。

While Large Language Models (LLMs) have demonstrated proficiency in handling complex queries, much of the past work has depended on extensively annotated datasets by human experts. However, this reliance on fully-supervised annotations poses scalability challenges, particularly as models and data requirements grow. To mitigate this, we explore the potential of enhancing LLMs' reasoning abilities with minimal human supervision. In this work, we introduce self-reinforcement, which begins with Supervised Fine-Tuning (SFT) of the model using a small collection of annotated questions. Then it iteratively improves LLMs by learning from the differences in responses from the SFT and unfinetuned models on unlabeled questions. Our approach provides an efficient approach without relying heavily on extensive human-annotated explanations. However, current reasoning benchmarks typically only include golden-reference answers or rationales. Therefore, we present \textsc{PuzzleBen}, a weakly supervised benchmark that comprises 25,147 complex questions, answers, and human-generated rationales across various domains, such as brainteasers, puzzles, riddles, parajumbles, and critical reasoning tasks. A unique aspect of our dataset is the inclusion of 10,000 unannotated questions, enabling us to explore utilizing fewer supersized data to boost LLMs' inference capabilities. Our experiments underscore the significance of \textsc{PuzzleBen}, as well as the effectiveness of our methodology as a promising direction in future endeavors. Our dataset and code will be published soon on \texttt{Anonymity Link}.
翻訳日:2024-05-08 14:59:23 公開日:2024-05-07
# 任意の1ビットと2ビットの誤差から量子ゲートを保護する

Protecting quantum gates from arbitrary single- and two-qubit errors ( http://arxiv.org/abs/2405.04090v1 )

ライセンス: Link先を確認
Chunfeng Wu, Gangcheng Wang, Xun-Li Feng, (参考訳) 動的デカップリングパルスを適切に設計した任意の単一および2量子雑音からの量子ゲートの保護について検討する。 提案手法は, パルス列を$\sigma_x$, $\sigma_x\sigma_x$と, $\sigma_z$, $\sigma_z\sigma_z$とで結合する。 2つのシーケンスの連結は、任意の1ビットと2ビットの誤りと戦うために望ましいパルスをもたらす。 本手法の成功は, 閉じ込められたイオンや超伝導量子ビットを含む様々な物理系で実現可能な, システムパラメータや相互作用項の調整能力に依存する。 提案手法は, いずれにせよ変化している誤差を数値的に検討し, 提案手法が推奨する保護効果を示す。 したがって,本手法は物理量子ビットのレベルでの量子ゲートの保存をタイムリーに進めるものである。

We explore the protection of quantum gates from arbitrary single- and two-qubit noises with properly designed dynamical decoupling pulses. The proposed dynamical decoupling method is a concatenation of a sequence of pulses formed by $\sigma_x$, $\sigma_x\sigma_x$ with another sequence constructed by $\sigma_z$, $\sigma_z\sigma_z$. The concatenation of the two sequences results in desired pulses to fight agianst any single- and two-qubit errors. The success of our method relies on the ability to adjust system parameters or interaction terms, which can be achieved in different physical systems, including trapped ions and superconducting qubits. We finally explore the performance of our method numerically with the above-mentioned errors that are changing at any moment and show the preferred protection offered by the method. Therefore, our method is a timely step forward in preserving quantum gates at the level of physical qubits.
翻訳日:2024-05-08 14:59:23 公開日:2024-05-07
# DCNN: 細粒度物体のための対話型ディープラーニング識別器を用いて実現したデュアルクロスカレントニューラルネットワーク

DCNN: Dual Cross-current Neural Networks Realized Using An Interactive Deep Learning Discriminator for Fine-grained Objects ( http://arxiv.org/abs/2405.04093v1 )

ライセンス: Link先を確認
Da Fu, Mingfei Rong, Eun-Hu Kim, Hao Huang, Witold Pedrycz, (参考訳) 微細な画像の正確な分類は、畳み込み操作や自己認識機構に基づくバックボーンの課題である。 本研究では、畳み込み操作と自己注意機構の利点を組み合わせ、微細な画像分類の精度を向上させる新しいデュアルカレントニューラルネットワーク(DCNN)を提案する。 弱教師付き学習バックボーンモデルDCNNの新機能 (a)異種データの抽出 (b)特徴地図の解像度を一定に保つこと。 (c)受容領域を拡大し、 (d)グローバル表現とローカル特徴を融合させる。 実験の結果、DCNNをバックボーンネットワークとして、特定のきめ細かいベンチマークデータセットを分類することで、他の高度な畳み込みや注意に基づくきめ細かなバックボーンと比較して、それぞれ13.5--19.5%と2.2--12.9%のパフォーマンス改善を実現した。

Accurate classification of fine-grained images remains a challenge in backbones based on convolutional operations or self-attention mechanisms. This study proposes novel dual-current neural networks (DCNN), which combine the advantages of convolutional operations and self-attention mechanisms to improve the accuracy of fine-grained image classification. The main novel design features for constructing a weakly supervised learning backbone model DCNN include (a) extracting heterogeneous data, (b) keeping the feature map resolution unchanged, (c) expanding the receptive field, and (d) fusing global representations and local features. Experimental results demonstrated that using DCNN as the backbone network for classifying certain fine-grained benchmark datasets achieved performance advantage improvements of 13.5--19.5% and 2.2--12.9%, respectively, compared to other advanced convolution or attention-based fine-grained backbones.
翻訳日:2024-05-08 14:59:23 公開日:2024-05-07
# マルウェアのコンセプトドリフトに対する前向きかつ説明的行動

Going Proactive and Explanatory Against Malware Concept Drift ( http://arxiv.org/abs/2405.04095v1 )

ライセンス: Link先を確認
Yiling He, Junchi Lei, Zhan Qin, Kui Ren, (参考訳) ディープラーニングベースのマルウェア分類器は、コンセプトドリフトのために重大な課題に直面している。 マルウェアの急速な進化、特に新しい家系では、分類精度をほぼランダムなレベルに低下させる可能性がある。 これまでの研究は主に漂流サンプルの検出に重点を置いており、専門家主導の分析とモデル再訓練のためのラベル付けに頼っていた。 しかし、これらの手法はマルウェアの概念を包括的に理解せず、効果的なドリフト適応のための限られたガイダンスを提供し、不安定な検出性能と高い人為的ラベリングコストをもたらす。 これらの制約に対処するため、既存のドリフト検出器の能力を超越し、説明ドリフト適応プロセスを確立するために設計された新しいシステムであるDREAMを導入する。 DREAMはモデル感度とデータ自律性によるドリフト検出を強化する。 半教師付きアプローチで訓練された検出器は、分類器のフィードバックを通じてマルウェアの行動概念を積極的にキャプチャする。 テスト中は、検出器自体が生成したサンプルを使用し、広範なトレーニングデータへの依存を排除している。 ドリフト適応のために、DREAMは人間の介入を拡大し、マルウェアラベルのリビジョンと検出器の潜伏空間に埋め込まれた概念説明を可能にする。 概念のドリフトに対する包括的な応答を保証するため、分類器と検出器の両方の調整された更新プロセスを容易にする。 評価の結果,DREAMはドリフト検出精度を効果的に向上し,各種のマルウェアデータセットや分類器に適応する専門家分析の労力を削減できることがわかった。

Deep learning-based malware classifiers face significant challenges due to concept drift. The rapid evolution of malware, especially with new families, can depress classification accuracy to near-random levels. Previous research has primarily focused on detecting drift samples, relying on expert-led analysis and labeling for model retraining. However, these methods often lack a comprehensive understanding of malware concepts and provide limited guidance for effective drift adaptation, leading to unstable detection performance and high human labeling costs. To address these limitations, we introduce DREAM, a novel system designed to surpass the capabilities of existing drift detectors and to establish an explanatory drift adaptation process. DREAM enhances drift detection through model sensitivity and data autonomy. The detector, trained in a semi-supervised approach, proactively captures malware behavior concepts through classifier feedback. During testing, it utilizes samples generated by the detector itself, eliminating reliance on extensive training data. For drift adaptation, DREAM enlarges human intervention, enabling revisions of malware labels and concept explanations embedded within the detector's latent space. To ensure a comprehensive response to concept drift, it facilitates a coordinated update process for both the classifier and the detector. Our evaluation shows that DREAM can effectively improve the drift detection accuracy and reduce the expert analysis effort in adaptation across different malware datasets and classifiers.
翻訳日:2024-05-08 14:59:23 公開日:2024-05-07
# アンマキング・イリュージョン:人間の聴覚深度知覚の理解

Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes ( http://arxiv.org/abs/2405.04097v1 )

ライセンス: Link先を確認
Ammarah Hashmi, Sahibzada Adil Shahzad, Chia-Wen Lin, Yu Tsao, Hsin-Min Wang, (参考訳) 人工知能(AI)が生成する合成メディアは誤解釈の頻度を増大させ、真の内容と区別が難しいため、現代のディープフェイクの出現は機械学習研究において大きな注目を集めている。 現在、ディープフェイクを自動的に検出する機械学習技術が広く研究されている。 しかし、人間の知覚は研究されていない。 悪意のあるディープフェイクは最終的に公衆や社会的な問題を引き起こす可能性がある。 人間は、見ているビデオの内容の正しさを正しく認識できますか? 本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的としている。 人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。 この目的のために、ゲーミフィケーションの概念を用いて110人の参加者(55人のネイティブ・イングリッシュ・スピーカーと55人の非ネイティブ・イングリッシュ・スピーカー)にウェブベースのプラットフォームを提供し、40の動画(20のリアルと20のフェイク)にアクセスして真偽を判定した。 各参加者は異なるランダムな順序で同じ40の動画で2回実験を行った。 ビデオはFakeAVCelebデータセットから手動で選択される。 同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。 この研究は、騙しは不可能ではないが、人間は検出能力を過大評価する傾向があることも明らかにした。 我々の実験結果は、人間と機械のパフォーマンスのベンチマーク、先進的な法医学的分析、適応的な対策の実現に役立つかもしれない。

The emergence of contemporary deepfakes has attracted significant attention in machine learning research, as artificial intelligence (AI) generated synthetic media increases the incidence of misinterpretation and is difficult to distinguish from genuine content. Currently, machine learning techniques have been extensively studied for automatically detecting deepfakes. However, human perception has been less explored. Malicious deepfakes could ultimately cause public and social problems. Can we humans correctly perceive the authenticity of the content of the videos we watch? The answer is obviously uncertain; therefore, this paper aims to evaluate the human ability to discern deepfake videos through a subjective study. We present our findings by comparing human observers to five state-ofthe-art audiovisual deepfake detection models. To this end, we used gamification concepts to provide 110 participants (55 native English speakers and 55 non-native English speakers) with a webbased platform where they could access a series of 40 videos (20 real and 20 fake) to determine their authenticity. Each participant performed the experiment twice with the same 40 videos in different random orders. The videos are manually selected from the FakeAVCeleb dataset. We found that all AI models performed better than humans when evaluated on the same 40 videos. The study also reveals that while deception is not impossible, humans tend to overestimate their detection capabilities. Our experimental results may help benchmark human versus machine performance, advance forensics analysis, and enable adaptive countermeasures.
翻訳日:2024-05-08 14:59:23 公開日:2024-05-07
# バイナリ化された単純な畳み込みニューラルネットワーク

Binarized Simplicial Convolutional Neural Networks ( http://arxiv.org/abs/2405.04098v1 )

ライセンス: Link先を確認
Yi Yan, Ercan E. Kuruoglu, (参考訳) グラフニューラルネットワークは、エッジや三角形のような高次元構造のデータを無視して、グラフノードでのみ処理する機能を制限する。 単純な畳み込みニューラルネットワーク(Simplicial Convolutional Neural Networks, SCNN)は、この制限を破るために単純な複合体を用いる高次構造を表現する。 本稿では, 単純畳み込みと二分符号前方伝播戦略の組み合わせを基礎として, 単純畳み込みニューラルネットワーク (Bi-SCNN) という, 単純な複合体上の新しいニューラルネットワークアーキテクチャを提案する。 二項符号前方伝播におけるホッジラプラシアンの使用により、Bi-SCNNは従来のグラフノード表現よりも高階構造を持つ単純な特徴を効率的かつ効果的に表現することができる。 従来のSimplicial Convolutional Neural Networksと比較して、Bi-SCNNのモデル複雑性の低減は、予測性能を犠牲にすることなく実行時間を短縮し、過度なスムーシング効果を伴わない。 実世界の引用データと海洋ドリフトデータを用いて実験した結果,提案したBi-SCNNは効率的かつ正確であることが確認された。

Graph Neural Networks have a limitation of solely processing features on graph nodes, neglecting data on high-dimensional structures such as edges and triangles. Simplicial Convolutional Neural Networks (SCNN) represent higher-order structures using simplicial complexes to break this limitation albeit still lacking time efficiency. In this paper, we propose a novel neural network architecture on simplicial complexes named Binarized Simplicial Convolutional Neural Networks (Bi-SCNN) based on the combination of simplicial convolution with a binary-sign forward propagation strategy. The usage of the Hodge Laplacian on a binary-sign forward propagation enables Bi-SCNN to efficiently and effectively represent simplicial features that have higher-order structures than traditional graph node representations. Compared to the previous Simplicial Convolutional Neural Networks, the reduced model complexity of Bi-SCNN shortens the execution time without sacrificing the prediction performance and is less prone to the over-smoothing effect. Experimenting with real-world citation and ocean-drifter data confirmed that our proposed Bi-SCNN is efficient and accurate.
翻訳日:2024-05-08 14:59:23 公開日:2024-05-07
# ESP:緊急シナリオにおける長期行動推論の実験的予測

ESP: Extro-Spective Prediction for Long-term Behavior Reasoning in Emergency Scenarios ( http://arxiv.org/abs/2405.04100v1 )

ライセンス: Link先を確認
Dingrui Wang, Zheyuan Lai, Yuda Li, Yi Wu, Yuexin Ma, Johannes Betz, Ruigang Yang, Wei Li, (参考訳) 緊急時安全は完全自動運転における重要なマイルストーンであり、緊急時の安全維持には信頼性の高いリアルタイム予測が不可欠である。 しかし、これらの緊急シナリオは長くて収集が難しいため、システムは信頼性の高い予測を受けられない。 本稿では,緊急イベントの履歴に不明瞭な状態変化を伴う長期予測を目的とした新しいデータセットを構築し,ESP(Extro-Spective Prediction)問題と命名した。 提案したデータセットに基づいて、シームレスなプラグインとして様々な予測手法にESPのフレキシブルな機能エンコーダを導入し、その一貫した性能改善がその有効性を示している。 さらに、特にサブ秒の時間に敏感な緊急イベントにおいて、予測性能をより包括的に評価するために、CTE(Clamped temporal error)と呼ばれる新しい指標を提案する。 興味深いことに、私たちのESP機能は自然に人間可読言語で記述できるので、ChatGPTへの統合の応用もまた大きな可能性を秘めている。 ESP-datasetとすべてのベンチマークはhttps://dingrui-wang.github.io/ESP-Dataset/.comで公開されている。

Emergent-scene safety is the key milestone for fully autonomous driving, and reliable on-time prediction is essential to maintain safety in emergency scenarios. However, these emergency scenarios are long-tailed and hard to collect, which restricts the system from getting reliable predictions. In this paper, we build a new dataset, which aims at the long-term prediction with the inconspicuous state variation in history for the emergency event, named the Extro-Spective Prediction (ESP) problem. Based on the proposed dataset, a flexible feature encoder for ESP is introduced to various prediction methods as a seamless plug-in, and its consistent performance improvement underscores its efficacy. Furthermore, a new metric named clamped temporal error (CTE) is proposed to give a more comprehensive evaluation of prediction performance, especially in time-sensitive emergency events of subseconds. Interestingly, as our ESP features can be described in human-readable language naturally, the application of integrating into ChatGPT also shows huge potential. The ESP-dataset and all benchmarks are released at https://dingrui-wang.github.io/ESP-Dataset/.
翻訳日:2024-05-08 14:59:23 公開日:2024-05-07
# 反復の有無による継続的な学習

Continual Learning in the Presence of Repetition ( http://arxiv.org/abs/2405.04101v1 )

ライセンス: Link先を確認
Hamed Hemati, Lorenzo Pellegrini, Xiaotian Duan, Zixuan Zhao, Fangfang Xia, Marc Masana, Benedikt Tscheschner, Eduardo Veas, Yuxiang Zheng, Shiji Zhao, Shao-Yuan Li, Sheng-Jun Huang, Vincenzo Lomonaco, Gido M. van de Ven, (参考訳) 継続的学習(CL)は、絶え間なく進化する環境でモデルをトレーニングするためのフレームワークを提供する。 これまで見られたオブジェクトやタスクの再帰は実世界の問題では一般的であるが、データストリームにおける繰り返しの概念はCLの標準ベンチマークでは考慮されないことが多い。 バッファベースの戦略におけるリハーサル機構とは異なり、サンプルの繰り返しが戦略によって制御される場合、データストリームの繰り返しは自然に環境から生じる。 本稿では,CVPR 2023におけるCLVisionチャレンジの要約を紹介する。 このレポートは最初、課題の目標を概説し、続いてファイナリストチームが提案する3つのソリューションについて説明する。 この課題による実験結果は、類似モジュールの複数のバージョンを利用するアンサンブルベースのソリューションの有効性を強調し、それぞれ異なるが重複するクラスのサブセットで訓練された。 本報告は,データストリームの繰り返しを利用して,革新的戦略設計を促進することにより,CLにおける異なる視点を取ることの変革的可能性を強調する。

Continual learning (CL) provides a framework for training models in ever-evolving environments. Although re-occurrence of previously seen objects or tasks is common in real-world problems, the concept of repetition in the data stream is not often considered in standard benchmarks for CL. Unlike with the rehearsal mechanism in buffer-based strategies, where sample repetition is controlled by the strategy, repetition in the data stream naturally stems from the environment. This report provides a summary of the CLVision challenge at CVPR 2023, which focused on the topic of repetition in class-incremental learning. The report initially outlines the challenge objective and then describes three solutions proposed by finalist teams that aim to effectively exploit the repetition in the stream to learn continually. The experimental results from the challenge highlight the effectiveness of ensemble-based solutions that employ multiple versions of similar modules, each trained on different but overlapping subsets of classes. This report underscores the transformative potential of taking a different perspective in CL by employing repetition in the data stream to foster innovative strategy design.
翻訳日:2024-05-08 14:59:23 公開日:2024-05-07
# COM3D:3D検索にクロスビュー対応とクロスモーダルマイニングを活用する

COM3D: Leveraging Cross-View Correspondence and Cross-Modal Mining for 3D Retrieval ( http://arxiv.org/abs/2405.04103v1 )

ライセンス: Link先を確認
Hao Wu, Ruochong LI, Hao Wang, Hui Xiong, (参考訳) 本稿では,3次元形状とテキスト記述の相互検索に関するオープンな研究課題について検討する。 従来のアプローチは主に特徴抽出のためのポイントクラウドエンコーダに依存しており、深さ、空間的階層、幾何学的連続性などの3D形状の重要な特徴を無視する可能性がある。 この問題に対処するため,COM3Dを提案し,クロスビュー対応とクロスモーダルマイニングを活用して検索性能を向上させる。 特に3次元特徴をシーン表現変換器で拡張し、3次元形状のクロスビュー対応特徴を生成し、その特徴を豊かにし、テキストマッチングとの互換性を高める。 さらに,学習効率の向上を目的として,半ハードな負のサンプルマイニング法に基づくクロスモーダルマッチングプロセスの最適化を提案する。 広範に定量的および定性的実験を行い、提案したCOM3Dの優位性を実証し、Text2Shapeデータセットの最先端結果を得た。

In this paper, we investigate an open research task of cross-modal retrieval between 3D shapes and textual descriptions. Previous approaches mainly rely on point cloud encoders for feature extraction, which may ignore key inherent features of 3D shapes, including depth, spatial hierarchy, geometric continuity, etc. To address this issue, we propose COM3D, making the first attempt to exploit the cross-view correspondence and cross-modal mining to enhance the retrieval performance. Notably, we augment the 3D features through a scene representation transformer, to generate cross-view correspondence features of 3D shapes, which enrich the inherent features and enhance their compatibility with text matching. Furthermore, we propose to optimize the cross-modal matching process based on the semi-hard negative example mining method, in an attempt to improve the learning efficiency. Extensive quantitative and qualitative experiments demonstrate the superiority of our proposed COM3D, achieving state-of-the-art results on the Text2Shape dataset.
翻訳日:2024-05-08 14:59:23 公開日:2024-05-07
# 完全分解シリコンオン絶縁体多チップ集合体に実装した量子ドットと極低温電波リードアウトエレクトロニクス

Quantum dots and cryogenic radio-frequency readout electronics implemented on a fully-depleted silicon-on-insulator multi-chip assembly ( http://arxiv.org/abs/2405.04104v1 )

ライセンス: Link先を確認
David J. Ibberson, James Kirkman, John J. L. Morton, M. Fernando Gonzalez-Zalba, Alberto Gomez-Saiz, (参考訳) 量子処理ユニットは、デジタルおよびアナログ電子モジュールを含むより大きな情報処理システムのモジュールである。 シリコンベースの量子コンピューティングは、同じ技術プラットフォームを使用してすべてのモジュールを製造するための魅力的な機会を提供する。 ここでは、全モジュールを同じフルデプリットシリコンオン絶縁体(FDSOI)CMOSプロセスで作製したシリコン量子デバイスの多重読み出しのための低温多モジュールアセンブリについて述べる。 組み立ては3つのチップレットで構成されている。 (i)低雑音増幅器(LNA) (ii)単極8列スイッチ(SP8T)、 (iii)シリコン量子ドット(QD)アレイ。 私たちは各モジュールを個別に特徴付け、表示します (i)利得35dB、帯域幅118MHz、最低雑音温度4.2K (ii)1.1dB未満の挿入損失、0-2GHzの1.1K未満のノイズ温度、 三 単電子箱(SEB)電荷センサ。 最後に、全ての要素を1つのデモに組み合わせ、全シリコン量子コンピューティングシステムへの道を歩む2つのSEBの時間領域の無線周波数多重化を示す。

Quantum processing units will be modules of larger information processing systems containing also digital and analog electronics modules. Silicon-based quantum computing offers the enticing opportunity to manufacture all the modules using the same technology platform. Here, we present a cryogenic multi-module assembly for multiplexed readout of silicon quantum devices where all modules have been fabricated using the same fully-depleted silicon-on-insulator (FDSOI) CMOS process. The assembly is constituted by three chiplets: (i) a low-noise amplifier (LNA), (ii) a single-pole eight-throw switch (SP8T), and (iii) a silicon quantum dot (QD) array. We characterise each module individually and show (i) a gain over 35 dB, a bandwidth of 118 MHz, a minimum noise temperature of 4.2 K, (ii) an insertion loss smaller than 1.1 dB, a noise temperature smaller than 1.1 K across 0-2 GHz, and (iii) single-electron box (SEB) charge sensors. Finally, we combine all elements into a single demonstration showing time-domain radio-frequency multiplexing of two SEBs paving the way to an all-silicon quantum computing system.
翻訳日:2024-05-08 14:59:23 公開日:2024-05-07
# A2-DIDM:DNNモデルの分散IDのためのプライバシ保護型累積型監査

A2-DIDM: Privacy-preserving Accumulator-enabled Auditing for Distributed Identity of DNN Model ( http://arxiv.org/abs/2405.04108v1 )

ライセンス: Link先を確認
Tianxiu Xie, Keke Gai, Jing Yu, Liehuang Zhu, Kim-Kwang Raymond Choo, (参考訳) ジェネレーティブ・人工知能(GenAI)の最近のブームは、ライセンスやディープニューラルネットワーク(Deep Neural Network, DNN)モデルのトレーディングといったモデルパフォーマンスの向上を目的として、新たなモデル商業化を促進している。 しかし、DNNモデルのトレーディングは、モデルに対する不正な複製や誤用の懸念を引き起こす可能性があるため、モデルのオーナシップの利点が侵害される。 モデルアイデンティティ監査は、DNNモデルの知的財産権保護と、トランザクションにおける信頼を保証するためのモデルの完全性とオーナシップの検証において難しい問題である。 本稿では、ブロックチェーンとゼロ知識技術を用いて、軽量なオンチェーンオーナシップ検証を確保しつつ、データの保護とプライバシ機能を実現する、新しいA2-DIDM(A2-DIDM)を提案する。 モデル重みチェックポイントのインクリメンタルな状態変化を捉えるための述語を組み込んだゼロ知識証明を用いてモデル重みチェックポイントを設定することで、モデル重みチェックポイントの同一性レコードのスキームを提案する。 DNNモデルの重みチェックポイントシーケンスの特異性が維持され,モデルの同一性監査の正確さが保証される。 さらに、A2-DIDMは、アキュムレータの提案方法を通じて、分散IDのプライバシ保護にも対処する。 提案するモデルのセキュリティと堅牢性を体系的に分析し,DNNモデルの同一性監査の有効性とユーザビリティを更に評価する。

Recent booming development of Generative Artificial Intelligence (GenAI) has facilitated an emerging model commercialization for the purpose of reinforcement on model performance, such as licensing or trading Deep Neural Network (DNN) models. However, DNN model trading may trigger concerns of the unauthorized replications or misuses over the model, so that the benefit of the model ownership will be violated. Model identity auditing is a challenging issue in protecting intellectual property of DNN models and verifying the integrity and ownership of models for guaranteeing trusts in transactions is one of the critical obstacles. In this paper, we focus on the above issue and propose a novel Accumulator-enabled Auditing for Distributed Identity of DNN Model (A2-DIDM) that utilizes blockchain and zero-knowledge techniques to protect data and function privacy while ensuring the lightweight on-chain ownership verification. The proposed model presents a scheme of identity records via configuring model weight checkpoints with corresponding zero-knowledge proofs, which incorporates predicates to capture incremental state changes in model weight checkpoints. Our scheme ensures both computational integrity of DNN training process and programmability, so that the uniqueness of the weight checkpoint sequence in a DNN model is preserved, ensuring the correctness of the model identity auditing. In addition, A2-DIDM also addresses privacy protections in distributed identity via a proposed method of accumulators. We systematically analyze the security and robustness of our proposed model and further evaluate the effectiveness and usability of auditing DNN model identities.
翻訳日:2024-05-08 14:49:39 公開日:2024-05-07
# Malware as a Service エコシステム

The Malware as a Service ecosystem ( http://arxiv.org/abs/2405.04109v1 )

ライセンス: Link先を確認
Constantinos Patsakis, David Arroyo, Fran Casino, (参考訳) この章の目標は、MaaS(Malware as a Service)エコシステムの運用フレームワーク、キーアクター、および重要なサイバーセキュリティへの影響を照明することである。 この章では、マルウェアの増殖をサービス指向モデルに変換することのハイライトとして、MaaSが高度なサイバー攻撃能力へのアクセスを民主化し、最小限の技術知識を持つ人々でさえ破滅的なサイバー攻撃を実行できるようにする方法について論じている。 この議論は、マルウェア開発者、アフィリエイト、初期アクセスブローカー、そしてこれらの恐ろしい活動をサポートする重要なインフラストラクチャプロバイダを含む、MaaSエコシステム内の役割にまで及んでいる。 この研究は、MaaSが従来のサイバーセキュリティ防衛にもたらす重大な課題を強調しており、MaaSプラットフォームが生み出す絶えず進化し、高度に適応可能な脅威に対して効果がない。 マルウェアの高度化に伴い、防衛戦略のパラダイムシフト、動的分析、行動検出、AIと機械学習技術の統合の提唱が並行して求められている。 この章では、MaaSエコシステムの複雑さを探求し、成長を促進する経済的動機や、合法的なサービスモデルとサイバー犯罪の間の曖昧な線を探索することで、研究者とサイバーセキュリティの専門家の間で深い理解を深めるための包括的な概要を提示している。 最終的な目標は、MaaSモデルによって促進されるサイバー攻撃のアクセシビリティとスケーラビリティの増大に対して、コモディティ化されたマルウェアの脅威の拡散と保護を守るための、より効果的な戦略の開発を支援することである。

The goal of this chapter is to illuminate the operational frameworks, key actors, and significant cybersecurity implications of the Malware as a Service (MaaS) ecosystem. Highlighting the transformation of malware proliferation into a service-oriented model, the chapter discusses how MaaS democratises access to sophisticated cyberattack capabilities, enabling even those with minimal technical knowledge to execute catastrophic cyberattacks. The discussion extends to the roles within the MaaS ecosystem, including malware developers, affiliates, initial access brokers, and the essential infrastructure providers that support these nefarious activities. The study emphasises the profound challenges MaaS poses to traditional cybersecurity defences, rendered ineffective against the constantly evolving and highly adaptable threats generated by MaaS platforms. With the increase in malware sophistication, there is a parallel call for a paradigm shift in defensive strategies, advocating for dynamic analysis, behavioural detection, and the integration of AI and machine learning techniques. By exploring the intricacies of the MaaS ecosystem, including the economic motivations driving its growth and the blurred lines between legitimate service models and cyber crime, the chapter presents a comprehensive overview intended to foster a deeper understanding among researchers and cybersecurity professionals. The ultimate goal is to aid in developing more effective strategies for combating the spread of commoditised malware threats and safeguarding against the increasing accessibility and scalability of cyberattacks facilitated by the MaaS model.
翻訳日:2024-05-08 14:49:39 公開日:2024-05-07
# 適応最小平均pthパワーグラフニューラルネットワーク

Adaptive Least Mean pth Power Graph Neural Networks ( http://arxiv.org/abs/2405.04111v1 )

ライセンス: Link先を確認
Changran Peng, Yi Yan, Ercan E. Kuruoglu, (参考訳) インパルスノイズや観測の欠如の存在下では、時間変化のグラフ信号の正確なオンライン予測は多くのアプリケーション領域において重要な課題となっている。 適応型フィルタとグラフニューラルネットワークを組み合わせた,オンライングラフ信号推定のための汎用フレームワークとして,Adaptive Least Mean $p^{th}$ Power Graph Neural Networks (LMP-GNN)を提案する。 LMP-GNNは、ノイズや観察の欠如、オンライン更新機能を扱う際の適応フィルタリングの利点を保っている。 LMP-GNNに組み込まれたグラフニューラルネットワークは、以前の方法で事前に定義されたフィルタパラメータではなく、フィルタパラメータをオンラインでトレーニングし、更新することが可能で、より正確な予測結果が出力される。 LMP-GNNの適応的更新スキームは、最小分散基準に根ざした$l_p$-norm最適化の解に従い、インパルスノイズ下での時間変化グラフ信号の堅牢な推定結果を得る。 また,LMP-GNNと名づけられたLMP-GNNの特殊な事例も提供・解析され,提案したLMP-GNNの有効性とロバスト性を示す4つの異なる雑音分布下での2つの実世界の温度グラフとトラヒックグラフの実験結果が得られた。

In the presence of impulsive noise, and missing observations, accurate online prediction of time-varying graph signals poses a crucial challenge in numerous application domains. We propose the Adaptive Least Mean $p^{th}$ Power Graph Neural Networks (LMP-GNN), a universal framework combining adaptive filter and graph neural network for online graph signal estimation. LMP-GNN retains the advantage of adaptive filtering in handling noise and missing observations as well as the online update capability. The incorporated graph neural network within the LMP-GNN can train and update filter parameters online instead of predefined filter parameters in previous methods, outputting more accurate prediction results. The adaptive update scheme of the LMP-GNN follows the solution of a $l_p$-norm optimization, rooting to the minimum dispersion criterion, and yields robust estimation results for time-varying graph signals under impulsive noise. A special case of LMP-GNN named the Sign-GNN is also provided and analyzed, Experiment results on two real-world datasets of temperature graph and traffic graph under four different noise distributions prove the effectiveness and robustness of our proposed LMP-GNN.
翻訳日:2024-05-08 14:49:39 公開日:2024-05-07
# 近赤外における自由空間日光地上QKD

Free space daylight ground-ground QKD in the near-IR ( http://arxiv.org/abs/2405.04113v1 )

ライセンス: Link先を確認
Jan Tepper, Nils Hellerhoff, Alberto Comin, (参考訳) 850nmで1.9\%のQBERと14kbit/sの生のキーレートが得られる。 BB84プロトコルで分極符号化を行い、古典通信とクロック同期のための2つの光ビームをサポートした。

We report a daylight km-range free space QKD demonstration at 850nm obtaining a QBER of 1.9\% and a raw key-rate of 14 kbit/s. We used the BB84 protocol with polarisation encoding and two supporting optical beams for classical communication and clock synchronisation.
翻訳日:2024-05-08 14:49:39 公開日:2024-05-07
# GNNにおける高速化アルゴリズム: サーベイ

Acceleration Algorithms in GNNs: A Survey ( http://arxiv.org/abs/2405.04114v1 )

ライセンス: Link先を確認
Lu Ma, Zeang Sheng, Xunkai Li, Xinyi Gao, Zhezheng Hao, Ling Yang, Wentao Zhang, Bin Cui, (参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフベースのタスクにおいて有効性を示す。 しかしながら、トレーニングと推論におけるそれらの非効率性は、実世界の大規模グラフアプリケーションにスケールアップする上での課題を提起する。 批判的な課題に対処するため、GNNの訓練と推論を加速するアルゴリズムが提案され、研究コミュニティから注目が集まっている。 本稿では,GNNにおける高速化アルゴリズムの体系的レビューを行い,学習促進,推論加速,実行加速の3つの目的に基づいて分類できる。 具体的には、各トピックについて既存のアプローチをまとめて分類し、各カテゴリにおけるアプローチの詳細な特徴付けを提供する。 さらに、GNNにおけるアクセラレーションアルゴリズムに関連するいくつかのライブラリをレビューし、スケーラブルグラフ学習(SGL)ライブラリについて議論する。 最後に,今後の研究に期待できる方向性を提案する。 完全な概要はGitHubリポジトリに記載されている。 https://github.com/PKU-DAIR/SGL/blob/main/Awsome-GNN-Acceleration.md。

Graph Neural Networks (GNNs) have demonstrated effectiveness in various graph-based tasks. However, their inefficiency in training and inference presents challenges for scaling up to real-world and large-scale graph applications. To address the critical challenges, a range of algorithms have been proposed to accelerate training and inference of GNNs, attracting increasing attention from the research community. In this paper, we present a systematic review of acceleration algorithms in GNNs, which can be categorized into three main topics based on their purpose: training acceleration, inference acceleration, and execution acceleration. Specifically, we summarize and categorize the existing approaches for each main topic, and provide detailed characterizations of the approaches within each category. Additionally, we review several libraries related to acceleration algorithms in GNNs and discuss our Scalable Graph Learning (SGL) library. Finally, we propose promising directions for future research. A complete summary is presented in our GitHub repository: https://github.com/PKU-DAIR/SGL/blob/main/Awsome-GNN-Acceleration.md.
翻訳日:2024-05-08 14:49:39 公開日:2024-05-07
# スプリット学習に対する特徴指向的再構成攻撃

A Stealthy Wrongdoer: Feature-Oriented Reconstruction Attack against Split Learning ( http://arxiv.org/abs/2405.04115v1 )

ライセンス: Link先を確認
Xiaoyang Xu, Mengda Yang, Wenzhe Yi, Ziang Li, Juan Wang, Hongxin Hu, Yong Zhuang, Yaxin Liu, (参考訳) Split Learning(SL)は、プライバシ保護機能と最小限の計算要件で有名な分散学習フレームワークである。 以前の研究は、トレーニングデータを再構築するサーバ敵によるSLシステムの潜在的なプライバシー侵害について、一貫して強調している。 しかし、これらの研究は攻撃性能を高めるために強い仮定や妥協システムに頼っていることが多い。 本稿では,機能指向再構築攻撃 (FORA) と呼ばれる,SL上での半正直なデータ再構成攻撃について紹介する。 以前の作業とは対照的に、ForceAは限られた事前知識に依存しており、特にクライアントの個人情報を知らずに、サーバは公衆からの補助的なサンプルを利用する。 これにより、FOAは密かに攻撃を実行し、堅牢なパフォーマンスを達成することができる。 FORAが悪用した重要な脆弱性は、被害者のクライアントが出力するスマッシュデータにおいて、モデル表現の優先順位が明らかにされることである。 FORAは、特徴レベルの転送学習を通じて代替クライアントを構築し、被害者のクライアントの表現嗜好を忠実に模倣することを目的としている。 この代替クライアントを活用して、サーバは攻撃モデルをトレーニングして、プライベートデータを効果的に再構築する。 大規模な実験では、最先端の手法と比較してFORAの優れた性能を示している。 さらに,提案手法の適用可能性について,多種多様な設定と先進的な防衛戦略を体系的に評価した。

Split Learning (SL) is a distributed learning framework renowned for its privacy-preserving features and minimal computational requirements. Previous research consistently highlights the potential privacy breaches in SL systems by server adversaries reconstructing training data. However, these studies often rely on strong assumptions or compromise system utility to enhance attack performance. This paper introduces a new semi-honest Data Reconstruction Attack on SL, named Feature-Oriented Reconstruction Attack (FORA). In contrast to prior works, FORA relies on limited prior knowledge, specifically that the server utilizes auxiliary samples from the public without knowing any client's private information. This allows FORA to conduct the attack stealthily and achieve robust performance. The key vulnerability exploited by FORA is the revelation of the model representation preference in the smashed data output by victim client. FORA constructs a substitute client through feature-level transfer learning, aiming to closely mimic the victim client's representation preference. Leveraging this substitute client, the server trains the attack model to effectively reconstruct private data. Extensive experiments showcase FORA's superior performance compared to state-of-the-art methods. Furthermore, the paper systematically evaluates the proposed method's applicability across diverse settings and advanced defense strategies.
翻訳日:2024-05-08 14:49:39 公開日:2024-05-07
# 言語ボトルネックによる政策学習

Policy Learning with a Language Bottleneck ( http://arxiv.org/abs/2405.04118v1 )

ライセンス: Link先を確認
Megha Srivastava, Cedric Colas, Dorsa Sadigh, Jacob Andreas, (参考訳) 自動運転車やゲームプレイングエージェントのような現代のAIシステムは、超人的なパフォーマンスを達成するが、一般化、解釈可能性、人間の相互運用性といった人間的な特徴を欠いていることが多い。 人間における言語と意思決定の豊かな相互作用にインスパイアされた我々は、AIエージェントが最も報酬のある行動の根底にある戦略を捉える言語ルールを生成できるフレームワークである言語ボトルネック(PLLB)によるポリシー学習を導入する。 PLLBは、言語モデルによってガイドされるルール生成ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ更新ステップとを交互に使用する。 2人のプレイヤーによるコミュニケーションゲーム、迷路解決タスク、および2つの画像再構成タスクにおいて、PLLBエージェントはより解釈可能で一般化可能な振る舞いを学習できるだけでなく、学習ルールを人間のユーザと共有し、より効果的な人間とAIの協調を可能にする。

Modern AI systems such as self-driving cars and game-playing agents achieve superhuman performance, but often lack human-like features such as generalization, interpretability and human inter-operability. Inspired by the rich interactions between language and decision-making in humans, we introduce Policy Learning with a Language Bottleneck (PLLB), a framework enabling AI agents to generate linguistic rules that capture the strategies underlying their most rewarding behaviors. PLLB alternates between a rule generation step guided by language models, and an update step where agents learn new policies guided by rules. In a two-player communication game, a maze solving task, and two image reconstruction tasks, we show that PLLB agents are not only able to learn more interpretable and generalizable behaviors, but can also share the learned rules with human users, enabling more effective human-AI coordination.
翻訳日:2024-05-08 14:49:39 公開日:2024-05-07
# ELiTe: セマンティックセグメンテーションのための効率的な画像とLiDARの知識伝達

ELiTe: Efficient Image-to-LiDAR Knowledge Transfer for Semantic Segmentation ( http://arxiv.org/abs/2405.04121v1 )

ライセンス: Link先を確認
Zhibo Zhang, Ximing Yang, Weizhong Zhang, Cheng Jin, (参考訳) クロスモーダルな知識伝達は、LiDARセマンティックセグメンテーションにおけるポイントクラウド表現学習を強化する。 その可能性にもかかわらず、‘textit{weak teacher challenge’ は、反復的で多角的でない車のカメライメージと、不正確な地上の真実ラベルによって生じる。 そこで本稿では,ELiTe(Efficient Image-to-LiDAR Knowledge Transfer)パラダイムを提案する。 ELiTe は Patch-to-Point Multi-Stage Knowledge Distillation を導入し、Vision Foundation Model (VFM) から包括的な知識を移譲し、多様なオープンワールドイメージで広く訓練されている。 これにより、モダリティを越えた軽量な学生モデルへの効果的な知識伝達が可能になる。 ELiTeはパラメータ効率の良いファインチューニングを使用して、VFM教師を強化し、最小コストで大規模モデルの訓練を迅速化する。 さらに,Segment Anything Modelに基づくPseudo-Label Generationアプローチを導入し,低品質な画像ラベルを向上し,ロバストなセマンティック表現を容易にする。 ELiTeにおける効率的な知識伝達は、SemanticKITTIベンチマークにおける最先端の結果をもたらし、リアルタイム推論モデルより優れている。 提案手法は, パラメータを著しく少なくして実現し, 有効性と効率性を確認した。

Cross-modal knowledge transfer enhances point cloud representation learning in LiDAR semantic segmentation. Despite its potential, the \textit{weak teacher challenge} arises due to repetitive and non-diverse car camera images and sparse, inaccurate ground truth labels. To address this, we propose the Efficient Image-to-LiDAR Knowledge Transfer (ELiTe) paradigm. ELiTe introduces Patch-to-Point Multi-Stage Knowledge Distillation, transferring comprehensive knowledge from the Vision Foundation Model (VFM), extensively trained on diverse open-world images. This enables effective knowledge transfer to a lightweight student model across modalities. ELiTe employs Parameter-Efficient Fine-Tuning to strengthen the VFM teacher and expedite large-scale model training with minimal costs. Additionally, we introduce the Segment Anything Model based Pseudo-Label Generation approach to enhance low-quality image labels, facilitating robust semantic representations. Efficient knowledge transfer in ELiTe yields state-of-the-art results on the SemanticKITTI benchmark, outperforming real-time inference models. Our approach achieves this with significantly fewer parameters, confirming its effectiveness and efficiency.
翻訳日:2024-05-08 14:49:39 公開日:2024-05-07
# 効果的なフェデレーション学習のための模倣学習を用いたランキングベースクライアント選択

Ranking-based Client Selection with Imitation Learning for Efficient Federated Learning ( http://arxiv.org/abs/2405.04122v1 )

ライセンス: Link先を確認
Chunlin Tian, Zhan Shi, Xinpeng Qin, Li Li, Chengzhong Xu, (参考訳) フェデレートラーニング(FL)は、複数のデバイスがデータのプライバシを確保しながら、共同で共有モデルをトレーニングすることを可能にする。 各トレーニングラウンドにおける参加デバイスの選択は、特にトレーニング能力とデバイス間のデータ分散における大きな異質性を考えると、モデルパフォーマンスとトレーニング効率の両方に重大な影響を及ぼす。 これらの課題に対処するために、我々はFedRankと呼ばれる新しいデバイス選択ソリューションを導入する。これは、最先端の分析アプローチに対する模倣学習によって事前訓練されたエンドツーエンドのランキングベースのアプローチである。 実行時にデータとシステムの不均一性を考えるだけでなく、モデルトレーニングに最も適したクライアントを適応的かつ効率的に選択する。 具体的には、FedRankはFLにおけるクライアント選択をランキング問題とみなし、スマートセレクションプロセスにペアワイズトレーニング戦略を採用する。 さらに、模倣学習ベースのアプローチは、最先端の学習ベースのアプローチでよく見られるコールドスタート問題に対処するために設計されている。 実験結果から、モデル~はモデルの精度を5.2\%から56.9\%に向上し、トレーニング収束を2.01 \times$に加速し、エネルギー消費を40.1\%$に削減することが明らかとなった。

Federated Learning (FL) enables multiple devices to collaboratively train a shared model while ensuring data privacy. The selection of participating devices in each training round critically affects both the model performance and training efficiency, especially given the vast heterogeneity in training capabilities and data distribution across devices. To address these challenges, we introduce a novel device selection solution called FedRank, which is an end-to-end, ranking-based approach that is pre-trained by imitation learning against state-of-the-art analytical approaches. It not only considers data and system heterogeneity at runtime but also adaptively and efficiently chooses the most suitable clients for model training. Specifically, FedRank views client selection in FL as a ranking problem and employs a pairwise training strategy for the smart selection process. Additionally, an imitation learning-based approach is designed to counteract the cold-start issues often seen in state-of-the-art learning-based approaches. Experimental results reveal that \model~ boosts model accuracy by 5.2\% to 56.9\%, accelerates the training convergence up to $2.01 \times$ and saves the energy consumption up to $40.1\%$.
翻訳日:2024-05-08 14:49:39 公開日:2024-05-07
# 仮想アナログ音響効果モデリングのためのリカレントニューラルネットワークの比較検討

Comparative Study of Recurrent Neural Networks for Virtual Analog Audio Effects Modeling ( http://arxiv.org/abs/2405.04124v1 )

ライセンス: Link先を確認
Riccardo Simionato, Stefano Fasciani, (参考訳) アナログ電子回路は、音楽機器の重要なカテゴリの中核にある。 電子部品の非線形特性は、アナログ音楽機器に独特の音色と音質を与え、非常に好ましい。 人工ニューラルネットワークは、アナログオーディオ効果回路、特にリカレントネットワークのエミュレーションで急速に人気を集めている。 ニューラルネットワークは歪み回路を正確にモデル化することに成功したが、パラメータ条件付けと低レイテンシ応答を考慮したアーキテクチャの改善が必要である。 本稿では,最近の機械学習の仮想アナログモデリングへの応用について検討する。 我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short Term Memoryネットワークと比較する。 これらはシーケンス・ツー・シーケンス・モデリングのタスクにおいて有望な能力を示し、信号履歴符号化の顕著な改善を示している。 我々の比較研究は、様々な音響効果を持つブラックボックスニューラルモデリング技術を用いている。 音響信号のエネルギー包絡、周波数内容、過渡性を正確に再現するモデルの能力を評価するために、複数の指標を用いて性能と限界を評価する。 制御パラメータを組み込むには、Feature wise Linear Modulation法を用いる。 長期記憶ネットワークは歪みや等化器のエミュレートにおいて精度が向上し、ステートスペースモデルはエンコーダデコーダ構造に統合された場合の長期記憶ネットワークに続き、飽和や圧縮のエミュレーションにおいて他より優れる。 長期間の変動特性を考慮すると、状態空間モデルは最大の精度を示す。 長期記憶(Long Short Term Memory)、特にリニア・リカレント・ユニット・ネットワーク(Linear Recurrent Unit Network)は、オーディオ・アーティファクトを導入する傾向がある。

Analog electronic circuits are at the core of an important category of musical devices. The nonlinear features of their electronic components give analog musical devices a distinctive timbre and sound quality, making them highly desirable. Artificial neural networks have rapidly gained popularity for the emulation of analog audio effects circuits, particularly recurrent networks. While neural approaches have been successful in accurately modeling distortion circuits, they require architectural improvements that account for parameter conditioning and low latency response. In this article, we explore the application of recent machine learning advancements for virtual analog modeling. We compare State Space models and Linear Recurrent Units against the more common Long Short Term Memory networks. These have shown promising ability in sequence to sequence modeling tasks, showing a notable improvement in signal history encoding. Our comparative study uses these black box neural modeling techniques with a variety of audio effects. We evaluate the performance and limitations using multiple metrics aiming to assess the models' ability to accurately replicate energy envelopes, frequency contents, and transients in the audio signal. To incorporate control parameters we employ the Feature wise Linear Modulation method. Long Short Term Memory networks exhibit better accuracy in emulating distortions and equalizers, while the State Space model, followed by Long Short Term Memory networks when integrated in an encoder decoder structure, outperforms others in emulating saturation and compression. When considering long time variant characteristics, the State Space model demonstrates the greatest accuracy. The Long Short Term Memory and, in particular, Linear Recurrent Unit networks present more tendency to introduce audio artifacts.
翻訳日:2024-05-08 14:49:39 公開日:2024-05-07
# パラメータ効率の良いファインチューニングによる検索タスクのための共同テキストとソースコードの埋め込み

Refining Joint Text and Source Code Embeddings for Retrieval Task with Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2405.04126v1 )

ライセンス: Link先を確認
Karim Galliamov, Leila Khaertdinova, Karina Denisova, (参考訳) 自然言語処理(NLP)の最近の進歩は、コードテキスト検索問題において顕著な進歩を見せている。 このタスクで使用されるTransformerベースのモデルのサイズが増加し続けるにつれて、エンドツーエンドの微調整に必要な計算コストと時間が大きくなった。 これは、計算資源が限られている場合、これらのモデルを適応し、活用する上で大きな課題となる。 これらの懸念に乗じて,パラメータ効率の良いファインチューニング(PEFT)技術を活用した微調整フレームワークを提案する。 さらに,トランスフォーマーモデルにより学習されたバイモーダル表現の品質を向上させるために,コントラスト学習の目的を取り入れた。 さらに,PEFT法では広範なベンチマークを行い,その欠如が文献上重要な問題として強調されてきた。 2つのデータセットで実施したCodeT5+モデルによる徹底的な実験に基づいて、提案した微調整フレームワークは、最大0.4%のパラメータをチューニングすることで、コードテキスト検索性能を向上させる可能性を実証した。

The latest developments in Natural Language Processing (NLP) have demonstrated remarkable progress in a code-text retrieval problem. As the Transformer-based models used in this task continue to increase in size, the computational costs and time required for end-to- end fine-tuning become substantial. This poses a significant challenge for adapting and utilizing these models when computational resources are limited. Motivated by these concerns, we propose a fine-tuning frame- work that leverages Parameter-Efficient Fine-Tuning (PEFT) techniques. Moreover, we adopt contrastive learning objectives to improve the quality of bimodal representations learned by transformer models. Additionally, for PEFT methods we provide extensive benchmarking, the lack of which has been highlighted as a crucial problem in the literature. Based on the thorough experimentation with the CodeT5+ model conducted on two datasets, we demonstrate that the proposed fine-tuning framework has the potential to improve code-text retrieval performance by tuning only 0.4% parameters at most.
翻訳日:2024-05-08 14:49:39 公開日:2024-05-07
# 大規模事前学習モデルに基づく中国の心理支援ホットラインのきめ細かい音声知覚分析

Fine-grained Speech Sentiment Analysis in Chinese Psychological Support Hotlines Based on Large-scale Pre-trained Model ( http://arxiv.org/abs/2405.04128v1 )

ライセンス: Link先を確認
Zhonglong Chen, Changwei Song, Yining Chen, Jianqiang Li, Guanghui Fu, Yongsheng Tong, Qing Zhao, (参考訳) 自殺と自殺の行動は、公共政策と医療にとって重要な課題である。 これに応えて、精神的支援ホットラインが世界中で確立され、精神的な危機の個人に即時支援を提供している。 これらのホットラインの有効性は、呼び出し者の感情状態、特に自殺リスクの増加を示す負の感情の正確な識別に大きく依存する。 しかし、心理的介入の需要が高いため、プロのオペレーターが不足し、効果的な音声感情認識モデルの必要性が強調されることが多い。 このモデルは、呼び出し者の感情を自動的に検出し、分析し、ホットラインサービスとの統合を容易にする。 さらに、心理的支援ホットライン相互作用の大規模データ分析により、集団全体での心理的現象や行動の探索が可能になる。 本研究は,中国最大の自殺ホットラインである北京の心理的支援ホットラインのデータを利用する。 20,630節を含む105人の発声者の音声データを分析し,11種類の否定感情に分類した。 我々は,大規模事前学習モデルを用いた否定的感情認識モデルと細粒度多ラベル分類モデルを開発した。 実験の結果, 負の感情認識モデルでは最大76.96%のF1スコアが得られることがわかった。 しかし、細粒度多ラベル分類タスクでは有効性が限られており、最良のモデルは41.74%の重み付きF1スコアしか達成していない。 本課題の誤り分析を行い,今後の展望を考察し,臨床応用の可能性を検討した。 すべてのコードは公開されています。

Suicide and suicidal behaviors remain significant challenges for public policy and healthcare. In response, psychological support hotlines have been established worldwide to provide immediate help to individuals in mental crises. The effectiveness of these hotlines largely depends on accurately identifying callers' emotional states, particularly underlying negative emotions indicative of increased suicide risk. However, the high demand for psychological interventions often results in a shortage of professional operators, highlighting the need for an effective speech emotion recognition model. This model would automatically detect and analyze callers' emotions, facilitating integration into hotline services. Additionally, it would enable large-scale data analysis of psychological support hotline interactions to explore psychological phenomena and behaviors across populations. Our study utilizes data from the Beijing psychological support hotline, the largest suicide hotline in China. We analyzed speech data from 105 callers containing 20,630 segments and categorized them into 11 types of negative emotions. We developed a negative emotion recognition model and a fine-grained multi-label classification model using a large-scale pre-trained model. Our experiments indicate that the negative emotion recognition model achieves a maximum F1-score of 76.96%. However, it shows limited efficacy in the fine-grained multi-label classification task, with the best model achieving only a 41.74% weighted F1-score. We conducted an error analysis for this task, discussed potential future improvements, and considered the clinical application possibilities of our study. All the codes are public available.
翻訳日:2024-05-08 14:49:39 公開日:2024-05-07
# AI生成ビデオの公開: ベンチマークデータセットと局所的・局所的時間的欠陥に基づく検出方法

Exposing AI-generated Videos: A Benchmark Dataset and a Local-and-Global Temporal Defect Based Detection Method ( http://arxiv.org/abs/2405.04133v1 )

ライセンス: Link先を確認
Peisong He, Leyao Zhu, Jiaxing Li, Shiqi Wang, Haoliang Li, (参考訳) 生成モデルは、現実的なビデオの作成に大きく進歩し、セキュリティ問題を引き起こしている。 しかし、AI生成ビデオのベンチマークデータセットがないため、この新興リスクは適切に対処されていない。 本稿では,まず,様々な意味内容を持つ高度な拡散型ビデオ生成アルゴリズムを用いて,映像データセットを構築する。 さらに、ネットワーク伝送上の典型的なビデオ損失操作を採用し、劣化したサンプルを生成する。 そして、現在のAI生成ビデオの局所的・グローバル的時間的欠陥を分析することにより、局所的な動き情報とグローバルな外観変化を適応的に学習して、偽ビデオを公開する新しい検出フレームワークを構築する。 最後に,空間領域検出法と時間領域検出法の一般化とロバスト性を評価する実験を行い,その結果がベースラインとして機能し,今後の研究の課題を実証する。

The generative model has made significant advancements in the creation of realistic videos, which causes security issues. However, this emerging risk has not been adequately addressed due to the absence of a benchmark dataset for AI-generated videos. In this paper, we first construct a video dataset using advanced diffusion-based video generation algorithms with various semantic contents. Besides, typical video lossy operations over network transmission are adopted to generate degraded samples. Then, by analyzing local and global temporal defects of current AI-generated videos, a novel detection framework by adaptively learning local motion information and global appearance variation is constructed to expose fake videos. Finally, experiments are conducted to evaluate the generalization and robustness of different spatial and temporal domain detection methods, where the results can serve as the baseline and demonstrate the research challenge for future studies.
翻訳日:2024-05-08 14:49:39 公開日:2024-05-07
# レイヤーノームの幾何学とダイナミクス

Geometry and Dynamics of LayerNorm ( http://arxiv.org/abs/2405.04134v1 )

ライセンス: Link先を確認
Paul M. Riechers, (参考訳) ディープニューラルネットワークで一般的なLayerNorm関数の深い直感を提供することを目的とした技術ノート。 LayerNormは、区別された「神経」基底に対して定義されるが、対応するベクトル要素を単に正規化する以上のものである。 むしろ、線形射影、非線形スケーリング、そしてアフィン変換の合成を入力活性化ベクトル上で実装する。 我々は、ネット効果をより透明にするために、新しい数学的表現と幾何学的直観の両方を開発する。 我々は、LayerNorm が N-次元ベクトル空間上で作用するとき、LayerNorm のすべての結果は (N-1)-次元超平面の交叉と N-次元超楕円体の内部にあることを強調する。 この交叉は(N-1)次元超楕円体の内部であり、典型的な入力はその表面の近くでマッピングされる。 この(N-1)次元超楕円体の主軸の方向と長さは、単純な構成行列の固有分解によって得られる。

A technical note aiming to offer deeper intuition for the LayerNorm function common in deep neural networks. LayerNorm is defined relative to a distinguished 'neural' basis, but it does more than just normalize the corresponding vector elements. Rather, it implements a composition -- of linear projection, nonlinear scaling, and then affine transformation -- on input activation vectors. We develop both a new mathematical expression and geometric intuition, to make the net effect more transparent. We emphasize that, when LayerNorm acts on an N-dimensional vector space, all outcomes of LayerNorm lie within the intersection of an (N-1)-dimensional hyperplane and the interior of an N-dimensional hyperellipsoid. This intersection is the interior of an (N-1)-dimensional hyperellipsoid, and typical inputs are mapped near its surface. We find the direction and length of the principal axes of this (N-1)-dimensional hyperellipsoid via the eigen-decomposition of a simply constructed matrix.
翻訳日:2024-05-08 14:49:39 公開日:2024-05-07
# 自動走行シナリオのためのインコンテキスト学習

In-context Learning for Automated Driving Scenarios ( http://arxiv.org/abs/2405.04135v1 )

ライセンス: Link先を確認
Ziqi Zhou, Jingyue Zhang, Jingyuan Zhang, Boyue Wang, Tianyu Shi, Alaa Khamis, (参考訳) 現在の強化学習(RL)ベースの自動運転(AD)エージェントにおける重要な課題の1つは、柔軟で正確で人間らしい振る舞いをコスト効率よく達成することである。 本稿では,LL報酬関数を人間中心で直感的かつ効果的に最適化するために,LLM(Large Language Models)を用いた革新的なアプローチを提案する。 命令と動的環境記述をLLMに入力するフレームワークを開発した。 LLMはこの情報を利用して報酬を発生させ、それによってRLエージェントの動作を人間の運転に近いパターンに操る。 実験結果から, この手法によりRLエージェントの人為的特性が向上するだけでなく, 性能も向上することが示唆された。 さらに,AD車両の挙動に即時設計が与える影響を明らかにするため,報奨プロキシと報奨形状に関する様々な戦略が検討された。 これらの発見は、より先進的で人間らしい自動走行システムを開発する上で有望な方向を提供する。 実験データとソースコードはここにある。

One of the key challenges in current Reinforcement Learning (RL)-based Automated Driving (AD) agents is achieving flexible, precise, and human-like behavior cost-effectively. This paper introduces an innovative approach utilizing Large Language Models (LLMs) to intuitively and effectively optimize RL reward functions in a human-centric way. We developed a framework where instructions and dynamic environment descriptions are input into the LLM. The LLM then utilizes this information to assist in generating rewards, thereby steering the behavior of RL agents towards patterns that more closely resemble human driving. The experimental results demonstrate that this approach not only makes RL agents more anthropomorphic but also reaches better performance. Additionally, various strategies for reward-proxy and reward-shaping are investigated, revealing the significant impact of prompt design on shaping an AD vehicle's behavior. These findings offer a promising direction for the development of more advanced and human-like automated driving systems. Our experimental data and source code can be found here.
翻訳日:2024-05-08 14:49:39 公開日:2024-05-07
# 学術出版分類のための強化BERT埋め込み

Enriched BERT Embeddings for Scholarly Publication Classification ( http://arxiv.org/abs/2405.04136v1 )

ライセンス: Link先を確認
Benjamin Wolff, Eva Seidlmayer, Konrad U. Förstner, (参考訳) 学術文学の急速な拡大と事前印刷の普及により、研究者は大量の論文を手作業で整理し、ラベル付けする上で、ますます難しい課題に直面している。 NSLP 2024 FoRC Shared Task Iは、コンペティションとして組織されたこの課題に対処する。 本研究の目的は,研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から,123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。 当初、我々はデータセット(ORKGとarXivから派生した英語の学術論文を含む)を豊かにし、異なる事前学習言語モデル(PLM)、特にBERTを活用して、下流タスクの伝達学習におけるそれらの効果を探求した。 実験では,SciBERT,SciNCL,SPECTER2などの科学的タスクに最適化された多種多様なPLMを用いた特徴ベースおよび微調整トランスファー学習手法について検討した。 ハイパーパラメータチューニングを行い,OpenAlex,Semantic Scholar,Crossrefなどの書誌データベースからのデータ拡張の影響について検討する。 提案手法は, SPECTER2を最も精度の高いモデルとして, 微調整事前学習モデルにより分類性能が著しく向上することを示す。 さらに、S2AG、OpenAlex、Crossrefからの情報を統合する場合、データセットをメタデータを追加して強化することで、分類結果が大幅に改善される。 我々のベストパフォーマンスアプローチは、重み付きF1スコアの0.7415を達成する。 本研究は,学術論文分類における信頼性の高い自動化システムの発展に寄与し,手作業による手作業のキュレーションプロセスに対する潜在的な解決策を提供することにより,研究者が関連資源を効率的に配置できるようにする。

With the rapid expansion of academic literature and the proliferation of preprints, researchers face growing challenges in manually organizing and labeling large volumes of articles. The NSLP 2024 FoRC Shared Task I addresses this challenge organized as a competition. The goal is to develop a classifier capable of predicting one of 123 predefined classes from the Open Research Knowledge Graph (ORKG) taxonomy of research fields for a given article.This paper presents our results. Initially, we enrich the dataset (containing English scholarly articles sourced from ORKG and arXiv), then leverage different pre-trained language Models (PLMs), specifically BERT, and explore their efficacy in transfer learning for this downstream task. Our experiments encompass feature-based and fine-tuned transfer learning approaches using diverse PLMs, optimized for scientific tasks, including SciBERT, SciNCL, and SPECTER2. We conduct hyperparameter tuning and investigate the impact of data augmentation from bibliographic databases such as OpenAlex, Semantic Scholar, and Crossref. Our results demonstrate that fine-tuning pre-trained models substantially enhances classification performance, with SPECTER2 emerging as the most accurate model. Moreover, enriching the dataset with additional metadata improves classification outcomes significantly, especially when integrating information from S2AG, OpenAlex and Crossref. Our best-performing approach achieves a weighted F1-score of 0.7415. Overall, our study contributes to the advancement of reliable automated systems for scholarly publication categorization, offering a potential solution to the laborious manual curation process, thereby facilitating researchers in efficiently locating relevant resources.
翻訳日:2024-05-08 14:39:54 公開日:2024-05-07
# GPT-Enabled Cybersecurity Training: A Tailored Approach for Effective Awareness

GPT-Enabled Cybersecurity Training: A Tailored Approach for Effective Awareness ( http://arxiv.org/abs/2405.04138v1 )

ライセンス: Link先を確認
Nabil Al-Dhamari, Nathan Clarke, (参考訳) 本研究では,従来のサイバーセキュリティ意識訓練(CSAT)プログラムの限界について検討し,これらの問題点に対処するためにジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)を用いた革新的な解決策を提案する。 従来のアプローチでは、個人化と個別の学習スタイルへの適応性が欠如している。 これらの課題を克服するため、この研究はGPTモデルを統合し、高度に調整された動的サイバーセキュリティ学習の成果を提供する。 自然言語処理機能を活用することで、提案されたアプローチは、個々のトレーニング担当者のプロファイルに基づいてトレーニングモジュールをパーソナライズし、エンゲージメントと有効性を保証する。 GPTモデルを用いて、カスタマイズされたトレーニングコンテンツを生成することで、リアルタイムかつ適応的なCSAT体験を提供する実験。 その結果、エンゲージメント、動的性、関連性といった問題に対処し、従来のプログラムよりも顕著な改善が示された。 GPTを利用したCSATプログラムは、サイバーセキュリティ意識を高めるためのスケーラブルで効果的なソリューションを提供する。

This study explores the limitations of traditional Cybersecurity Awareness and Training (CSAT) programs and proposes an innovative solution using Generative Pre-Trained Transformers (GPT) to address these shortcomings. Traditional approaches lack personalization and adaptability to individual learning styles. To overcome these challenges, the study integrates GPT models to deliver highly tailored and dynamic cybersecurity learning expe-riences. Leveraging natural language processing capabilities, the proposed approach personalizes training modules based on individual trainee pro-files, helping to ensure engagement and effectiveness. An experiment using a GPT model to provide a real-time and adaptive CSAT experience through generating customized training content. The findings have demonstrated a significant improvement over traditional programs, addressing issues of en-gagement, dynamicity, and relevance. GPT-powered CSAT programs offer a scalable and effective solution to enhance cybersecurity awareness, provid-ing personalized training content that better prepares individuals to miti-gate cybersecurity risks in their specific roles within the organization.
翻訳日:2024-05-08 14:39:54 公開日:2024-05-07
# 光による量子インスパイアされたクラスタリング

Quantum-inspired clustering with light ( http://arxiv.org/abs/2405.04142v1 )

ライセンス: Link先を確認
Miguel Varga, Pablo Bermejo, Rubén Pellicer-Guridi, Román Orús, Gabriel Molina-Terriza, (参考訳) 本稿では,レーザービームを用いた1量子ビット量子アルゴリズムのシミュレーションを行うための新しい手法を紹介する。 フォトニック量子ビットの偏光状態を活用し、変動量子固有解法に着想を得て、SciRep 13,13284 (2023) で提案されたアプローチに従ってクラスタリング手順を実装する変分量子アルゴリズムを開発した。 我々の研究の重要な側面は、フォトニック領域内での非直交状態の利用であり、ユニタリ回路を再生する分極スキームのポテンシャルを活用することである。 これらの非直交状態を偏光状態にマッピングすることにより、多様なデータセットのクラスタリング装置として機能する効率的で汎用的な量子情報処理ユニットを実現する。

This article introduces a novel approach to perform the simulation of a single qubit quantum algorithm using laser beams. Leveraging the polarization states of photonic qubits, and inspired by variational quantum eigensolvers, we develop a variational quantum algorithm implementing a clustering procedure following the approach proposed by some of us in SciRep 13, 13284 (2023). A key aspect of our research involves the utilization of non-orthogonal states within the photonic domain, harnessing the potential of polarization schemes to reproduce unitary circuits. By mapping these non-orthogonal states into polarization states, we achieve an efficient and versatile quantum information processing unit which serves as a clustering device for a diverse set of datasets.
翻訳日:2024-05-08 14:39:54 公開日:2024-05-07
# 多項式汎関数回帰の文脈における多重パラメータ正規化と集約

Multiparameter regularization and aggregation in the context of polynomial functional regression ( http://arxiv.org/abs/2405.04147v1 )

ライセンス: Link先を確認
Elke R. Gizewski, Markus Holzleitner, Lukas Mayer-Suess, Sergiy Pereverzyev Jr., Sergei V. Pereverzyev, (参考訳) 最近の多項式汎関数回帰の結果のほとんどは、単一パラメータ正規化スキームの詳細な探索に焦点が当てられている。 対照的に、本研究では、複数のパラメータ正則化のためのアルゴリズムを導入し、関連するパラメータを扱うための理論的基礎的手法を提案することにより、その枠組みを超えていく。 この方法は、様々な正規化パラメータを持つモデルのアグリゲーションを容易にする。 提案手法の有効性は, 人工医療データと実世界の医療データの両方を用いて評価し, 有望な結果を示した。

Most of the recent results in polynomial functional regression have been focused on an in-depth exploration of single-parameter regularization schemes. In contrast, in this study we go beyond that framework by introducing an algorithm for multiple parameter regularization and presenting a theoretically grounded method for dealing with the associated parameters. This method facilitates the aggregation of models with varying regularization parameters. The efficacy of the proposed approach is assessed through evaluations on both synthetic and some real-world medical data, revealing promising results.
翻訳日:2024-05-08 14:39:54 公開日:2024-05-07
# 物理誘導ニューラルネットワークを用いたガス源位置推定

Gas Source Localization Using physics Guided Neural Networks ( http://arxiv.org/abs/2405.04151v1 )

ライセンス: Link先を確認
Victor Scott Prieto Ruiz, Patrick Hinsen, Thomas Wiedemann, Constantin Christof, Dmitriy Shutin, (参考訳) 本研究では,移動ロボットや飛行プラットフォームが収集した空間分布のコンセントレーション測定に基づいて,ガス源の位置を推定する新しい手法について述べる。 提案手法では,物理誘導ニューラルネットワークを用いて,ガス分散とソース位置をネットワーク入力として近似する。 最初のオフライントレーニングフェーズの後、ニューラルネットワークを使用して、測定に基づいてガス源をローカライズする逆問題を効率的に解決することができる。 提案手法により、逆問題の解法に必要な気体物理学の比較的コストのかかる数値シミュレーションを回避することができる。 実験の結果, ノイズによる測定でも, 音源の局所化は良好であることがわかった。

This work discusses a novel method for estimating the location of a gas source based on spatially distributed con- centration measurements taken, e.g., by a mobile robot or flying platform that follows a predefined trajectory to collect samples. The proposed approach uses a Physics-Guided Neural Network to approximate the gas dispersion with the source location as an additional network input. After an initial offline training phase, the neural network can be used to efficiently solve the inverse problem of localizing the gas source based on measurements. The proposed approach allows avoiding rather costly numerical simulations of gas physics needed for solving inverse problems. Our experiments show that the method localizes the source well, even when dealing with measurements affected by noise.
翻訳日:2024-05-08 14:39:54 公開日:2024-05-07
# CAKE: ブロックチェーン上の機密データのスライスを共有する

CAKE: Sharing Slices of Confidential Data on Blockchain ( http://arxiv.org/abs/2405.04152v1 )

ライセンス: Link先を確認
Edoardo Marangone, Michele Spina, Claudio Di Ciccio, Ingo Weber, (参考訳) 協調情報システムは通常、分散環境内の協調的なプロセスにおいて様々なエンティティを含む。 ブロックチェーン技術は、参加者の間に部分的な信頼だけが存在する場合でも、そのようなプロセスを自動化するためのメカニズムを提供する。 ブロックチェーンに格納されたデータは、ネットワーク内のすべてのノードに複製され、すべての参加者へのアクセシビリティが保証される。 この側面はトレーサビリティ、完全性、永続性を促進するが、機密性の問題により、エンタープライズ環境でパブリックブロックチェーンを採用する上での課題となる。 本稿では,公開ブロックチェーンを含むシナリオにおけるデータの機密性を確保するために,キー暗号化による制御アクセス(CAKE)というソフトウェアツールを提案する。 コアコンポーネントと機能の概要を説明した後、ロジスティクス領域内の現実的なサイバーセキュリティプロジェクトという文脈で、CAKEの応用を紹介します。

Cooperative information systems typically involve various entities in a collaborative process within a distributed environment. Blockchain technology offers a mechanism for automating such processes, even when only partial trust exists among participants. The data stored on the blockchain is replicated across all nodes in the network, ensuring accessibility to all participants. While this aspect facilitates traceability, integrity, and persistence, it poses challenges for adopting public blockchains in enterprise settings due to confidentiality issues. In this paper, we present a software tool named Control Access via Key Encryption (CAKE), designed to ensure data confidentiality in scenarios involving public blockchains. After outlining its core components and functionalities, we showcase the application of CAKE in the context of a real-world cyber-security project within the logistics domain.
翻訳日:2024-05-08 14:39:54 公開日:2024-05-07
# GPT-2はどのように頭字語を予測するか? 機械的解釈可能性による回路の抽出と理解

How does GPT-2 Predict Acronyms? Extracting and Understanding a Circuit via Mechanistic Interpretability ( http://arxiv.org/abs/2405.04156v1 )

ライセンス: Link先を確認
Jorge García-Carrasco, Alejandro Maté, Juan Trujillo, (参考訳) トランスフォーマーベースの言語モデルは、多数のパラメータと複雑な内部相互作用のためにブラックボックスとして扱われる。 機械的解釈可能性(MI)は、人間の理解可能なコンポーネントの観点から、ニューラルネットワークの振る舞いをリバースエンジニアリングすることを目的としている。 本稿では,GPT-2 Smallが3文字の頭字語を予測するタスクをいかに実行するかを理解することに焦点を当てる。 MI分野におけるこれまでの作業は、単一のトークンを予測するタスクに重点を置いてきた。 我々の知る限りでは、これは複数の連続するトークンの予測を含む振る舞いを機械的に理解しようとする最初の試みである。 この予測は,8つの注意頭(全頭部の約5%)からなる回路で行われ,その役割に応じて3つのグループに分類した。 また、これらの頭部が頭字語予測機能に集中していることも示している。 さらに,回路の最も関連性の高い頭部を機械的に解釈し,因果マスク機構を介して伝播する位置情報を用いていることを確認した。 われわれはこの研究が、複数段階の予測を含むより複雑な行動を理解する基盤となることを期待している。

Transformer-based language models are treated as black-boxes because of their large number of parameters and complex internal interactions, which is a serious safety concern. Mechanistic Interpretability (MI) intends to reverse-engineer neural network behaviors in terms of human-understandable components. In this work, we focus on understanding how GPT-2 Small performs the task of predicting three-letter acronyms. Previous works in the MI field have focused so far on tasks that predict a single token. To the best of our knowledge, this is the first work that tries to mechanistically understand a behavior involving the prediction of multiple consecutive tokens. We discover that the prediction is performed by a circuit composed of 8 attention heads (~5% of the total heads) which we classified in three groups according to their role. We also demonstrate that these heads concentrate the acronym prediction functionality. In addition, we mechanistically interpret the most relevant heads of the circuit and find out that they use positional information which is propagated via the causal mask mechanism. We expect this work to lay the foundation for understanding more complex behaviors involving multiple-token predictions.
翻訳日:2024-05-08 14:39:54 公開日:2024-05-07
# エントロピーと原子-原子対相関のマックスウェル関係

Maxwell relation between entropy and atom-atom pair correlation ( http://arxiv.org/abs/2405.04159v1 )

ライセンス: Link先を確認
Raymon S. Watson, Caleb Coleman, Karen V. Kheruntsyan, (参考訳) 短距離相互作用を持つ多粒子系では、局所(母点)粒子対相関関数はヘルマン・ファインマンの定理を用いて計算できる熱力学的量を表す。 ここでは, この特性を利用して, 局所対相関と超低温ボース気体のエントロピーの1次元(1次元)における熱力学的マックスウェル関係を導出する。 このマクスウェル関係の有効性を示すために、確率射影グロス・ピタエフスキー方程式(SPGPE)の計算形式に応用し、その原子対相関関数から有限温度1Dボース気体のエントロピーを決定する。 そのような相関関数は、エントロピー自体の計算とは異なり、SPGPEやその他の形式論の中で数値的に計算し易い。 我々の計算は、測定された原子-原子相関から量子気体のエントロピーを推定する実験方法の実証実験として機能する数値実験と見なすことができる。

For many-particle systems with short range interactions the local (same point) particle-particle pair correlation function represents a thermodynamic quantity that can be calculated using the Hellmann-Feynman theorem. Here we exploit this property to derive a thermodynamic Maxwell relation between the local pair correlation and the entropy of an ultracold Bose gas in one dimension (1D). To demonstrate the utility of this Maxwell relation, we apply it to the computational formalism of the stochastic projected Gross-Pitaevski equation (SPGPE) to determine the entropy of a finite-temperature 1D Bose gas from its atom-atom pair correlation function. Such a correlation function is easy to compute numerically within the SPGPE and other formalisms, which is unlike computing the entropy itself. Our calculations can be viewed as a numerical experiment that serves as a proof-of-principle demonstration of an experimental method to deduce the entropy of a quantum gas from the measured atom-atom correlations.
翻訳日:2024-05-08 14:39:54 公開日:2024-05-07
# 大規模言語モデルのための因果説明可能なガードレール

A Causal Explainable Guardrails for Large Language Models ( http://arxiv.org/abs/2405.04160v1 )

ライセンス: Link先を確認
Zhixuan Chu, Yan Wang, Longfei Li, Zhibo Wang, Zhan Qin, Kui Ren, (参考訳) 大規模言語モデル(LLM)は自然言語処理において顕著な性能を示すが、その出力は望ましくない属性やバイアスを示すことができる。 LLMを望ましい属性にステアリングするための既存の方法は、しばしばバイアスのない表現を仮定し、ステアリングプロンプトのみに依存する。 しかし、事前学習から学んだ表現は、ステアリングプロセスに影響を与える意味バイアスを導入し、最適以下の結果をもたらす。 因果解析と敵対学習を取り入れた新しいフレームワークであるLLMGuardarilを提案し,LLMにおける非バイアスなステアリング表現を得る。 LLMGuardarilは、バイアスの結合効果を体系的に同定し、ブロックし、バイアスのない操舵表現の抽出を可能にする。 さらに、生成した出力と所望の方向との整合性に関する洞察を提供する説明可能なコンポーネントも含まれている。 実験では、LLMを望ましい属性に向けて操る上で、LLMGuardarilの有効性を実証し、バイアスを緩和する。 我々の研究は、望ましい属性に適合する安全で信頼性の高いLCMの開発に寄与します。 本稿は,大規模言語モデルの倫理的含意に対処するために,現在進行中の研究の必要性を強調し,その限界と今後の研究方向性について論じる。

Large Language Models (LLMs) have shown impressive performance in natural language tasks, but their outputs can exhibit undesirable attributes or biases. Existing methods for steering LLMs towards desired attributes often assume unbiased representations and rely solely on steering prompts. However, the representations learned from pre-training can introduce semantic biases that influence the steering process, leading to suboptimal results. We propose LLMGuardaril, a novel framework that incorporates causal analysis and adversarial learning to obtain unbiased steering representations in LLMs. LLMGuardaril systematically identifies and blocks the confounding effects of biases, enabling the extraction of unbiased steering representations. Additionally, it includes an explainable component that provides insights into the alignment between the generated output and the desired direction. Experiments demonstrate LLMGuardaril's effectiveness in steering LLMs towards desired attributes while mitigating biases. Our work contributes to the development of safe and reliable LLMs that align with desired attributes. We discuss the limitations and future research directions, highlighting the need for ongoing research to address the ethical implications of large language models.
翻訳日:2024-05-08 14:39:54 公開日:2024-05-07
# 科学的発見における機械学習の可能性

Opportunities for machine learning in scientific discovery ( http://arxiv.org/abs/2405.04161v1 )

ライセンス: Link先を確認
Ricardo Vinuesa, Jean Rabault, Hossein Azizpour, Stefan Bauer, Bingni W. Brunton, Arne Elofsson, Elias Jarlebring, Hedvig Kjellstrom, Stefano Markidis, David Marlevi, Paola Cinnella, Steven L. Brunton, (参考訳) 技術的進歩は計算能力とデータ可用性を大幅に向上させ、様々な分野にわたる強力な機械学習(ML)技術の適用を可能にした。 しかし、科学的な発見のためにML手法を利用する能力、すなわち自然過程に関する基礎的で形式化された知識を得る能力は、まだ初期段階にある。 本稿では,科学コミュニティがML技術を活用して科学的発見を実現する方法について検討する。 MLの適用性と機会は,問題領域の性質に強く依存しており,完全(運転 e g },乱流),部分(運転 e g },計算生化学),No(運転 e g },神経科学)が支配方程式やシステムの物理的性質に関する知識に大きく依存している。 課題は残るが、MLの原則的利用は基本的な科学的発見のための新たな道を開く。 これらの多様な分野を通じて、MLはそれまで古典的な分析や数値的な研究に難しかった観測データの複雑さを研究者が受け入れることを可能にするというテーマがある。

Technological advancements have substantially increased computational power and data availability, enabling the application of powerful machine-learning (ML) techniques across various fields. However, our ability to leverage ML methods for scientific discovery, {\it i.e.} to obtain fundamental and formalized knowledge about natural processes, is still in its infancy. In this review, we explore how the scientific community can increasingly leverage ML techniques to achieve scientific discoveries. We observe that the applicability and opportunity of ML depends strongly on the nature of the problem domain, and whether we have full ({\it e.g.}, turbulence), partial ({\it e.g.}, computational biochemistry), or no ({\it e.g.}, neuroscience) {\it a-priori} knowledge about the governing equations and physical properties of the system. Although challenges remain, principled use of ML is opening up new avenues for fundamental scientific discoveries. Throughout these diverse fields, there is a theme that ML is enabling researchers to embrace complexity in observational data that was previously intractable to classic analysis and numerical investigations.
翻訳日:2024-05-08 14:39:54 公開日:2024-05-07
# MEDVOC:医学テキスト要約に基づく微調整事前学習言語モデルの語彙適応

MEDVOC: Vocabulary Adaptation for Fine-tuning Pre-trained Language Models on Medical Text Summarization ( http://arxiv.org/abs/2405.04163v1 )

ライセンス: Link先を確認
Gunjan Balde, Soumyadeep Roy, Mainack Mondal, Niloy Ganguly, (参考訳) 本研究は,BertSumAbs,BART,PEGASUSなどの微調整済み言語モデル(PLM)のための動的語彙適応戦略であるMEDVOCを提案する。 要約における既存のドメイン適応アプローチとは対照的に、MEDVOCは語彙を最適化可能なパラメータとして扱い、下流タスクの参照要約にのみ条件付きフラグメントスコアに基づいてPLM語彙を最適化する。 語彙適応に関する従来の研究(分類タスクのみに限る)とは異なり、要約タスクに基づく語彙の最適化には、大規模な要約データセットにおいて非常にコストのかかる中間調整ステップが必要である。 そのために、新しい断片スコアに基づくハイパーパラメーターサーチは、この微調整時間を平均450日から2日未満に大幅に短縮する。 さらに、語彙適応に関する以前の研究は、主に単一のPLMに結びついているが、MEDVOCは複数のPLMにまたがるデプロイが可能なように設計されている(様々なモデル語彙サイズ、事前学習目的、モデルサイズ)。 MEDVOCはゼロショット設定でルージュ-Lのベースラインを15.74%上回り、高いOf-ボキャブラリ(OOV)濃度で17.29%の上昇を示した。 MEDVOCはより忠実な医療サマリー(ベースラインの59%に比べて88%)を産み出す。 コードベースはhttps://github.com/gb-kgp/MEDVOC.comで公開しています。

This work presents a dynamic vocabulary adaptation strategy, MEDVOC, for fine-tuning pre-trained language models (PLMs) like BertSumAbs, BART, and PEGASUS for improved medical text summarization. In contrast to existing domain adaptation approaches in summarization, MEDVOC treats vocabulary as an optimizable parameter and optimizes the PLM vocabulary based on fragment score conditioned only on the downstream task's reference summaries. Unlike previous works on vocabulary adaptation (limited only to classification tasks), optimizing vocabulary based on summarization tasks requires an extremely costly intermediate fine-tuning step on large summarization datasets. To that end, our novel fragment score-based hyperparameter search very significantly reduces this fine-tuning time -- from 450 days to less than 2 days on average. Furthermore, while previous works on vocabulary adaptation are often primarily tied to single PLMs, MEDVOC is designed to be deployable across multiple PLMs (with varying model vocabulary sizes, pre-training objectives, and model sizes) -- bridging the limited vocabulary overlap between the biomedical literature domain and PLMs. MEDVOC outperforms baselines by 15.74% in terms of Rouge-L in zero-shot setting and shows gains of 17.29% in high Out-Of-Vocabulary (OOV) concentrations. Our human evaluation shows MEDVOC generates more faithful medical summaries (88% compared to 59% in baselines). We make the codebase publicly available at https://github.com/gb-kgp/MEDVOC.
翻訳日:2024-05-08 14:39:54 公開日:2024-05-07
# Sign2GPT: グロスフリー手話翻訳のための大規模言語モデルの活用

Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation ( http://arxiv.org/abs/2405.04164v1 )

ライセンス: Link先を確認
Ryan Wong, Necati Cihan Camgoz, Richard Bowden, (参考訳) 自動手話翻訳は、手話と音声言語の間のコミュニケーションギャップを効果的に橋渡しするために、コンピュータビジョンと自然言語処理の両方を統合する必要がある。 しかし,手話翻訳を支援するための大規模学習データの不足は,音声言語からのリソースを活用する必要があることを意味している。 本稿では,手話翻訳のための手話翻訳フレームワークSign2GPTを紹介する。 ライトウェイトアダプタは、限られたデータセットサイズと長い手話ビデオでトレーニングする際の計算要求によって課される制約のため、手話翻訳に不可欠である。 また,命令情報やアノテーションを必要とせずに,自動抽出した擬似グルースから符号表現を学習するようにエンコーダに指示する,新たな事前学習戦略を提案する。 我々は、RWTH-PHOENIX-Weather 2014TとCSL-Dailyという2つの公開ベンチマーク手話翻訳データセットに対するアプローチを評価し、最先端のグロスフリー翻訳性能を著しく改善した。

Automatic Sign Language Translation requires the integration of both computer vision and natural language processing to effectively bridge the communication gap between sign and spoken languages. However, the deficiency in large-scale training data to support sign language translation means we need to leverage resources from spoken language. We introduce, Sign2GPT, a novel framework for sign language translation that utilizes large-scale pretrained vision and language models via lightweight adapters for gloss-free sign language translation. The lightweight adapters are crucial for sign language translation, due to the constraints imposed by limited dataset sizes and the computational requirements when training with long sign videos. We also propose a novel pretraining strategy that directs our encoder to learn sign representations from automatically extracted pseudo-glosses without requiring gloss order information or annotations. We evaluate our approach on two public benchmark sign language translation datasets, namely RWTH-PHOENIX-Weather 2014T and CSL-Daily, and improve on state-of-the-art gloss-free translation performance with a significant margin.
翻訳日:2024-05-08 14:39:54 公開日:2024-05-07
# LingML: Fakeニュース検出機能強化のための言語インフォームド機械学習

LingML: Linguistic-Informed Machine Learning for Enhanced Fake News Detection ( http://arxiv.org/abs/2405.04165v1 )

ライセンス: Link先を確認
Jasraj Singh, Fang Liu, Hong Xu, Bee Chin Ng, Wei Zhang, (参考訳) 今日では、ソーシャルメディアでは前例のないペースで情報が広まり、偽情報や偽ニュースから真実を識別することが、深刻な社会的課題となっている。 機械学習(ML)モデルは偽ニュースを特定するために使われてきたが、正確性や解釈可能性、一般化可能性といった難題には程遠い。 本稿では,言語入力によるMLベースのソリューションを強化し,偽ニュース検出のための言語インフォームドMLであるLingMLを提案する。 パンデミック時のフェイクニュースについて,人気データセットを用いて実験を行った。 実験の結果,提案手法は高い有効性を示した。 MLで使用される言語入力だけで10回の試行中2回未満のエラーがあり、その知識は極めて説明可能である。 自然言語処理のための高度な大規模MLモデルと言語入力を統合した場合、我々のソリューションは1.8%のエラー率で既存のモデルより優れている。 LingMLは言語学による新しいパスを作成し、効果的で効率的な偽ニュース検出のフロンティアを推し進める。 また、最適なパフォーマンスを達成するためにMLとドメインの専門知識の両方を必要とする実世界のマルチディシプリナアプリケーションにも光を当てています。

Nowadays, Information spreads at an unprecedented pace in social media and discerning truth from misinformation and fake news has become an acute societal challenge. Machine learning (ML) models have been employed to identify fake news but are far from perfect with challenging problems like limited accuracy, interpretability, and generalizability. In this paper, we enhance ML-based solutions with linguistics input and we propose LingML, linguistic-informed ML, for fake news detection. We conducted an experimental study with a popular dataset on fake news during the pandemic. The experiment results show that our proposed solution is highly effective. There are fewer than two errors out of every ten attempts with only linguistic input used in ML and the knowledge is highly explainable. When linguistics input is integrated with advanced large-scale ML models for natural language processing, our solution outperforms existing ones with 1.8% average error rate. LingML creates a new path with linguistics to push the frontier of effective and efficient fake news detection. It also sheds light on real-world multi-disciplinary applications requiring both ML and domain expertise to achieve optimal performance.
翻訳日:2024-05-08 14:39:54 公開日:2024-05-07
# ブラインド画像品質評価のための歪み誘導非教師なし領域適応による合成-認証ギャップのブリッジ化

Bridging the Synthetic-to-Authentic Gap: Distortion-Guided Unsupervised Domain Adaptation for Blind Image Quality Assessment ( http://arxiv.org/abs/2405.04167v1 )

ライセンス: Link先を確認
Aobo Li, Jinjian Wu, Yongxu Liu, Leida Li, (参考訳) ブラインド画像品質アセスメント(BIQA)のアノテーションは労働集約的で時間を要する。 合成データのトレーニングは有用であることが期待されているが、合成訓練されたモデルはドメインギャップのため、実際のドメインでの一般化に苦しむことが多い。 本研究では,合成データセットにより多くの歪み型を導入することは,画像品質評価の一般化に悪影響を及ぼさないか,あるいは有害である可能性があることを重要視する。 この課題を解決するために,歪み領域と対象領域間のデータ分布に一致させるために,歪みからの事前知識を介して適応的マルチドメイン選択を利用する新しいフレームワークであるBIQA(DGQA)の歪み誘導型非教師付きドメイン適応を提案する。 提案したDGQAの有効性を実証した2つのクロスドメイン設定(真正歪みに対する合成歪みとアルゴリズム歪みに対する合成歪み)に関する広範囲な実験を行った。 さらに、DGQAは既存のモデルベースのBIQA法と直交しており、そのようなモデルと組み合わせることで、より少ないトレーニングデータでパフォーマンスを向上させることができる。

The annotation of blind image quality assessment (BIQA) is labor-intensive and time-consuming, especially for authentic images. Training on synthetic data is expected to be beneficial, but synthetically trained models often suffer from poor generalization in real domains due to domain gaps. In this work, we make a key observation that introducing more distortion types in the synthetic dataset may not improve or even be harmful to generalizing authentic image quality assessment. To solve this challenge, we propose distortion-guided unsupervised domain adaptation for BIQA (DGQA), a novel framework that leverages adaptive multi-domain selection via prior knowledge from distortion to match the data distribution between the source domains and the target domain, thereby reducing negative transfer from the outlier source domains. Extensive experiments on two cross-domain settings (synthetic distortion to authentic distortion and synthetic distortion to algorithmic distortion) have demonstrated the effectiveness of our proposed DGQA. Besides, DGQA is orthogonal to existing model-based BIQA methods, and can be used in combination with such models to improve performance with less training data.
翻訳日:2024-05-08 14:39:54 公開日:2024-05-07
# Bitcoinの頭ゲームとタオルゲームの3つのバリエーション

Three variations of Heads or Tails Game for Bitcoin ( http://arxiv.org/abs/2405.04168v1 )

ライセンス: Link先を確認
Cyril Grunspan, Ricardo Perez-Marco, (参考訳) 我々は、チップを使用して古典的なヘッドまたはタイルスゲームの3つの非常に単純なバリエーションを提示し、それぞれがBitcoinプロトコルの理解に寄与する。 最初の変種は、2人の鉱山労働者が同時にブロックを発見したときに発生する一時的なBitcoinフォークの問題に対処する。 我々は、正直だが一時的に「ビザンティン」の鉱山労働者が自分の孤児のブロックを救うために彼らのフォークで採掘を続ける閾値を決定する。 第2版はプレイヤーに偏りがあり、なぜ難易度調整式が中本選手のコンセンサスの攻撃に弱いのかを説明するのに役立つ。 私たちは、これまでのようにMarkovの決定解決ツールを使わずに、直接的かつ簡単な方法で導出します。 ヘッド・アンド・タイルズゲームの第3変種は偏りがなく、難易度調整式におけるこの問題を完全に修正できることを証明している。 この結果は,実装が容易な非常に単純なモデルとスクリプトを用いて,質的かつ定量的に評価できる既存の文献と一致している。

We present three very simple variants of the classic Heads or Tails game using chips, each of which contributes to our understanding of the Bitcoin protocol. The first variant addresses the issue of temporary Bitcoin forks, which occur when two miners discover blocks simultaneously. We determine the threshold at which an honest but temporarily ``Byzantine'' miner persists in mining on their fork to save his orphaned blocks. The second variant of Heads or Tails game is biased in favor of the player and helps to explain why the difficulty adjustment formula is vulnerable to attacks of Nakamoto's consensus. We derive directly and in a simple way, without relying on a Markov decision solver as was the case until now, the threshold beyond which a miner without connectivity finds it advantageous to adopt a deviant mining strategy on Bitcoin. The third variant of Heads or Tails game is unbiased and demonstrates that this issue in the Difficulty Adjustment formula can be fully rectified. Our results are in agreement with the existing literature that we clarify both qualitatively and quantitatively using very simple models and scripts that are easy to implement.
翻訳日:2024-05-08 14:39:54 公開日:2024-05-07
# D-TrAttUnet: 医用画像におけるジェネリックおよびサブトルセグメンテーションのためのハイブリッドCNN変換器アーキテクチャを目指して

D-TrAttUnet: Toward Hybrid CNN-Transformer Architecture for Generic and Subtle Segmentation in Medical Images ( http://arxiv.org/abs/2405.04169v1 )

ライセンス: Link先を確認
Fares Bougourzi, Fadi Dornaika, Cosimo Distante, Abdelmalik Taleb-Ahmed, (参考訳) 過去20年間で、医療画像の機械分析は急速に進歩し、いくつかの重要な医療応用の可能性を秘めている。 複雑な疾患の増加と症例数の増加に伴い、マシンベース画像解析の役割は欠かせないものとなっている。 医療専門家のツールとアシスタントとして機能し、貴重な洞察とガイダンスを提供する。 この領域で特に困難な課題は病変の分節であり、経験豊富な放射線技師にとっても難しい課題である。 このタスクの複雑さは、医療スタッフをサポートするための堅牢な機械学習アプローチの緊急の必要性を強調している。 そこで本研究では,D-TrAttUnetアーキテクチャを提案する。 この枠組みは、異なる疾患がしばしば特定の臓器を標的とするという観察に基づいている。 我々のアーキテクチャは、複合トランスフォーマー-CNNエンコーダとデュアルデコーダを備えたエンコーダ-デコーダ構造を含む。 エンコーダには、TransformerパスとEncoders Fusion Moduleパスの2つのパスが含まれている。 Dual-Decoder構成は2つの同一のデコーダを使用しており、それぞれにアテンションゲートがある。 これにより、モデルが病変と臓器を同時に分節し、その分節損失を統合することができる。 アプローチを検証するため,Covid-19および骨転移セグメンテーションタスクの評価を行った。 また,腺と核のセグメンテーションにおいて,第2デコーダを使わずに,モデルの適応性についても検討した。 その結果,Covid-19感染や骨転移の分節化など,アプローチの優位性が確認された。 さらに、ハイブリッドエンコーダは、腺と核のセグメンテーションにおいて例外的な性能を示し、現代の医用画像解析においてその役割を固めた。

Over the past two decades, machine analysis of medical imaging has advanced rapidly, opening up significant potential for several important medical applications. As complicated diseases increase and the number of cases rises, the role of machine-based imaging analysis has become indispensable. It serves as both a tool and an assistant to medical experts, providing valuable insights and guidance. A particularly challenging task in this area is lesion segmentation, a task that is challenging even for experienced radiologists. The complexity of this task highlights the urgent need for robust machine learning approaches to support medical staff. In response, we present our novel solution: the D-TrAttUnet architecture. This framework is based on the observation that different diseases often target specific organs. Our architecture includes an encoder-decoder structure with a composite Transformer-CNN encoder and dual decoders. The encoder includes two paths: the Transformer path and the Encoders Fusion Module path. The Dual-Decoder configuration uses two identical decoders, each with attention gates. This allows the model to simultaneously segment lesions and organs and integrate their segmentation losses. To validate our approach, we performed evaluations on the Covid-19 and Bone Metastasis segmentation tasks. We also investigated the adaptability of the model by testing it without the second decoder in the segmentation of glands and nuclei. The results confirmed the superiority of our approach, especially in Covid-19 infections and the segmentation of bone metastases. In addition, the hybrid encoder showed exceptional performance in the segmentation of glands and nuclei, solidifying its role in modern medical image analysis.
翻訳日:2024-05-08 14:29:58 公開日:2024-05-07
# SemEval-2024タスク2におけるD-NLP:大規模言語モデルの臨床推測能力の評価

D-NLP at SemEval-2024 Task 2: Evaluating Clinical Inference Capabilities of Large Language Models ( http://arxiv.org/abs/2405.04170v1 )

ライセンス: Link先を確認
Duygu Altinok, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにおける顕著なパフォーマンスのために、大きな注目を集め、広く使われている。 しかし、幻覚、事実的矛盾、数値的定量的推論の限界などの問題を含む、彼ら自身の課題は存在しない。 雑多な推論タスクにおけるLCMの評価は、現在も研究の活発な領域である。 LLMの突破前、トランスフォーマーは医学分野ですでに成功しており、様々な自然言語理解(NLU)タスクに効果的に採用された。 この傾向に続いて、LSMは医療分野でも訓練され、活用され、事実の正確性、安全プロトコルの遵守、および固有の制限に関する懸念が高まっている。 本稿では,臨床試験報告をデータセットとして用いた,オープンソースおよびオープンソースLLMの自然言語推論能力の評価に焦点をあてる。 本稿では,それぞれのLCMの性能評価結果について述べるとともに,特に医学的省略を伴い,数値的定量的推論を必要とする困難な事例に着目して,開発環境での性能分析を行う。 我々のLLMであるジェミニは0.748のF1スコアを達成し、タスクスコアボードの9位を確保した。 我々の研究は、医療分野におけるLSMの推論能力を徹底的に検証した初めてのものである。

Large language models (LLMs) have garnered significant attention and widespread usage due to their impressive performance in various tasks. However, they are not without their own set of challenges, including issues such as hallucinations, factual inconsistencies, and limitations in numerical-quantitative reasoning. Evaluating LLMs in miscellaneous reasoning tasks remains an active area of research. Prior to the breakthrough of LLMs, Transformers had already proven successful in the medical domain, effectively employed for various natural language understanding (NLU) tasks. Following this trend, LLMs have also been trained and utilized in the medical domain, raising concerns regarding factual accuracy, adherence to safety protocols, and inherent limitations. In this paper, we focus on evaluating the natural language inference capabilities of popular open-source and closed-source LLMs using clinical trial reports as the dataset. We present the performance results of each LLM and further analyze their performance on a development set, particularly focusing on challenging instances that involve medical abbreviations and require numerical-quantitative reasoning. Gemini, our leading LLM, achieved a test set F1-score of 0.748, securing the ninth position on the task scoreboard. Our work is the first of its kind, offering a thorough examination of the inference capabilities of LLMs within the medical domain.
翻訳日:2024-05-08 14:29:58 公開日:2024-05-07
# FedStale:フェデレーション学習における古いクライアント更新の活用

FedStale: leveraging stale client updates in federated learning ( http://arxiv.org/abs/2405.04171v1 )

ライセンス: Link先を確認
Angelo Rodio, Giovanni Neglia, (参考訳) FedAvgのようなフェデレーション学習アルゴリズムは、データの不均一性と部分的なクライアント参加によって負の影響を受けます。 後者の問題を軽減するため、FedVARPのようなグローバルな分散削減手法では、非参加クライアントの古いモデル更新を利用する。 これらの方法は、均質なクライアント参加の下で有効である。 しかし、本論文は、一部のクライアントが他のクライアントよりもはるかに少ない場合、異なるレベルの安定度で更新を集約することで、トレーニングプロセスに有害な影響を及ぼすことを示した。 この観察に動機づけられたFedStaleは、参加するクライアントからの"フレッシュ"アップデートと参加していないクライアントからの"ステア"アップデートの凸組み合わせによって、各ラウンドのグローバルモデルを更新する新しいアルゴリズムである。 凸結合の重みを調整することで、更新のみを使用するFedAvgと、更新を均等に処理するFedVARPを補間する。 FedStaleの収束に関する我々の分析は、以下の新しい発見をもたらす。 一 前回のFedAvg及びFedVARP分析を統合して、異種顧客参加に拡張すること。 二 未参加のクライアントが収束誤差にどのように影響するかを明記する。 三 古い更新を最大限に活用するための実践的ガイドラインを提供し、データの不均一性が減少し、不均一性が増大するにつれて、その有用性が低下することを示す。 多様なレベルのクライアントデータと参加の不均一性を含む大規模な実験は、これらの発見を裏付けるだけでなく、FedStaleが多くの環境でFedAvgとFedVARPの両方より優れていることを示している。

Federated learning algorithms, such as FedAvg, are negatively affected by data heterogeneity and partial client participation. To mitigate the latter problem, global variance reduction methods, like FedVARP, leverage stale model updates for non-participating clients. These methods are effective under homogeneous client participation. Yet, this paper shows that, when some clients participate much less than others, aggregating updates with different levels of staleness can detrimentally affect the training process. Motivated by this observation, we introduce FedStale, a novel algorithm that updates the global model in each round through a convex combination of "fresh" updates from participating clients and "stale" updates from non-participating ones. By adjusting the weight in the convex combination, FedStale interpolates between FedAvg, which only uses fresh updates, and FedVARP, which treats fresh and stale updates equally. Our analysis of FedStale convergence yields the following novel findings: i) it integrates and extends previous FedAvg and FedVARP analyses to heterogeneous client participation; ii) it underscores how the least participating client influences convergence error; iii) it provides practical guidelines to best exploit stale updates, showing that their usefulness diminishes as data heterogeneity decreases and participation heterogeneity increases. Extensive experiments featuring diverse levels of client data and participation heterogeneity not only confirm these findings but also show that FedStale outperforms both FedAvg and FedVARP in many settings.
翻訳日:2024-05-08 14:29:58 公開日:2024-05-07
# 医学報告作成のための話題別文検索

Topicwise Separable Sentence Retrieval for Medical Report Generation ( http://arxiv.org/abs/2405.04175v1 )

ライセンス: Link先を確認
Junting Zhao, Yang Zhou, Zhihao Chen, Huazhu Fu, Liang Wan, (参考訳) 自動放射線学報告は、放射線医の負担を軽減し、診断バイアスを緩和する大きな臨床的可能性を秘めている。 近年,検索に基づくレポート生成手法が注目されている。 しかし、トレーニングデータの長期分布のため、これらのモデルは稀な話題を見越して頻繁に発生する文や話題を学習する傾向にある。 多くの場合、稀なトピックの記述は、レポートで言及すべき重要な発見を示すことが多い。 この問題に対処するために,医療報告生成のためのトピックワイズ分離文検索(Teaser)を導入する。 一般的なトピックと稀なトピックの両方を包括的に学習するために、クエリを一般的なタイプと稀なタイプに分類して区別されたトピックを学習し、トピックコントラッシブ・ロスを提案し、潜在領域におけるトピックとクエリを効果的に整合させる。 さらに,視覚的特徴の抽出に従って抽象モジュールを統合し,トピックデコーダによる視覚的観察意図の深い理解を支援する。 MIMIC-CXRとIU X線データセットの実験では、ティーザーは最先端のモデルを超え、レアトピックを効果的に表現し、クエリとトピック間のより信頼性の高い対応を確立する能力も検証している。

Automated radiology reporting holds immense clinical potential in alleviating the burdensome workload of radiologists and mitigating diagnostic bias. Recently, retrieval-based report generation methods have garnered increasing attention due to their inherent advantages in terms of the quality and consistency of generated reports. However, due to the long-tail distribution of the training data, these models tend to learn frequently occurring sentences and topics, overlooking the rare topics. Regrettably, in many cases, the descriptions of rare topics often indicate critical findings that should be mentioned in the report. To address this problem, we introduce a Topicwise Separable Sentence Retrieval (Teaser) for medical report generation. To ensure comprehensive learning of both common and rare topics, we categorize queries into common and rare types to learn differentiated topics, and then propose Topic Contrastive Loss to effectively align topics and queries in the latent space. Moreover, we integrate an Abstractor module following the extraction of visual features, which aids the topic decoder in gaining a deeper understanding of the visual observational intent. Experiments on the MIMIC-CXR and IU X-ray datasets demonstrate that Teaser surpasses state-of-the-art models, while also validating its capability to effectively represent rare topics and establish more dependable correspondences between queries and topics.
翻訳日:2024-05-08 14:29:58 公開日:2024-05-07
# Sora Detector:大規模テキスト・ビデオモデルのための統一幻覚検出

Sora Detector: A Unified Hallucination Detection for Large Text-to-Video Models ( http://arxiv.org/abs/2405.04180v1 )

ライセンス: Link先を確認
Zhixuan Chu, Lei Zhang, Yichen Sun, Siqiao Xue, Zhibo Wang, Zhan Qin, Kui Ren, (参考訳) テキスト・ツー・ビデオ(T2V)生成モデルの急速な進歩により,テキスト記述による高忠実度映像コンテンツの合成が可能となった。 このような大きな進歩にもかかわらず、これらのモデルは幻覚の影響を受けやすく、入力テキストに矛盾する内容を生成し、信頼性と実践的な展開に挑戦する。 この重要な問題に対処するために,最先端のSoraモデルを含む多種多様な大規模T2Vモデルの幻覚を検出するために設計された,新しい統合フレームワークであるSoraDetectorを紹介した。 本フレームワークは幻覚現象の包括的解析に基づいて構築され,映像コンテンツにおけるその表現に基づいて分類する。 SoraDetectorは、最先端のキーフレーム抽出技術とマルチモーダルな大規模言語モデルを活用して、抽出したビデオコンテンツ要約とテキストプロンプトの一貫性を評価し、次いでフレームから静的および動的知識グラフ(KG)を構築し、単一のフレームとフレーム間の幻覚を検出する。 Sora Detectorは、一貫性、静的および動的幻覚の堅牢で定量化された尺度を提供する。 さらに,幻覚検出プロセスを自動化するSora Detector Agentを開発し,入力ビデオ毎に完全な映像品質レポートを生成する。 最後に,新しいメタ評価ベンチマークT2VHaluBenchを提案する。 ソラや他の大型T2Vモデルによって生成されたビデオに関する広範な実験を通じて,幻覚を正確に検出するためのアプローチの有効性を実証した。 コードとデータセットはGitHubからアクセスすることができる。

The rapid advancement in text-to-video (T2V) generative models has enabled the synthesis of high-fidelity video content guided by textual descriptions. Despite this significant progress, these models are often susceptible to hallucination, generating contents that contradict the input text, which poses a challenge to their reliability and practical deployment. To address this critical issue, we introduce the SoraDetector, a novel unified framework designed to detect hallucinations across diverse large T2V models, including the cutting-edge Sora model. Our framework is built upon a comprehensive analysis of hallucination phenomena, categorizing them based on their manifestation in the video content. Leveraging the state-of-the-art keyframe extraction techniques and multimodal large language models, SoraDetector first evaluates the consistency between extracted video content summary and textual prompts, then constructs static and dynamic knowledge graphs (KGs) from frames to detect hallucination both in single frames and across frames. Sora Detector provides a robust and quantifiable measure of consistency, static and dynamic hallucination. In addition, we have developed the Sora Detector Agent to automate the hallucination detection process and generate a complete video quality report for each input video. Lastly, we present a novel meta-evaluation benchmark, T2VHaluBench, meticulously crafted to facilitate the evaluation of advancements in T2V hallucination detection. Through extensive experiments on videos generated by Sora and other large T2V models, we demonstrate the efficacy of our approach in accurately detecting hallucinations. The code and dataset can be accessed via GitHub.
翻訳日:2024-05-08 14:29:58 公開日:2024-05-07
# 音楽のディープフェイク検出は簡単だけど難しい

Detecting music deepfakes is easy but actually hard ( http://arxiv.org/abs/2405.04181v1 )

ライセンス: Link先を確認
Darius Afchar, Gabriel Meseguer Brocal, Romain Hennequin, (参考訳) 生成モデルの新たな時代に直面して、人工的に生成されたコンテンツの検出が最も重要になっている。 ユーザーフレンドリーなプラットフォーム上で数秒で、信頼できる分間の音楽ディープフェイクを作る能力は、ストリーミングサービスに対する詐欺や、人間のアーティストに対する不公平な競争の脅威をもたらす。 本稿では、実際の音声と偽の再構成を含むデータセット上でのトレーニング分類器の可能性(および驚くほど容易)を示し、99.8%の精度を実現する。 私たちの知る限り、これは音楽の偽造を規制するツールである音楽のディープフェイク検知器を初めて発表したことを意味している。 しかし、他の分野における偽造検出に関する何十年もの文献から、良いテストスコアは物語の終わりではないと強調されている。 私たちは、単純なMLフレームワークから離れ、キャリブレーション、オーディオ操作に対する堅牢性、目に見えないモデルへの一般化、解釈可能性、リコースの可能性といった、このようなデプロイされたディテクターで問題となる可能性のある多くのファセットを公開します。 この第2部は、この分野における今後の研究の歩みと、偽コンテンツチェッカーの繁栄市場への注意点として機能する。

In the face of a new era of generative models, the detection of artificially generated content has become a matter of utmost importance. The ability to create credible minute-long music deepfakes in a few seconds on user-friendly platforms poses a real threat of fraud on streaming services and unfair competition to human artists. This paper demonstrates the possibility (and surprising ease) of training classifiers on datasets comprising real audio and fake reconstructions, achieving a convincing accuracy of 99.8%. To our knowledge, this marks the first publication of a music deepfake detector, a tool that will help in the regulation of music forgery. Nevertheless, informed by decades of literature on forgery detection in other fields, we stress that a good test score is not the end of the story. We step back from the straightforward ML framework and expose many facets that could be problematic with such a deployed detector: calibration, robustness to audio manipulation, generalisation to unseen models, interpretability and possibility for recourse. This second part acts as a position for future research steps in the field and a caveat to a flourishing market of fake content checkers.
翻訳日:2024-05-08 14:29:58 公開日:2024-05-07
# 人工知能を利用した化石サメの歯の識別:畳み込みニューラルネットワークの可能性

Artificial Intelligence-powered fossil shark tooth identification: Unleashing the potential of Convolutional Neural Networks ( http://arxiv.org/abs/2405.04189v1 )

ライセンス: Link先を確認
Andrea Barucci, Giulia Ciacci, Pietro Liò, Tiago Azevedo, Andrea Di Cencio, Marco Merella, Giovanni Bianucci, Giulia Bosio, Simone Casati, Alberto Collareta, (参考訳) 知識のあらゆる分野が人工知能の影響を受けている。 特に、ディープラーニングパラダイムは、物理学から古代言語の認識まで、さまざまな分野の主題の専門家を支援するデータ分析ツールの開発を可能にする。 古生物学もこの傾向を観察している。 本研究では、コンピュータビジョンタスクに特化したDeep Learningアルゴリズムの特定のクラスである畳み込みニューラルネットワーク(CNN)を用いて、オンラインデータセットから収集された孤立したサメの歯の像を分類し、ペルー中新世およびイタリア鮮新世化石集合体の著者$$$$2の体験から分析する。 最終分類群に含まれるサメの分類群(千枚以上の画像からなる)は、絶滅した属と現存した属、すなわちカルカリンス、カルカリアス、カルカロクレス、クラミドセラコス、コスモポリトドゥス、ガレオセルド、ヘミプリスティス、ノノレンチャス、プリオナス、スクアリーナの両方を代表している。 我々は、認識タスクに特化されたSharkNet-XというCNNを開発し、一本のサメ歯を含む画像を特定するために、5倍の平均精度0.85に達した。 さらに,クラスタリング技術t-SNEの適用により得られたCNNの最後の高密度層を用いて,画像から抽出した特徴の可視化を行った。 また,CNNの行動の理解と説明のために,古生物学的視点を提示し,説明可能性法SHAPを導入した。 我々の知る限りでは、この手法がパレオノロジーの分野に適用される最初の例である。 この研究の主な目的は、ディープ・ラーニング(Deep Learning)技術が単離されたサメの歯の識別を助け、化石の認識と分類を自動化するための新しい情報ツールを開発する方法を明らかにすることである。

All fields of knowledge are being impacted by Artificial Intelligence. In particular, the Deep Learning paradigm enables the development of data analysis tools that support subject matter experts in a variety of sectors, from physics up to the recognition of ancient languages. Palaeontology is now observing this trend as well. This study explores the capability of Convolutional Neural Networks (CNNs), a particular class of Deep Learning algorithms specifically crafted for computer vision tasks, to classify images of isolated fossil shark teeth gathered from online datasets as well as from the authors$'$ experience on Peruvian Miocene and Italian Pliocene fossil assemblages. The shark taxa that are included in the final, composite dataset (which consists of more than one thousand images) are representative of both extinct and extant genera, namely, Carcharhinus, Carcharias, Carcharocles, Chlamydoselachus, Cosmopolitodus, Galeocerdo, Hemipristis, Notorynchus, Prionace and Squatina. We developed a CNN, named SharkNet-X, specifically tailored on our recognition task, reaching a 5-fold cross validated mean accuracy of 0.85 to identify images containing a single shark tooth. Furthermore, we elaborated a visualization of the features extracted from images using the last dense layer of the CNN, achieved through the application of the clustering technique t-SNE. In addition, in order to understand and explain the behaviour of the CNN while giving a paleontological point of view on the results, we introduced the explainability method SHAP. To the best of our knowledge, this is the first instance in which this method is applied to the field of palaeontology. The main goal of this work is to showcase how Deep Learning techniques can aid in identifying isolated fossil shark teeth, paving the way for developing new information tools for automating the recognition and classification of fossils.
翻訳日:2024-05-08 14:29:58 公開日:2024-05-07
# データとラベルの破壊に対する効果的かつロバストな対抗訓練

Effective and Robust Adversarial Training against Data and Label Corruptions ( http://arxiv.org/abs/2405.04191v1 )

ライセンス: Link先を確認
Peng-Fei Zhang, Zi Huang, Xin-Shun Xu, Guangdong Bai, (参考訳) データ摂動とラベルノイズによる破損は、信頼できないソースからのデータセットで発生し、モデルトレーニングに重大な脅威をもたらす。 堅牢なモデルを開発するための既存の努力にもかかわらず、現在の学習方法は、両方の汚職が共存する可能性を見落とし、モデルの有効性と実践性を制限するのが一般的である。 本稿では,2種類の汚職(データとラベル)を,具体的知識を必要とせず同時に扱うための,効果的かつロバストな適応訓練(ERAT)フレームワークを開発する。 本稿では,複数対向的摂動を包含するハイブリッド対向学習と,クラスバランスのサンプル選択に基づく半教師付き学習を併用して,二重汚職モデルの有効性を高めることを提案する。 一方,提案した逆行訓練では,DNNモデルを被害者として用いて,乱れ生成モジュールが複数の乱れデータ摂動を学習し,モデルが元のデータとハイブリッド摂動データとのセマンティック一貫性を維持するように訓練される。 このモデルでは、実際のデータ破損の予測不可能な摂動に対処することが期待されている。 一方、クラスリバランシングデータ選択戦略は、クリーンなラベルとノイズの多いラベルとをかなり区別するように設計されている。 半教師付き学習はノイズラベルを捨てて行う。 大規模な実験は、提案されたERATフレームワークの優位性を示している。

Corruptions due to data perturbations and label noise are prevalent in the datasets from unreliable sources, which poses significant threats to model training. Despite existing efforts in developing robust models, current learning methods commonly overlook the possible co-existence of both corruptions, limiting the effectiveness and practicability of the model. In this paper, we develop an Effective and Robust Adversarial Training (ERAT) framework to simultaneously handle two types of corruption (i.e., data and label) without prior knowledge of their specifics. We propose a hybrid adversarial training surrounding multiple potential adversarial perturbations, alongside a semi-supervised learning based on class- rebalancing sample selection to enhance the resilience of the model for dual corruption. On the one hand, in the proposed adversarial training, the perturbation generation module learns multiple surrogate malicious data perturbations by taking a DNN model as the victim, while the model is trained to maintain semantic consistency between the original data and the hybrid perturbed data. It is expected to enable the model to cope with unpredictable perturbations in real-world data corruption. On the other hand, a class-rebalancing data selection strategy is designed to fairly differentiate clean labels from noisy labels. Semi-supervised learning is performed accordingly by discarding noisy labels. Extensive experiments demonstrate the superiority of the proposed ERAT framework.
翻訳日:2024-05-08 14:29:58 公開日:2024-05-07
# 量子ソフトウェア実験:報告と実験室パッケージ構造ガイドライン

Quantum software experiments: A reporting and laboratory package structure guidelines ( http://arxiv.org/abs/2405.04192v1 )

ライセンス: Link先を確認
Enrique Moguel, José Antonio Parejo, Antonio Ruiz-Cortés, Jose Garcia-Alonso, Juan Manuel Murillo, (参考訳) 背景。 ソフトウェア工学の領域では、研究室のパッケージを報告し作成するためのガイドラインが広く受け入れられている。 残念ながら、量子コンピューティングの新興分野において、状況はかなり異なる。 我々の知る限りでは、実験の説明や量子ソフトウェア実験パッケージに必要な構造を概説するための標準化されたガイドラインは存在しない。 エイムズ。 本論文は,量子ソフトウェア実験の再現性と妥当性を高めるための試みである。 方法。 この目的は、量子コンピューティング実験に適した実験室のパッケージ構造を報告するためのガイドラインの提案を通じて追求される。 具体的には、実験ソフトウェア工学における確立されたガイドラインの拡張と適応を提唱し、量子ソフトウェア工学の特定の要件に対処するための新しい要素を統合する。 結果。 提案ガイドラインの有効性と有効性を検証するため,11作品(報告ガイドラインに5点,実験室パッケージに6点)のレビューを行った。 特に、量子ソフトウェア実験のための実験室パッケージの標準化されたガイドラインと構造が欠如していることを強調した。 結論。 評価結果から,評価論文や実験室のパッケージ内での情報不足と改善の機会が明らかになった。 我々の提案は量子ソフトウェア工学研究の発展に寄与し、この新興パラダイムにおける厳格で信頼性の高い科学研究の育成に向けた根本的な一歩を踏み出した。

Background. In the realm of software engineering, there are widely accepted guidelines for reporting and creating laboratory packages. Unfortunately, the landscape differs considerably in the emerging field of quantum computing. To the best of our knowledge, no standardized guidelines exist for describing experiments or outlining the necessary structures for quantum software laboratory packages. Aims. This paper endeavors to enhance the replicability and verifiability of quantum software experiments. Method. This objective is pursued through the proposition of guidelines for reporting and the delineation of a structure for laboratory packages tailored to quantum computing experiments. Specifically, we advocate for an extension and adaption of established guidelines in experimental software engineering, integrating novel elements to address the specific requirements of quantum software engineering. Results. In validating the utility and effectiveness of the proposed guidelines, we conducted a review encompassing 11 works (5 focusing on reporting guidelines and 6 on laboratory packages). In particular, this review highlighted the absence of standardized guidelines and structure of laboratory packages for quantum software experiments. Conclusions. Our assessment revealed gaps in information and opportunities for enhancement within the evaluated papers and laboratory packages. Our proposal contributes to the advancement of quantum software engineering research, taking a fundamental step toward fostering rigorous and reliable scientific research in this emerging paradigm.
翻訳日:2024-05-08 14:29:58 公開日:2024-05-07
# 単光子の指向性向上と抽出のための共鳴構造

Resonant structure for improved directionality and extraction of single photons ( http://arxiv.org/abs/2405.04197v1 )

ライセンス: Link先を確認
Sagar Chowdhury, Rituraj, Srini Krishnamurthy, Vidya Praveen Bhallamudi, (参考訳) ダイヤモンドのような誘電体材料における蛍光性原子欠陥は、いくつかの新しい量子応用に非常に有望である。 しかし、効率的な光抽出、指向性放出、狭いスペクトル放出は重要な課題である。 我々はこれらの問題に対処するために,三重共鳴とカーカー条件を利用した誘電体メタ曲面を設計した。 我々の設計したダイヤモンド準曲面は、ダイヤモンドの窒素空洞(NV)欠陥中心に適合し、素ダイヤモンドの637nm(ゼロフォノン線)光子の収集において最大500倍の改善が予測される。 我々の設計は、主に前方の20度の領域で発光する、高い指向性エミッションを達成する。 これにより、ファイバベースのコレクションを含む光の収集がより効率的になる。 予測結果は, メタエレメントに配置されたエミッタの位置に対して安定であり, 欠陥中心の正確な位置決めの困難な製造要件を緩和する。 同様に、我々の設計アプローチは、SiVのような他の欠陥、hBNのような他の材料、および量子ドットのような他の源からの単一光子放出を高めるために適用することができる。

Fluorescent atomic defects, especially in dielectric materials, such as diamond are quite promising for several emerging quantum applications. However, efficient light extraction, directional emission, and narrow spectral emission are key challenges. We have designed dielectric metasurface exploiting Mie-resonance and the Kerker condition to address these issues. Our designed diamond metasurface, tailored for nitrogen-vacancy (NV) defect centers in diamond, predicts up to 500x improvement in the collection of 637 nm (zero phonon line) photons over that from the bare diamond. Our design achieves highly directional emission, predominantly emitting in a 20 degree lobe in the forward direction. This makes light collection more efficient, including for fiber-based collection. The predicted results are stable against the position of the emitter placed in the metaelement, thus alleviating the challenging fabrication requirement of precise positioning of the defect center. Equally importantly, our design approach can be applied to enhance single photon emission also from other defects such as SiV, other materials such as hBN, and other sources such as quantum dots.
翻訳日:2024-05-08 14:29:58 公開日:2024-05-07
# 専門家の混在による生成AIによる物理層通信セキュリティの強化

Enhancing Physical Layer Communication Security through Generative AI with Mixture of Experts ( http://arxiv.org/abs/2405.04198v1 )

ライセンス: Link先を確認
Changyuan Zhao, Hongyang Du, Dusit Niyato, Jiawen Kang, Zehui Xiong, Dong In Kim, Xuemin, Shen, Khaled B. Letaief, (参考訳) AI技術は、無線通信に広く採用されている。 新たなタイプのAI技術として、生成人工知能(GAI)は、通信セキュリティにおいて多くの注目を集めている。 強力な学習能力のため、GAIモデルは従来のAI手法よりも優れていた。 しかし、GAIには高い計算複雑性や限定的な適応性など、いくつかの制限がある。 ゲート機構による予測に複数のエキスパートモデルを使用するMixture of Experts (MoE)は、可能なソリューションを提案する。 まず、物理層通信セキュリティにおけるGAIモデルの応用を概観し、制約について議論し、これらの制限を克服する上でMoEがどのように役立つかを考察する。 さらに,通信セキュリティのためのネットワーク最適化問題に対するMoE対応GAIフレームワークを提案する。 フレームワークの有効性を示すために,協調的友好的ジャミングシナリオにおけるケーススタディを提案する。 実験結果から,MoE 対応フレームワークは GAI アルゴリズムを効果的に支援し,その限界を解消し,通信セキュリティを向上させることが示唆された。

AI technologies have become more widely adopted in wireless communications. As an emerging type of AI technologies, the generative artificial intelligence (GAI) gains lots of attention in communication security. Due to its powerful learning ability, GAI models have demonstrated superiority over conventional AI methods. However, GAI still has several limitations, including high computational complexity and limited adaptability. Mixture of Experts (MoE), which uses multiple expert models for prediction through a gate mechanism, proposes possible solutions. Firstly, we review GAI model's applications in physical layer communication security, discuss limitations, and explore how MoE can help GAI overcome these limitations. Furthermore, we propose an MoE-enabled GAI framework for network optimization problems for communication security. To demonstrate the framework's effectiveness, we provide a case study in a cooperative friendly jamming scenario. The experimental results show that the MoE-enabled framework effectively assists the GAI algorithm, solves its limitations, and enhances communication security.
翻訳日:2024-05-08 14:29:58 公開日:2024-05-07
# NOVA: CNNアクセラレータ上のアテンション層マッピングのためのNoCベースのベクトルユニット

NOVA: NoC-based Vector Unit for Mapping Attention Layers on a CNN Accelerator ( http://arxiv.org/abs/2405.04206v1 )

ライセンス: Link先を確認
Mohit Upadhyay, Rohan Juneja, Weng-Fai Wong, Li-Shiuan Peh, (参考訳) 注意機構は、自然言語処理(NLP)や視覚応用(特にエッジ)など、複数のドメインのニューラルネットワークモデルで使用されるようになった。 しかしながら、注意層は非線形演算の密度がはるかに高いため、既存の神経加速器にマッピングすることは困難であり、今日のベクトルユニットの非効率な利用につながる。 この研究は、NoCベースのベクトルユニットであるNOVAを導入し、加速器のNoC内で非線形操作を実行し、既存の神経加速器にオーバーレイしてエッジの注意層をマッピングすることができる。 この結果から,NOVAアーキテクチャは,既存の注目型ニューラルネットワークを実行する場合,最先端ハードウェア近似器よりも37.8倍の電力効率を持つことがわかった。

Attention mechanisms are becoming increasingly popular, being used in neural network models in multiple domains such as natural language processing (NLP) and vision applications, especially at the edge. However, attention layers are difficult to map onto existing neuro accelerators since they have a much higher density of non-linear operations, which lead to inefficient utilization of today's vector units. This work introduces NOVA, a NoC-based Vector Unit that can perform non-linear operations within the NoC of the accelerators, and can be overlaid onto existing neuro accelerators to map attention layers at the edge. Our results show that the NOVA architecture is up to 37.8x more power-efficient than state-of-the-art hardware approximators when running existing attention-based neural networks.
翻訳日:2024-05-08 14:29:58 公開日:2024-05-07
# 高次元ツインフィールド量子鍵分布について

On High-Dimensional Twin-Field Quantum Key Distribution ( http://arxiv.org/abs/2405.04207v1 )

ライセンス: Link先を確認
Ronny Mueller, Mujtaba Zahidy, Leif Katsuo Oxenløwe, Søren Forchhammer, Davide Bacco, (参考訳) Twin-Field Quantum Key Distribution (QKD) は、単一光子干渉を用いて長距離QKDを実行するQKDプロトコルである。 高次元量子状態を用いて情報を符号化するQKDプロトコルは、キーレートの増加と高いノイズ耐性の恩恵を受けることができる。 我々はツインフィールドQKDの本質を定義し、その一般化を高次元へと探求する。 さらに、最終的に、ツインフィールドプロトコルは、我々の定義に従って高次元に一般化できないことを示す。

Twin-Field Quantum Key Distribution (QKD) is a QKD protocol that uses single-photon interference to perform QKD over long distances. QKD protocols that encode information using high-dimensional quantum states can benefit from increased key rates and higher noise resilience. We define the essence of Twin-Field QKD and explore its generalization to higher dimensions. Further, we show that, ultimately, the Twin-Field protocol cannot be generalized to higher dimensions in accordance with our definition.
翻訳日:2024-05-08 14:29:58 公開日:2024-05-07
# コントラスト学習に基づく特徴抽出を用いたアテンションベース逆正則変分グラフオートエンコーダによる乳腺病理像検索

Breast Histopathology Image Retrieval by Attention-based Adversarially Regularized Variational Graph Autoencoder with Contrastive Learning-Based Feature Extraction ( http://arxiv.org/abs/2405.04211v1 )

ライセンス: Link先を確認
Nematollah Saeidi, Hossein Karshenas, Bijan Shoushtarian, Sepideh Hatamikia, Ramona Woitek, Amirreza Mahbod, (参考訳) 乳がんは特に女性にとって重要な世界的な健康上の問題である。 早期発見と適切な治療は、その影響を緩和するために不可欠であり、病理組織学的検査は迅速な診断において重要な役割を担っている。 しかし、これらの検査は、適切な認識とがんのグレーディングのために、かなりの労働力と経験豊富な医療専門家を必要とすることが多い。 自動画像検索システムは、病理学者ががん組織を同定するのを補助し、診断プロセスを加速する可能性がある。 しかし, 組織像と細胞像の相違により, 正確な画像検索モデルの提案は非常に困難である。 本研究は,乳房組織像検索のための新しいアテンションベース逆正則変分グラフオートエンコーダモデルを提案する。 さらに,クラスタ誘導型コントラスト学習をグラフ特徴抽出器として組み込んで検索性能を向上した。 乳がん組織像の2つの公開データセットに対して提案モデルの性能を評価し,BreakHisデータセットでは平均mAPスコア96.5%,BACHデータセットでは94.7%,mVPスコア91.9%,91.3%であった。 提案した検索モデルは,臨床現場で診断性能を高め,最終的には患者に利益をもたらす可能性がある。

Breast cancer is a significant global health concern, particularly for women. Early detection and appropriate treatment are crucial in mitigating its impact, with histopathology examinations playing a vital role in swift diagnosis. However, these examinations often require a substantial workforce and experienced medical experts for proper recognition and cancer grading. Automated image retrieval systems have the potential to assist pathologists in identifying cancerous tissues, thereby accelerating the diagnostic process. Nevertheless, due to considerable variability among the tissue and cell patterns in histological images, proposing an accurate image retrieval model is very challenging. This work introduces a novel attention-based adversarially regularized variational graph autoencoder model for breast histological image retrieval. Additionally, we incorporated cluster-guided contrastive learning as the graph feature extractor to boost the retrieval performance. We evaluated the proposed model's performance on two publicly available datasets of breast cancer histological images and achieved superior or very competitive retrieval performance, with average mAP scores of 96.5% for the BreakHis dataset and 94.7% for the BACH dataset, and mVP scores of 91.9% and 91.3%, respectively. Our proposed retrieval model has the potential to be used in clinical settings to enhance diagnostic performance and ultimately benefit patients.
翻訳日:2024-05-08 14:29:58 公開日:2024-05-07
# Green TsetlinがTsetlinマシンフレームワークの効率性を再定義

Green Tsetlin Redefining Efficiency in Tsetlin Machine Frameworks ( http://arxiv.org/abs/2405.04212v1 )

ライセンス: Link先を確認
Sondre Glimsdal, Sebastian Østby, Tobias M. Brambo, Eirik M. Vinje, (参考訳) Green Tsetlin (GT) は、TMを用いて現実世界の問題を解決するために開発されたTsetlin Machine (TM) フレームワークである。 TM実装へのアクセスを提供するいくつかのフレームワークはすでに存在する。 しかし、これらには機能がないか、研究第一の焦点がある。 GTは、複雑さを減らし、経験豊富な実践者や初心者に最適な実運用対応のTM実装を提供することを目的とした、使い易いフレームワークです。 この目的のために、GTはトレーニングと推論を明確に分離する。 Pythonインターフェースを備えたC++バックエンドは、純粋なPythonで実行するオプションとともに、競争力のあるトレーニングと推論のパフォーマンスを提供する。 また、トレーニングされたモデルのエクスポート、ハイパーパラメータ検索、ボックス外のクロスバリデーションといった重要なコンポーネントのサポートも統合されている。

Green Tsetlin (GT) is a Tsetlin Machine (TM) framework developed to solve real-world problems using TMs. Several frameworks already exist that provide access to TM implementations. However, these either lack features or have a research-first focus. GT is an easy-to-use framework that aims to lower the complexity and provide a production-ready TM implementation that is great for experienced practitioners and beginners. To this end, GT establishes a clear separation between training and inference. A C++ backend with a Python interface provides competitive training and inference performance, with the option of running in pure Python. It also integrates support for critical components such as exporting trained models, hyper-parameter search, and cross-validation out-of-the-box.
翻訳日:2024-05-08 14:29:58 公開日:2024-05-07
# NL2Plan: 最小テキスト記述によるロバストLLM駆動計画

NL2Plan: Robust LLM-Driven Planning from Minimal Text Descriptions ( http://arxiv.org/abs/2405.04215v1 )

ライセンス: Link先を確認
Elliot Gestrin, Marco Kuhlmann, Jendrik Seipp, (参考訳) 今日の古典的なプランナーは強力だが、PDDLのようなフォーマットでの入力タスクのモデリングは面倒でエラーを起こしやすい。 対照的に、LLM(Large Language Models)による計画では、ほとんどすべての入力テキストが可能であるが、プランの品質や音質は保証されていない。 これら2つのアプローチのベストをマージする試みとして、PDDL生成プロセスの一部を自動化するためにLLMを使い始めた研究もある。 しかし、これらの手法は依然として様々な専門家の入力を必要とする。 ドメインに依存しない初めてのオフラインLCM駆動計画システムであるNL2Planを提案する。 NL2PlanはLLMを使用して短いテキストプロンプトから必要な情報をインクリメンタルに抽出し、ドメインと問題のPDDL記述を作成する。 我々は、NL2Planを4つの計画領域で評価し、15のタスクのうち10のタスクを解決していることがわかった。 さらに、5つの障害ケースのうち2つでは、無効な計画を返す代わりに、NL2Planは、そのタスクを解決できなかったと報告している。 エンド・ツー・エンドモードでのNL2Planの使用に加えて、PDDL表現、説明可能性の向上、PDDL作成支援ツールなど、中間結果の検査と修正が可能である。

Today's classical planners are powerful, but modeling input tasks in formats such as PDDL is tedious and error-prone. In contrast, planning with Large Language Models (LLMs) allows for almost any input text, but offers no guarantees on plan quality or even soundness. In an attempt to merge the best of these two approaches, some work has begun to use LLMs to automate parts of the PDDL creation process. However, these methods still require various degrees of expert input. We present NL2Plan, the first domain-agnostic offline LLM-driven planning system. NL2Plan uses an LLM to incrementally extract the necessary information from a short text prompt before creating a complete PDDL description of both the domain and the problem, which is finally solved by a classical planner. We evaluate NL2Plan on four planning domains and find that it solves 10 out of 15 tasks - a clear improvement over a plain chain-of-thought reasoning LLM approach, which only solves 2 tasks. Moreover, in two out of the five failure cases, instead of returning an invalid plan, NL2Plan reports that it failed to solve the task. In addition to using NL2Plan in end-to-end mode, users can inspect and correct all of its intermediate results, such as the PDDL representation, increasing explainability and making it an assistive tool for PDDL creation.
翻訳日:2024-05-08 14:20:03 公開日:2024-05-07
# ソフトウェア開発エージェントの反復的体験リファインメント

Iterative Experience Refinement of Software-Developing Agents ( http://arxiv.org/abs/2405.04219v1 )

ライセンス: Link先を確認
Chen Qian, Jiahao Li, Yufan Dang, Wei Liu, YiFei Wang, Zihao Xie, Weize Chen, Cheng Yang, Yingli Zhang, Zhiyuan Liu, Maosong Sun, (参考訳) 大規模言語モデル(LLM)を利用した自律エージェントは、ソフトウェア開発などのさまざまなシナリオにおいて、高い自律性を達成する大きな可能性を示している。 近年の研究では、LLMエージェントが過去の経験を活用してエラーを低減し、効率を向上させることが示されている。 しかし、静的体験パラダイムは、過去の経験の固定されたコレクションに依存しており、反復的な洗練を欠いているため、エージェントの適応性を損なう。 本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。 逐次的パターン,タスクバッチ内の最も近い経験に基づく精細化,累積的パターンという2つの基本パターンを提案する。 本手法は,ヒューリスティックな経験の排除により,高品質で頻繁な経験を優先し,経験空間を効果的に管理し,効率を向上する。 総合的な実験により、連続パターンは優れた結果をもたらすが、累積パターンはより安定した性能をもたらすことが示された。 さらに、エクスペリエンスの排除は、高品質なサブセットの11.54%しか使用せずに、より良いパフォーマンスを達成するのに役立ちます。

Autonomous agents powered by large language models (LLMs) show significant potential for achieving high autonomy in various scenarios such as software development. Recent research has shown that LLM agents can leverage past experiences to reduce errors and enhance efficiency. However, the static experience paradigm, reliant on a fixed collection of past experiences acquired heuristically, lacks iterative refinement and thus hampers agents' adaptability. In this paper, we introduce the Iterative Experience Refinement framework, enabling LLM agents to refine experiences iteratively during task execution. We propose two fundamental patterns: the successive pattern, refining based on nearest experiences within a task batch, and the cumulative pattern, acquiring experiences across all previous task batches. Augmented with our heuristic experience elimination, the method prioritizes high-quality and frequently-used experiences, effectively managing the experience space and enhancing efficiency. Extensive experiments show that while the successive pattern may yield superior results, the cumulative pattern provides more stable performance. Moreover, experience elimination facilitates achieving better performance using just 11.54% of a high-quality subset.
翻訳日:2024-05-08 14:20:03 公開日:2024-05-07
# 単一レーザー作動型原子泉における重力加速度の測定

Measurement of gravitational acceleration in a single laser operated atomic fountain ( http://arxiv.org/abs/2405.04223v1 )

ライセンス: Link先を確認
Kavish Bhardwaj, S. Singh, S. P. Ram, B. Jain, Vijay Kumar, Ayukt Pathak, Shradha Tiwari, V. B. Tiwari, S. R. Mishra, (参考訳) 我々は, 内部で開発された冷間原子重力計(CAG)を用いて, 地球の重力加速度(g)の測定を行った。 この設定では、レーザー冷却された$^{87}Rb$原子を噴水幾何学で垂直に打ち上げ、ドップラー感度のラマンパルス原子干渉計を適用して、原子が経験する重力加速度を検出する。 重力計の設置により,実験室の「g」の局所値を621$\mu$Galの感度で測定し,積分時間1350秒とした。

We present measurements on Earth's gravitational acceleration (g) using an in-house developed cold atom gravimeter (CAG) in an atomic fountain geometry. In the setup, the laser cooled $^{87}Rb$ atoms are launched vertically up in the fountain geometry and Doppler sensitive two-photon Raman pulse atom interferometry is applied to detect the gravitational acceleration experienced by the atoms. Using our gravimeter setup, we have measured the local value of 'g' in our laboratory with sensitivity of 621 $\mu$Gal for integration time of 1350 s.
翻訳日:2024-05-08 14:20:03 公開日:2024-05-07
# 物理情報ニューラルネットワークの最適化プロセスの展開:PINNはどの程度正確かつ競争的であるか?

Unveiling the optimization process of Physics Informed Neural Networks: How accurate and competitive can PINNs be? ( http://arxiv.org/abs/2405.04230v1 )

ライセンス: Link先を確認
Jorge F. Urbán, Petros Stefanou, José A. Pons, (参考訳) 本研究では、物理インフォームドニューラルネットワークの潜在的な精度境界について、従来の類似した研究や従来の数値手法と対比して検討する。 改良された最適化アルゴリズムを選択することで、結果の精度が大幅に向上することがわかった。 損失関数の簡単な修正は精度を向上し、拡張のための追加の道を提供する。 最適化アルゴリズムは損失関数の調整よりも収束に強い影響を与えるが、実践的な考慮は実装の容易さにより後者を微調整することを好むことが多い。 グローバルスケールでは、拡張オプティマイザと限界調整された損失関数の統合により、様々な物理問題において、損失関数を桁違いに小さくすることができる。 その結果, 数千の格子点を用いた有限差分スキームに匹敵する精度が得られることがわかった。 本研究は、様々な分野にわたる幅広い応用のためのPINNと関連する最適化手法の継続的な進歩を奨励する。

This study investigates the potential accuracy boundaries of physics-informed neural networks, contrasting their approach with previous similar works and traditional numerical methods. We find that selecting improved optimization algorithms significantly enhances the accuracy of the results. Simple modifications to the loss function may also improve precision, offering an additional avenue for enhancement. Despite optimization algorithms having a greater impact on convergence than adjustments to the loss function, practical considerations often favor tweaking the latter due to ease of implementation. On a global scale, the integration of an enhanced optimizer and a marginally adjusted loss function enables a reduction in the loss function by several orders of magnitude across diverse physical problems. Consequently, our results obtained using compact networks (typically comprising 2 or 3 layers of 20-30 neurons) achieve accuracies comparable to finite difference schemes employing thousands of grid points. This study encourages the continued advancement of PINNs and associated optimization techniques for broader applications across various fields.
翻訳日:2024-05-08 14:20:03 公開日:2024-05-07
# Vidu:拡散モデル付き高一貫性でダイナミックで熟練したテキスト・ツー・ビデオ・ジェネレータ

Vidu: a Highly Consistent, Dynamic and Skilled Text-to-Video Generator with Diffusion Models ( http://arxiv.org/abs/2405.04233v1 )

ライセンス: Link先を確認
Fan Bao, Chendong Xiang, Gang Yue, Guande He, Hongzhou Zhu, Kaiwen Zheng, Min Zhao, Shilong Liu, Yaole Wang, Jun Zhu, (参考訳) 高速なテキスト・ビデオ・ジェネレータであるViduを1世代で最大16秒で1080pの動画を生成できる。 Viduは、U-ViTをバックボーンとする拡散モデルであり、長いビデオを扱うスケーラビリティと能力を解放する。 Viduは強力なコヒーレンスとダイナミズムを示しており、現実的なビデオと想像的なビデオの両方を生成でき、またプロの撮影技術も、最も強力なテキスト・ツー・ビデオジェネレータであるSoraと同程度に理解することができる。 最後に,キャニー・ツー・ビデオ生成,映像予測,主観駆動生成など,他の制御可能なビデオ生成の初期実験を行い,有望な結果を示す。

We introduce Vidu, a high-performance text-to-video generator that is capable of producing 1080p videos up to 16 seconds in a single generation. Vidu is a diffusion model with U-ViT as its backbone, which unlocks the scalability and the capability for handling long videos. Vidu exhibits strong coherence and dynamism, and is capable of generating both realistic and imaginative videos, as well as understanding some professional photography techniques, on par with Sora -- the most powerful reported text-to-video generator. Finally, we perform initial experiments on other controllable video generation, including canny-to-video generation, video prediction and subject-driven generation, which demonstrate promising results.
翻訳日:2024-05-08 14:20:03 公開日:2024-05-07
# LTLDoG: 安全な拡散計画のための一時的拡張シンボリック制約を満足する

LTLDoG: Satisfying Temporally-Extended Symbolic Constraints for Safe Diffusion-based Planning ( http://arxiv.org/abs/2405.04235v1 )

ライセンス: Link先を確認
Zeyu Feng, Hao Luan, Pranav Goyal, Harold Soh, (参考訳) 特定の制約を満たしながら、複雑な環境で効果的に運用することは、人間と対話し、操作するロボットの安全かつ成功に導くために不可欠である。 本研究では,新しい静的かつ時間的に拡張された制約/命令に準拠する長い水平軌道を生成することに焦点を当てる。 本稿では,有限線形時間論理($\text{LTL}_f$)を用いて指定された命令を与えられた逆プロセスの推論ステップを変更する,データ駆動拡散に基づくフレームワーク LTLDoG を提案する。 LTLDoGは$\text{LTL}_f$上の満足度値関数を利用し、勾配場を用いてサンプリングステップをガイドする。 この値関数は、トレーニング中に観察されない新しい命令に一般化するようにトレーニングすることもできる。 ロボットナビゲーションと操作の実験では、障害物回避と訪問シーケンスを指定する公式を満たす軌道を生成することができる。

Operating effectively in complex environments while complying with specified constraints is crucial for the safe and successful deployment of robots that interact with and operate around people. In this work, we focus on generating long-horizon trajectories that adhere to novel static and temporally-extended constraints/instructions at test time. We propose a data-driven diffusion-based framework, LTLDoG, that modifies the inference steps of the reverse process given an instruction specified using finite linear temporal logic ($\text{LTL}_f$). LTLDoG leverages a satisfaction value function on $\text{LTL}_f$ and guides the sampling steps using its gradient field. This value function can also be trained to generalize to new instructions not observed during training, enabling flexible test-time adaptability. Experiments in robot navigation and manipulation illustrate that the method is able to generate trajectories that satisfy formulae that specify obstacle avoidance and visitation sequences.
翻訳日:2024-05-08 14:20:03 公開日:2024-05-07
# Semantic APIアライメント: ハイレベルなユーザ目標をAPIにリンクする

Semantic API Alignment: Linking High-level User Goals to APIs ( http://arxiv.org/abs/2405.04236v1 )

ライセンス: Link先を確認
Robert Feldt, Riccardo Coppola, (参考訳) 大きな言語モデル(LLM)は、要求工学だけでなくコーディングにおいても、テキストベースのタスクを含む様々なソフトウェア開発タスクの自動化と支援において重要になっている。 通常、これらのモデルは既存のタスクの小さな部分を自動化するために使用されますが、要求工学から既存のライブラリを使った実装まで、様々なステップにまたがる幅広いビジョンを示します。 このアプローチは、セマンティックAPIアライメント(SEAL)と呼ばれ、ユーザの高レベルな目標と1つ以上のAPIの特定の機能とのギャップを埋めることを目的としています。 本稿では,LLM方式の `<agents'' の集合が,そのような高レベルな目的と適切なAPI呼び出しとを一致させるシステムアーキテクチャを提案する。 このシステムは、マッチングリンクを見つけるか、あるいは手動による介入やさらなる開発を導くためにミスマッチを説明することで、自動プログラミングを容易にすることができる。 最初のパイロットとして、当社の論文は、REST API仕様、特にGitHub統計APIを含むケーススタディと整合するサブゴール分析を通じて、GORE(Goal-Oriented Requirements Engineering)にLLMを適用することで、このコンセプトを実証しています。 ソフトウェア開発と要件工学における複雑なタスクを強化するアプローチの可能性について議論し、研究の今後の方向性について概説する。

Large Language Models (LLMs) are becoming key in automating and assisting various software development tasks, including text-based tasks in requirements engineering but also in coding. Typically, these models are used to automate small portions of existing tasks, but we present a broader vision to span multiple steps from requirements engineering to implementation using existing libraries. This approach, which we call Semantic API Alignment (SEAL), aims to bridge the gap between a user's high-level goals and the specific functions of one or more APIs. In this position paper, we propose a system architecture where a set of LLM-powered ``agents'' match such high-level objectives with appropriate API calls. This system could facilitate automated programming by finding matching links or, alternatively, explaining mismatches to guide manual intervention or further development. As an initial pilot, our paper demonstrates this concept by applying LLMs to Goal-Oriented Requirements Engineering (GORE), via sub-goal analysis, for aligning with REST API specifications, specifically through a case study involving a GitHub statistics API. We discuss the potential of our approach to enhance complex tasks in software development and requirements engineering and outline future directions for research.
翻訳日:2024-05-08 14:20:03 公開日:2024-05-07
# 義肢分類システムのためのロボット収集データの可能性を探る

Exploring the Potential of Robot-Collected Data for Training Gesture Classification Systems ( http://arxiv.org/abs/2405.04241v1 )

ライセンス: Link先を確認
Alejandro Garcia-Sosa, Jose J. Quintana-Hernandez, Miguel A. Ferrer Ballester, Cristina Carmona-Duarte, (参考訳) センサーと人工知能(AI)は人間の運動の分析に革命をもたらしたが、特定のサンプルの不足は、特に神経変性疾患の診断において、知能システムの訓練において重要な課題となっている。 本研究は,従来の人文学習型分類システムにおけるロボット収集データの利用の可能性について検討した。 概念実証として,ABBロボットアームとApple Watchを用いた数値文字データベースを作成した。 本研究では,人間記録データとロボット記録データの両方を用いて,訓練システムの分類性能を比較した。 我々の主な目的は、ロボットの動きをトレーニングデータとして用いて、スマートウォッチを着用している人間の数字の正確な識別の可能性を決定することである。 本研究は,ロボットコンパイルデータによる分類システムの構築の可能性について検討した。 この研究は、特に人間固有のデータへのアクセスが制限されたシナリオにおいて、信頼性の高い識別を必要とする様々な領域に広範に影響を及ぼす。

Sensors and Artificial Intelligence (AI) have revolutionized the analysis of human movement, but the scarcity of specific samples presents a significant challenge in training intelligent systems, particularly in the context of diagnosing neurodegenerative diseases. This study investigates the feasibility of utilizing robot-collected data to train classification systems traditionally trained with human-collected data. As a proof of concept, we recorded a database of numeric characters using an ABB robotic arm and an Apple Watch. We compare the classification performance of the trained systems using both human-recorded and robot-recorded data. Our primary objective is to determine the potential for accurate identification of human numeric characters wearing a smartwatch using robotic movement as training data. The findings of this study offer valuable insights into the feasibility of using robot-collected data for training classification systems. This research holds broad implications across various domains that require reliable identification, particularly in scenarios where access to human-specific data is limited.
翻訳日:2024-05-08 14:20:03 公開日:2024-05-07
# 量子単位オットー熱機関:カークウッド・ディラック準確率を用いてエンジンのコヒーレンスを存続させる

Quantum unital Otto heat engines: using Kirkwood-Dirac quasi-probability for the engine's coherence to stay alive ( http://arxiv.org/abs/2405.04243v1 )

ライセンス: Link先を確認
Abdelkader El Makouri, Abdallah Slaoui, Rachid Ahl Laamara, (参考訳) 本研究では,<textit{quantum unital Otto heat engine} について考察する。 後者は、断熱ストロークのユニタリとエンジンに供給される熱の源の両方が最大混合状態を保っているという事実を指す。 脱相または非脱相エンジンの累積を計算する方法を示す。 キュービットに対して、任意のユニタリおよびユニタリチャネルに対する平均と分散の分析式を与える。 熱機関の脱相と非脱相を比較検討する。 より正確には、パラメータが平均的な作業に与える影響と信頼性と効率性に焦点を当てる。 ユニタリチャネルのケーススタディとして、量子射影測定を考える。 我々は, 立方体, 脱相または非脱相のいずれにおいても, より高い作業量を抽出し, 信頼性を高め, 効率を向上させるために, 立方体を射影的に測定する必要があるかを示す。 さらに,非断熱遷移は熱力学的量に対して必ずしも有害ではないことを示す。 本研究の結果は, 熱機関において, textit{quantum Measurement} が有効であると考えられた。

In this work, we consider \textit{quantum unital Otto heat engines}. The latter refers to the fact that both the unitaries of the adiabatic strokes and the source of the heat provided to the engine preserve the maximally mixed state. We show how to compute the cumulants of either the dephased or undephased engine. For a qubit, we give the analytical expressions of the averages and variances for arbitrary unitaries and unital channels. We do a detailed comparative study between the dephased and undephased heat engines. More precisely, we focus on the effect of the parameters on the average work and its reliability and efficiency. As a case study of unital channels, we consider a quantum projective measurement. We show on which basis we should projectively measure the qubit, either the dephased or undephased heat engine, to extract higher amounts of work, increase the latter's reliability, and increase efficiency. Further, we show that non-adiabatic transitions \textit{are not always detrimental} to thermodynamic quantities. Our results, we believe, are important for heat engines fueled by \textit{quantum measurement}.
翻訳日:2024-05-08 14:20:03 公開日:2024-05-07
# エントロピー蓄積による半デバイス非依存ランダムネス認証の改善

Improving semi-device-independent randomness certification by entropy accumulation ( http://arxiv.org/abs/2405.04244v1 )

ライセンス: Link先を確認
Carles Roch i Carceller, Lucas Nunes Faria, Zheng-Hao Liu, Nicolò Sguerso, Ulrik Lund Andersen, Jonas Schou Neergaard-Nielsen, Jonatan Bohr Brask, (参考訳) 敵によって予測不可能であると保証される認証されたランダム性は、情報セキュリティの中心である。 量子物理学に固有の基本的なランダム性は、弱い特性しか持たないデバイス、すなわち実装にほとんど信頼を必要としないデバイスから認証を可能にする。 近年,Entropy Accumulation Theorem(エントロピー累積理論)を応用して,検証可能なランダム性の量を大幅に改善できることが示されている。 さらに、このアプローチはすべてのラウンドが独立で同一に分布していると仮定して、有限サイズ解析を可能にする。 ここでは、信頼できない測定値から半デバイス非依存のランダム性認証において、この改善を実証する。

Certified randomness guaranteed to be unpredictable by adversaries is central to information security. The fundamental randomness inherent in quantum physics makes certification possible from devices that are only weakly characterised, i.e. requiring little trust in their implementation. It was recently shown that the amount of certifiable randomness can be greatly improved using the so-called Entropy Accumulation Theorem generalised to prepare-and-measure settings. Furthermore, this approach allows a finite-size analysis which avoids assuming that all rounds are independent and identically distributed. Here, we demonstrate this improvement in semi-device-independent randomness certification from untrusted measurements.
翻訳日:2024-05-08 14:20:03 公開日:2024-05-07
# グラフのための自己教師型タスクの相関関係の探索

Exploring Correlations of Self-supervised Tasks for Graphs ( http://arxiv.org/abs/2405.04245v1 )

ライセンス: Link先を確認
Taoran Fang, Wei Zhou, Yifei Sun, Kaiqiao Han, Lvbin Ma, Yang Yang, (参考訳) グラフによる自己教師型学習は、ラベル付きデータにアクセスせずに情報表現を訓練する研究の急増を引き起こした。 しかし、グラフ自己教師型学習の理解は依然として限られており、様々な自己教師型タスク間の固有の関係は未だ解明されていない。 本研究の目的は,タスク相関に基づくグラフ自己教師型学習の新たな理解を提供することである。 具体的には、ある特定のタスクによって訓練された他のタスクにおける表現のパフォーマンスを評価し、タスク相関を定量化するための相関値を定義する。 このプロセスを通じて、様々な自己監督タスク間のタスク相関を明らかにし、下流のパフォーマンスと密接な関係を持つ表現能力を測定する。 各種データセット間でのタスク間の相関値を解析することにより、タスク相関の複雑さと既存のマルチタスク学習手法の限界を明らかにする。 より有能な表現を得るために,タスク相関を説明するグラフタスク相関モデリング(GraphTCM)を提案する。 実験結果から,本手法は様々な下流タスクにおいて既存手法よりも優れていたことが示唆された。

Graph self-supervised learning has sparked a research surge in training informative representations without accessing any labeled data. However, our understanding of graph self-supervised learning remains limited, and the inherent relationships between various self-supervised tasks are still unexplored. Our paper aims to provide a fresh understanding of graph self-supervised learning based on task correlations. Specifically, we evaluate the performance of the representations trained by one specific task on other tasks and define correlation values to quantify task correlations. Through this process, we unveil the task correlations between various self-supervised tasks and can measure their expressive capabilities, which are closely related to downstream performance. By analyzing the correlation values between tasks across various datasets, we reveal the complexity of task correlations and the limitations of existing multi-task learning methods. To obtain more capable representations, we propose Graph Task Correlation Modeling (GraphTCM) to illustrate the task correlations and utilize it to enhance graph self-supervised training. The experimental results indicate that our method significantly outperforms existing methods across various downstream tasks.
翻訳日:2024-05-08 14:20:03 公開日:2024-05-07
# 量子コンピュータより大きいシステムのための量子強化型マルコフチェインモンテカルロ

Quantum-enhanced Markov Chain Monte Carlo for systems larger than your Quantum Computer ( http://arxiv.org/abs/2405.04247v1 )

ライセンス: Link先を確認
Stuart Ferguson, Petros Wallden, (参考訳) 量子コンピュータは理論的には多くのタスクにおいて計算上の優位性を約束するが、量子ビットの数と品質に制限がある既存および短期ハードウェアを使用する場合、そのような優位性がどのように維持されるかは明らかになっていない。 Layden et al [Nature 619, 282-287 (2023)] において、1つの有望な応用が提案され、QeMCMC (Quantum-enhanced Markov Chain Monte Carlo) アプローチとしてハード確率分布からのサンプリングに必要な熱化時間を短縮する手法が導入された。 In [Nature 619, 282-287 (2023)] では、必要な量子コンピュータのサイズは問題と線形にスケールし、考慮できるシステムのサイズに制限を課す。 本研究では、量子計算を複数回、より小さな量子コンピュータで行うことができるように、アルゴリズムを粗粒化するためのフレームワークを導入し、この手法を粗粒化量子強化マルコフ・チェインモンテカルロ(CGQeMCMC)と呼ぶ。 このフレームワークの例を挙げると、[Nature 619, 282-287 (2023)]の量子スピードアップは、$\sqrt{n}$ simulated qubitsのみを使用しながら持続する。 粗粒化フレームワークは、古典的に難解な問題インスタンスにアプローチするのに非常に少ない量子ビットを必要とするため、短期的には実際に適用できる可能性があり、ここでは、36スピン系の磁化を調査する際の標準的な古典的アプローチと比較して、利点を得るのに十分な6つの擬似量子ビットしか存在しない。 また,本手法は量子ハードウェア仕様に合わせて調整可能であり,古典的手法や量子的手法と容易に組み合わせることができると考えられる。

Quantum computers theoretically promise computational advantage in many tasks, but it is much less clear how such advantage can be maintained when using existing and near-term hardware that has limitations in the number and quality of its qubits. One promising application was proposed in Layden et al [Nature 619, 282-287 (2023)] where a method to reduce the thermalisation time required when sampling from hard probability distribution was introduced as a Quantum-enhanced Markov Chain Monte Carlo (QeMCMC) approach. In [Nature 619, 282-287 (2023)] the size of the required quantum computer scales linearly with the problem, putting limitations on the sizes of systems that one can consider. In this work we introduce a framework to coarse grain the algorithm in such a way that the quantum computation can be performed using, multiple times, smaller quantum computers and we term the method the Coarse Grained Quantum-enhanced Markov Chain Monte Carlo (CGQeMCMC). Example strategies within this framework are put to the test, with the quantum speedup of [Nature 619, 282-287 (2023)] persisting while using only $\sqrt{n}$ simulated qubits where $n$ is the number of qubits required in the original QeMCMC -- a quadratic reduction in resources. The coarse graining framework has the potential to be practically applicable in the near term as it requires very few qubits to approach classically intractable problem instances, here only 6 simulated qubits suffice to gain advantage compared to standard classical approaches when investigating the magnetisation of a 36 spin system. Our method is also adjustable to quantum hardware specifications, and it appears that it can be easily combined with other techniques both classical and quantum.
翻訳日:2024-05-08 14:20:03 公開日:2024-05-07
# 協調推論システムのためのフェデレーション学習--早期排他ネットワークを事例として

Federated Learning for Cooperative Inference Systems: The Case of Early Exit Networks ( http://arxiv.org/abs/2405.04249v1 )

ライセンス: Link先を確認
Caelin Kaplan, Tareq Si Salem, Angelo Rodio, Chuan Xu, Giovanni Neglia, (参考訳) IoT(Internet of Things)技術が進歩するにつれ、センサーやスマートフォンといったエンドデバイスには、ローカルメモリや計算の制約に合わせたAIモデルが徐々に備わっている。 ローカル推論は通信コストとレイテンシを低減するが、これらの小さなモデルは通常、エッジサーバやクラウドにデプロイされるより高度なモデルに比べてパフォーマンスが劣る。 協調推論システム(CIS)は、より小さなデバイスが推論タスクの一部をより有能なデバイスにオフロードできるようにすることによって、このパフォーマンストレードオフに対処する。 これらのシステムは、初期の出口や順序付きドロップアウトのような戦略を利用するディープニューラルネットワーク(DNN)で実証された、多数のパラメータを共有する階層的なモデルをデプロイすることが多い。 このような場合、フェデレートラーニング(FL)は、CIS内でモデルを共同でトレーニングするために用いられる。 しかし、従来のトレーニング手法は、推論中のCISの動作力学、特にクライアント間のサービスレートにおける潜在的な高い均一性を見落としている。 このギャップに対処するために、これらのサービスレートの変化を考慮に入れた、CISで明示的に使用するために設計された新しいFLアプローチを提案する。 我々のフレームワークは厳密な理論的保証を提供するだけでなく、特にクライアント間での推論要求率やデータ可用性が不均一なシナリオにおいて、CISの最先端(SOTA)トレーニングアルゴリズムを超越している。

As Internet of Things (IoT) technology advances, end devices like sensors and smartphones are progressively equipped with AI models tailored to their local memory and computational constraints. Local inference reduces communication costs and latency; however, these smaller models typically underperform compared to more sophisticated models deployed on edge servers or in the cloud. Cooperative Inference Systems (CISs) address this performance trade-off by enabling smaller devices to offload part of their inference tasks to more capable devices. These systems often deploy hierarchical models that share numerous parameters, exemplified by Deep Neural Networks (DNNs) that utilize strategies like early exits or ordered dropout. In such instances, Federated Learning (FL) may be employed to jointly train the models within a CIS. Yet, traditional training methods have overlooked the operational dynamics of CISs during inference, particularly the potential high heterogeneity in serving rates across clients. To address this gap, we propose a novel FL approach designed explicitly for use in CISs that accounts for these variations in serving rates. Our framework not only offers rigorous theoretical guarantees, but also surpasses state-of-the-art (SOTA) training algorithms for CISs, especially in scenarios where inference request rates or data availability are uneven among clients.
翻訳日:2024-05-08 14:20:03 公開日:2024-05-07
# 学習者のエンゲージメントを検出するための一般的なモデル:実装と評価

A General Model for Detecting Learner Engagement: Implementation and Evaluation ( http://arxiv.org/abs/2405.04251v1 )

ライセンス: Link先を確認
Somayeh Malekshahi, Javad M. Kheyridoost, Omid Fatemi, (参考訳) 学習者のエンゲージメントを考えることは、学習者とインストラクターの両方にとって相互に利益がある。 インストラクターは、学習者の注意、関与、モチベーション、関心を高めるのに役立つ。 一方、教師は、すべての学習者の累積結果を評価し、学習プログラムをアップグレードすることで、指導性能を向上させることができる。 本稿では,時間とともに逐次的関係を保ちながら,学習者のエンゲージメントレベルを検出する機能の選択と処理を行うための,汎用的で軽量なモデルを提案する。 学習者のエンゲージメントのダイナミックな本質を捉えるため、トレーニングとテスト期間中に、公開可能なDAiSEEデータセットからビデオを分析した。 また,このデータセットの教育に関する情緒的状態を利用して,モデルによる判断を改善する新しいラベルを見つけるための適応政策も提案している。 提案モデルは,特定の実装において68.57\%の精度を達成し,学習者のエンゲージメントレベルを検出する技術モデルよりも優れる。

Considering learner engagement has a mutual benefit for both learners and instructors. Instructors can help learners increase their attention, involvement, motivation, and interest. On the other hand, instructors can improve their instructional performance by evaluating the cumulative results of all learners and upgrading their training programs. This paper proposes a general, lightweight model for selecting and processing features to detect learners' engagement levels while preserving the sequential temporal relationship over time. During training and testing, we analyzed the videos from the publicly available DAiSEE dataset to capture the dynamic essence of learner engagement. We have also proposed an adaptation policy to find new labels that utilize the affective states of this dataset related to education, thereby improving the models' judgment. The suggested model achieves an accuracy of 68.57\% in a specific implementation and outperforms the studied state-of-the-art models detecting learners' engagement levels.
翻訳日:2024-05-08 14:20:03 公開日:2024-05-07
# VAEneu: 確率予測に基づくVAEアプリケーションのための新しいアベニュー

VAEneu: A New Avenue for VAE Application on Probabilistic Forecasting ( http://arxiv.org/abs/2405.04252v1 )

ライセンス: Link先を確認
Alireza Koochali, Ensiye Tahaei, Andreas Dengel, Sheraz Ahmed, (参考訳) 本稿では,一変量確率的時系列予測を先導する革新的自己回帰手法であるVAEneuを提案する。 我々は条件付きVAEフレームワークを用い、損失関数として厳格に適切な評価規則であるCRPS(Continuous Ranked Probability Score)を採用することにより、予測分布可能性関数の下限を最適化する。 このパイプラインは、鋭くよく校正された予測分布を予測する。 包括的な実証研究を通じて、VAEneuは12のデータセットにわたる12のベースラインモデルに対して厳格にベンチマークされている。 結果は、VAEneuの顕著な予測性能を明白に証明した。 VAEneuは、将来の不確実性を定量化する貴重なツールであり、我々の広範な実証的研究は、単変量多段階の確率予測のための将来の比較研究の基礎となる。

This paper presents VAEneu, an innovative autoregressive method for multistep ahead univariate probabilistic time series forecasting. We employ the conditional VAE framework and optimize the lower bound of the predictive distribution likelihood function by adopting the Continuous Ranked Probability Score (CRPS), a strictly proper scoring rule, as the loss function. This novel pipeline results in forecasting sharp and well-calibrated predictive distribution. Through a comprehensive empirical study, VAEneu is rigorously benchmarked against 12 baseline models across 12 datasets. The results unequivocally demonstrate VAEneu's remarkable forecasting performance. VAEneu provides a valuable tool for quantifying future uncertainties, and our extensive empirical study lays the foundation for future comparative studies for univariate multistep ahead probabilistic forecasting.
翻訳日:2024-05-08 14:20:03 公開日:2024-05-07
# ニューラル圧縮センシングの検証

Verified Neural Compressed Sensing ( http://arxiv.org/abs/2405.04260v1 )

ライセンス: Link先を確認
Rudy Bunel, Krishnamurthy, Dvijotham, M. Pawan Kumar, Alessandro De Palma, Robert Stanforth, (参考訳) 人間の入力を使わずに自動検証アルゴリズムが生成した正しさの証明を用いて、ニューラルネットワークを精度の高い計算タスクのために証明可能な最初の(私たちの知る限り)修正する。 ニューラルネットワーク検証の以前の研究は、たとえ満足しても、ニューラルネットワークが決してエラーを発生しないことを保証するのに十分ではない部分的な仕様に重点を置いていた。 我々は,ニューラルネットワークの精度を正確に定義した計算タスクにニューラルネットワークの検証を適用することに注力する。 特に,圧縮センシングのための最初の確証可能なニューラルネットワーク,すなわちベクトルの次元よりも小さい多数の測定値からスパースベクトルを復元する手法を開発し,検証する。 極小問題次元(最大50)では、線形および双項線形測定からスパースベクトルを確実に回復するニューラルネットワークを訓練できることを示す。 さらに、ネットワークの複雑さ(ニューロン/層数)が問題に適応できることを示し、従来の圧縮センシング手法が有効に機能していない問題を解決する。

We develop the first (to the best of our knowledge) provably correct neural networks for a precise computational task, with the proof of correctness generated by an automated verification algorithm without any human input. Prior work on neural network verification has focused on partial specifications that, even when satisfied, are not sufficient to ensure that a neural network never makes errors. We focus on applying neural network verification to computational tasks with a precise notion of correctness, where a verifiably correct neural network provably solves the task at hand with no caveats. In particular, we develop an approach to train and verify the first provably correct neural networks for compressed sensing, i.e., recovering sparse vectors from a number of measurements smaller than the dimension of the vector. We show that for modest problem dimensions (up to 50), we can train neural networks that provably recover a sparse vector from linear and binarized linear measurements. Furthermore, we show that the complexity of the network (number of neurons/layers) can be adapted to the problem difficulty and solve problems where traditional compressed sensing methods are not known to provably work.
翻訳日:2024-05-08 14:10:19 公開日:2024-05-07
# 言語横断データフォーマットにおける音声による特徴ベクトルの生成

Generating Feature Vectors from Phonetic Transcriptions in Cross-Linguistic Data Formats ( http://arxiv.org/abs/2405.04271v1 )

ライセンス: Link先を確認
Arne Rubehn, Jessica Nieder, Robert Forkel, Johann-Mattis List, (参考訳) 言語間で音声を比較する際、学者は個々の音の特徴表現を利用して、きめ細かい音の類似性を決定する。 多数の音声音声のバイナリ特徴系が提案されているが、大規模な計算アプリケーションは、数千の音声の特徴をリストアップしても、実際の言語間データに反映される多数の音声音声のごく一部しかカバーしない、という課題に直面していることが多い。 そこで本研究では,CLTS(Cross-Linguistic Transcription Systems)参照カタログで提案されている国際音声アルファベットの標準化版で表現可能なすべての音に対して,バイナリ特徴ベクトルを動的に生成する手法を提案する。 CLTSは2000以上の異なる言語を包含する大規模なデータ収集に積極的に利用されているため、バイナリ特徴ベクトルの生成手順は、非常に大きな多言語ワードリストのコレクションに即座にアクセスできる。 異なるデータセットで機能システムを異なる方法でテストすることで、システムは音声の類似性を比較するための簡単な手段を提供するだけでなく、将来の言語間機械学習アプリケーションで使用される可能性も示している。

When comparing speech sounds across languages, scholars often make use of feature representations of individual sounds in order to determine fine-grained sound similarities. Although binary feature systems for large numbers of speech sounds have been proposed, large-scale computational applications often face the challenges that the proposed feature systems -- even if they list features for several thousand sounds -- only cover a smaller part of the numerous speech sounds reflected in actual cross-linguistic data. In order to address the problem of missing data for attested speech sounds, we propose a new approach that can create binary feature vectors dynamically for all sounds that can be represented in the the standardized version of the International Phonetic Alphabet proposed by the Cross-Linguistic Transcription Systems (CLTS) reference catalog. Since CLTS is actively used in large data collections, covering more than 2,000 distinct language varieties, our procedure for the generation of binary feature vectors provides immediate access to a very large collection of multilingual wordlists. Testing our feature system in different ways on different datasets proves that the system is not only useful to provide a straightforward means to compare the similarity of speech sounds, but also illustrates its potential to be used in future cross-linguistic machine learning applications.
翻訳日:2024-05-08 14:10:19 公開日:2024-05-07
# BUDDy:拡散モデルを用いた単一チャネルブラインド非教師下デバベーション

BUDDy: Single-Channel Blind Unsupervised Dereverberation with Diffusion Models ( http://arxiv.org/abs/2405.04272v1 )

ライセンス: Link先を確認
Eloi Moliner, Jean-Marie Lemercier, Simon Welker, Timo Gerkmann, Vesa Välimäki, (参考訳) 本稿では,拡散モデルを用いた後部サンプリングに基づく統合ブラインド除去と室内インパルス応答推定のための教師なし単一チャネル方式を提案する。 本稿では,周波数サブバンド毎に指数減衰のフィルタを用いて残響演算子をパラメータ化し,その逆拡散軌道に沿って発話が洗練されるにつれて,対応するパラメータを反復的に推定する。 測定一貫性基準は、残響測定による生成音声の忠実度を強制する一方、無条件拡散モデルは、クリーン音声生成の強い先行を具備する。 室内インパルス応答の知識や残響・無響データの結合がなければ, 様々な音響シナリオにおける残響の除去に成功できる。 本手法は,従来の盲目教師なしベースラインよりも優れており,その強靭性は,盲目教師付き手法と比較して,未確認音響条件に対して顕著であることを示す。 オーディオサンプルとコードはオンラインで入手できる。

In this paper, we present an unsupervised single-channel method for joint blind dereverberation and room impulse response estimation, based on posterior sampling with diffusion models. We parameterize the reverberation operator using a filter with exponential decay for each frequency subband, and iteratively estimate the corresponding parameters as the speech utterance gets refined along the reverse diffusion trajectory. A measurement consistency criterion enforces the fidelity of the generated speech with the reverberant measurement, while an unconditional diffusion model implements a strong prior for clean speech generation. Without any knowledge of the room impulse response nor any coupled reverberant-anechoic data, we can successfully perform dereverberation in various acoustic scenarios. Our method significantly outperforms previous blind unsupervised baselines, and we demonstrate its increased robustness to unseen acoustic conditions in comparison to blind supervised methods. Audio samples and code are available online.
翻訳日:2024-05-08 14:10:19 公開日:2024-05-07
# コンテンツ適応型ニューラルビデオ圧縮のためのグループ認識パラメータ効率向上

Group-aware Parameter-efficient Updating for Content-Adaptive Neural Video Compression ( http://arxiv.org/abs/2405.04274v1 )

ライセンス: Link先を確認
Zhenghao Chen, Luping Zhou, Zhihao Hu, Dong Xu, (参考訳) コンテンツ適応圧縮は、各種コンテンツに対する事前学習されたニューラルコーデックの適応性を高めるために重要である。 これらの手法は、ニューラル画像圧縮(NIC)において非常に実用的だが、そのニューラルビデオ圧縮(NVC)への応用は、1)ビデオ圧縮は時間的冗長性に大きく依存しているため、時間とともに蓄積される重大なエラーを1つか数フレームだけ更新することができる。 以上の課題に対処するため,我々は,GPU (Group-aware Parameter-Efficient Updating) と呼ばれるコンテンツ適応型NVC技術を開発した。 当初、エラーの蓄積を最小限に抑えるために、エンコーダパラメータを更新するためのグループ対応アプローチを採用しました。 これには、パッチベースのグループ・オブ・ピクチャーズ(GoP)トレーニング戦略を採用して、ビデオをパッチベースのGoPに分割する。 次に,複数の軽量アダプタをシリアル構成と並列構成の両方で符号化プロセスの各符号化コンポーネントに統合し,パラメータ効率の高いデルタチューニング戦略を提案する。 このようなアーキテクチャに依存しないモジュールは、大きなパラメータでコンポーネントを刺激し、更新コストとエンコーディング時間の両方を削減する。 我々は最新のNVCフレームワークにGPUを組み込んで総合的な実験を行い、4つのビデオベンチマークで優れた圧縮効率と1つの医用画像ベンチマークの適応性を示した。

Content-adaptive compression is crucial for enhancing the adaptability of the pre-trained neural codec for various contents. Although these methods have been very practical in neural image compression (NIC), their application in neural video compression (NVC) is still limited due to two main aspects: 1), video compression relies heavily on temporal redundancy, therefore updating just one or a few frames can lead to significant errors accumulating over time; 2), NVC frameworks are generally more complex, with many large components that are not easy to update quickly during encoding. To address the previously mentioned challenges, we have developed a content-adaptive NVC technique called Group-aware Parameter-Efficient Updating (GPU). Initially, to minimize error accumulation, we adopt a group-aware approach for updating encoder parameters. This involves adopting a patch-based Group of Pictures (GoP) training strategy to segment a video into patch-based GoPs, which will be updated to facilitate a globally optimized domain-transferable solution. Subsequently, we introduce a parameter-efficient delta-tuning strategy, which is achieved by integrating several light-weight adapters into each coding component of the encoding process by both serial and parallel configuration. Such architecture-agnostic modules stimulate the components with large parameters, thereby reducing both the update cost and the encoding time. We incorporate our GPU into the latest NVC framework and conduct comprehensive experiments, whose results showcase outstanding video compression efficiency across four video benchmarks and adaptability of one medical image benchmark.
翻訳日:2024-05-08 14:10:19 公開日:2024-05-07
# 深部回帰のための不確かさ定量化指標

Uncertainty Quantification Metrics for Deep Regression ( http://arxiv.org/abs/2405.04278v1 )

ライセンス: Link先を確認
Zilian Xiong, Simon Kristoffersson Lind, Per-Erik Forssén, Volker Krüger, (参考訳) ロボットや他の物理システムにディープニューラルネットワークをデプロイする場合、学習モデルは予測の不確実性を確実に定量化する必要がある。 確実な不確実性により、下流モジュールはその動作の安全性を推論することができる。 本研究では,このような不確実性を評価するための指標について述べる。 具体的には、回帰タスクに着目し、AUSE(Area Under Sparsification Error)、Calibration Error(Calibration Error)、Spearman's Rank correlation(Spearman's Rank correlation)、NLL(Negative Log-Likelihood)を調査する。 合成回帰データセットを用いて、これらの指標が4つの典型的な不確実性、テストセットのサイズに関する安定性、強みと弱点の下でどのように振る舞うかを考察する。 その結果,キャリブレーションエラーが最も安定かつ解釈可能な指標であることが示唆されたが,AUSEとNLLにはそれぞれのユースケースがある。 我々は、不確実性を評価するためにSpearman's Rank correlationの使用を禁止し、AUSEに置き換えることを推奨する。

When deploying deep neural networks on robots or other physical systems, the learned model should reliably quantify predictive uncertainty. A reliable uncertainty allows downstream modules to reason about the safety of its actions. In this work, we address metrics for evaluating such an uncertainty. Specifically, we focus on regression tasks, and investigate Area Under Sparsification Error (AUSE), Calibration Error, Spearman's Rank Correlation, and Negative Log-Likelihood (NLL). Using synthetic regression datasets, we look into how those metrics behave under four typical types of uncertainty, their stability regarding the size of the test set, and reveal their strengths and weaknesses. Our results indicate that Calibration Error is the most stable and interpretable metric, but AUSE and NLL also have their respective use cases. We discourage the usage of Spearman's Rank Correlation for evaluating uncertainties and recommend replacing it with AUSE.
翻訳日:2024-05-08 14:10:19 公開日:2024-05-07
# CoqPyt: LLM時代のPythonでのナビゲーションの証明

CoqPyt: Proof Navigation in Python in the Era of LLMs ( http://arxiv.org/abs/2405.04282v1 )

ライセンス: Link先を確認
Pedro Carrott, Nuno Saavedra, Kyle Thompson, Sorin Lerner, João F. Ferreira, Emily First, (参考訳) 証明アシスタントは、ユーザーがソフトウェア関連プロパティに関するマシンチェックされた証明を開発することを可能にする。 残念ながら、これらの証明アシスタントのインタラクティブな性質は、ユーザに対して証明の負担の大部分を課し、形式的検証を複雑で時間を要する作業にする。 ニューラルメソッドに基づく最近の自動化技術はこの問題に対処するが、データ収集や証明アシスタントとの対話に優れたプログラム的サポートが必要である。 本稿では,Coq証明アシスタントと対話するPythonツールであるCoqPytについて述べる。 CoqPytは、リッチな前提データの抽出など、新しい機能を提供することで、他のCoq関連のツールを改善している。 われわれは、証明合成と修復のために設計されたツールや技術、特にLLMベースの開発を支援することを期待している。 CoqPytを説明したビデオは、https://youtu.be/fk74o0rePM8で公開されている。

Proof assistants enable users to develop machine-checked proofs regarding software-related properties. Unfortunately, the interactive nature of these proof assistants imposes most of the proof burden on the user, making formal verification a complex, and time-consuming endeavor. Recent automation techniques based on neural methods address this issue, but require good programmatic support for collecting data and interacting with proof assistants. This paper presents CoqPyt, a Python tool for interacting with the Coq proof assistant. CoqPyt improves on other Coq-related tools by providing novel features, such as the extraction of rich premise data. We expect our work to aid development of tools and techniques, especially LLM-based, designed for proof synthesis and repair. A video describing and demonstrating CoqPyt is available at: https://youtu.be/fk74o0rePM8.
翻訳日:2024-05-08 14:10:19 公開日:2024-05-07
# 地球・気候基盤モデルの基礎について

On the Foundations of Earth and Climate Foundation Models ( http://arxiv.org/abs/2405.04285v1 )

ライセンス: Link先を確認
Xiao Xiang Zhu, Zhitong Xiong, Yi Wang, Adam J. Stewart, Konrad Heidler, Yuanyuan Wang, Zhenghang Yuan, Thomas Dujardin, Qingsong Xu, Yilei Shi, (参考訳) 基礎モデルは、地球と気候科学を前進させる大きな可能性を持っているが、現在のアプローチは、望ましい地球と気候の基礎モデルのいくつかの基本的な特徴に焦点を当てているため、最適ではないかもしれない。 理想的な地球基盤モデルを構築し,地球基盤モデルの実現と地球基盤モデルの評価に向けてさらに光を当てた。 ファンデーションモデルに何が起こるのか? エネルギー効率のよい適応、敵防衛、解釈可能性などが、新たな方向性の1つだ。

Foundation models have enormous potential in advancing Earth and climate sciences, however, current approaches may not be optimal as they focus on a few basic features of a desirable Earth and climate foundation model. Crafting the ideal Earth foundation model, we define eleven features which would allow such a foundation model to be beneficial for any geoscientific downstream application in an environmental- and human-centric manner.We further shed light on the way forward to achieve the ideal model and to evaluate Earth foundation models. What comes after foundation models? Energy efficient adaptation, adversarial defenses, and interpretability are among the emerging directions.
翻訳日:2024-05-08 14:10:19 公開日:2024-05-07
# LLMをゼロショットで生成するテキスト検出の鍵はGECScore

Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore ( http://arxiv.org/abs/2405.04286v1 )

ライセンス: Link先を確認
Junchao Wu, Runzhe Zhan, Derek F. Wong, Shu Yang, Xuebo Liu, Lidia S. Chao, Min Zhang, (参考訳) 大規模言語モデル(LLM)の生成したテキスト検出の有効性は、大規模トレーニングデータの可用性に大きく依存する。 このようなデータを必要としないホワイトボックスゼロショット検出器は、LLM生成テキストのソースモデルのアクセシビリティによって制限されている。 本稿では,人文テキストが LLM 生成テキストよりも文法的誤りを多く含んでいることを前提として,単純かつ効果的なブラックボックスゼロショット検出手法を提案する。 このアプローチでは、人書きテキストとLLM生成テキストを区別するために、与えられたテキストに対する文法誤り訂正スコア(GECScore)を計算する必要がある。 以上の結果から,本手法は現状のゼロショット法や教師あり手法よりも優れ,平均98.7%のAUROCを達成し,パラフレーズや対向的摂動攻撃に対する強い堅牢性を示した。

The efficacy of an large language model (LLM) generated text detector depends substantially on the availability of sizable training data. White-box zero-shot detectors, which require no such data, are nonetheless limited by the accessibility of the source model of the LLM-generated text. In this paper, we propose an simple but effective black-box zero-shot detection approach, predicated on the observation that human-written texts typically contain more grammatical errors than LLM-generated texts. This approach entails computing the Grammar Error Correction Score (GECScore) for the given text to distinguish between human-written and LLM-generated text. Extensive experimental results show that our method outperforms current state-of-the-art (SOTA) zero-shot and supervised methods, achieving an average AUROC of 98.7% and showing strong robustness against paraphrase and adversarial perturbation attacks.
翻訳日:2024-05-08 14:10:19 公開日:2024-05-07
# クリックベイトを緩和する:マルチタスク学習を用いたスポイラー生成へのアプローチ

Mitigating Clickbait: An Approach to Spoiler Generation Using Multitask Learning ( http://arxiv.org/abs/2405.04292v1 )

ライセンス: Link先を確認
Sayantan Pal, Souvik Das, Rohini K. Srihari, (参考訳) 本研究は,クリックベイトコンテンツによる好奇心に対抗して,スポイラーを簡潔なテキスト応答として検出・分類・生成する新技術である「クリックベイト・スポイリング」を紹介する。 マルチタスク学習フレームワークを活用することで、我々のモデルの一般化能力は大幅に向上し、クリックベイトの広範な問題に効果的に対処できる。 私たちの研究の要点は、必要なスポイラーの種類に応じて、適切なスポイラーを生成することにあります。 提案手法は,改良型スポイラー分類法と改良型QA機構を多タスク学習パラダイムに組み込み,文脈からのスポイラー抽出を最適化する手法である。 特に、拡張スポイラーの生成に対応するために、長いシーケンスを処理できるモデルの微調整方法を含めている。 本研究は,クリックベイトの未解決問題に対処する高度なテキスト処理技術の可能性を強調し,デジタル領域におけるユーザエクスペリエンスの向上を約束する。

This study introduces 'clickbait spoiling', a novel technique designed to detect, categorize, and generate spoilers as succinct text responses, countering the curiosity induced by clickbait content. By leveraging a multi-task learning framework, our model's generalization capabilities are significantly enhanced, effectively addressing the pervasive issue of clickbait. The crux of our research lies in generating appropriate spoilers, be it a phrase, an extended passage, or multiple, depending on the spoiler type required. Our methodology integrates two crucial techniques: a refined spoiler categorization method and a modified version of the Question Answering (QA) mechanism, incorporated within a multi-task learning paradigm for optimized spoiler extraction from context. Notably, we have included fine-tuning methods for models capable of handling longer sequences to accommodate the generation of extended spoilers. This research highlights the potential of sophisticated text processing techniques in tackling the omnipresent issue of clickbait, promising an enhanced user experience in the digital realm.
翻訳日:2024-05-08 14:10:19 公開日:2024-05-07
# 構造的ファイナンスにおけるアセットレビューの効率化と正確性:マルチエージェントフレームワークの適用

Enhancing the Efficiency and Accuracy of Underlying Asset Reviews in Structured Finance: The Application of Multi-agent Framework ( http://arxiv.org/abs/2405.04294v1 )

ライセンス: Link先を確認
Xiangpeng Wan, Haicheng Deng, Kai Zou, Shiqi Xu, (参考訳) 多様な資産をMBS、ABS、CDOなどの証券に再構成する構造金融は、資本市場の効率を高めるが、重大なデューデリジェンス課題を生じさせる。 本研究では、構造化金融の効率性と正確性を向上させるため、AIと従来の資産レビュープロセスの統合について検討する。 オープンソースとオープンソースの両方の大規模言語モデル(LLM)を用いて、AIがローンアプリケーションと銀行のステートメント間の情報の検証を効果的に自動化できることを実証する。 GPT-4のようなオープンソースモデルは優れた性能を示すが、LAMA3のようなオープンソースモデルはコスト効率の良い代替手段を提供する。 デュアルエージェントシステムはさらに精度を向上するが、これは高い運用コストが伴う。 この研究は、手動エラーを最小限に抑え、デューディリジェンスを合理化するAIの可能性を強調し、財務文書分析とリスク管理におけるAIの幅広い応用を示唆している。

Structured finance, which involves restructuring diverse assets into securities like MBS, ABS, and CDOs, enhances capital market efficiency but presents significant due diligence challenges. This study explores the integration of artificial intelligence (AI) with traditional asset review processes to improve efficiency and accuracy in structured finance. Using both open-sourced and close-sourced large language models (LLMs), we demonstrate that AI can automate the verification of information between loan applications and bank statements effectively. While close-sourced models such as GPT-4 show superior performance, open-sourced models like LLAMA3 offer a cost-effective alternative. Dual-agent systems further increase accuracy, though this comes with higher operational costs. This research highlights AI's potential to minimize manual errors and streamline due diligence, suggesting a broader application of AI in financial document analysis and risk management.
翻訳日:2024-05-08 14:10:19 公開日:2024-05-07
# 医療画像データを用いた半スーパービジョン病の分類

Semi-Supervised Disease Classification based on Limited Medical Image Data ( http://arxiv.org/abs/2405.04295v1 )

ライセンス: Link先を確認
Yan Zhang, Chun Li, Zhaoxia Liu, Ming Li, (参考訳) 近年, 肯定的, 未ラベルな例(PU学習)からの学習分野において, 特に画像やテキストの分類タスクの進展が顕著に進展している。 しかしながら、PU学習を半教師付き疾患分類に適用することは、主にラベル付き医療画像の入手が限られているため、深刻な課題である。 医用画像支援診断アルゴリズムの分野では、多くの理論的および実践的な障害が持続する。 医用画像支援診断のためのPU学習の研究は、画像の分類に専門家が費やす時間を短縮することを目的としている。 自然画像とは異なり、医用画像には注釈付きデータの不足が伴うのが一般的であり、ラベルなしのケースが多数存在する。 これらの課題に対処するため,本研究では,H\"older divergence"にインスパイアされた新たな生成モデルを提案する。 本稿では,問題を包括的に定式化し,厳密な数学的解析を通じてその理論的実現可能性を確立する。 提案手法の有効性を評価するため, PU医学学習でよく用いられる5つのベンチマークデータセット(BreastMNIST, PneumoniaMNIST, BloodMNIST, OCTMNIST, AMD)について広範な実験を行った。 KLの発散に基づく既存手法に比べて,本手法が優れていることを示す実験結果が得られた。 特に,本手法は,5つの疾患分類ベンチマークにおいて,最先端のパフォーマンスを実現する。 ラベル付きデータによる制限に対処し,未ラベルの医用画像の未使用の可能性を活用することにより,医療画像解析分野における半教師付き疾患分類の強化に期待できる方向を示す。

In recent years, significant progress has been made in the field of learning from positive and unlabeled examples (PU learning), particularly in the context of advancing image and text classification tasks. However, applying PU learning to semi-supervised disease classification remains a formidable challenge, primarily due to the limited availability of labeled medical images. In the realm of medical image-aided diagnosis algorithms, numerous theoretical and practical obstacles persist. The research on PU learning for medical image-assisted diagnosis holds substantial importance, as it aims to reduce the time spent by professional experts in classifying images. Unlike natural images, medical images are typically accompanied by a scarcity of annotated data, while an abundance of unlabeled cases exists. Addressing these challenges, this paper introduces a novel generative model inspired by H\"older divergence, specifically designed for semi-supervised disease classification using positive and unlabeled medical image data. In this paper, we present a comprehensive formulation of the problem and establish its theoretical feasibility through rigorous mathematical analysis. To evaluate the effectiveness of our proposed approach, we conduct extensive experiments on five benchmark datasets commonly used in PU medical learning: BreastMNIST, PneumoniaMNIST, BloodMNIST, OCTMNIST, and AMD. The experimental results clearly demonstrate the superiority of our method over existing approaches based on KL divergence. Notably, our approach achieves state-of-the-art performance on all five disease classification benchmarks. By addressing the limitations imposed by limited labeled data and harnessing the untapped potential of unlabeled medical images, our novel generative model presents a promising direction for enhancing semi-supervised disease classification in the field of medical image analysis.
翻訳日:2024-05-08 14:10:19 公開日:2024-05-07
# 音声処理のためのBEST-RQのオープン実装と検討

Open Implementation and Study of BEST-RQ for Speech Processing ( http://arxiv.org/abs/2405.04296v1 )

ライセンス: Link先を確認
Ryan Whetten, Titouan Parcollet, Marco Dinarelli, Yannick Estève, (参考訳) 自己監督学習(SSL)は、様々な音声タスクにおいて有用であることが証明されている。 しかし、これらの手法は一般にデータ、メモリ、計算資源の点で非常に要求される。 BERT-based Speech pre-Training with Random-Projection Quantizer (BEST-RQ) は、自動音声認識(ASR)において、wav2vec 2.0のような他のSSLメソッドよりもシンプルでありながら、優れた性能を示すSSLメソッドである。 BEST-RQの優れたパフォーマンスにもかかわらず、事前トレーニングで使用されるGPU/TPU時間の量など、オリジナルの論文には詳細が欠けている。 さらに、BEST-RQは、ASRや音声翻訳以外の下流タスクでは評価されていない。 本稿では,ランダム射影量化器の再実装について述べるとともに,4つの下流タスクにおけるwav2vec 2.0との比較による予備的検討を行う。 実装の詳細と相違について論じる。 ランダム・プロジェクション・量子化器は、トレーニング時間を2倍以上削減しつつ、wav2vec 2.0と同様のダウンストリーム性能が得られることを示す。

Self-Supervised Learning (SSL) has proven to be useful in various speech tasks. However, these methods are generally very demanding in terms of data, memory, and computational resources. BERT-based Speech pre-Training with Random-projection Quantizer (BEST-RQ), is an SSL method that has shown great performance on Automatic Speech Recognition (ASR) while being simpler than other SSL methods, such as wav2vec 2.0. Despite BEST-RQ's great performance, details are lacking in the original paper, such as the amount of GPU/TPU hours used in pre-training, and there is no official easy-to-use open-source implementation. Furthermore, BEST-RQ has not been evaluated on other downstream tasks aside from ASR and speech translation. In this work, we describe a re-implementation of a Random-projection quantizer and perform a preliminary study with a comparison to wav2vec 2.0 on four downstream tasks. We discuss the details and differences of our implementation. We show that a random projection quantizer can achieve similar downstream performance as wav2vec 2.0 while decreasing training time by over a factor of two.
翻訳日:2024-05-08 14:10:19 公開日:2024-05-07
# ViewFormer: View-Guided Transformer を用いた多視点3次元動作知覚のための時空間モデリング

ViewFormer: Exploring Spatiotemporal Modeling for Multi-View 3D Occupancy Perception via View-Guided Transformers ( http://arxiv.org/abs/2405.04299v1 )

ライセンス: Link先を確認
Jinke Li, Xiao He, Chonghua Zhou, Xiaoqiang Cheng, Yang Wen, Dan Zhang, (参考訳) シナリオを駆動するための高度な認識技術である3D占有は、物理空間をグリッドマップに定量化することで、前景と背景を区別することなく、シーン全体を表現している。 画像特徴を3次元表現に変換するのに効率的で、広く採用されているプロジェクションファーストの変形可能な注意力は、センサーの配置制約によるマルチビュー機能集約の課題に遭遇する。 この問題に対処するために,効果的な多視点特徴集約のための学習優先視点アテンション機構を提案する。 さらに,マップ構築や3Dオブジェクト検出などの多視点3Dタスクにまたがるビューアテンションのスケーラビリティについて紹介する。 提案するビューアテンションと,追加のマルチフレームストリーミング時間アテンションを活用して,時空間特徴アグリゲーションのための視覚中心のトランスフォーマーベースのフレームワークであるViewFormerを紹介する。 占有レベルのフロー表現をさらに探求するため,既存の高品質データセット上に構築されたベンチマークであるFlowOcc3Dを紹介した。 このベンチマークの質的および定量的分析は、きめ細かいダイナミックなシーンを表現する可能性を明らかにする。 大規模な実験により,本手法は従来手法よりも有意に優れていたことがわかった。 コードとベンチマークはまもなくリリースされる予定だ。

3D occupancy, an advanced perception technology for driving scenarios, represents the entire scene without distinguishing between foreground and background by quantifying the physical space into a grid map. The widely adopted projection-first deformable attention, efficient in transforming image features into 3D representations, encounters challenges in aggregating multi-view features due to sensor deployment constraints. To address this issue, we propose our learning-first view attention mechanism for effective multi-view feature aggregation. Moreover, we showcase the scalability of our view attention across diverse multi-view 3D tasks, such as map construction and 3D object detection. Leveraging the proposed view attention as well as an additional multi-frame streaming temporal attention, we introduce ViewFormer, a vision-centric transformer-based framework for spatiotemporal feature aggregation. To further explore occupancy-level flow representation, we present FlowOcc3D, a benchmark built on top of existing high-quality datasets. Qualitative and quantitative analyses on this benchmark reveal the potential to represent fine-grained dynamic scenes. Extensive experiments show that our approach significantly outperforms prior state-of-the-art methods. The codes and benchmark will be released soon.
翻訳日:2024-05-08 14:10:19 公開日:2024-05-07
# 振る舞いプランニング: 多様なプランニングのためのツールキット

Behaviour Planning: A Toolkit for Diverse Planning ( http://arxiv.org/abs/2405.04300v1 )

ライセンス: Link先を確認
Mustafa F Abdelwahed, Joan Espasa, Alice Toniolo, Ian P. Gent, (参考訳) 異種計画とは、異なる特徴を持つ計画を生成する問題である。 これは、計画認識やビジネスプロセスの自動化に関連するアプリケーションを含む、多くの現実世界のシナリオにとって価値がある。 本稿では,モジュール型多様性モデルに基づく多様なプランを特徴付ける,多様な計画ツールキットである \emph{Behaviour Planning} を紹介する。 本稿では,多様性モデルを記述するための定性的なフレームワーク,任意の多様性モデルに整合した計画を作成するための計画手法,およびSMTに基づく行動プランナの実践的実装を提案する。 本稿では,ビヘイビアプランニングが提供する質的アプローチによって,従来のアプローチが直面する様々な課題を克服する方法について紹介する。 最後に, 現状のアプローチと比較して, 多様な計画作成における行動計画の有効性を実験的に評価した。

Diverse planning is the problem of generating plans with distinct characteristics. This is valuable for many real-world scenarios, including applications related to plan recognition and business process automation. In this work, we introduce \emph{Behaviour Planning}, a diverse planning toolkit that can characterise and generate diverse plans based on modular diversity models. We present a qualitative framework for describing diversity models, a planning approach for generating plans aligned with any given diversity model, and provide a practical implementation of an SMT-based behaviour planner. We showcase how the qualitative approach offered by Behaviour Planning allows it to overcome various challenges faced by previous approaches. Finally, the experimental evaluation shows the effectiveness of Behaviour Planning in generating diverse plans compared to state-of-the-art approaches.
翻訳日:2024-05-08 14:00:34 公開日:2024-05-07
# 量子交互演算子アンザッツのプログレッシブ量子アルゴリズム

Progressive Quantum Algorithm for Quantum Alternating Operator Ansatz ( http://arxiv.org/abs/2405.04303v1 )

ライセンス: Link先を確認
Xiao-Hui Ni, Yan-Qi Song, Ling-Xiao Li, Su-Juan Qin, Fei Gao, Qiao-Yan Wen, (参考訳) 近年、Hadfield は Constrained Combinatorial Optimization Problems (CCOPs) に取り組むための新しいQuantum Alternating Operator Ansatz (QAOA+) を提案しており、幅広い応用がある。 しかし、QAOA+におけるマルチキュービット制御ゲートの大きな要求は、大規模CCOPの解決における応用を制限する。 本稿では,QAOA+のリソースオーバーヘッドを軽減するために,PQA(Progressive Quantum Algorithm)というアプローチを導入する。 本稿では,PQAの概念と性能を最大独立集合問題(MIS)に焦点をあてて紹介する。 PQA は、目的とするグラフの解を、より少ないリソースで$G$ とし、より小さいグラフサイズで$G$ と同じ MIS 解を持つ所望の導出部分グラフ上の MIS 問題を解くことを目的としている。 このような望まれる部分グラフを構築するために、PQAは、よく設計された初期部分グラフから始まるグラフサイズを徐々に、定期的に拡大する。 各拡張の後、PQAはQAOA+を用いて現在のサブグラフ上のMIS問題を解き、現在のグラフがターゲットグラフと同じMIS解を持つかどうかを推定する。 PQAは停止状態に到達するまでグラフの拡大と解法を繰り返す。 シミュレーションでは,Erd\H{o}s-R\enyi (ER) および正規グラフ上でPQAの性能をベンチマークした。 シミュレーションの結果,PQAは,QAOA+(DS-QAOA+)と同等の深さで,QAOA+(DS-QAOA+)と直接的に比較すると,平均近似比(AAR)と有意な量子資源貯蓄を示すことが示唆された。 PQAが取得したAARは、ERグラフ上のDS-QAOA+よりも12.9305\%$(4.8645\%$)高く、PQAが消費するマルチキュービットゲート(キュービット)の平均数はDS-QAOA+の1/3(1/2)である。 PQAの顕著な効率は、現在の量子デバイス上での大規模CCOPの解決を可能にする。

Recently, Hadfield has proposed a novel Quantum Alternating Operator Ansatz (QAOA+) to tackle Constrained Combinatorial Optimization Problems (CCOPs), and it has wide applications. However, the large requirement of multi-qubit controlled gates in QAOA+ limits its applications in solving larger-scale CCOPs. To mitigate the resources overhead of QAOA+, we introduce an approach termed Progressive Quantum Algorithm (PQA). In this paper, the concept and performance of PQA are introduced focusing on the Maximal Independent Set (MIS) problem. PQA aims to yield the solution of the target graph $G$ with fewer resources by solving the MIS problem on a desired derived subgraph that has the same MIS solution as $G$ but has a much smaller graph size. To construct such a desired subgraph, PQA gradually and regularly expands the graph size starting from a well-designed initial subgraph. After each expansion, PQA solves the MIS problem on the current subgraph using QAOA+ and estimates whether the current graph has the same MIS solution as the target graph. PQA repeats the graph expansion and solving process until reaching the stop condition. In our simulations, the performance of PQA is benchmarked on Erd\H{o}s-R\'enyi (ER) and regular graphs. The simulation results suggest that PQA showcases higher average approximation ratio (AAR) and significant quantum resource savings compared with directly solves the original problem using QAOA+ (DS-QAOA+) at the same level depth $p$. Remarkably, the AAR obtained by PQA is $12.9305\%$ ($4.8645\%$) higher than DS-QAOA+ on ER (regular) graphs, and the average number of multi-qubit gates (qubits) consumed by PQA is 1/3 (1/2) of that of DS-QAOA+. The remarkable efficiency of PQA makes it possible to solve larger-scale CCOPs on the current quantum devices.
翻訳日:2024-05-08 14:00:34 公開日:2024-05-07
# 動的投機長を用いた投機復号の高速化

Accelerating Speculative Decoding using Dynamic Speculation Length ( http://arxiv.org/abs/2405.04304v1 )

ライセンス: Link先を確認
Jonathan Mamou, Oren Pereg, Daniel Korat, Moshe Berchansky, Nadav Timor, Moshe Wasserblat, Roy Schwartz, (参考訳) 投機的復号化は,大規模言語モデルの推論遅延を低減するための有望な手法である。 提案手法の有効性は投機長 (SL) - 各イテレーションでドラフトモデルによって生成されるトークンの数に依存する。 投機的復号法の大半は全ての反復に対して同じSLを用いる。 本研究では,この実践が準最適であることを示す。 DisCOはDynamIc SpeCulation長最適化手法であり,各繰り返しのSLを動的に調整し,復号品質を確実に維持する。 4つのベンチマークによる実験では、最高のベースラインと比較して平均スピードアップが10.3%向上した。

Speculative decoding is a promising method for reducing the inference latency of large language models. The effectiveness of the method depends on the speculation length (SL) - the number of tokens generated by the draft model at each iteration. The vast majority of speculative decoding approaches use the same SL for all iterations. In this work, we show that this practice is suboptimal. We introduce DISCO, a DynamIc SpeCulation length Optimization method that uses a classifier to dynamically adjust the SL at each iteration, while provably preserving the decoding quality. Experiments with four benchmarks demonstrate average speedup gains of 10.3% relative to our best baselines.
翻訳日:2024-05-08 14:00:34 公開日:2024-05-07
# Aphid Cluster Detection and Segmentation in Sorghum Fieldsの新しいデータセットと比較研究

A New Dataset and Comparative Study for Aphid Cluster Detection and Segmentation in Sorghum Fields ( http://arxiv.org/abs/2405.04305v1 )

ライセンス: Link先を確認
Raiyan Rahman, Christopher Indris, Goetz Bramesfeld, Tianxiao Zhang, Kaidong Li, Xiangyu Chen, Ivan Grijalva, Brian McCornack, Daniel Flippo, Ajay Sharda, Guanghui Wang, (参考訳) アフィドの感染はコムギやソルガムの畑に大きな被害をもたらす主要な原因の1つであり、植物ウイルスの最も一般的なベクターの1つである。 この問題に対処するため、農家はしばしば、健康と環境に悪影響を及ぼす有害な農薬を非効率に利用する。 その結果,有意な害虫感染を伴わない地域では大量の殺虫剤が無駄にされる。 これにより、複雑な作物のキャノピー内で十分な量の大規模な寄生虫を発見・散布できるインテリジェントな自律システムの必要性に注意が向けられる。 我々は,アフィドクラスタの検出とセグメンテーションのための大規模データセットを開発し,実際のソルガムフィールドから収集し,アフィドのクラスタを含むように細心の注意を払って注釈付けした。 我々のデータセットは、54,742枚の画像パッチで構成され、様々な視点、様々な照明条件、複数のスケールを示し、現実世界のアプリケーションにおけるその有効性を強調している。 本研究では,アフィドクラスタのセグメンテーションと検出のための4つのリアルタイムセグメンテーションモデルと3つのオブジェクト検出モデルを訓練し,評価した。 精度と効率のバランスを考慮して、Fast-SCNNは80.46%の平均精度、81.21%平均リコール、91.66フレーム/秒(FPS)を達成した。 オブジェクト検出ではRT-DETRが61.63%の平均精度(mAP)、92.6%のリコール、72.55のNVIDIA V100 GPUで最高のパフォーマンスを示した。 さらに,アフィドクラスタのセグメンテーションは,検出モデルを用いた場合よりも,アフィドの感染を評価するのに適していることを示した。

Aphid infestations are one of the primary causes of extensive damage to wheat and sorghum fields and are one of the most common vectors for plant viruses, resulting in significant agricultural yield losses. To address this problem, farmers often employ the inefficient use of harmful chemical pesticides that have negative health and environmental impacts. As a result, a large amount of pesticide is wasted on areas without significant pest infestation. This brings to attention the urgent need for an intelligent autonomous system that can locate and spray sufficiently large infestations selectively within the complex crop canopies. We have developed a large multi-scale dataset for aphid cluster detection and segmentation, collected from actual sorghum fields and meticulously annotated to include clusters of aphids. Our dataset comprises a total of 54,742 image patches, showcasing a variety of viewpoints, diverse lighting conditions, and multiple scales, highlighting its effectiveness for real-world applications. In this study, we trained and evaluated four real-time semantic segmentation models and three object detection models specifically for aphid cluster segmentation and detection. Considering the balance between accuracy and efficiency, Fast-SCNN delivered the most effective segmentation results, achieving 80.46% mean precision, 81.21% mean recall, and 91.66 frames per second (FPS). For object detection, RT-DETR exhibited the best overall performance with a 61.63% mean average precision (mAP), 92.6% mean recall, and 72.55 on an NVIDIA V100 GPU. Our experiments further indicate that aphid cluster segmentation is more suitable for assessing aphid infestations than using detection models.
翻訳日:2024-05-08 14:00:34 公開日:2024-05-07
# 不正確なシミュレータによるオフライン強化学習の改善

Improving Offline Reinforcement Learning with Inaccurate Simulators ( http://arxiv.org/abs/2405.04307v1 )

ライセンス: Link先を確認
Yiwen Hou, Haoyuan Sun, Jinming Ma, Feng Wu, (参考訳) オフライン強化学習(RL)は、実際の環境とのコストの高いオンラインインタラクションを避けるための有望なアプローチを提供する。 しかし、オフラインRLの性能はデータセットの品質に大きく依存しており、学習プロセスにおける外挿誤差を引き起こす可能性がある。 多くのロボットアプリケーションでは、不正確なシミュレータがしばしば利用可能である。 しかし、よく知られた探索・探索ジレンマと、不正確なシミュレーションと実環境の間の動的ギャップのため、不正確なシミュレータから直接収集したデータはオフラインRLでは直接利用できない。 これらの問題に対処するために、オフラインデータセットと不正確なシミュレーションデータをよりうまく組み合わせる新しい手法を提案する。 具体的には、オフラインデータセットの状態分布に合わせるために、GAN(Generative Adversarial Network)モデルを事前訓練する。 この結果から,生成元が提供する分布から始まる不正確なシミュレータからデータを収集し,識別器を用いてシミュレーションデータを再重み付けする。 D4RLベンチマークと実世界の操作タスクによる実験結果から,提案手法は不正確なシミュレータと限定されたオフラインデータセットにより,最先端の手法よりも優れた性能を実現することができることを確認した。

Offline reinforcement learning (RL) provides a promising approach to avoid costly online interaction with the real environment. However, the performance of offline RL highly depends on the quality of the datasets, which may cause extrapolation error in the learning process. In many robotic applications, an inaccurate simulator is often available. However, the data directly collected from the inaccurate simulator cannot be directly used in offline RL due to the well-known exploration-exploitation dilemma and the dynamic gap between inaccurate simulation and the real environment. To address these issues, we propose a novel approach to combine the offline dataset and the inaccurate simulation data in a better manner. Specifically, we pre-train a generative adversarial network (GAN) model to fit the state distribution of the offline dataset. Given this, we collect data from the inaccurate simulator starting from the distribution provided by the generator and reweight the simulated data using the discriminator. Our experimental results in the D4RL benchmark and a real-world manipulation task confirm that our method can benefit more from both inaccurate simulator and limited offline datasets to achieve better performance than the state-of-the-art methods.
翻訳日:2024-05-08 14:00:34 公開日:2024-05-07
# 進化的政策探索における十分な多様性をもつ品質

Quality with Just Enough Diversity in Evolutionary Policy Search ( http://arxiv.org/abs/2405.04308v1 )

ライセンス: Link先を確認
Paul Templier, Luca Grillotti, Emmanuel Rachelson, Dennis G. Wilson, Antoine Cully, (参考訳) 進化戦略(Evolution Strategies, ES)は、政策探索のための勾配に基づくアプローチと競合する効果的な勾配のない最適化手法である。 ESは、彼らの集団におけるソリューションの総合的なスコアにのみ依存しており、そこから真の勾配情報にアクセスせずに、更新の適合度勾配を推定する。 しかし、これによって彼らは欺くフィットネスの風景に敏感になり、問題の解決方法は1つしか探さない傾向があります。 MAP-Elitesのような品質多様性の手法は、多様なソリューションの集団を返却するために行動記述子(BD)を付加した情報を導入し、探索に役立ったが、最高のソリューションを見つけることに集中していない評価予算の大部分を導いた。 ここでは,ESを用いて効率的に探索できる有望な探索領域を特定することで,行動情報を活用することで,最良のポリシーを見つけることができることを示す。 JEDi(Quality with Just Enough Diversity)は、行動とフィットネスの関係を学習し、重要なソリューションに対する評価に焦点をあてるフレームワークである。 より高いフィットネス値を達成しようとすると、JEDiは迷路のようなハードな探索作業や、大きなポリシーを持つ複雑な制御問題において、QDとESの両方の手法を上回ります。

Evolution Strategies (ES) are effective gradient-free optimization methods that can be competitive with gradient-based approaches for policy search. ES only rely on the total episodic scores of solutions in their population, from which they estimate fitness gradients for their update with no access to true gradient information. However this makes them sensitive to deceptive fitness landscapes, and they tend to only explore one way to solve a problem. Quality-Diversity methods such as MAP-Elites introduced additional information with behavior descriptors (BD) to return a population of diverse solutions, which helps exploration but leads to a large part of the evaluation budget not being focused on finding the best performing solution. Here we show that behavior information can also be leveraged to find the best policy by identifying promising search areas which can then be efficiently explored with ES. We introduce the framework of Quality with Just Enough Diversity (JEDi) which learns the relationship between behavior and fitness to focus evaluations on solutions that matter. When trying to reach higher fitness values, JEDi outperforms both QD and ES methods on hard exploration tasks like mazes and on complex control problems with large policies.
翻訳日:2024-05-08 14:00:34 公開日:2024-05-07
# 運動からの非剛性構造:時空間平滑なプロクラステアライメントと空間変動変形モデリング

Non-rigid Structure-from-Motion: Temporally-smooth Procrustean Alignment and Spatially-variant Deformation Modeling ( http://arxiv.org/abs/2405.04309v1 )

ライセンス: Link先を確認
Jiawei Shi, Hui Deng, Yuchao Dai, (参考訳) 非厳密なStructure-from-Motion (NRSfM) は広く研究され、大きな進歩を遂げてきたが、しかしながら、彼らの幅広い現実世界の応用を妨げる重要な課題がある。 1) 運動・回転のあいまいさには,余分な制約を伴う明示的なカメラ運動回復又は複雑なプロクリストアライメントが必要である。 2) 既存の大域形状の低ランクモデリングは, 3次元形状列における劇的変形を過小評価することができる。 本稿では,空間時間モデルの観点から,上記の課題を解決することを提案する。 まず, 3次元形状を連続的に整列させて3次元変形形状を推定し, カメラの動きを調整する, 時間的に滑らかなプロクリストアライメントモジュールを提案する。 我々の新しいアライメントモジュールは、非等方的変形モデリングよりも導電性が高いアライメント中の複素参照3次元形状の要求を修復する。 第二に, 空間的変形変形の再現性を向上させるために, 低ランク制約を異なる場所で適応的に適用するための空間重み付け手法を提案する。 提案手法は,既存の低ランクな手法よりも優れており,異なるデータセットにわたる広範な実験により本手法の有効性が検証された。

Even though Non-rigid Structure-from-Motion (NRSfM) has been extensively studied and great progress has been made, there are still key challenges that hinder their broad real-world applications: 1) the inherent motion/rotation ambiguity requires either explicit camera motion recovery with extra constraint or complex Procrustean Alignment; 2) existing low-rank modeling of the global shape can over-penalize drastic deformations in the 3D shape sequence. This paper proposes to resolve the above issues from a spatial-temporal modeling perspective. First, we propose a novel Temporally-smooth Procrustean Alignment module that estimates 3D deforming shapes and adjusts the camera motion by aligning the 3D shape sequence consecutively. Our new alignment module remedies the requirement of complex reference 3D shape during alignment, which is more conductive to non-isotropic deformation modeling. Second, we propose a spatial-weighted approach to enforce the low-rank constraint adaptively at different locations to accommodate drastic spatially-variant deformation reconstruction better. Our modeling outperform existing low-rank based methods, and extensive experiments across different datasets validate the effectiveness of our method.
翻訳日:2024-05-08 14:00:34 公開日:2024-05-07
# Cross-IQA: 画像品質評価のための教師なし学習

Cross-IQA: Unsupervised Learning for Image Quality Assessment ( http://arxiv.org/abs/2405.04311v1 )

ライセンス: Link先を確認
Zhen Zhang, (参考訳) 画像品質の自動認識は、毎日何十億ものインターネットやソーシャルメディアユーザーに影響を与える難しい問題である。 本研究では,視覚変換器(ViT)モデルに基づく非参照画像品質評価(NR-IQA)手法を提案する。 提案手法は,ラベルのない画像データから画像品質の特徴を学習することができる。 我々は、画像品質情報に基づくVTブロックを教師なしで抽出するために、合成画像再構成のプレテキストタスクを構築する。 Cross-IQAの事前学習エンコーダは、スコア予測のための線形回帰モデルを微調整するために使用される。 実験結果から,Cross-IQAは画像の低周波劣化情報(例えば,色変化,ぼかしなど)を,従来の全参照IQAとNR-IQAとを同一データセットで比較して評価することで,最先端の性能が得られることが示された。

Automatic perception of image quality is a challenging problem that impacts billions of Internet and social media users daily. To advance research in this field, we propose a no-reference image quality assessment (NR-IQA) method termed Cross-IQA based on vision transformer(ViT) model. The proposed Cross-IQA method can learn image quality features from unlabeled image data. We construct the pretext task of synthesized image reconstruction to unsupervised extract the image quality information based ViT block. The pretrained encoder of Cross-IQA is used to fine-tune a linear regression model for score prediction. Experimental results show that Cross-IQA can achieve state-of-the-art performance in assessing the low-frequency degradation information (e.g., color change, blurring, etc.) of images compared with the classical full-reference IQA and NR-IQA under the same datasets.
翻訳日:2024-05-08 14:00:34 公開日:2024-05-07
# Inf-DiT:メモリ効率のよい拡散変換器による任意の解像のアップサンプリング

Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer ( http://arxiv.org/abs/2405.04312v1 )

ライセンス: Link先を確認
Zhuoyi Yang, Heyang Jiang, Wenyi Hong, Jiayan Teng, Wendi Zheng, Yuxiao Dong, Ming Ding, Jie Tang, (参考訳) 近年,拡散モデルは画像生成において顕著な性能を示した。 しかし、超高解像度画像(例えば4096*4096)の生成中のメモリの2次増加により、生成された画像の解像度は1024*1024に制限されることが多い。 この作品。 我々は,推論プロセス中にメモリオーバーヘッドを適応的に調整し,グローバルな依存関係を処理できる一方向ブロックアテンション機構を提案する。 このモジュール上に構築したDiT構造を用いて,様々な形状や解像度の画像のアップサンプリングが可能な無限超解像モデルを開発した。 包括的実験により,本モデルは,マシンと人の両方で超高解像度画像を生成する上で,SOTA性能を実現することが示された。 一般的なUNet構造と比較して、4096*4096画像を生成する場合、我々のモデルは5倍以上のメモリを保存できる。 プロジェクトのURLはhttps://github.com/THUDM/Inf-DiT。

Diffusion models have shown remarkable performance in image generation in recent years. However, due to a quadratic increase in memory during generating ultra-high-resolution images (e.g. 4096*4096), the resolution of generated images is often limited to 1024*1024. In this work. we propose a unidirectional block attention mechanism that can adaptively adjust the memory overhead during the inference process and handle global dependencies. Building on this module, we adopt the DiT structure for upsampling and develop an infinite super-resolution model capable of upsampling images of various shapes and resolutions. Comprehensive experiments show that our model achieves SOTA performance in generating ultra-high-resolution images in both machine and human evaluation. Compared to commonly used UNet structures, our model can save more than 5x memory when generating 4096*4096 images. The project URL is https://github.com/THUDM/Inf-DiT.
翻訳日:2024-05-08 14:00:34 公開日:2024-05-07
# 原子間力顕微鏡画像からの分子指紋抽出による分子同定

Molecular Identification via Molecular Fingerprint extraction from Atomic Force Microscopy images ( http://arxiv.org/abs/2405.04321v1 )

ライセンス: Link先を確認
Manuel González Lastre, Pablo Pou, Miguel Wiche, Daniel Ebeling, Andre Schirmeisen, Rubén Pérez, (参考訳) HR-AFMと呼ばれる)CO-機能性金属先端を持つ非接触原子間力顕微鏡は、表面上に吸着した個々の分子の内部構造に全く前例のない解像度でアクセスできる。 従来の研究によると、深層学習(DL)モデルは、定数重HR-AFM画像の3次元スタックに符号化された化学情報や構造情報を検索でき、分子識別に繋がった。 本研究では,3D HR-AFMスタックからこの最適化された構造記述子を抽出し,仮想スクリーニングにより,予測されたECFP4から分子を精度95.4\%の精度で同定する。 さらに、従来のDLモデルとは異なり、この手法は各候補分子に信頼スコアである谷本類似度を割り当て、識別の信頼性に関する情報を提供する。 構築によって、分子内にあるサブ構造が存在する回数は、ハッシュプロセス中に失われ、機械学習アプリケーションに役立てるために必要となる。 我々は,指紋による仮想スクリーニングを,同一のHR-AFMスタックから化学式を予測した別のDLモデルによって提供されるグローバル情報と補完することができ,識別精度を97.6\%まで向上させることができることを示す。 最後に,実験画像を用いた限定的な実験を行い,実環境下でのパイプライン適用に向けた有望な結果を得た。

Non--Contact Atomic Force Microscopy with CO--functionalized metal tips (referred to as HR-AFM) provides access to the internal structure of individual molecules adsorbed on a surface with totally unprecedented resolution. Previous works have shown that deep learning (DL) models can retrieve the chemical and structural information encoded in a 3D stack of constant-height HR--AFM images, leading to molecular identification. In this work, we overcome their limitations by using a well-established description of the molecular structure in terms of topological fingerprints, the 1024--bit Extended Connectivity Chemical Fingerprints of radius 2 (ECFP4), that were developed for substructure and similarity searching. ECFPs provide local structural information of the molecule, each bit correlating with a particular substructure within the molecule. Our DL model is able to extract this optimized structural descriptor from the 3D HR--AFM stacks and use it, through virtual screening, to identify molecules from their predicted ECFP4 with a retrieval accuracy on theoretical images of 95.4\%. Furthermore, this approach, unlike previous DL models, assigns a confidence score, the Tanimoto similarity, to each of the candidate molecules, thus providing information on the reliability of the identification. By construction, the number of times a certain substructure is present in the molecule is lost during the hashing process, necessary to make them useful for machine learning applications. We show that it is possible to complement the fingerprint-based virtual screening with global information provided by another DL model that predicts from the same HR--AFM stacks the chemical formula, boosting the identification accuracy up to a 97.6\%. Finally, we perform a limited test with experimental images, obtaining promising results towards the application of this pipeline under real conditions
翻訳日:2024-05-08 14:00:34 公開日:2024-05-07
# 遺伝的ドリフト規則化 : アクター注入による進化戦略の破滅防止について

Genetic Drift Regularization: on preventing Actor Injection from breaking Evolution Strategies ( http://arxiv.org/abs/2405.04322v1 )

ライセンス: Link先を確認
Paul Templier, Emmanuel Rachelson, Antoine Cully, Dennis G. Wilson, (参考訳) 進化的アルゴリズム(EA)は、ポリシー探索のためのニューラルネットワークの最適化に成功しているが、勾配に基づく強化学習(RL)と比較して、サンプルの非効率さと性能の低下がまだ残っている。 それらの多くは、EA評価のデータに基づいてRLアルゴリズムを訓練し、EA人口にRLアクターを注入する。 しかし、進化戦略(Evolution Strategies, ES)をEAとして使用すると、RLアクターはES分布から遺伝的に遠ざかることができ、射出はES性能の崩壊を引き起こす。 ここでは、アクターゲノムとES集団分布が徐々にバラバラになり、ESに悪影響を及ぼす遺伝子ドリフト現象を強調した。 本稿では,アクターゲノムがESから離脱するのを防ぐための,アクター訓練損失の単純な正規化手法である遺伝的ドリフト規則化(GDR)を紹介する。 GDRは、RLがよく学習する問題に対するES収束を改善するだけでなく、他のタスクにおけるRLトレーニングにも役立ち、従来の制御されたインジェクションメソッドよりも優れたインジェクション問題を修正できることを示す。

Evolutionary Algorithms (EA) have been successfully used for the optimization of neural networks for policy search, but they still remain sample inefficient and underperforming in some cases compared to gradient-based reinforcement learning (RL). Various methods combine the two approaches, many of them training a RL algorithm on data from EA evaluations and injecting the RL actor into the EA population. However, when using Evolution Strategies (ES) as the EA, the RL actor can drift genetically far from the the ES distribution and injection can cause a collapse of the ES performance. Here, we highlight the phenomenon of genetic drift where the actor genome and the ES population distribution progressively drift apart, leading to injection having a negative impact on the ES. We introduce Genetic Drift Regularization (GDR), a simple regularization method in the actor training loss that prevents the actor genome from drifting away from the ES. We show that GDR can improve ES convergence on problems where RL learns well, but also helps RL training on other tasks, , fixes the injection issues better than previous controlled injection methods.
翻訳日:2024-05-08 14:00:34 公開日:2024-05-07
# 人間の主観性と誤りを超えた新しいAIグレーティングシステム

Beyond human subjectivity and error: a novel AI grading system ( http://arxiv.org/abs/2405.04323v1 )

ライセンス: Link先を確認
Alexandra Gobrecht, Felix Tuma, Moritz Möller, Thomas Zöller, Mark Zakhvatkin, Alexandra Wuttig, Holger Sommerfeldt, Sven Schütt, (参考訳) オープンエンドの質問の格付けは、教育における高い努力と高いインパクトの課題である。 このタスクの自動化は、教育専門家の作業負荷の大幅な削減と、人間の主観性と誤りを回避することによって、学生のより一貫した成績を約束する。 最近のAI技術のブレークスルーは、このような自動化を促進するかもしれないが、大規模に実証されていない。 本稿では,新しい自動短解階調システム(ASAG)を提案する。 このシステムは、さまざまな分野の大学コースから得られた大量の試験データをトレーニングした、微調整のオープンソーストランスフォーマーモデルに基づいています。 最初の実験では、学習モデルの性能を保留試験データと比較し、未確認のコースにおいても、広範囲の未確認質問に対して高い精度で評価した。 第2の実験では、まず、実際の歴史的試験から別のテストデータセットを収集し、そのデータに含まれる歴史的成績を、規制された法的拘束力のある試験プロセスで学生に授与した。 そして、認定された人間ドメインの専門家とモデルに、歴史学の成績を公表することなく、過去の学生の回答を再度評価するよう依頼した。 最後に、得られた学級を歴史的学級(地学の真理)と比較した。 その結果, モデルが人間の再学習者よりも公式の歴史的成績から逸脱し, モデルの平均的な絶対誤差は, 人間の再学習者よりも44 %小さいことがわかった。 これらの結果は、AIの強化されたグレーディングを活用することで、人間の主観性を低下させ、一貫性を向上し、究極的には公正性を高めることを示唆している。

The grading of open-ended questions is a high-effort, high-impact task in education. Automating this task promises a significant reduction in workload for education professionals, as well as more consistent grading outcomes for students, by circumventing human subjectivity and error. While recent breakthroughs in AI technology might facilitate such automation, this has not been demonstrated at scale. It this paper, we introduce a novel automatic short answer grading (ASAG) system. The system is based on a fine-tuned open-source transformer model which we trained on large set of exam data from university courses across a large range of disciplines. We evaluated the trained model's performance against held-out test data in a first experiment and found high accuracy levels across a broad spectrum of unseen questions, even in unseen courses. We further compared the performance of our model with that of certified human domain experts in a second experiment: we first assembled another test dataset from real historical exams - the historic grades contained in that data were awarded to students in a regulated, legally binding examination process; we therefore considered them as ground truth for our experiment. We then asked certified human domain experts and our model to grade the historic student answers again without disclosing the historic grades. Finally, we compared the hence obtained grades with the historic grades (our ground truth). We found that for the courses examined, the model deviated less from the official historic grades than the human re-graders - the model's median absolute error was 44 % smaller than the human re-graders', implying that the model is more consistent than humans in grading. These results suggest that leveraging AI enhanced grading can reduce human subjectivity, improve consistency and thus ultimately increase fairness.
翻訳日:2024-05-08 14:00:34 公開日:2024-05-07
# Granite Code Models: コードインテリジェンスのためのオープンソースモデルの一家系

Granite Code Models: A Family of Open Foundation Models for Code Intelligence ( http://arxiv.org/abs/2405.04324v1 )

ライセンス: Link先を確認
Mayank Mishra, Matt Stallone, Gaoyuan Zhang, Yikang Shen, Aditya Prasad, Adriana Meza Soria, Michele Merler, Parameswaran Selvam, Saptha Surendran, Shivdeep Singh, Manish Sethi, Xuan-Hong Dang, Pengyuan Li, Kun-Lung Wu, Syed Zawad, Andrew Coleman, Matthew White, Mark Lewis, Raju Pavuluri, Yan Koyfman, Boris Lublinsky, Maximilien de Bayser, Ibrahim Abdelaziz, Kinjal Basu, Mayank Agarwal, Yi Zhou, Chris Johnson, Aanchal Goyal, Hima Patel, Yousaf Shah, Petros Zerfos, Heiko Ludwig, Asim Munawar, Maxwell Crouse, Pavan Kapanipathi, Shweta Salaria, Bob Calio, Sophia Wen, Seetharami Seelam, Brian Belgodere, Carlos Fonseca, Amith Singhee, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda, (参考訳) コードでトレーニングされた大規模言語モデル(LLM)は、ソフトウェア開発プロセスに革命をもたらしています。 コードLLMは、人間のプログラマの生産性を向上させるために、ソフトウェア開発環境に統合され、LLMベースのエージェントは、複雑なタスクを自律的に処理する約束を示し始めている。 LLMの完全な可能性を実現するには、コード生成、バグの修正、コードの説明とドキュメント化、リポジトリのメンテナンスなど、幅広い機能が必要です。 本稿では,116のプログラミング言語で記述されたコードで訓練されたコード生成タスクのための,コード生成のためのデコーダのみのコードモデルであるGraniteシリーズを紹介する。 Granite Codeモデルファミリは、複雑なアプリケーションの近代化タスクからオンデバイスメモリ制約のあるユースケースまでのアプリケーションに適した、サイズが3から34億のパラメータから成っている。 包括的なタスクセットの評価は、Granite Codeモデルが利用可能なオープンソースコードLLM間の最先端のパフォーマンスを一貫して達成していることを示している。 Granite Codeモデルファミリは、エンタープライズソフトウェア開発ワークフローに最適化され、コーディングタスク(例えば、コード生成、修正、説明)でうまく機能し、コードモデル全体の汎用性を実現しています。 私たちはすべてのGranite CodeモデルをApache 2.0ライセンスでリリースし、研究と商用の両方で使用しています。

Large Language Models (LLMs) trained on code are revolutionizing the software development process. Increasingly, code LLMs are being integrated into software development environments to improve the productivity of human programmers, and LLM-based agents are beginning to show promise for handling complex tasks autonomously. Realizing the full potential of code LLMs requires a wide range of capabilities, including code generation, fixing bugs, explaining and documenting code, maintaining repositories, and more. In this work, we introduce the Granite series of decoder-only code models for code generative tasks, trained with code written in 116 programming languages. The Granite Code models family consists of models ranging in size from 3 to 34 billion parameters, suitable for applications ranging from complex application modernization tasks to on-device memory-constrained use cases. Evaluation on a comprehensive set of tasks demonstrates that Granite Code models consistently reaches state-of-the-art performance among available open-source code LLMs. The Granite Code model family was optimized for enterprise software development workflows and performs well across a range of coding tasks (e.g. code generation, fixing and explanation), making it a versatile all around code model. We release all our Granite Code models under an Apache 2.0 license for both research and commercial use.
翻訳日:2024-05-08 14:00:34 公開日:2024-05-07
# 強化された自律エージェントの認知--法制化における非伝統的なラビットハット・トリック-

Deception in Reinforced Autonomous Agents: The Unconventional Rabbit Hat Trick in Legislation ( http://arxiv.org/abs/2405.04325v1 )

ライセンス: Link先を確認
Atharvan Dogra, Ameet Deshpande, John Nay, Tanmay Rajpurohit, Ashwin Kalyan, Balaraman Ravindran, (参考訳) 大規模言語モデル(LLM)の最近の発展は、自然言語エージェントを開発するための強力な基盤を提供しながら、それらとその上に構築された自律エージェントに対する安全性の懸念を高めている。 騙しは、特定の関心事のAIエージェントの潜在的な能力の1つであり、我々は、真実を誤解させたり、隠したり、その全体または一部において真実でない信念を促進する行為または声明である。 我々は、以前のAI安全研究で見られるように、嘘の従来の理解から脱却し、客観的な自尊心のある決定をしたり、誤った情報を与える。 我々は、難読化と公平化によって達成された特定の偽りのカテゴリーをターゲットにしている。 我々は、この2種類の騙しを、ウサギの魔法のトリックと類似させることで、広く説明します。 (i)隠れた罠戸からウサギが出てくるか (注)手や方向を間違えて目の前でウサギが出てくるのを見るのに、観客は完全に気を散らしている。 筆者らの新しいテストベッド・フレームワークは、法案の「ロビー活動」という立法作業に基づいて構築された2エージェント対対話システムにおいて、LLMエージェントが自然言語世代を欺くように指示された場合に、目標駆動環境において本質的な偽装能力を示す。 目標駆動型環境のラインに沿って,言語哲学と認知心理学の理論に基づいて,強化学習のセットアップを通じて,認知能力の発達を示す。 また,ロビイスト剤は,その後の対人関係の強化試験を通じて,約40%(相対的)の偽装能力を増強し,その偽装検出機構は最大92%の検知能力を示した。 本研究は, エージェント・ヒューマン・インタラクションの潜在的な課題を浮き彫りにし, エージェントがプログラムされたエンドゴールに向けて人間を操作する可能性を示唆した。

Recent developments in large language models (LLMs), while offering a powerful foundation for developing natural language agents, raise safety concerns about them and the autonomous agents built upon them. Deception is one potential capability of AI agents of particular concern, which we refer to as an act or statement that misleads, hides the truth, or promotes a belief that is not true in its entirety or in part. We move away from the conventional understanding of deception through straight-out lying, making objective selfish decisions, or giving false information, as seen in previous AI safety research. We target a specific category of deception achieved through obfuscation and equivocation. We broadly explain the two types of deception by analogizing them with the rabbit-out-of-hat magic trick, where (i) the rabbit either comes out of a hidden trap door or (ii) (our focus) the audience is completely distracted to see the magician bring out the rabbit right in front of them using sleight of hand or misdirection. Our novel testbed framework displays intrinsic deception capabilities of LLM agents in a goal-driven environment when directed to be deceptive in their natural language generations in a two-agent adversarial dialogue system built upon the legislative task of "lobbying" for a bill. Along the lines of a goal-driven environment, we show developing deceptive capacity through a reinforcement learning setup, building it around the theories of language philosophy and cognitive psychology. We find that the lobbyist agent increases its deceptive capabilities by ~ 40% (relative) through subsequent reinforcement trials of adversarial interactions, and our deception detection mechanism shows a detection capability of up to 92%. Our results highlight potential issues in agent-human interaction, with agents potentially manipulating humans towards its programmed end-goal.
翻訳日:2024-05-08 14:00:34 公開日:2024-05-07
# 音声映像の高機能化と評価のための音声・映像音声表現エキスパート

Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation ( http://arxiv.org/abs/2405.04327v1 )

ライセンス: Link先を確認
Dogucan Yaman, Fevziye Irem Eyiokur, Leonard Bärmann, Seymanur Aktı, Hazım Kemal Ekenel, Alexander Waibel, (参考訳) 顔生成作業では、視覚的詳細と識別情報を保存しつつ、対応する音声に同期した唇付き顔映像を生成する。 現在の手法は、視覚的品質に対する有害な影響を回避しつつ、正確な唇の同期を学習することの難しさと、そのような同期をしっかりと評価することの難しさに直面する。 これらの問題に対処するために、トレーニング中の唇の同期損失を計算するために、音声視覚音声表現エキスパート(AV-HuBERT)を用いることを提案する。 さらに, AV-HuBERTの特徴を活用し, 3つの新しい唇同期評価指標を導入し, 唇同期性能を総合的に評価することを目的とした。 実験結果と詳細なアブレーション実験は,提案手法の有効性と評価指標の有用性を実証するものである。

In the task of talking face generation, the objective is to generate a face video with lips synchronized to the corresponding audio while preserving visual details and identity information. Current methods face the challenge of learning accurate lip synchronization while avoiding detrimental effects on visual quality, as well as robustly evaluating such synchronization. To tackle these problems, we propose utilizing an audio-visual speech representation expert (AV-HuBERT) for calculating lip synchronization loss during training. Moreover, leveraging AV-HuBERT's features, we introduce three novel lip synchronization evaluation metrics, aiming to provide a comprehensive assessment of lip synchronization performance. Experimental results, along with a detailed ablation study, demonstrate the effectiveness of our approach and the utility of the proposed evaluation metrics.
翻訳日:2024-05-08 14:00:34 公開日:2024-05-07
# WALLETRADAR: ブラウザベースの暗号ウォレットにおける脆弱性検出の自動化に向けて

WALLETRADAR: Towards Automating the Detection of Vulnerabilities in Browser-based Cryptocurrency Wallets ( http://arxiv.org/abs/2405.04332v1 )

ライセンス: Link先を確認
Pengcheng Xia, Yanhui Guo, Zhaowen Lin, Jun Wu, Pengbo Duan, Ningyu He, Kailong Wang, Tianming Liu, Yinliang Yue, Guoai Xu, Haoyu Wang, (参考訳) ブロックチェーンエコシステムの基盤として機能する暗号通貨ウォレットは、特にブラウザベースのウォレット(ブラウザ拡張など)において、大きなユーザ成長を遂げている。 しかし、この拡張はセキュリティ上の課題を伴い、これらのウォレットは悪意ある活動のターゲットとなっている。 かなりのユーザベースにもかかわらず、包括的なセキュリティ分析には大きなギャップがあるだけでなく、開発者が開発プロセス中に脆弱性を減らすのに役立つ特別なツールも必要だ。 この空白を埋めるために,本稿では,ブラウザベースのウォレットの包括的セキュリティ解析と,この目的のために設計された自動ツールの開発を紹介する。 われわれはまず、暗号通貨ウォレットに居住するセキュリティ脆弱性の分類を、過去のセキュリティレポートを収集することによってコンパイルする。 これに基づいて,静的および動的解析に基づいてセキュリティ問題を正確に識別できる自動検出フレームワークWALLETRADARを設計する。 96個のブラウザベースの財布の評価は、WALLETRADARの有効性を示し、精度の高い財布の90%で検出プロセスの自動化に成功した。 この評価により、70個のウォレットに対応する116のセキュリティ脆弱性が発見された。 本稿の時点では,8人のウォレット開発者から10件の脆弱性が確認されており,2,000ドル以上のバグ報奨金が支払われています。 さらに、開示後、12人のウォレット開発者が16の脆弱性を静かに修正したことも確認した。 WALLETRADARは、暗号通貨ウォレットのセキュリティリスクの特定を効果的に自動化し、ブロックチェーンエコシステムにおけるソフトウェア開発の品質と安全性を向上させる。

Cryptocurrency wallets, acting as fundamental infrastructure to the blockchain ecosystem, have seen significant user growth, particularly among browser-based wallets (i.e., browser extensions). However, this expansion accompanies security challenges, making these wallets prime targets for malicious activities. Despite a substantial user base, there is not only a significant gap in comprehensive security analysis but also a pressing need for specialized tools that can aid developers in reducing vulnerabilities during the development process. To fill the void, we present a comprehensive security analysis of browser-based wallets in this paper, along with the development of an automated tool designed for this purpose. We first compile a taxonomy of security vulnerabilities resident in cryptocurrency wallets by harvesting historical security reports. Based on this, we design WALLETRADAR, an automated detection framework that can accurately identify security issues based on static and dynamic analysis. Evaluation of 96 popular browser-based wallets shows WALLETRADAR's effectiveness, by successfully automating the detection process in 90% of these wallets with high precision. This evaluation has led to the discovery of 116 security vulnerabilities corresponding to 70 wallets. By the time of this paper, we have received confirmations of 10 vulnerabilities from 8 wallet developers, with over $2,000 bug bounties. Further, we observed that 12 wallet developers have silently fixed 16 vulnerabilities after our disclosure. WALLETRADAR can effectively automate the identification of security risks in cryptocurrency wallets, thereby enhancing software development quality and safety in the blockchain ecosystem.
翻訳日:2024-05-08 13:50:50 公開日:2024-05-07
# オープンデータの第4波 : オープンデータと生成AIのためのシナリオのスペクトルを探る

A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI ( http://arxiv.org/abs/2405.04333v1 )

ライセンス: Link先を確認
Hannah Chafetz, Sampriti Saxena, Stefaan G. Verhulst, (参考訳) 2022年後半から、生成的AIはChatGPT、Gemini、Claudeといったツールを幅広く使用して、世界を嵐に晒してきた。 生成AIと大規模言語モデル(LLM)アプリケーションは、個人がデータや知識を見つけてアクセスする方法を変えつつある。 しかし、オープンデータと生成AIの複雑な関係と、この分野のイノベーションを推進するための大きな可能性を秘めている領域は、まだ未解決のままだ。 このホワイトペーパーは、オープンデータと生成AIの関係を解き放ち、新しい第4波Open Dataのコンポーネントを探究しようとしている。 オープンデータは、データコモンズアプローチに向かっているのだろうか? 生成AIはオープンデータをより会話的か? 生成AIはオープンデータの品質と証明を改善するか? この目的に向けて、私たちは新しいSpectrum of Scenariosフレームワークを提供しています。 このフレームワークは、オープンデータと生成AIが交差するさまざまなシナリオと、それらの特定のシナリオにオープンデータを準備するためにデータ品質と証明の観点から何が必要なのかを概説する。 これらのシナリオには、関連性、適応性、推論と洞察の生成、データ拡張、オープンな調査が含まれる。 このプロセスを通じて、データ保有者が生成AIを採用してオープンデータアクセスを改善し、オープンデータからの洞察を深めるためには、まず、透明性とドキュメンテーションの強化、品質と整合性の向上、相互運用性と標準の促進、アクセシビリティと使用性の向上、倫理的な考慮事項への対処という、5つの重要な領域について前進する必要があります。

Since late 2022, generative AI has taken the world by storm, with widespread use of tools including ChatGPT, Gemini, and Claude. Generative AI and large language model (LLM) applications are transforming how individuals find and access data and knowledge. However, the intricate relationship between open data and generative AI, and the vast potential it holds for driving innovation in this field remain underexplored areas. This white paper seeks to unpack the relationship between open data and generative AI and explore possible components of a new Fourth Wave of Open Data: Is open data becoming AI ready? Is open data moving towards a data commons approach? Is generative AI making open data more conversational? Will generative AI improve open data quality and provenance? Towards this end, we provide a new Spectrum of Scenarios framework. This framework outlines a range of scenarios in which open data and generative AI could intersect and what is required from a data quality and provenance perspective to make open data ready for those specific scenarios. These scenarios include: pertaining, adaptation, inference and insight generation, data augmentation, and open-ended exploration. Through this process, we found that in order for data holders to embrace generative AI to improve open data access and develop greater insights from open data, they first must make progress around five key areas: enhance transparency and documentation, uphold quality and integrity, promote interoperability and standards, improve accessibility and useability, and address ethical considerations.
翻訳日:2024-05-08 13:50:50 公開日:2024-05-07
# 生活予測のための時間的・不均一グラフニューラルネットワーク

Temporal and Heterogeneous Graph Neural Network for Remaining Useful Life Prediction ( http://arxiv.org/abs/2405.04336v1 )

ライセンス: Link先を確認
Zhihao Wen, Yuan Fang, Pengcheng Wei, Fayao Liu, Zhenghua Chen, Min Wu, (参考訳) RUL(Predicting Remaining Useful Life)は、様々な相互関連センサーを含む産業システムの予後と健康管理において重要な役割を担っている。 このようなシステムからの時系列センサデータの一定のストリームが与えられたとき、深層学習モデルはこれらのデータの複雑で非線形な時間的依存関係を特定することに成功している。 個々のセンサの時間的依存に加えて、空間的依存はこれらのセンサの間に重要な相関関係として現れ、時間的空間的関係を記述する時間的グラフによって自然にモデル化することができる。 しかし、既存の研究の大半は、時間情報の喪失につながる粗い粒度のアプローチである、この時間グラフの離散的なスナップショットの取得に頼っている。 さらに, 異種センサの多様性を考えると, 時間センサグラフにおけるRUL予測にそのような固有な異種性を活用することが重要である。 センサの相互結合グラフにおける時間的・空間的関係のニュアンスと異種特性を捉えるため,THGNN(Temporal and Heterogeneous Graph Neural Networks)と呼ばれる新しいモデルを導入する。 具体的には、THGNNは近隣ノードの履歴データを収集し、センサデータのストリーム内の時間的ダイナミクスと空間的相関をきめ細かな方法で正確に捉える。 さらに、センサタイプの多様性に対処するために、FiLM(Feature-wise Linear Modulation)を活用し、データソースの不均一性を学ぶためのモデルの能力を大幅に改善する。 最後に,本手法の有効性を総合実験により検証した。 実験の結果,N-CMAPSSデータセットに顕著な進歩が見られ,最先端手法に対する2つの評価基準の点で最大19.2%,31.6%の改善が達成された。

Predicting Remaining Useful Life (RUL) plays a crucial role in the prognostics and health management of industrial systems that involve a variety of interrelated sensors. Given a constant stream of time series sensory data from such systems, deep learning models have risen to prominence at identifying complex, nonlinear temporal dependencies in these data. In addition to the temporal dependencies of individual sensors, spatial dependencies emerge as important correlations among these sensors, which can be naturally modelled by a temporal graph that describes time-varying spatial relationships. However, the majority of existing studies have relied on capturing discrete snapshots of this temporal graph, a coarse-grained approach that leads to loss of temporal information. Moreover, given the variety of heterogeneous sensors, it becomes vital that such inherent heterogeneity is leveraged for RUL prediction in temporal sensor graphs. To capture the nuances of the temporal and spatial relationships and heterogeneous characteristics in an interconnected graph of sensors, we introduce a novel model named Temporal and Heterogeneous Graph Neural Networks (THGNN). Specifically, THGNN aggregates historical data from neighboring nodes to accurately capture the temporal dynamics and spatial correlations within the stream of sensor data in a fine-grained manner. Moreover, the model leverages Feature-wise Linear Modulation (FiLM) to address the diversity of sensor types, significantly improving the model's capacity to learn the heterogeneity in the data sources. Finally, we have validated the effectiveness of our approach through comprehensive experiments. Our empirical findings demonstrate significant advancements on the N-CMAPSS dataset, achieving improvements of up to 19.2% and 31.6% in terms of two different evaluation metrics over state-of-the-art methods.
翻訳日:2024-05-08 13:50:50 公開日:2024-05-07
# アンサンブルに基づく探索における多様性の曲線

The Curse of Diversity in Ensemble-Based Exploration ( http://arxiv.org/abs/2405.04342v1 )

ライセンス: Link先を確認
Zhixuan Lin, Pierluca D'Oro, Evgenii Nikishin, Aaron Courville, (参考訳) 多様なデータ共有エージェントの訓練 -- 確立された探索戦略 -- は、通常のシングルエージェントトレーニングと比較して、個々のアンサンブルメンバーのパフォーマンスを著しく損なう可能性がある。 注意深い分析により、各アンサンブルメンバーの共有トレーニングデータにおける自己生成データの割合が低くなり、また、個々のアンサンブルメンバーの非効率性が、このような高度に非政治的なデータから学習できることを特徴としている。 そこで我々はこの現象を多様性の呪いと名づけた。 より大きなリプレイバッファやより小さなアンサンブルサイズなど、いくつかの直感的なソリューションは、パフォーマンス損失を継続的に軽減するか、アンサンブルの利点を損なうことに失敗しています。 最後に,CERL(Cross-Ensemble Representation Learning)という新しい手法を用いて,多様性の呪いに対処する表現学習の可能性を示す。 我々の研究は、アンサンブルに基づく探索における予期せぬ落とし穴についての貴重な洞察を与え、同様のアプローチの将来の応用に重要な注意を喚起する。

We uncover a surprising phenomenon in deep reinforcement learning: training a diverse ensemble of data-sharing agents -- a well-established exploration strategy -- can significantly impair the performance of the individual ensemble members when compared to standard single-agent training. Through careful analysis, we attribute the degradation in performance to the low proportion of self-generated data in the shared training data for each ensemble member, as well as the inefficiency of the individual ensemble members to learn from such highly off-policy data. We thus name this phenomenon the curse of diversity. We find that several intuitive solutions -- such as a larger replay buffer or a smaller ensemble size -- either fail to consistently mitigate the performance loss or undermine the advantages of ensembling. Finally, we demonstrate the potential of representation learning to counteract the curse of diversity with a novel method named Cross-Ensemble Representation Learning (CERL) in both discrete and continuous control domains. Our work offers valuable insights into an unexpected pitfall in ensemble-based exploration and raises important caveats for future applications of similar approaches.
翻訳日:2024-05-08 13:50:50 公開日:2024-05-07
# 秘密データセット分割とベンダー分割によるメトリクス微分プライバシーのスケーラビリティ向上

Enhancing Scalability of Metric Differential Privacy via Secret Dataset Partitioning and Benders Decomposition ( http://arxiv.org/abs/2405.04344v1 )

ライセンス: Link先を確認
Chenxi Qiu, (参考訳) メトリック微分プライバシー(mDP)は、データ摂動の新しいパラダイムとして機能するために、差分プライバシー(DP)の概念を拡張します。 道路網やグリッドマップ上の単語埋め込みや位置情報として符号化されたテキストデータなど、一般的なメートル法空間で表される秘密データを保護するように設計されている。 mDPの下で最適なデータ摂動機構を導出するために、広く使われている手法は線形プログラミング(LP)であり、これは決定変数の多項式爆発に悩まされ、大規模なmDPでは非現実的である。 本稿では,LPベースのmDPのスケーラビリティを向上する新しい計算フレームワークを開発することを目的とする。 秘密レコード間のmDP制約によって確立された接続を考えると、元の秘密データセットを様々なサブセットに分割する。 1)サブセット間の摂動計算を管理するマスタプログラムと,(2)サブプロブレムのセットで,それぞれがサブセット内で摂動の導出を管理する。 道路ネットワーク/グリッドマップの位置情報データ,テキストデータ,合成データなど,複数のデータに対する実験結果から,提案手法のスケーラビリティと効率性を評価する。

Metric Differential Privacy (mDP) extends the concept of Differential Privacy (DP) to serve as a new paradigm of data perturbation. It is designed to protect secret data represented in general metric space, such as text data encoded as word embeddings or geo-location data on the road network or grid maps. To derive an optimal data perturbation mechanism under mDP, a widely used method is linear programming (LP), which, however, might suffer from a polynomial explosion of decision variables, rendering it impractical in large-scale mDP. In this paper, our objective is to develop a new computation framework to enhance the scalability of the LP-based mDP. Considering the connections established by the mDP constraints among the secret records, we partition the original secret dataset into various subsets. Building upon the partition, we reformulate the LP problem for mDP and solve it via Benders Decomposition, which is composed of two stages: (1) a master program to manage the perturbation calculation across subsets and (2) a set of subproblems, each managing the perturbation derivation within a subset. Our experimental results on multiple datasets, including geo-location data in the road network/grid maps, text data, and synthetic data, underscore our proposed mechanism's superior scalability and efficiency.
翻訳日:2024-05-08 13:50:50 公開日:2024-05-07
# 産業用ロボットのためのニューラルラジアンスフィールドを用いた新しいビュー合成

Novel View Synthesis with Neural Radiance Fields for Industrial Robot Applications ( http://arxiv.org/abs/2405.04345v1 )

ライセンス: Link先を確認
Markus Hillemann, Robert Langendörfer, Max Heiken, Max Mehltretter, Andreas Schenk, Martin Weinmann, Stefan Hinz, Christian Heipke, Markus Ulrich, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、3Dシーン再構成などの典型的なフォトグラムのワークフローに革命をもたらす可能性を持つ、急速に成長する研究分野となっている。 入力として、NeRFはカメラのポーズとインテリアの向きを持つマルチビュー画像を必要とする。 典型的なNeRFワークフローでは、カメラのポーズと内部の向きはStructure from Motion (SfM)と事前に推定される。 しかし、利用可能な画像の数や分布、関連するカメラのポーズや内向きの精度など、異なるパラメータに依存する新しいビューの品質は予測が難しい。 さらに、SfMは時間を要する前処理ステップであり、その品質は画像の内容に強く依存する。 さらに、SfMの未定義のスケーリング係数は、計量情報が必要な後のステップを妨げる。 本稿では,産業用ロボットにおけるNeRFの可能性を評価する。 本稿では,産業用ロボットのエンドエフェクタに装着されたキャリブレーションカメラを用いて,ロボットキネマティクスに基づいて,正確なカメラポーズを計測する,SfMプリプロセッシングの代替案を提案する。 そこで本研究では,これらを基礎的真実と比較し,アンサンブル法に基づく内部品質尺度を計算することによって,新たな視点の質を考察する。 評価のために、反射オブジェクト、粗いテクスチャ、きめ細かい構造など、産業応用の典型的な再構築に挑戦する複数のデータセットを取得する。 ロボットによるポーズ決定は、要求しないケースではSfMと同等の精度に到達し、より困難なシナリオでは明確なアドバンテージを持つことを示す。 最後に, アンサンブル法を適用して, 基礎的真理が欠如している場合に, 合成ノベルビューの品質を推定する。

Neural Radiance Fields (NeRFs) have become a rapidly growing research field with the potential to revolutionize typical photogrammetric workflows, such as those used for 3D scene reconstruction. As input, NeRFs require multi-view images with corresponding camera poses as well as the interior orientation. In the typical NeRF workflow, the camera poses and the interior orientation are estimated in advance with Structure from Motion (SfM). But the quality of the resulting novel views, which depends on different parameters such as the number and distribution of available images, as well as the accuracy of the related camera poses and interior orientation, is difficult to predict. In addition, SfM is a time-consuming pre-processing step, and its quality strongly depends on the image content. Furthermore, the undefined scaling factor of SfM hinders subsequent steps in which metric information is required. In this paper, we evaluate the potential of NeRFs for industrial robot applications. We propose an alternative to SfM pre-processing: we capture the input images with a calibrated camera that is attached to the end effector of an industrial robot and determine accurate camera poses with metric scale based on the robot kinematics. We then investigate the quality of the novel views by comparing them to ground truth, and by computing an internal quality measure based on ensemble methods. For evaluation purposes, we acquire multiple datasets that pose challenges for reconstruction typical of industrial applications, like reflective objects, poor texture, and fine structures. We show that the robot-based pose determination reaches similar accuracy as SfM in non-demanding cases, while having clear advantages in more challenging scenarios. Finally, we present first results of applying the ensemble method to estimate the quality of the synthetic novel view in the absence of a ground truth.
翻訳日:2024-05-08 13:50:50 公開日:2024-05-07
# キャラクターレベルの敵攻撃の再検討

Revisiting character-level adversarial attacks ( http://arxiv.org/abs/2405.04346v1 )

ライセンス: Link先を確認
Elias Abad Rocamora, Yongtao Wu, Fanghui Liu, Grigorios G. Chrysos, Volkan Cevher, (参考訳) 自然言語処理における敵対的攻撃は、文字やトークンのレベルに摂動を適用します。 勾配に基づく手法の使用で注目されるトークンレベルの攻撃は、文のセマンティクスの変更の影響を受けやすいため、無効な敵の例に繋がる。 文字レベルの攻撃はセマンティクスを容易に維持するが、一般的な勾配に基づく手法を採用できないため注意が低く、防御が容易であると考えられている。 これらの信念に則り、高い攻撃成功率(ASR)を達成できる効率的なクエリベースの敵攻撃であるCharmerを導入し、非常に類似した敵の例を生成する。 提案手法は,小型 (BERT) モデルと大型 (Llama 2) モデルの両方を対象としている。 具体的には、SST-2のBERTでは、CharmerはASRを4.84%で改善し、USEは8%で以前の技術と類似している。 我々の実装はhttps://github.com/LIONS-EPFL/Charmer.comで利用可能です。

Adversarial attacks in Natural Language Processing apply perturbations in the character or token levels. Token-level attacks, gaining prominence for their use of gradient-based methods, are susceptible to altering sentence semantics, leading to invalid adversarial examples. While character-level attacks easily maintain semantics, they have received less attention as they cannot easily adopt popular gradient-based methods, and are thought to be easy to defend. Challenging these beliefs, we introduce Charmer, an efficient query-based adversarial attack capable of achieving high attack success rate (ASR) while generating highly similar adversarial examples. Our method successfully targets both small (BERT) and large (Llama 2) models. Specifically, on BERT with SST-2, Charmer improves the ASR in 4.84% points and the USE similarity in 8% points with respect to the previous art. Our implementation is available in https://github.com/LIONS-EPFL/Charmer.
翻訳日:2024-05-08 13:50:50 公開日:2024-05-07
# SmmPack: TPMシードキーによるSMMモジュールの難読化

SmmPack: Obfuscation for SMM Modules with TPM Sealed Key ( http://arxiv.org/abs/2405.04355v1 )

ライセンス: Link先を確認
Kazuki Matsuo, Satoshi Tanda, Kuniyasu Suzaki, Yuhei Kawakoya, Tatsuya Mori, (参考訳) System Management Mode (SMM) は、x86およびx86-64プロセッサの最もプライベートな動作モードである。 SMMのエクスプロイトにより、攻撃者はUnified Extensible Firmware Interface (UEFI)ファームウェアを改ざんし、オペレーティングシステムとハイパーバイザによって実装されるセキュリティメカニズムを無効にすることができる。 SMMコード実行を可能にする脆弱性は、しばしばCVE(Common Vulnerabilities and Exposures)として報告されるが、攻撃者がこれらの脆弱性を分析するのを防ぐためのセキュリティメカニズムは今のところ存在しない。 SMMモジュールの脆弱性解析のコストを上げるために,SmmPackを導入した。 SmmPackの中核的な概念は、Trusted Platform Module (TPM)に安全に格納されたキーでSMMモジュールを暗号化することである。 攻撃者によるSMMモジュールの取得・解析におけるSmmPackの有効性を,様々な手法を用いて評価した。 以上の結果から,SmmPackはモジュール獲得の手段を狭めることにより,コストを大幅に向上することが示された。 さらに,SmmPackが元のSMMモジュールの性能を損なうことなく動作することを示した。 また,SmmPackの管理と採用方法,BIOS更新の適用手順を明らかにし,SmmPackの実装が現実的であることを示した。

System Management Mode (SMM) is the highest-privileged operating mode of x86 and x86-64 processors. Through SMM exploitation, attackers can tamper with the Unified Extensible Firmware Interface (UEFI) firmware, disabling the security mechanisms implemented by the operating system and hypervisor. Vulnerabilities enabling SMM code execution are often reported as Common Vulnerabilities and Exposures (CVEs); however, no security mechanisms currently exist to prevent attackers from analyzing those vulnerabilities. To increase the cost of vulnerability analysis of SMM modules, we introduced SmmPack. The core concept of SmmPack involves encrypting an SMM module with the key securely stored in a Trusted Platform Module (TPM). We assessed the effectiveness of SmmPack in preventing attackers from obtaining and analyzing SMM modules using various acquisition methods. Our results show that SmmPack significantly increases the cost by narrowing down the means of module acquisition. Furthermore, we demonstrated that SmmPack operates without compromising the performance of the original SMM modules. We also clarified the management and adoption methods of SmmPack, as well as the procedure for applying BIOS updates, and demonstrated that the implementation of SmmPack is realistic.
翻訳日:2024-05-08 13:50:50 公開日:2024-05-07
# 多モード顔画像生成のための拡散駆動型GANインバージョン

Diffusion-driven GAN Inversion for Multi-Modal Face Image Generation ( http://arxiv.org/abs/2405.04356v1 )

ライセンス: Link先を確認
Jihyun Kim, Changjae Oh, Hoseok Do, Soohyun Kim, Kwanghoon Sohn, (参考訳) 本稿では,テキストプロンプトとセマンティックマスクやスクリブルマップなどの視覚入力を写真リアルな顔画像に変換するマルチモーダル顔画像生成手法を提案する。 そこで我々は,GAN(Generative Adversarial Network)と拡散モデル(Difusion Model, DM)の長所を,DMのマルチモーダル特徴を事前学習されたGANの潜時空間に利用することによって組み合わせる。 本稿では,2つのモデルを連結し,特徴写像と注目マップの有意な表現を潜在符号に変換するための,シンプルなマッピングとスタイル変調ネットワークを提案する。 GANインバージョンでは、推定された潜伏符号を用いて2Dまたは3D対応の顔画像を生成することができる。 さらに,生成した画像にテキストおよび構造表現を反映した多段階学習戦略を提案する。 提案するネットワークは, リアルな2D, マルチビュー, スタイル化された顔画像を生成する。 事前学習した2Dおよび3D GANを用いて本手法の有効性を検証し,既存の手法よりも優れた結果を得た。 私たちのプロジェクトページはhttps://github.com/1211sh/Diffusion-driven_GAN-Inversion/で公開されています。

We present a new multi-modal face image generation method that converts a text prompt and a visual input, such as a semantic mask or scribble map, into a photo-realistic face image. To do this, we combine the strengths of Generative Adversarial networks (GANs) and diffusion models (DMs) by employing the multi-modal features in the DM into the latent space of the pre-trained GANs. We present a simple mapping and a style modulation network to link two models and convert meaningful representations in feature maps and attention maps into latent codes. With GAN inversion, the estimated latent codes can be used to generate 2D or 3D-aware facial images. We further present a multi-step training strategy that reflects textual and structural representations into the generated image. Our proposed network produces realistic 2D, multi-view, and stylized face images, which align well with inputs. We validate our method by using pre-trained 2D and 3D GANs, and our results outperform existing methods. Our project page is available at https://github.com/1211sh/Diffusion-driven_GAN-Inversion/.
翻訳日:2024-05-08 13:50:50 公開日:2024-05-07
# センサフュージョンを用いたグローバルスケール自己監督チャネルチャート作成

Global Scale Self-Supervised Channel Charting with Sensor Fusion ( http://arxiv.org/abs/2405.04357v1 )

ライセンス: Link先を確認
Omid Esrafilian, Mohsen Ahadi, Florian Kaltenberger, David Gesbert, (参考訳) 6Gで予測されるセンシングと位置決め機能は、将来のスマートシティや工業ユースケースなど、さまざまな分野の技術の進歩に大きな可能性を秘めている。 チャネルチャートは、近年、無線周波数に基づくセンシングとローカライゼーションのための有望な技術として出現している。 しかし、これらの手法の精度は6Gで想定される数値にはまだ及ばない。 そこで本研究では,このギャップを解消するために,その位置とともにTRP(Transfer Reception Points)の到着時刻を推定し,アルゴリズムのトレーニングフェーズ中にレーザスキャナーデータを統合することで,チャネルチャートにおけるセンサ融合を活用する新しいチャネルチャート手法を提案する。 提案アルゴリズムは, 幾何モデルやユーザ位置の真理を必要とせず, 訓練および試験段階において自己監督されたままである。 シミュレーションの結果,従来の三角測量に基づく手法と最先端のチャネルチャート技術に勝るものの90%の時間アルゴリズムを用いて,サブメーターレベルのローカライゼーション精度の達成を検証した。

The sensing and positioning capabilities foreseen in 6G have great potential for technology advancements in various domains, such as future smart cities and industrial use cases. Channel charting has emerged as a promising technology in recent years for radio frequency-based sensing and localization. However, the accuracy of these techniques is yet far behind the numbers envisioned in 6G. To reduce this gap, in this paper, we propose a novel channel charting technique capitalizing on the time of arrival measurements from surrounding Transmission Reception Points (TRPs) along with their locations and leveraging sensor fusion in channel charting by incorporating laser scanner data during the training phase of our algorithm. The proposed algorithm remains self-supervised during training and test phases, requiring no geometrical models or user position ground truth. Simulation results validate the achievement of a sub-meter level localization accuracy using our algorithm 90% of the time, outperforming the state-of-the-art channel charting techniques and the traditional triangulation-based approaches.
翻訳日:2024-05-08 13:50:50 公開日:2024-05-07
# ビーム転位子と薄膜を用いた分極・絡み合った光子対光源

Polarization-entangled photon pair source using beam displacers and thin crystals ( http://arxiv.org/abs/2405.04360v1 )

ライセンス: Link先を確認
Minjae Hong, Rodrigo Gomez, Valerio Flavio Gili, Jorge Fuenzalida, Markus Gräfe, (参考訳) ビーム転位器を用いた偏光共役光子対源の実験的実装について述べる。 ダウンコンバージョンされた光子は、非退化および型0過程において自発的なパラメトリックなダウンコンバージョンによって放出される。 我々は F=0.975$\pm$0.004 の状態忠実度を取得し、S=2.75$\pm$0.01 のクレイザー=ホルン・ガニー=ホルト不等式に違反する。 我々の情報源はまた、多数の空間モードを利用して、量子イメージングの応用に薄い結晶を使用している。 この構成により、550$\pm$12空間モードが得られる。

We present an experimental implementation of a polarization-entangled photon pair source based on beam displacers. The down-converted photons are emitted via spontaneous parametric down-conversion in a non-degenerate and type-0 process. We obtain a state fidelity of F=0.975$\pm$0.004 and violate a Clauser-Horne Shimony-Holt inequality with S=2.75$\pm$0.01. Our source also uses thin crystals for applications in quantum imaging, taking advantage of the large number of spatial modes. With this configuration, we obtain 550$\pm$12 spatial modes.
翻訳日:2024-05-08 13:50:50 公開日:2024-05-07
# 反射境界を用いた浮遊光学のバックアクション抑制

Backaction suppression in levitated optomechanics using reflective boundaries ( http://arxiv.org/abs/2405.04366v1 )

ライセンス: Link先を確認
Rafał Gajewski, James Bateman, (参考訳) 定常波トラップで浮遊する微小ナノ球に作用するレーザ誘起逆作用によるノイズは、適切な反射境界を利用することで著しく低減できることを示す。 本研究では, このバックアクション抑制効果のケーススタディとして球面鏡形状について検討し, 理論的および実験的制約について論じる。 球面ミラーの中心に閉じ込められた双極子粒子に作用する光力ゆらぎを解析し,レーザー再コイルの効果を直接検討した。 また、フィッシャー情報流の定式化を用いて、干渉計、ショットノイズ制限位置測定において、対応する測定精度を計算した。 以上の結果から,3次元のバックアクション抑制には立位波トラップ場が必要であり,ハイゼンベルク検出限界を満たすことが示唆された。

We show theoretically that the noise due to laser induced backaction acting on a small nanosphere levitated in a standing-wave trap can be considerably reduced by utilising a suitable reflective boundary. We examine the spherical mirror geometry as a case study of this backaction suppression effect, discussing the theoretical and experimental constraints. We study the effects of laser recoil directly, by analysing optical force fluctuations acting on a dipolar particle trapped at the centre of a spherical mirror. We also compute the corresponding measurement imprecision in an interferometric, shot-noise-limited position measurement, using the formalism of Fisher information flow. Our results show that the standing-wave trapping field is necessary for backaction suppression in three dimensions, and they satisfy the Heisenberg limit of detection.
翻訳日:2024-05-08 13:50:50 公開日:2024-05-07
# 欠測データのインプットのための量子回路

Quantum Circuit for Imputation of Missing Data ( http://arxiv.org/abs/2405.04367v1 )

ライセンス: Link先を確認
Claudio Sanavio, Simone Tibaldi, Edoardo Tignone, Elisa Ercolessi, (参考訳) 欠落データの計算は、不完全なデータポイントの欠落値を予測することで構成されるデータ分析における一般的な手順である。 本研究では、欠落したデータの計算のために変分量子回路を解析する。 ゲート複雑性$O(N)$と$O(N^2)$は、特定の分布に対してバイナリ文字列の最後の欠落ビットを返す。 結果の良好な収束性を求める一連のデータセット上で、アルゴリズムのパフォーマンスをトレーニングし、テストする。 最後に、この回路を用いて、未知のデータに対する一般化を検証した。 簡単なシステムでは、回路を解析的に記述することができ、繰り返し測定で回路をトレーニングする面倒で未解決の問題を省略することができる。 我々は事前にパラメータの最適値を見つけ、それを用いて真にランダムなデータを生成するのに適した最適回路を構築する。

The imputation of missing data is a common procedure in data analysis that consists in predicting missing values of incomplete data points. In this work we analyse a variational quantum circuit for the imputation of missing data. We construct variational quantum circuits with gates complexity $O(N)$ and $O(N^2)$ that return the last missing bit of a binary string for a specific distribution. We train and test the performance of the algorithms on a series of datasets finding good convergence of the results. Finally, we test the circuit for generalization to unseen data. For simple systems, we are able to describe the circuit analytically, making possible to skip the tedious and unresolved problem of training the circuit with repetitive measurements. We find beforehand the optimal values of the parameters and we make use of them to construct an optimal circuit suited to the generation of truly random data.
翻訳日:2024-05-08 13:50:50 公開日:2024-05-07
# Detlef Dürrから学んだこと

Some Things I Have Learned From Detlef Dürr ( http://arxiv.org/abs/2405.04368v1 )

ライセンス: Link先を確認
Roderich Tumulka, (参考訳) Detlef D\"urr (1951-2021) は理論と数学の物理学者であり、特に量子力学、電磁気学、統計力学の基礎の研究を行った。 この作品は、彼と彼の科学をかなり個人的な見返りだ。

Detlef D\"urr (1951-2021) was a theoretical and mathematical physicist who worked particularly on the foundations of quantum mechanics, electromagnetism, and statistical mechanics. This piece is a rather personal look back at him and his science.
翻訳日:2024-05-08 13:50:50 公開日:2024-05-07
# Diff-IP2D:Egocentric Videoにおける拡散に基づく手動物体の相互作用予測

Diff-IP2D: Diffusion-Based Hand-Object Interaction Prediction on Egocentric Videos ( http://arxiv.org/abs/2405.04370v1 )

ライセンス: Link先を確認
Junyi Ma, Jingyi Xu, Xieyuanli Chen, Hesheng Wang, (参考訳) サービスロボットの操作や拡張現実の応用には、人間が手動操作でどのように振る舞うかを理解することが不可欠である。 これを実現するために、人間の自我中心の動画上で手動軌跡と物価を同時に予測する最近の研究が提案されている。 それらは将来の手-物体相互作用の表現と見なされ、潜在的な人間の動きと動機を示している。 しかし、既存のアプローチは主に一方向予測のための自己回帰的パラダイムを採用しており、これは全体論的な将来のシーケンスにおける相互制約を欠き、時間軸に沿ってエラーを蓄積する。 一方、これらの作品は基本的に、カメラの感情が1対1の視聴予測に与える影響を見落としている。 これらの制約に対処するために,Diff-IP2Dという拡散型相互作用予測手法を提案する。 逐次的2次元画像から潜在特徴空間へ変換し,過去の被写体に条件付けされた将来の潜時相互作用特徴を予測するために,偏差拡散モデルを設計する。 モーション機能は、より正確なインタラクション予測のために、Diff-IP2Dがカメラ装着者のダイナミクスを認識できるように、条件付き復調プロセスにさらに統合される。 実験結果から,本手法は既設の計測値と提案した新しい評価プロトコルの両方において,最先端のベースラインを著しく上回ることがわかった。 このことは、2次元ハンドオブジェクト相互作用予測に生成パラダイムを活用することの有効性を強調している。 Diff-IP2Dのコードはhttps://github.com/IRMVLab/Diff-IP2Dで公開される。

Understanding how humans would behave during hand-object interaction is vital for applications in service robot manipulation and extended reality. To achieve this, some recent works have been proposed to simultaneously predict hand trajectories and object affordances on human egocentric videos. They are regarded as the representation of future hand-object interactions, indicating potential human motion and motivation. However, the existing approaches mostly adopt the autoregressive paradigm for unidirectional prediction, which lacks mutual constraints within the holistic future sequence, and accumulates errors along the time axis. Meanwhile, these works basically overlook the effect of camera egomotion on first-person view predictions. To address these limitations, we propose a novel diffusion-based interaction prediction method, namely Diff-IP2D, to forecast future hand trajectories and object affordances concurrently in an iterative non-autoregressive manner. We transform the sequential 2D images into latent feature space and design a denoising diffusion model to predict future latent interaction features conditioned on past ones. Motion features are further integrated into the conditional denoising process to enable Diff-IP2D aware of the camera wearer's dynamics for more accurate interaction prediction. The experimental results show that our method significantly outperforms the state-of-the-art baselines on both the off-the-shelf metrics and our proposed new evaluation protocol. This highlights the efficacy of leveraging a generative paradigm for 2D hand-object interaction prediction. The code of Diff-IP2D will be released at https://github.com/IRMVLab/Diff-IP2D.
翻訳日:2024-05-08 13:50:50 公開日:2024-05-07
# 不均一な複数ソーシャルネットワークのコミュニティ検出

Community Detection for Heterogeneous Multiple Social Networks ( http://arxiv.org/abs/2405.04371v1 )

ライセンス: Link先を確認
Ziqing Zhu, Guan Yuan, Tao Zhou, Jiuxin Cao, (参考訳) コミュニティは、ソーシャルネットワークにおけるユーザー行動とネットワーク特性を理解する上で重要な役割を担っている。 一部のユーザーは、さまざまな目的のために一度に複数のソーシャルネットワークを使用することができる。 これらのユーザーは、異なるソーシャルネットワークを橋渡しする重複ユーザーと呼ばれる。 複数のソーシャルネットワーク上のコミュニティを検出することは、ネットワーク間のインタラクションマイニング、情報拡散、行動マイグレーション分析に不可欠である。 本稿では,グローバルな融合コミュニティを表す共通コンセンサス行列を定式化した,多種不均一なソーシャルネットワークに対する非負行列三要素化に基づくコミュニティ検出手法を提案する。 具体的には、ネットワーク構造とコンテンツ類似度に基づいて隣接行列を作成し、その後、異なるソーシャルネットワークで重複するユーザを区別するアライメント行列を作成する。 生成されたアライメント行列により、ネットワーク間の重複するユーザコミュニティを検出することにより、グローバルコミュニティの融合度を高めることができる。 提案手法の有効性をTwitter,Instagram,Tumblrのデータセットで評価した。 実験の結果は,コミュニティの質とコミュニティの融合の点で,優れた性能を示した。

The community plays a crucial role in understanding user behavior and network characteristics in social networks. Some users can use multiple social networks at once for a variety of objectives. These users are called overlapping users who bridge different social networks. Detecting communities across multiple social networks is vital for interaction mining, information diffusion, and behavior migration analysis among networks. This paper presents a community detection method based on nonnegative matrix tri-factorization for multiple heterogeneous social networks, which formulates a common consensus matrix to represent the global fused community. Specifically, the proposed method involves creating adjacency matrices based on network structure and content similarity, followed by alignment matrices which distinguish overlapping users in different social networks. With the generated alignment matrices, the method could enhance the fusion degree of the global community by detecting overlapping user communities across networks. The effectiveness of the proposed method is evaluated with new metrics on Twitter, Instagram, and Tumblr datasets. The results of the experiments demonstrate its superior performance in terms of community quality and community fusion.
翻訳日:2024-05-08 13:41:05 公開日:2024-05-07
# HABの長期モニタリングデータを用いたアドリア海における貝害予測のための説明可能な機械学習

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs ( http://arxiv.org/abs/2405.04372v1 )

ライセンス: Link先を確認
Martin Marzidovšek, Janja Francé, Vid Podpečan, Stanka Vadnjal, Jožica Dolenc, Patricija Mozetič, (参考訳) 本研究では, 有害藻類によるトリエステ湾(アドリア海)の貝類の毒性を予測するために, 説明可能な機械学習技術を適用した。 貝類養殖地における有毒植物プランクトンの記録と貝類(Mytilus gallophylis)の毒素濃度を含む28年間のデータセットを新たに作成することにより,MLモデルの性能を訓練・評価し,ダイアロティック貝類中毒(DSP)の発生を正確に予測する。 The random forest model provided the best prediction of positive toxicity results based on the F1 score。 変異の重要性やSHAPなどの説明可能性の手法により,DSPの発生の予測因子として重要な種(Dinophysis fortii, D. caudata)と環境要因(塩分, 流出, 降水)が同定された。 これらの知見は早期警戒システムの改善と持続可能な養殖の実践を支援するために重要である。

In this study, explainable machine learning techniques are applied to predict the toxicity of mussels in the Gulf of Trieste (Adriatic Sea) caused by harmful algal blooms. By analysing a newly created 28-year dataset containing records of toxic phytoplankton in mussel farming areas and toxin concentrations in mussels (Mytilus galloprovincialis), we train and evaluate the performance of ML models to accurately predict diarrhetic shellfish poisoning (DSP) events. The random forest model provided the best prediction of positive toxicity results based on the F1 score. Explainability methods such as permutation importance and SHAP identified key species (Dinophysis fortii and D. caudata) and environmental factors (salinity, river discharge and precipitation) as the best predictors of DSP outbreaks. These findings are important for improving early warning systems and supporting sustainable aquaculture practices.
翻訳日:2024-05-08 13:41:05 公開日:2024-05-07
# 最新のマルウェア検出のためのLSTMとGANの活用

Leveraging LSTM and GAN for Modern Malware Detection ( http://arxiv.org/abs/2405.04373v1 )

ライセンス: Link先を確認
Ishita Gupta, Sneha Kumari, Priya Jha, Mohona Ghosh, (参考訳) マルウェアブームは、気候変動が生態系に与える影響に匹敵するサイバー空間である。 サイバーセキュリティ技術とスタッフのトレーニングに多大な投資をしている場合、世界社会はサイバーセキュリティの脅威で永遠の戦争に巻き込まれている。 マルウェアの多形態化と変化は、サイバーセキュリティの実践者の境界線を継続的に押し付けている。 シグネチャベースの検出や行動分析といった古い手法は、マルウェアタイプの迅速な進化に適応するのに遅い。 そこで本研究では,マルウェア検出精度と速度を向上するために,ディープラーニングモデル,LSTMネットワーク,GANの利用を提案する。 生のバイトストリームベースのデータとディープラーニングアーキテクチャを活用する、急速に成長する最先端技術であるこのAI技術は、従来の方法よりも精度とパフォーマンスを向上する。 LSTMとGANモデルの統合は、データの合成生成に使用され、トレーニングデータセットが拡張され、その結果、検出精度が向上する。 論文では、提示されたモデルのトレーニングと評価セットとして、100万以上のマルウェアのユニークなサンプルを持つVrusShareデータセットを使用している。 トークン化、拡張、モデルトレーニングを含む詳細なデータ準備を通じて、LSTMとGANモデルは、ストレートな分類器と比較して、タスクの優れたパフォーマンスを伝達する。 研究結果は98%の精度で行われ、ディープラーニングの効率が積極的なサイバーセキュリティ防衛において決定的な役割を担っていることを示している。 これとは別に,本研究では,バイアスの低減とモデル複雑性の引き上げを目的としたアンサンブル学習とモデル融合手法の出力について検討した。

The malware booming is a cyberspace equal to the effect of climate change to ecosystems in terms of danger. In the case of significant investments in cybersecurity technologies and staff training, the global community has become locked up in the eternal war with cyber security threats. The multi-form and changing faces of malware are continuously pushing the boundaries of the cybersecurity practitioners employ various approaches like detection and mitigate in coping with this issue. Some old mannerisms like signature-based detection and behavioral analysis are slow to adapt to the speedy evolution of malware types. Consequently, this paper proposes the utilization of the Deep Learning Model, LSTM networks, and GANs to amplify malware detection accuracy and speed. A fast-growing, state-of-the-art technology that leverages raw bytestream-based data and deep learning architectures, the AI technology provides better accuracy and performance than the traditional methods. Integration of LSTM and GAN model is the technique that is used for the synthetic generation of data, leading to the expansion of the training datasets, and as a result, the detection accuracy is improved. The paper uses the VirusShare dataset which has more than one million unique samples of the malware as the training and evaluation set for the presented models. Through thorough data preparation including tokenization, augmentation, as well as model training, the LSTM and GAN models convey the better performance in the tasks compared to straight classifiers. The research outcomes come out with 98% accuracy that shows the efficiency of deep learning plays a decisive role in proactive cybersecurity defense. Aside from that, the paper studies the output of ensemble learning and model fusion methods as a way to reduce biases and lift model complexity.
翻訳日:2024-05-08 13:41:05 公開日:2024-05-07
# パラメータフリー最適化の安定性に向けて

Towards Stability of Parameter-free Optimization ( http://arxiv.org/abs/2405.04376v1 )

ライセンス: Link先を確認
Yijiang Pang, Shuyang Yu, Bao Hoang, Jiayu Zhou, (参考訳) ハイパーパラメータチューニング、特に適応的勾配学習法における適切な学習率の選択は、依然として課題である。 この課題に対処するために,手動チューニングなしで多様な最適化問題に自動的に適応するように設計されたAdamG (Adam with the Golden Step size) という新しいパラメータフリーオプティマイザを提案する。 AdaGrad-Normアルゴリズムは、AdaGrad-Normがチューニング不要収束を保ち、様々な最適化シナリオで期待される最適ステップサイズを近似するのに役立つと期待されている。 そこで本研究では,従来の性能基準に加えてパラメータフリーオプティマイザの有効性を総合的に評価する,新しい評価基準,安定性を提案する。 実験の結果、AdamGは他のパラメータフリーのベースラインと比較すると、AdamGは、様々な最適化タスクを手動で調整した学習率を用いて、Adamと一貫して同等の優れたパフォーマンスを達成している。

Hyperparameter tuning, particularly the selection of an appropriate learning rate in adaptive gradient training methods, remains a challenge. To tackle this challenge, in this paper, we propose a novel parameter-free optimizer, AdamG (Adam with the golden step size), designed to automatically adapt to diverse optimization problems without manual tuning. The core technique underlying AdamG is our golden step size derived for the AdaGrad-Norm algorithm, which is expected to help AdaGrad-Norm preserve the tuning-free convergence and approximate the optimal step size in expectation w.r.t. various optimization scenarios. To better evaluate tuning-free performance, we propose a novel evaluation criterion, stability, to comprehensively assess the efficacy of parameter-free optimizers in addition to classical performance criteria. Empirical results demonstrate that compared with other parameter-free baselines, AdamG achieves superior performance, which is consistently on par with Adam using a manually tuned learning rate across various optimization tasks.
翻訳日:2024-05-08 13:41:05 公開日:2024-05-07
# 必要なものを選ぶ:シーンテキスト認識・削除・編集のためのアンタングル表現学習

Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing ( http://arxiv.org/abs/2405.04377v1 )

ライセンス: Link先を確認
Boqiang Zhang, Hongtao Xie, Zuan Gao, Yuxin Wang, (参考訳) シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。 異なるシーンテキストタスクは異なる情報を必要とするが、従来の表現学習手法は全てのタスクに密結合した機能を使用し、結果として準最適性能をもたらす。 本稿では,これらの2種類の特徴を解消し,様々な下流タスク(本当に必要なものを選ぶ)への適応性を改善することを目的としたDAR(Disentangled Representation Learning framework)を提案する。 具体的には、同じスタイルだが異なる内容のイメージペアのデータセットを合成する。 データセットに基づいて、監督設計により2種類の特徴を分離する。 明らかに、視覚的表現をスタイルとコンテンツ特徴に分割し、コンテンツ特徴はテキスト認識損失によって監督され、アライメント損失は画像ペアのスタイル特徴と整列する。 そして、相手のコンテンツを示すプロンプトを用いて、画像デコーダを介して相手の画像を再構成する際のスタイル特徴を用いる。 このような操作は、特徴的特性に基づいて、効果的に特徴を分離する。 我々の知る限りでは、シーンテキストの分野において、テキスト画像の固有の特性を乱すのはこれが初めてである。 本手法は,シーンテキスト認識,削除,編集における最先端のパフォーマンスを実現する。

Scene text images contain not only style information (font, background) but also content information (character, texture). Different scene text tasks need different information, but previous representation learning methods use tightly coupled features for all tasks, resulting in sub-optimal performance. We propose a Disentangled Representation Learning framework (DARLING) aimed at disentangling these two types of features for improved adaptability in better addressing various downstream tasks (choose what you really need). Specifically, we synthesize a dataset of image pairs with identical style but different content. Based on the dataset, we decouple the two types of features by the supervision design. Clearly, we directly split the visual representation into style and content features, the content features are supervised by a text recognition loss, while an alignment loss aligns the style features in the image pairs. Then, style features are employed in reconstructing the counterpart image via an image decoder with a prompt that indicates the counterpart's content. Such an operation effectively decouples the features based on their distinctive properties. To the best of our knowledge, this is the first time in the field of scene text that disentangles the inherent properties of the text images. Our method achieves state-of-the-art performance in Scene Text Recognition, Removal, and Editing.
翻訳日:2024-05-08 13:41:05 公開日:2024-05-07
# $\textbf{Splat-MOVER}$: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting

$\textbf{Splat-MOVER}$: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting ( http://arxiv.org/abs/2405.04378v1 )

ライセンス: Link先を確認
Ola Shorinwa, Johnathan Tucker, Aliyah Smith, Aiden Swann, Timothy Chen, Roya Firoozi, Monroe Kennedy III, Mac Schwager, (参考訳) オープンボキャブラリロボット操作のためのモジュール型ロボットスタックであるSplat-MOVERを提案する。 Splat-MOVER は以下の通りである。 i) $\textit{ASK-Splat}$は、言語意味論の潜在コードを蒸留し、3Dシーンに余裕をつかむGSplat表現である。 ASK-Splatは3Dシーンの幾何学的、意味的、余計な理解を可能にする。 (ii) $\textit{SEE-Splat}$, 3Dセマンティックマスクと埋め込んだリアルタイムのシーン編集モジュールで、現実世界におけるロボットのインタラクションによって生じるオブジェクトの動きを視覚化する。 SEE-Splatは、操作タスク全体を通して進化する環境の「デジタルツイン」を生成します。 (iii)$\textit{Grasp-Splat}$は、ASK-SplatとSEE-Splatを使用して、オープンワールドオブジェクトの候補グリップを提案するグリップ生成モジュールである。 ASK-Splatは運用前にRGBイメージから短時間のスキャンフェーズでリアルタイムにトレーニングされ、SEE-SplatとGrasp-Splatは運用中にリアルタイムに実行される。 本研究では,Kinovaロボットのハードウェア実験におけるSplat-MOVERの性能を,1段のオープン語彙操作タスクと,既存のベースラインでは不可能な以前の操作ステージによるシーン変化を反映するための編集シーンを用いた4つの複数ステージ操作タスクで比較した。 このプロジェクトのコードとプロジェクトページへのリンクは近く公開される予定だ。

We present Splat-MOVER, a modular robotics stack for open-vocabulary robotic manipulation, which leverages the editability of Gaussian Splatting (GSplat) scene representa- tions to enable multi-stage manipulation tasks. Splat-MOVER consists of: (i) $\textit{ASK-Splat}$, a GSplat representation that distills latent codes for language semantics and grasp affordance into the 3D scene. ASK-Splat enables geometric, semantic, and affordance understanding of 3D scenes, which is critical for many robotics tasks; (ii) $\textit{SEE-Splat}$, a real-time scene-editing module using 3D semantic masking and infilling to visualize the motions of objects that result from robot interactions in the real-world. SEE-Splat creates a "digital twin" of the evolving environment throughout the manipulation task; and (iii) $\textit{Grasp- Splat}$, a grasp generation module that uses ASK-Splat and SEE-Splat to propose candidate grasps for open-world objects. ASK-Splat is trained in real-time from RGB images in a brief scanning phase prior to operation, while SEE-Splat and Grasp- Splat run in real-time during operation. We demonstrate the superior performance of Splat-MOVER in hardware experiments on a Kinova robot compared to two recent baselines in four single-stage, open-vocabulary manipulation tasks, as well as in four multi-stage manipulation tasks using the edited scene to reflect scene changes due to prior manipulation stages, which is not possible with the existing baselines. Code for this project and a link to the project page will be made available soon.
翻訳日:2024-05-08 13:41:05 公開日:2024-05-07
# プラグマティズムの知性 - 有用性の原則がANNにもたらすべきところ

Pragmatist Intelligence: Where the Principle of Usefulness Can Take ANNs ( http://arxiv.org/abs/2405.04386v1 )

ライセンス: Link先を確認
Antonio Bikić, Sayan Mukherjee, (参考訳) 人工知能ニューラルネットワーク(ANN)は、分類や予測、例えば、音声処理、画像分類など、多くのタスクで特別に実行される。 これらの新しい関数は計算モデルに基づいており、最終的に提示されるはずの機能を提供する限り、必要なすべての内部モデルパラメータを自由に選択することができる。 本稿では、ANN上で動作する機械学習アルゴリズムにおけるモデルパラメータ選択と、その理論の実用性と反表現主義的側面に着目したネオプラグマティズムの認識論的理論との関係を概説する。 ANNのモデルパラメータ選択の結果を理解するために,本論文では,その意味がよく研究されている新プラグマティズム理論を用いることを提案する。 なお、ネオプラグマティズムの最適化の概念も実用性に基づくものである。 これは、この手法を適用することによって、MLにおける最適化と学習フェーズにおける数値的手法と、それが行動の最大値として起こる連続性理論における最適化との間の固有の関係をエレガントに明らかにすることを意味する。 これらの関係は,MLシステムにおける関連性の計算方法に起因していることが示唆された。 これは最終的にMLシステムにおける特定のアクションの傾向を示す可能性がある。

Artificial neural networks (ANNs) perform extraordinarily on numerous tasks including classification or prediction, e.g., speech processing and image classification. These new functions are based on a computational model that is enabled to select freely all necessary internal model parameters as long as it eventually delivers the functionality it is supposed to exhibit. Here, we review the connection between the model parameter selection in machine learning (ML) algorithms running on ANNs and the epistemological theory of neopragmatism focusing on the theory's utility and anti-representationalist aspects. To understand the consequences of the model parameter selection of an ANN, we suggest using neopragmatist theories whose implications are well studied. Incidentally, neopragmatism's notion of optimization is also based on utility considerations. This means that applying this approach elegantly reveals the inherent connections between optimization in ML, using a numerical method during the learning phase, and optimization in the ethical theory of consequentialism, where it occurs as a maxim of action. We suggest that these connections originate from the way relevance is calculated in ML systems. This could ultimately reveal a tendency for specific actions in ML systems.
翻訳日:2024-05-08 13:41:05 公開日:2024-05-07
# DriveWorld: 自動運転のための世界モデルによる4D事前学習シーン理解

DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving ( http://arxiv.org/abs/2405.04390v1 )

ライセンス: Link先を確認
Chen Min, Dawei Zhao, Liang Xiao, Jian Zhao, Xinli Xu, Zheng Zhu, Lei Jin, Jianshu Li, Yulan Guo, Junliang Xing, Liping Jing, Yiming Nie, Bin Dai, (参考訳) ビジョン中心の自動運転は、最近コストの低さから注目を集めている。 事前学習は普遍表現の抽出に不可欠である。 しかし、現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。 本稿では,マルチカメラ駆動ビデオから時空間的に事前学習が可能な,世界モデルに基づく自動運転4D表現学習フレームワーク「emph{DriveWorld}」を導入することで,この問題に対処する。 具体的には、時空間モデリングのためのメモリ状態空間モデルを提案し、将来の変化を予測するための時空間認識潜時ダイナミクスを学習するための動的メモリバンクモジュールと、空間認識潜時静的を学習して総合的なシーンコンテキストを提供する静的シーン伝搬モジュールからなる。 さらに、さまざまな下流タスクのタスク認識機能を分離するTask Promptを導入します。 この実験は、DriveWorldが様々な自動運転タスクに対して有望な結果をもたらすことを示した。 OpenSceneデータセットで事前トレーニングされた場合、DriveWorldは3Dオブジェクト検出のためのmAPの7.5%増加、オンラインマッピングのためのIoUの3.0%増加、多目的追跡のためのAMOTAの5.0%増加、モーション予測のためのminADEの0.1m減少、占有予測のためのIoUの3.0%増加、計画のための平均L2エラーの0.34m減少を達成する。

Vision-centric autonomous driving has recently raised wide attention due to its lower cost. Pre-training is essential for extracting a universal representation. However, current vision-centric pre-training typically relies on either 2D or 3D pre-text tasks, overlooking the temporal characteristics of autonomous driving as a 4D scene understanding task. In this paper, we address this challenge by introducing a world model-based autonomous driving 4D representation learning framework, dubbed \emph{DriveWorld}, which is capable of pre-training from multi-camera driving videos in a spatio-temporal fashion. Specifically, we propose a Memory State-Space Model for spatio-temporal modelling, which consists of a Dynamic Memory Bank module for learning temporal-aware latent dynamics to predict future changes and a Static Scene Propagation module for learning spatial-aware latent statics to offer comprehensive scene contexts. We additionally introduce a Task Prompt to decouple task-aware features for various downstream tasks. The experiments demonstrate that DriveWorld delivers promising results on various autonomous driving tasks. When pre-trained with the OpenScene dataset, DriveWorld achieves a 7.5% increase in mAP for 3D object detection, a 3.0% increase in IoU for online mapping, a 5.0% increase in AMOTA for multi-object tracking, a 0.1m decrease in minADE for motion forecasting, a 3.0% increase in IoU for occupancy prediction, and a 0.34m reduction in average L2 error for planning.
翻訳日:2024-05-08 13:41:05 公開日:2024-05-07
# BILTS : 剛体運動のための新しい二変量局所軌跡形記述子

BILTS: A novel bi-invariant local trajectory-shape descriptor for rigid-body motion ( http://arxiv.org/abs/2405.04392v1 )

ライセンス: Link先を確認
Arno Verduyn, Erwin Aertbeliën, Glenn Maes, Joris De Schutter, Maxim Vochten, (参考訳) 運動と確立された運動モデルとの類似性を測定することは、運動分析、認識、生成、適応に不可欠である。 多様な文脈における類似度測定を強化するため、不変な運動記述子が提案されている。 しかし、剛体運動では、運動を記述するために使われる身体と世界参照フレームの両方に不変なバイ不変な不変な記述子はほとんど存在しない。 さらに、特異点に対するロバスト性は限定的である。 本稿では, Bi-Invariant Local Trajectory-Shape Descriptor (BILTS) とそれに対応する異種性尺度を提案する。 BILTSと既存の記述子の間の数学的関係が導出され、それらの性質に関する新たな洞察を提供する。 また,BILTS記述子からの動作を再現するアルゴリズムも含み,その双方向性と軌道生成の有用性を示した。 日常活動のデータセットを用いた実験的な検証は、BILTS記述子の方がバイ不変ISA記述子よりも高いロバスト性を示す。 この高いロバスト性は、モーション認識と一般化のための2不変記述子のさらなる応用をサポートする。

Measuring the similarity between motions and established motion models is crucial for motion analysis, recognition, generation, and adaptation. To enhance similarity measurement across diverse contexts, invariant motion descriptors have been proposed. However, for rigid-body motion, few invariant descriptors exist that are bi-invariant, meaning invariant to both the body and world reference frames used to describe the motion. Moreover, their robustness to singularities is limited. This paper introduces a novel Bi-Invariant Local Trajectory-Shape descriptor (BILTS) and a corresponding dissimilarity measure. Mathematical relationships between BILTS and existing descriptors are derived, providing new insights into their properties. The paper also includes an algorithm to reproduce the motion from the BILTS descriptor, demonstrating its bidirectionality and usefulness for trajectory generation. Experimental validation using datasets of daily-life activities shows the higher robustness of the BILTS descriptor compared to the bi-invariant ISA descriptor. This higher robustness supports the further application of bi-invariant descriptors for motion recognition and generalization.
翻訳日:2024-05-08 13:41:05 公開日:2024-05-07
# 帯域フィードバックを用いた効率的なオンライン設定値分類

Efficient Online Set-valued Classification with Bandit Feedback ( http://arxiv.org/abs/2405.04393v1 )

ライセンス: Link先を確認
Zhou Wang, Xingye Qiao, (参考訳) コンフォーマル予測(Conformal prediction)は、所定の機械学習モデルをラップし、真のラベルを所定のカバレッジ率で含む可塑性ラベルのセットを返す、分散フリーな手法である。 実際に得られた経験的カバレッジは、モデルフィッティングのトレーニングフェーズと量子推定のキャリブレーションフェーズの両方において、データから完全に観測されたラベル情報に大きく依存している。 この依存は、学習者が行動の正しさ(つまり腕を引っ張る)にのみアクセスでき、真のラベルの完全な情報にアクセスできない、盗聴フィードバックを伴うオンライン学習の文脈において課題となる。 特に、プルアームが正しくない場合、学習者はプルアームが真のクラスラベルではないことをのみ知るが、どのラベルが正しいかを知らない。 さらに、バンディットフィードバックにより、キャリブレーションのためのラベル付きデータセットがより小さくなり、正しいアクションを持つインスタンスに制限され、量子推定の精度に影響を及ぼす。 これらの制約に対処するため,Bandit Class-specific Conformal Prediction (BCCP)を提案する。 真のラベルを含む推定値の偏りのない推定を用いて、BCCPはモデルを訓練し、確率的勾配勾配による集合値推論を行う。 提案手法は,各反復における少ないラベル付きデータの課題を克服し,オンライン意思決定環境への適合予測の信頼性と適用性を一般化する。

Conformal prediction is a distribution-free method that wraps a given machine learning model and returns a set of plausible labels that contain the true label with a prescribed coverage rate. In practice, the empirical coverage achieved highly relies on fully observed label information from data both in the training phase for model fitting and the calibration phase for quantile estimation. This dependency poses a challenge in the context of online learning with bandit feedback, where a learner only has access to the correctness of actions (i.e., pulled an arm) but not the full information of the true label. In particular, when the pulled arm is incorrect, the learner only knows that the pulled one is not the true class label, but does not know which label is true. Additionally, bandit feedback further results in a smaller labeled dataset for calibration, limited to instances with correct actions, thereby affecting the accuracy of quantile estimation. To address these limitations, we propose Bandit Class-specific Conformal Prediction (BCCP), offering coverage guarantees on a class-specific granularity. Using an unbiased estimation of an estimand involving the true label, BCCP trains the model and makes set-valued inferences through stochastic gradient descent. Our approach overcomes the challenges of sparsely labeled data in each iteration and generalizes the reliability and applicability of conformal prediction to online decision-making environments.
翻訳日:2024-05-08 13:41:05 公開日:2024-05-07
# オートエンコーダグラフ畳み込みネットワークを用いた非均一非構造格子内の超音速流れ場予測

Predicting Transonic Flowfields in Non-Homogeneous Unstructured Grids Using Autoencoder Graph Convolutional Networks ( http://arxiv.org/abs/2405.04396v1 )

ライセンス: Link先を確認
Gabriele Immordino, Andrea Vaiuso, Andrea Da Ronch, Marcello Righi, (参考訳) 本稿では,計算流体力学(CFD)においてよく用いられる非均一非構造格子による問題に対処することに焦点を当てる。 CFDシナリオにおけるそれらの普及は、低次モデルを生成する革新的なアプローチの探求を動機付けている。 アプローチの核となるのは幾何学的深層学習,特にグラフ畳み込みネットワーク(GCN)の利用である。 新規なAutoencoder GCNアーキテクチャは、情報を遠隔ノードに伝播し、影響力のある点を強調することにより、予測精度を向上させる。 このアーキテクチャは、GCN層とエンコーディング/デコードモジュールによって、圧力勾配値に基づいて次元性を減少させる。 オートエンコーダ構造は、重要な特徴を特定するためのネットワーク能力を改善し、より堅牢で正確な予測モデルに寄与する。 提案手法を検証するために,翼のみのモデルと翼体構成の2つの異なるテストケースを解析した。 2次元パラメトリック空間内の定常分布量の高精度な再構成は、実装されたアプローチの信頼性と汎用性を示している。

This paper focuses on addressing challenges posed by non-homogeneous unstructured grids, commonly used in Computational Fluid Dynamics (CFD). Their prevalence in CFD scenarios has motivated the exploration of innovative approaches for generating reduced-order models. The core of our approach centers on geometric deep learning, specifically the utilization of graph convolutional network (GCN). The novel Autoencoder GCN architecture enhances prediction accuracy by propagating information to distant nodes and emphasizing influential points. This architecture, with GCN layers and encoding/decoding modules, reduces dimensionality based on pressure-gradient values. The autoencoder structure improves the network capability to identify key features, contributing to a more robust and accurate predictive model. To validate the proposed methodology, we analyzed two different test cases: wing-only model and wing--body configuration. Precise reconstruction of steady-state distributed quantities within a two-dimensional parametric space underscores the reliability and versatility of the implemented approach.
翻訳日:2024-05-08 13:41:05 公開日:2024-05-07
# トラップイオンおよび超伝導量子ビット技術におけるスタイルベース量子生成逆数ネットワークによるデータ拡張実験

Data augmentation experiments with style-based quantum generative adversarial networks on trapped-ion and superconducting-qubit technologies ( http://arxiv.org/abs/2405.04401v1 )

ライセンス: Link先を確認
Julien Baglio, (参考訳) 現在のノイズの多い中間スケール量子コンピューティングの時代、そしてここ数年で私たちが目にした量子ハードウェアの大きな進歩の後、異なる種類のハードウェアに対して異なる量子アルゴリズムがどのように振る舞うかを理解することが非常に重要である。 これには、それらがまったく実装できるかどうか、そしてもしそうであれば、結果の質がどのようなものかが含まれる。 この研究は、初めて、スタイルベースの量子生成逆数ネットワーク(qGAN)の量子ジェネレータアーキテクチャをどのように実装できるかを定量的に示すとともに、データ拡張のための2つの非常に異なるタイプのハードウェア(超伝導トランスモン量子ビットを用いたHeronチップに基づくIBM bm_torino量子コンピュータと、トラップイオン量子ビットに基づくaria-1 IonQ量子コンピュータ)に対して良い結果をもたらす。 2022年に提案されたスタイルベースのqGANは、qGANの最先端を一般化し、浅い深度ネットワークを可能にする。 両装置で得られた結果は同等品質であり、ia-1デバイスは、ibm_torinoデバイスよりも若干正確な結果を提供する一方、ibm_torinoのランタイムは、ia-1よりもかなり短い。 IBMの量子システム上で最大48キュービット、IonQシステム上で最大24キュービットの回路を並列化することで、ジョブの送信数を削減し、量子プロセッサ上でのランタイムの大幅な削減を可能にして、サンプルの総数を生成する。

In the current noisy intermediate scale quantum computing era, and after the significant progress of the quantum hardware we have seen in the past few years, it is of high importance to understand how different quantum algorithms behave on different types of hardware. This includes whether or not they can be implemented at all and, if so, what the quality of the results is. This work quantitatively demonstrates, for the first time, how the quantum generator architecture for the style-based quantum generative adversarial network (qGAN) can not only be implemented but also yield good results on two very different types of hardware for data augmentation: the IBM bm_torino quantum computer based on the Heron chip using superconducting transmon qubits and the aria-1 IonQ quantum computer based on trapped-ion qubits. The style-based qGAN, proposed in 2022, generalizes the state of the art for qGANs and allows for shallow-depth networks. The results obtained on both devices are of comparable quality, with the aria-1 device delivering somewhat more accurate results than the ibm_torino device, while the runtime on ibm_torino is significantly shorter than on aria-1. Parallelization of the circuits, using up to 48 qubits on IBM quantum systems and up to 24 qubits on the IonQ system, is also presented, reducing the number of submitted jobs and allowing for a substantial reduction of the runtime on the quantum processor to generate the total number of samples.
翻訳日:2024-05-08 13:41:05 公開日:2024-05-07
# LLMの視覚的インストラクションチューニングは、ジェイルブレイク攻撃の危険を増す

Learning To See But Forgetting To Follow: Visual Instruction Tuning Makes LLMs More Prone To Jailbreak Attacks ( http://arxiv.org/abs/2405.04403v1 )

ライセンス: Link先を確認
Georgios Pantazopoulos, Amit Parekh, Malvina Nikandrou, Alessandro Suglia, (参考訳) 画像理解機能を備えた大規模言語モデル(LLM)の拡張は、高パフォーマンスなビジョンランゲージモデル(VLM)のブームをもたらした。 LLMと人的価値の整合性の研究は広く注目されているが、VLMの安全性はそれほど注目されていない。 本稿では,3つの最先端VLMに対するジェイルブレイクの影響を,それぞれ異なるモデリング手法を用いて検討する。 それぞれのVLMをそれぞれのLDMバックボーンと比較することにより、各VLMはジェイルブレイクの影響を受けやすいことがわかった。 本研究は,LLMの安全ガードレールを忘れてしまう視覚的指導訓練による望ましくない結果であると考えている。 そこで本稿では,VLMの弱点を浮き彫りにすることを目的とした評価戦略に基づく今後の作業の提言と,視覚的指導指導の際の安全対策について考察する。

Augmenting Large Language Models (LLMs) with image-understanding capabilities has resulted in a boom of high-performing Vision-Language models (VLMs). While studying the alignment of LLMs to human values has received widespread attention, the safety of VLMs has not received the same attention. In this paper, we explore the impact of jailbreaking on three state-of-the-art VLMs, each using a distinct modeling approach. By comparing each VLM to their respective LLM backbone, we find that each VLM is more susceptible to jailbreaking. We consider this as an undesirable outcome from visual instruction-tuning, which imposes a forgetting effect on an LLM's safety guardrails. Therefore, we provide recommendations for future work based on evaluation strategies that aim to highlight the weaknesses of a VLM, as well as take safety measures into account during visual instruction tuning.
翻訳日:2024-05-08 13:41:05 公開日:2024-05-07
# Vision Mamba: 総合的な調査と分類

Vision Mamba: A Comprehensive Survey and Taxonomy ( http://arxiv.org/abs/2405.04404v1 )

ライセンス: Link先を確認
Xiao Liu, Chenxu Zhang, Lei Zhang, (参考訳) 状態空間モデル (State Space Model, SSM) は、動的システムの振る舞いを記述・解析するために用いられる数学的モデルである。 このモデルは、制御理論、信号処理、経済学、機械学習など、いくつかの分野で多くの応用を目撃してきた。 ディープラーニングの分野では、状態空間モデルを用いて時系列解析、自然言語処理(NLP)、ビデオ理解などのシーケンスデータを処理する。 シーケンスデータを状態空間にマッピングすることで、データの長期的な依存関係をよりよくキャプチャできる。 特に、現代のSSMは、線形時間複雑性を維持しながら、特に長いシーケンスモデリングにおいて、NLPにおいて強力な表現能力を示している。 特に、最新の状態空間モデルに基づいて、Mambaは時間変化パラメータをSSMにマージし、効率的なトレーニングと推論のためのハードウェア認識アルゴリズムを定式化する。 優れた効率性と強力な長距離依存性モデリング機能を考えると、MambaはTransformerよりも優れた、新たなAIアーキテクチャになることが期待されている。 近年,マルチモーダル,医療画像分析,リモートセンシング画像解析など,さまざまな分野におけるマンバの可能性について,自然言語領域から視覚領域への拡張による研究が試みられている。 視覚領域におけるマンバの理解を深めるために,包括的調査を行い,分類学的研究を行う。 この調査は、様々な視覚的タスクやデータタイプへのMambaの応用に焦点を当て、その先駆者、最近の進歩、広範囲のドメインに対する広範囲な影響について論じる。 Mambaは現在、上昇傾向にあるので、新しい発見があったら積極的にお知らせください。Mambaの新しい進捗は、この調査にタイムリーに含まれ、https://github.com/lx6c78/Vision-Mamba-A-Comprehensive-Survey-and-Taxonomy.comでMambaプロジェクトで更新されます。

State Space Model (SSM) is a mathematical model used to describe and analyze the behavior of dynamic systems. This model has witnessed numerous applications in several fields, including control theory, signal processing, economics and machine learning. In the field of deep learning, state space models are used to process sequence data, such as time series analysis, natural language processing (NLP) and video understanding. By mapping sequence data to state space, long-term dependencies in the data can be better captured. In particular, modern SSMs have shown strong representational capabilities in NLP, especially in long sequence modeling, while maintaining linear time complexity. Notably, based on the latest state-space models, Mamba merges time-varying parameters into SSMs and formulates a hardware-aware algorithm for efficient training and inference. Given its impressive efficiency and strong long-range dependency modeling capability, Mamba is expected to become a new AI architecture that may outperform Transformer. Recently, a number of works have attempted to study the potential of Mamba in various fields, such as general vision, multi-modal, medical image analysis and remote sensing image analysis, by extending Mamba from natural language domain to visual domain. To fully understand Mamba in the visual domain, we conduct a comprehensive survey and present a taxonomy study. This survey focuses on Mamba's application to a variety of visual tasks and data types, and discusses its predecessors, recent advances and far-reaching impact on a wide range of domains. Since Mamba is now on an upward trend, please actively notice us if you have new findings, and new progress on Mamba will be included in this survey in a timely manner and updated on the Mamba project at https://github.com/lx6c78/Vision-Mamba-A-Comprehensive-Survey-and-Taxonomy.
翻訳日:2024-05-08 13:41:05 公開日:2024-05-07
# マルチインスタンス不確実性推定のための弱教師付き残差情報学習

Weakly-Supervised Residual Evidential Learning for Multi-Instance Uncertainty Estimation ( http://arxiv.org/abs/2405.04405v1 )

ライセンス: Link先を確認
Pei Liu, Luping Ji, (参考訳) 不確実性推定(UE)は、予測の不確実性を定量化する有効な手段であり、特にリスクの高いシナリオにおいて、安全で信頼性の高い意思決定に不可欠である。 既存のUEスキームは通常、完全に教師付き学習をサポートするために完全にラベル付けされたサンプルが存在すると仮定する。 しかし実際には、多くのUEタスクは、弱いインスタンスアノテーションしか持たないMIL(Multiple Instance Learning)のような十分なラベル付きデータを持っていないことが多い。 このギャップを埋めるために,本論文は,Multi-Instance UE(MIUE)の弱教師付き問題に初めて対処し,新しいベースラインスキームであるMulti-Instance Residual Evidential Learning(MIREL)を提案する。 特に、弱監督しか持たない微細なインスタンス UE において、シンメトリ関数の基本定理を通した多重インスタンス残差作用素を導出する。 この演算子の導出により,MIRELはバッグの高次予測分布とMIUEのインスタンスレベルを共同でモデル化する。 大規模な実験により、MIUEにおいて既存のMILネットワークの性能を向上するだけでなく、特にインスタンスレベルのUEタスクにおいて、UEメソッドを大きなマージンで上回ることが実証された。

Uncertainty estimation (UE), as an effective means of quantifying predictive uncertainty, is crucial for safe and reliable decision-making, especially in high-risk scenarios. Existing UE schemes usually assume that there are completely-labeled samples to support fully-supervised learning. In practice, however, many UE tasks often have no sufficiently-labeled data to use, such as the Multiple Instance Learning (MIL) with only weak instance annotations. To bridge this gap, this paper, for the first time, addresses the weakly-supervised issue of Multi-Instance UE (MIUE) and proposes a new baseline scheme, Multi-Instance Residual Evidential Learning (MIREL). Particularly, at the fine-grained instance UE with only weak supervision, we derive a multi-instance residual operator through the Fundamental Theorem of Symmetric Functions. On this operator derivation, we further propose MIREL to jointly model the high-order predictive distribution at bag and instance levels for MIUE. Extensive experiments empirically demonstrate that our MIREL not only could often make existing MIL networks perform better in MIUE, but also could surpass representative UE methods by large margins, especially in instance-level UE tasks.
翻訳日:2024-05-08 13:41:05 公開日:2024-05-07
# UCT, AlphaGo, Variantsの超指数レジストレーション

Super-Exponential Regret for UCT, AlphaGo and Variants ( http://arxiv.org/abs/2405.04407v1 )

ライセンス: Link先を確認
Laurent Orseau, Remi Munos, (参考訳) We improve the proofs of the lower bounds of Coquelin and Munos (2007) that demonstrate that UCT can have $\exp(\dots\exp(1)\dots)$ regret (with $\Omega(D)$ exp terms) on the $D$-chain environment and that `polynomial' UCT variant have $\exp_2(\exp_2(D - O(\log D)))$ regret on the same environment -- the original proofs contains an oversight for rewards bounded in $[0, 1]$。 また、AlphaGoのMCTSとその子孫(例えば、AlphaZero、Leela Zero)にも証明を適用して、$\exp_2(\exp_2(D - O(\log D)))$ regretを示す。

We improve the proofs of the lower bounds of Coquelin and Munos (2007) that demonstrate that UCT can have $\exp(\dots\exp(1)\dots)$ regret (with $\Omega(D)$ exp terms) on the $D$-chain environment, and that a `polynomial' UCT variant has $\exp_2(\exp_2(D - O(\log D)))$ regret on the same environment -- the original proofs contain an oversight for rewards bounded in $[0, 1]$, which we fix in the present draft. We also adapt the proofs to AlphaGo's MCTS and its descendants (e.g., AlphaZero, Leela Zero) to also show $\exp_2(\exp_2(D - O(\log D)))$ regret.
翻訳日:2024-05-08 13:31:20 公開日:2024-05-07
# DocRes: ドキュメントイメージ復元タスクの統合に向けた汎用モデル

DocRes: A Generalist Model Toward Unifying Document Image Restoration Tasks ( http://arxiv.org/abs/2405.04408v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Dezhi Peng, Chongyu Liu, Peirong Zhang, Lianwen Jin, (参考訳) 文書画像の品質が全体的なパフォーマンスに大きく影響するため、文書画像復元はドキュメントAIシステムにおいて重要な側面である。 一般的な手法は、個別に異なる復元作業に対処し、複雑なシステムとマルチタスク学習の潜在的なシナジーを利用することができない。 この課題を克服するために,デウォープ,デシェードイング,外観向上,デブロアリング,バイナライゼーションを含む5つの文書画像復元タスクを統一する汎用モデルDocResを提案する。 DocResに様々な復元タスクを指示するために,Dynamic Task-Specific Prompt (DTSPrompt) と呼ばれる新しい視覚的プロンプト手法を提案する。 異なるタスクに対するDTSプロンプトは、入力画像から抽出された付加的な特徴である、異なる事前特徴から構成される。 タスク固有の実行のキューとしての役割に加えて、DTSPromptはモデルのパフォーマンスを高める補助情報としても機能する。 さらに、DTSPromptは、高解像度で可変解像度の入力にシームレスに適用できるため、従来の視覚的プロンプトアプローチよりも柔軟である。 実験の結果,DocResは既存の最先端タスク固有モデルと比較して,競争力や性能に優れていた。 これはドキュメントイメージ復元タスクの幅広い範囲にわたってDocResの可能性を浮き彫りにしている。 ソースコードはhttps://github.com/ZZHANG-jx/DocResで公開されている。

Document image restoration is a crucial aspect of Document AI systems, as the quality of document images significantly influences the overall performance. Prevailing methods address distinct restoration tasks independently, leading to intricate systems and the incapability to harness the potential synergies of multi-task learning. To overcome this challenge, we propose DocRes, a generalist model that unifies five document image restoration tasks including dewarping, deshadowing, appearance enhancement, deblurring, and binarization. To instruct DocRes to perform various restoration tasks, we propose a novel visual prompt approach called Dynamic Task-Specific Prompt (DTSPrompt). The DTSPrompt for different tasks comprises distinct prior features, which are additional characteristics extracted from the input image. Beyond its role as a cue for task-specific execution, DTSPrompt can also serve as supplementary information to enhance the model's performance. Moreover, DTSPrompt is more flexible than prior visual prompt approaches as it can be seamlessly applied and adapted to inputs with high and variable resolutions. Experimental results demonstrate that DocRes achieves competitive or superior performance compared to existing state-of-the-art task-specific models. This underscores the potential of DocRes across a broader spectrum of document image restoration tasks. The source code is publicly available at https://github.com/ZZZHANG-jx/DocRes
翻訳日:2024-05-08 13:31:20 公開日:2024-05-07
# Silicon Ceiling:GPTの人種と雇用におけるジェンダーのバイアスを調査

The Silicone Ceiling: Auditing GPT's Race and Gender Biases in Hiring ( http://arxiv.org/abs/2405.04412v1 )

ライセンス: Link先を確認
Lena Armstrong, Abbey Liu, Stephen MacNeil, Danaë Metaxa, (参考訳) 大規模言語モデル(LLM)は、効率性と公平性の向上を目標として、職場環境でますます導入されている。 しかし、これらのモデルが社会的バイアスやステレオタイプを反映または悪化させる可能性を懸念する声が上がっている。 本研究では,LLMが雇用実践に与える影響について検討する。 そこで我々は,従来のオフライン履歴監査の歴史から着想を得て,レースとジェンダーの偏見のアルゴリズム監査を行う。 人種と性別の異なる名前を用いて2つの研究を行う: 再開アセスメント(研究1)と再開アセスメント(研究2)。 研究1では、GPTに32の異なる名前(2つの性別と4つの人種グループの組み合わせごとに4つの名前)と10の職業と3つの評価タスク(すべての評価、面接への意欲、雇用可能性)の匿名オプションをスコアアップするよう依頼する。 モデルがステレオタイプに基づくバイアスを反映していることが分かる。 研究2では,GPTに対して,架空の求職候補者の履歴書(名前毎に10)を作成するよう促す。 女性の履歴書は経験の少ない職業を持ち、アジア系とヒスパニック系の履歴書は非ネイティブの英語や非アメリカの教育や仕事の経験のような移民のマーカーを持っていた。 本研究は,特に職場環境におけるLCMバイアスに関する文献の増大に寄与する。

Large language models (LLMs) are increasingly being introduced in workplace settings, with the goals of improving efficiency and fairness. However, concerns have arisen regarding these models' potential to reflect or exacerbate social biases and stereotypes. This study explores the potential impact of LLMs on hiring practices. To do so, we conduct an algorithm audit of race and gender biases in one commonly-used LLM, OpenAI's GPT-3.5, taking inspiration from the history of traditional offline resume audits. We conduct two studies using names with varied race and gender connotations: resume assessment (Study 1) and resume generation (Study 2). In Study 1, we ask GPT to score resumes with 32 different names (4 names for each combination of the 2 gender and 4 racial groups) and two anonymous options across 10 occupations and 3 evaluation tasks (overall rating, willingness to interview, and hireability). We find that the model reflects some biases based on stereotypes. In Study 2, we prompt GPT to create resumes (10 for each name) for fictitious job candidates. When generating resumes, GPT reveals underlying biases; women's resumes had occupations with less experience, while Asian and Hispanic resumes had immigrant markers, such as non-native English and non-U.S. education and work experiences. Our findings contribute to a growing body of literature on LLM biases, in particular when used in workplace contexts.
翻訳日:2024-05-08 13:31:20 公開日:2024-05-07
# 100Gbpsの量子セーフIPsec VPNトンネルが46kmの展開ファイバで稼働

100 Gbps Quantum-safe IPsec VPN Tunnels over 46 km Deployed Fiber ( http://arxiv.org/abs/2405.04415v1 )

ライセンス: Link先を確認
Obada Alia, Albert Huang, Huan Luo, Omar Amer, Marco Pistoia, Charles Lim, (参考訳) 量子鍵分布(QKD)技術を用いて,量子セーフ100Gbpsのサイト間IPsecトンネルを初めて実証した。 デモは2つのJPMorgan Chase Data Center(DC)間で実施され、シンガポール全域に46kmのテレコムファイバーが配備され、45日間の連続運用が行われた。 1) 最大スループット80GbpsのQKDセキュアVPNトンネル構成と,2) 最大スループット8.39Gbpsの12QKDセキュアVPNトンネル構成により,全トンネルの総スループット99.62Gbpsとなる。 QKDシステムの性能では、平均シークレットキーレート(SKR)は7.4kbps(毎秒29AES-256キー)、平均量子ビットエラーレート(QBER)は0.8%、平均可視性は98.6%に達した。 ETSI-QKD-014 RESTベースのアプリケーションプログラミングインタフェース(API)を用いて、QKDシステム内のキー管理サーバと次世代ファイアウォール間でQKD生成キーを交換し、データを暗号化し復号する。 データは、VPNトンネル接続と性能に影響を与えることなく、キーリフレッシュレート120秒のAES-256-GCM暗号スイートを使用して、量子セーフキーによって暗号化された。

We demonstrated for the first time quantum-safe high-speed 100 Gbps site-to-site IPsec tunnels secured using Quantum Key Distribution (QKD) technology. The demonstration was conducted between two JPMorgan Chase Data Centers (DCs) in an air-gapped environment over 46 km of deployed telecom fiber across Singapore achieving 45 days of continuous operation. Two different Virtual Private Network (VPN) tunnel configurations were tested: (1) a QKD-secured VPN tunnel configuration with a maximum throughput of 80 Gbps and (2) a multi-VPN tunnel configuration exhibiting 12 QKD-secured VPN tunnels with a throughput of 8.39 Gbps per tunnel resulting in an aggregated throughput of 99.62 Gbps for all tunnels. For the QKD system performance, we achieved an average Secret Key Rate (SKR) of 7.4 kbps (about 29 AES-256 keys per second), an average Quantum Bit Error Rate (QBER) of 0.8% and an average visibility of 98.6%. We utilized the ETSI-QKD-014 REST-based Application Programming Interface (API) to exchange the QKD generated keys between the key management server in the QKD system and the next-generation firewalls in order to encrypt and decrypt the data. The data was encrypted by the quantum-safe keys using the AES-256-GCM cipher suite with a key refresh rate of 120 seconds without affecting the VPN tunnel connectivity and performance
翻訳日:2024-05-08 13:31:20 公開日:2024-05-07
# DistGrid:分散マルチ解像度ハッシュグリッドによるスケーラブルなシーン再構築

DistGrid: Scalable Scene Reconstruction with Distributed Multi-resolution Hash Grid ( http://arxiv.org/abs/2405.04416v1 )

ライセンス: Link先を確認
Sidun Liu, Peng Qiao, Zongxin Ye, Wenyu Li, Yong Dou, (参考訳) ニューラルレージアンスフィールド〜(NeRF)は、オブジェクトスケールおよび屋内シーンの再構成において極めて高品質な。 しかし、大規模な舞台の再建にはいくつかの課題がある。 MLPベースのNeRFは限られたネットワーク容量に悩まされ、ボリュームベースのNeRFはシーン解像度が大きくなるとメモリ消費が大きくなる。 近年のアプローチでは、シーンを地理的に分割し、個々のNeRFを用いて各サブリージョンを学習する手法が提案されている。 このようなパーティショニング戦略は、ボリュームベースのNeRFが単一のGPUメモリ制限を超え、より大きなシーンにスケールするのに役立つ。 しかし、このアプローチでは、分割外光を処理するために複数のバックグラウンドNeRFが必要であるため、学習の冗長性が生じる。 本研究では,現在のパーティションの背景が隣接するパーティションの背景にあるという事実に触発されて,DistGrid という共同のマルチレゾリューション・ハッシュ・グリッドに基づくスケーラブルなシーン再構築手法を提案する。 本手法では,複数の密に舗装された非重畳された軸方向境界ボックスにシーンを分割し,クロスバウンダリ線を扱うために新しいセグメント化ボリュームレンダリング法を提案し,背景NeRFを不要とした。 実験により,提案手法は大規模シーンすべてにおいて既存の手法よりも優れており,視覚的にも可視的なシーン再構成を提供することが示された。 本手法の再現性に関するスケーラビリティを質的,定量的に評価する。

Neural Radiance Field~(NeRF) achieves extremely high quality in object-scaled and indoor scene reconstruction. However, there exist some challenges when reconstructing large-scale scenes. MLP-based NeRFs suffer from limited network capacity, while volume-based NeRFs are heavily memory-consuming when the scene resolution increases. Recent approaches propose to geographically partition the scene and learn each sub-region using an individual NeRF. Such partitioning strategies help volume-based NeRF exceed the single GPU memory limit and scale to larger scenes. However, this approach requires multiple background NeRF to handle out-of-partition rays, which leads to redundancy of learning. Inspired by the fact that the background of current partition is the foreground of adjacent partition, we propose a scalable scene reconstruction method based on joint Multi-resolution Hash Grids, named DistGrid. In this method, the scene is divided into multiple closely-paved yet non-overlapped Axis-Aligned Bounding Boxes, and a novel segmented volume rendering method is proposed to handle cross-boundary rays, thereby eliminating the need for background NeRFs. The experiments demonstrate that our method outperforms existing methods on all evaluated large-scale scenes, and provides visually plausible scene reconstruction. The scalability of our method on reconstruction quality is further evaluated qualitatively and quantitatively.
翻訳日:2024-05-08 13:31:20 公開日:2024-05-07
# 効率的なプロフシステムブロックチェーンにおける完全自動自家マイニング解析

Fully Automated Selfish Mining Analysis in Efficient Proof Systems Blockchains ( http://arxiv.org/abs/2405.04420v1 )

ライセンス: Link先を確認
Krishnendu Chatterjee, Amirali Ebrahimzadeh, Mehrdad Karrabi, Krzysztof Pietrzak, Michelle Yeo, Đorđe Žikelić, (参考訳) 我々は、Bitcoinのような長鎖ブロックチェーンにおける利己的なマイニング攻撃について研究するが、そこでは、仕事の証明が効率的な証明システム(利害関係の証明や宇宙の証明など)に置き換えられ、敵の予想される相対的な収益を最大化する最適な利己的なマイニング攻撃を計算することの問題を考慮し、チェーンの品質を最小化する。 そこで我々は,この目的を最大化し,マルコフ決定プロセス(MDP)としての攻撃を形式的にモデル化することを目的とした,新たな自家的マイニング攻撃を提案する。 次に、MDPの最適相対収益を$\epsilon$-tight下限とする形式解析手順と、この$\epsilon$-tight下限を達成する戦略を提示する。 我々の分析は完全に自動化されており、正確性に関する正式な保証を提供する。 自尊心の強い鉱業攻撃を評価し, 2つのベースラインに比較して, 予想される相対収益が上回っていることを観察した。 並列処理(Sarenche FC'24)では、効率的な証明システムに基づく予測可能な最長チェーンブロックチェーンにおいて、自己中心的なマイニングを自動で分析する。 予測可能(predictable)とは、多くのブロック(例:Ouroboros)に対して、チャレンジのランダム性が固定されることを意味する。

We study selfish mining attacks in longest-chain blockchains like Bitcoin, but where the proof of work is replaced with efficient proof systems -- like proofs of stake or proofs of space -- and consider the problem of computing an optimal selfish mining attack which maximizes expected relative revenue of the adversary, thus minimizing the chain quality. To this end, we propose a novel selfish mining attack that aims to maximize this objective and formally model the attack as a Markov decision process (MDP). We then present a formal analysis procedure which computes an $\epsilon$-tight lower bound on the optimal expected relative revenue in the MDP and a strategy that achieves this $\epsilon$-tight lower bound, where $\epsilon>0$ may be any specified precision. Our analysis is fully automated and provides formal guarantees on the correctness. We evaluate our selfish mining attack and observe that it achieves superior expected relative revenue compared to two considered baselines. In concurrent work [Sarenche FC'24] does an automated analysis on selfish mining in predictable longest-chain blockchains based on efficient proof systems. Predictable means the randomness for the challenges is fixed for many blocks (as used e.g., in Ouroboros), while we consider unpredictable (Bitcoin-like) chains where the challenge is derived from the previous block.
翻訳日:2024-05-08 13:31:20 公開日:2024-05-07
# 位相拡散状態におけるジョセフソンしきい値検出器

Josephson threshold detector in the phase diffusion regime ( http://arxiv.org/abs/2405.04426v1 )

ライセンス: Link先を確認
Dmitry A. Ladeynov, Andrey L. Pankratov, Leonid S. Revin, Anna V. Gordeeva, Evgeny V. Ilichev, (参考訳) 本研究では,Al Josephson接合を用いたしきい値検出器の性能を位相拡散系を利用して大幅に向上できることを実証した。 検出器の脱出ダイナミクスがこの状態に切り替えると、ダークカウント率とスイッチング電流の標準偏差の両方が同時に減少する。 しかし、この効果は不可欠である。 (i)臨界電流が100nA以下で、 (二)数百ミリケルビンの温度。 このような検出器の最適性能は有限温度で発生し、サブK範囲でもマイクロ波単光子検出が可能となる。 これらの知見を論じる。

We demonstrate that the performance of threshold detectors based on Al Josephson junctions can be significantly improved by exploiting the phase diffusion regime. When the escape dynamics of the detector switches to this regime, a decrease in both - dark count rate and the standard deviation of switching current is simultaneously observed. However, this effect is essential for (i) critical currents below 100 nA, and (ii) temperatures of the order of several hundreds millikelvin. Importantly that for such detectors optimal performance occurs at finite temperatures, making the microwave single photon detection feasible even in the sub-K range. Possible explanation of these findings is discussed.
翻訳日:2024-05-08 13:31:20 公開日:2024-05-07
# DeepSeek-V2: 強力な、経済的、効率的混合型言語モデル

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model ( http://arxiv.org/abs/2405.04434v1 )

ライセンス: Link先を確認
DeepSeek-AI, (参考訳) We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。 合計パラメータは236Bで、そのうち21Bはトークンごとに活性化され、128Kトークンのコンテキスト長をサポートする。 DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。 MLAはキーバリュー(KV)キャッシュを潜在ベクトルに大幅に圧縮することで効率的な推論を保証する一方、DeepSeekMoEはスパース計算によって経済的コストで強力なモデルをトレーニングすることができる。 DeepSeek-V2はDeepSeek 67Bと比較して大幅にパフォーマンスが向上し、トレーニングコストの42.5%を削減し、KVキャッシュを93.3%削減し、最大生成スループットを5.76倍に向上させた。 我々は8.1Tトークンからなる高品質でマルチソースなコーパスでDeepSeek-V2を事前訓練し、その可能性を完全に解放するために、Supervised Fine-Tuning (SFT)とReinforcement Learning (RL)を実行した。 評価結果によると、21Bのアクティベートパラメータしか持たないDeepSeek-V2とそのチャットバージョンは、オープンソースモデルの中でも最高レベルのパフォーマンスを実現している。 モデルチェックポイントは"https://github.com/deepseek-ai/deepSeek-V2"で確認できる。

We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference. It comprises 236B total parameters, of which 21B are activated for each token, and supports a context length of 128K tokens. DeepSeek-V2 adopts innovative architectures including Multi-head Latent Attention (MLA) and DeepSeekMoE. MLA guarantees efficient inference through significantly compressing the Key-Value (KV) cache into a latent vector, while DeepSeekMoE enables training strong models at an economical cost through sparse computation. Compared with DeepSeek 67B, DeepSeek-V2 achieves significantly stronger performance, and meanwhile saves 42.5% of training costs, reduces the KV cache by 93.3%, and boosts the maximum generation throughput to 5.76 times. We pretrain DeepSeek-V2 on a high-quality and multi-source corpus consisting of 8.1T tokens, and further perform Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) to fully unlock its potential. Evaluation results show that, even with only 21B activated parameters, DeepSeek-V2 and its chat versions still achieve top-tier performance among open-source models. The model checkpoints are available at "https://github.com/deepseek-ai/DeepSeek-V2".
翻訳日:2024-05-08 13:31:20 公開日:2024-05-07
# 近近縁ルックアップ(FERN)における高速エクササイズ検索

Fast Exact Retrieval for Nearest-neighbor Lookup (FERN) ( http://arxiv.org/abs/2405.04435v1 )

ライセンス: Link先を確認
Richard Zhu, (参考訳) 厳密な近接探索は計算集約的なプロセスであり、より単純なシブリング(ベクトル探索)さえも計算的に複雑である。 これは、データベース内のベクトル数に対して高次元の$d$を持つベクトルを検索する場合、さらに悪化する。 厳密な近接探索は一般に、サブ線形解を持たない$O(Nd)$問題であると認識されている。 注意は代わりにANN(Adroximate Nearest-Neighbor)検索技術に移行し、その多くはサブ線形あるいは対数的時間的複雑さを持つ。 しかし、二項探索問題(例えば$d=1$ベクトル探索)からの直観が通るなら、解への道を強要することなく、ベクトルの整理された表現を回収する方法があるはずだ。 低次元(例: $d=2$ または $d=3$ の場合)に対して、 \texttt{kd-trees} は検索のための$O(d\log N)$アルゴリズムを提供する。 残念ながらアルゴリズムは急速に劣化し、実際には高次元の$O(dN)$解(例えば$k=128$)になる。 そこで本研究では,近近辺探索(FERN)のための対数的高速実行検索のための新しいアルゴリズムを提案し,そのアルゴリズムを‘texttt{kd-trees} にインスパイアした。 このアルゴリズムは1000万ドルの$d=128$に対して100\%のリコールで$O(d\log N)$ルックアップを達成する。 \footnote{Code available at https://github.com/RichardZhu123/ferns}

Exact nearest neighbor search is a computationally intensive process, and even its simpler sibling -- vector retrieval -- can be computationally complex. This is exacerbated when retrieving vectors which have high-dimension $d$ relative to the number of vectors, $N$, in the database. Exact nearest neighbor retrieval has been generally acknowledged to be a $O(Nd)$ problem with no sub-linear solutions. Attention has instead shifted towards Approximate Nearest-Neighbor (ANN) retrieval techniques, many of which have sub-linear or even logarithmic time complexities. However, if our intuition from binary search problems (e.g. $d=1$ vector retrieval) carries, there ought to be a way to retrieve an organized representation of vectors without brute-forcing our way to a solution. For low dimension (e.g. $d=2$ or $d=3$ cases), \texttt{kd-trees} provide a $O(d\log N)$ algorithm for retrieval. Unfortunately the algorithm deteriorates rapidly to a $O(dN)$ solution at high dimensions (e.g. $k=128$), in practice. We propose a novel algorithm for logarithmic Fast Exact Retrieval for Nearest-neighbor lookup (FERN), inspired by \texttt{kd-trees}. The algorithm achieves $O(d\log N)$ look-up with 100\% recall on 10 million $d=128$ uniformly randomly generated vectors.\footnote{Code available at https://github.com/RichardZhu123/ferns}
翻訳日:2024-05-08 13:31:20 公開日:2024-05-07
# 動的対称性の復元における多重交差と量子Mpemba効果の意義

Multiple crossing during dynamical symmetry restoration and implications for the quantum Mpemba effect ( http://arxiv.org/abs/2405.04436v1 )

ライセンス: Link先を確認
Konstantinos Chalas, Filiberto Ares, Colin Rylands, Pasquale Calabrese, (参考訳) 1次元量子多体系におけるクエンチ後の局所緩和は、豊富な現象論においてよく知られ、非常に活発な問題である。 病的症例を除いて、局所的な緩和は、一様進化によって保存される初期状態によって崩壊した対称性の局所的な復元を伴う。 近年、エンタングルメント非対称性は、拡張量子系における対称性の破れと緩和の間の相互作用を研究するためのプローブとして導入された。 特に、非対称性を用いることで、最初に対称性が破壊されるほど、その高速な復元が可能であることが示されている。 この驚くべき効果は、トラップイオンの実験でも観測されており、Mpemba効果の量子バージョンと見なすことができ、2つの異なる初期対称性の破れ構成の絡み合い非対称性曲線の有限時間での交差によって現れる。 本稿では,初期状態の調整により,自由フェルミオン系の対称性が従来よりもはるかにリッチな振る舞いを示すことを示す。 特に、長距離結合を持つ自由フェルミオンモデルの基底状態を含むある種の初期状態のクラスでは、絡み合い非対称性は複数の交差を示すことができる。 このことは、量子ムペンバ効果の存在が、絡み合い非対称性の遅い時間挙動を調べることでのみ推測できることを示している。

Local relaxation after a quench in 1-D quantum many-body systems is a well known and very active problem with rich phenomenology. Except for pathological cases, the local relaxation is accompanied by the local restoration of the symmetries broken by the initial state that are preserved by the unitary evolution. Recently, the entanglement asymmetry has been introduced as a probe to study the interplay between symmetry breaking and relaxation in an extended quantum system. In particular, using the asymmetry, it has been shown that the more a symmetry is initially broken, the faster it may be restored. This surprising effect, which has been also observed in trapped-ion experiments, can be seen as a quantum version of the Mpemba effect and is manifested by the crossing at a finite time of the entanglement asymmetry curves of two different initial symmetry breaking configurations. In this paper we show, how, by tuning the initial state, the symmetry dynamics in free fermionic systems can display much richer behaviour than seen previously. In particular, for certain classes of initial states, including ground states of free fermionic models with long-range couplings, the entanglement asymmetry can exhibit multiple crossings. This illustrates that the existence of the quantum Mpemba effect can only be inferred by examining the late time behaviour of the entanglement asymmetry.
翻訳日:2024-05-08 13:31:20 公開日:2024-05-07
# vAttention: PagedAttention のない LLM 実行のための動的メモリ管理

vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention ( http://arxiv.org/abs/2405.04437v1 )

ライセンス: Link先を確認
Ramya Prabhu, Ajay Nayak, Jayashree Mohan, Ramachandran Ramjee, Ashish Panwar, (参考訳) 高スループットLLM推論にはGPUメモリの効率的な利用が不可欠である。 以前のシステムでは、KVキャッシュの事前メモリを予約していたため、内部のフラグメンテーションが原因で容量が無駄になった。 OSベースの仮想メモリシステムにインスパイアされたvLLMは、KV-cacheの動的メモリ割り当てを可能にするPagedAttentionを提案した。 このアプローチは断片化を排除し、より大きなバッチサイズで高スループットのLLMを実現する。 しかし、物理メモリを動的に割り当てるために、PagedAttentionはKV-cacheのレイアウトを連続的な仮想メモリから連続しない仮想メモリに変更した。 この変更では、ページングをサポートするためにアテンションカーネルを書き直す必要があり、メモリマネージャを実装するためのフレームワークを提供する必要がある。 このように、PagedAttentionモデルは、ソフトウェアの複雑さ、移植性の問題、冗長性、非効率性につながる。 本稿では,動的KVキャッシュメモリ管理のためのvAttentionを提案する。 PagedAttentionとは対照的に、vAttentionはKV-cacheを連続した仮想メモリに保持し、オンデマンドの物理メモリ割り当てを可能にするために、すでに存在するオンデマンドページングに低レベルのシステムサポートを活用する。 したがって、vAttentionは、注目カーネル開発者に対して、ページングを明示的にサポートする必要をなくし、サービスフレームワークにおけるメモリ管理の再実装を避ける。 本稿では,vAttentionにより,異なるアテンションカーネルの実装に対して,シームレスな動的メモリ管理が可能であることを示す。 vAttentionはまた、vLLMよりも最大1.97倍高速なトークンを生成し、処理入力は、FlashAttentionとFlashInferのPagedAttentionの変種よりも最大3.92倍と1.45倍高速である。

Efficient use of GPU memory is essential for high throughput LLM inference. Prior systems reserved memory for the KV-cache ahead-of-time, resulting in wasted capacity due to internal fragmentation. Inspired by OS-based virtual memory systems, vLLM proposed PagedAttention to enable dynamic memory allocation for KV-cache. This approach eliminates fragmentation, enabling high-throughput LLM serving with larger batch sizes. However, to be able to allocate physical memory dynamically, PagedAttention changes the layout of KV-cache from contiguous virtual memory to non-contiguous virtual memory. This change requires attention kernels to be rewritten to support paging, and serving framework to implement a memory manager. Thus, the PagedAttention model leads to software complexity, portability issues, redundancy and inefficiency. In this paper, we propose vAttention for dynamic KV-cache memory management. In contrast to PagedAttention, vAttention retains KV-cache in contiguous virtual memory and leverages low-level system support for demand paging, that already exists, to enable on-demand physical memory allocation. Thus, vAttention unburdens the attention kernel developer from having to explicitly support paging and avoids re-implementation of memory management in the serving framework. We show that vAttention enables seamless dynamic memory management for unchanged implementations of various attention kernels. vAttention also generates tokens up to 1.97x faster than vLLM, while processing input prompts up to 3.92x and 1.45x faster than the PagedAttention variants of FlashAttention and FlashInfer.
翻訳日:2024-05-08 13:31:20 公開日:2024-05-07
# 多項式ガウス積分作用素のポテンシャルと絡み合い

Positivity and entanglement of polynomial Gaussian integral operators ( http://arxiv.org/abs/2405.04438v1 )

ライセンス: Link先を確認
Richárd Balka, András Csordás, Gábor Homa, (参考訳) 自己随伴多項式ガウス積分作用素 $\widehat{\kappa}_{PG}$, すなわち、多変数核 $\kappa_{PG}$ は多項式 $P$ とガウス核 $\kappa_G$ の積である。 ガウス部分 が正であれば、$\widehat{\kappa}_{PG}$ は正となる。 密度作用素 $\widehat{\kappa}_{PG}$: ガウス密度作用素 $\widehat{\kappa}_G$ がペレス-ホロシェツキ規準を失敗すると、対応する多項式ガウス密度作用素 $\widehat{\kappa}_{PG}$ もまたすべての$P$の基準を満たさないので、すべて絡み合う。 ガウス核上の新しいプレオーダー$\preceq$を導入し、もし$\kappa_{G_0}\preceq \kappa_{G_1}$なら$\widehat{\kappa}_{PG_0}\geq 0$は$\widehat{\kappa}_{PG_1}\geq 0$をすべての多項式に対して$P$とする。 したがって、多項式ガウス作用素の正の値を決定することは、同じ多項式係数を持つ他の多項式ガウス作用素の多くの値の正の値を決定する。 このプレオーダーは、絡み合いの問題にも影響します。 また、奇次多項式を持つ多項式ガウス作用素が正の半定値でないことも証明する。

We investigate the positivity of self-adjoint polynomial Gaussian integral operators $\widehat{\kappa}_{PG}$, that is, the multivariable kernel $\kappa_{PG}$ is a product of a polynomial $P$ and a Gaussian kernel $\kappa_G$. We show that $\widehat{\kappa}_{PG}$ can be only positive if the Gaussian part is positive. This has an important corollary for the bipartite entanglement of the density operators $\widehat{\kappa}_{PG}$: if the Gaussian density operator $\widehat{\kappa}_G$ fails the Peres--Horodecki criterion, then the corresponding polynomial Gaussian density operators $\widehat{\kappa}_{PG}$ also fail the criterion for all $P$, hence they are all entangled. We introduce a new preorder $\preceq$ on Gaussian kernels such that if $\kappa_{G_0}\preceq \kappa_{G_1}$ then $\widehat{\kappa}_{PG_0}\geq 0$ implies $\widehat{\kappa}_{PG_1}\geq 0$ for all polynomials $P$. Therefore, deciding the positivity of a polynomial Gaussian operator determines the positivity of a lot of another polynomial Gaussian operators which have the same polynomial factor. This preorder has implication for the entanglement problem, too. We also prove that polynomial Gaussian operators with polynomials of odd degree cannot be positive semidefinite.
翻訳日:2024-05-08 13:31:20 公開日:2024-05-07
# AugmenTory: 高速で柔軟なポリゴン拡張ライブラリ

AugmenTory: A Fast and Flexible Polygon Augmentation Library ( http://arxiv.org/abs/2405.04442v1 )

ライセンス: Link先を確認
Tanaz Ghahremani, Mohammad Hoseyni, Mohammad Javad Ahmadi, Pouria Mehrabi, Amirhossein Nikoofard, (参考訳) データ拡張は、限られたデータセットの課題に対処するための重要なテクニックであり、画像処理のトレーニング手順において主要なコンポーネントとなっている。 幾何変換や色空間調整といった技術は、トレーニングデータセットを人工的に拡張し、トレーニング目的のために半現実的なデータを生成する能力のために、徹底的にテストされている。 データ拡張は、限られたデータセットの課題に対処する上で最も重要な鍵である。 幾何変換や色空間調整などのデータ拡張技術は、トレーニングデータセットを人工的に拡張し、トレーニング目的のために半現実的なデータを生成する能力のために、徹底的にテストされている。 ポリゴンはインスタンスセグメンテーションにおいて重要な役割を担い、YOLOv8のような先進モデルでの利用が急増している。 人気は高まっているが、特殊図書館の欠如はポリゴン増補プロセスを妨げている。 本稿では,新たに開発されたAugmenToryライブラリに具体化された,この課題に対する新しい解決策を紹介する。 特にAugmenToryは、既存の方法と比較して時間と空間の両方で計算要求を減らしている。 さらに、ライブラリには後処理のしきい値設定機能が含まれている。 AugmenToryパッケージはGitHubで公開されている。

Data augmentation is a key technique for addressing the challenge of limited datasets, which have become a major component in the training procedures of image processing. Techniques such as geometric transformations and color space adjustments have been thoroughly tested for their ability to artificially expand training datasets and generate semi-realistic data for training purposes. Data augmentation is the most important key to addressing the challenge of limited datasets, which have become a major component of image processing training procedures. Data augmentation techniques, such as geometric transformations and color space adjustments, are thoroughly tested for their ability to artificially expand training datasets and generate semi-realistic data for training purposes. Polygons play a crucial role in instance segmentation and have seen a surge in use across advanced models, such as YOLOv8. Despite their growing popularity, the lack of specialized libraries hampers the polygon-augmentation process. This paper introduces a novel solution to this challenge, embodied in the newly developed AugmenTory library. Notably, AugmenTory offers reduced computational demands in both time and space compared to existing methods. Additionally, the library includes a postprocessing thresholding feature. The AugmenTory package is publicly available on GitHub, where interested users can access the source code: https://github.com/Smartory/AugmenTory
翻訳日:2024-05-08 13:31:20 公開日:2024-05-07
# POV学習:人間の知覚を用いたマルチモーダルモデルの個々のアライメント

POV Learning: Individual Alignment of Multimodal Models using Human Perception ( http://arxiv.org/abs/2405.04443v1 )

ライセンス: Link先を確認
Simon Werner, Katharina Christ, Laura Bernardy, Marion G. Müller, Achim Rettinger, (参考訳) 機械学習システムを人間の期待に合わせることは、主に手動で検証された人間の行動サンプル(典型的には明示的なフィードバック)でトレーニングすることで試みられる。 これは、特定の状況下で具体的な人の主観的視点(POV)を捉えているコンテキストがデータに保持されないため、人口レベルで行われる。 しかし,個人レベルでのアライメントは,システムと対話する個人ユーザに対して,主観的な予測性能を著しく向上させる可能性があると論じる。 個人ごとに知覚が異なるため、同じ状況が観察される。 その結果、意思決定の基礎とその後の推論プロセスと観察可能な反応は異なる。 我々は、個々の知覚パターンが個々のレベルのアライメントを改善するために使用できると仮定する。 我々は、認識情報を機械学習システムに統合し、予測性能を計測することで、これを検証する。 ~個別の主観評価。 実験的な研究として,知覚誘導型クロスモーダルエンタテインメントの新しいタスクに対して,マルチモーダル刺激の新たなデータセットとそれに対応するアイトラッキングシーケンスを収集し,知覚誘導型マルチモーダルトランスでそれに取り組む。 本研究は, 個人認識信号を用いた主観的人間評価の機械学習が, 個人のアライメントに有用な手がかりとなることを示唆している。 個々のユーザの視点からの全体的な予測パフォーマンスを改善するだけでなく、すべての人の個々の期待と価値観に対するAIシステムのステアリングにも貢献する可能性がある。

Aligning machine learning systems with human expectations is mostly attempted by training with manually vetted human behavioral samples, typically explicit feedback. This is done on a population level since the context that is capturing the subjective Point-Of-View (POV) of a concrete person in a specific situational context is not retained in the data. However, we argue that alignment on an individual level can boost the subjective predictive performance for the individual user interacting with the system considerably. Since perception differs for each person, the same situation is observed differently. Consequently, the basis for decision making and the subsequent reasoning processes and observable reactions differ. We hypothesize that individual perception patterns can be used for improving the alignment on an individual level. We test this, by integrating perception information into machine learning systems and measuring their predictive performance wrt.~individual subjective assessments. For our empirical study, we collect a novel data set of multimodal stimuli and corresponding eye tracking sequences for the novel task of Perception-Guided Crossmodal Entailment and tackle it with our Perception-Guided Multimodal Transformer. Our findings suggest that exploiting individual perception signals for the machine learning of subjective human assessments provides a valuable cue for individual alignment. It does not only improve the overall predictive performance from the point-of-view of the individual user but might also contribute to steering AI systems towards every person's individual expectations and values.
翻訳日:2024-05-08 13:31:20 公開日:2024-05-07
# 2単位XXZモデルにおける長距離安定化器レニイエントロピーの厳密解

Exact solution of long-range stabilizer Rényi entropy in the dual-unitary XXZ model ( http://arxiv.org/abs/2405.04448v1 )

ライセンス: Link先を確認
Jordi Arnau Montañà López, Pavel Kos, (参考訳) 量子システムは、量子魔法(quantum magic)としても知られる、絡み合いと非安定化性の存在により、古典的に効率的にシミュレートすることはできない。 ここでは、量子回路による進化中の魔法の発生について研究する。 厳密な解が得られるためには、二単位XXZモデルと、安定化器R'enyi entropy (SRE)と呼ばれる魔法の尺度に焦点を当てる。 さらに,近距離量子回路では除去できない長距離SREにも注目する。 正確な解を得るためには、必要な式の評価にZX-計算表現とグラフィカルルールを用いる。 熱力学限界における短時間の進化後のSREと、全ての時間における長距離SREと、状態の特定の分割に対するすべてのR'enyiパラメータの正確な結果を得る。 これらの量の数値評価はR'enyiパラメータで指数関数的にコストがかかるので、R'enyiパラメータとアクセス可能なシステムサイズに対して数値的に検証し、他の二分法における長距離SREの数値結果を提供する。

Quantum systems can not be efficiently simulated classically due to the presence of entanglement and nonstabilizerness, also known as quantum magic. Here we study the generation of magic under evolution by a quantum circuit. To be able to provide exact solutions, we focus on the dual-unitary XXZ model and a measure of magic called stabilizer R\'enyi entropy (SRE). Moreover, we focus also on long-range SRE, which cannot be removed by short-depth quantum circuits. To obtain exact solutions we use a ZX-calculus representation and graphical rules for the evaluation of the required expressions. We obtain exact results for SRE after short-time evolution in the thermodynamic limit and for long-range SRE for all times and all R\'enyi parameters for a particular partition of the state. Since the numerical evaluation of these quantities is exponentially costly in the R\'enyi parameter, we verify this numerically for low R\'enyi parameters and accessible system sizes and provide numerical results for the long-range SRE in other bipartitions.
翻訳日:2024-05-08 13:31:20 公開日:2024-05-07
# インクリメンタル蒸留による連続的知識グラフ埋め込みに向けて

Towards Continual Knowledge Graph Embedding via Incremental Distillation ( http://arxiv.org/abs/2405.04453v1 )

ライセンス: Link先を確認
Jiajun Liu, Wenjun Ke, Peng Wang, Ziyu Shang, Jinhua Gao, Guozheng Li, Ke Ji, Yanhe Liu, (参考訳) 従来の知識グラフ埋め込み(KGE)の手法では、新しい知識が出現すると、知識グラフ全体(KG)をかなりの訓練コストで保存する必要がある。 この問題に対処するために,KGEモデルを学習し,かつ適切な古い知識を同時に保持することにより,KGEモデルを訓練するための継続的知識グラフ埋め込み(CKGE)タスクが提案されている。 しかし、上記の目標に対して重要なKGsの明示的なグラフ構造は、既存のCKGE法では無視されている。 一方、既存の手法は通常ランダムな順序で新しい三重項を学習し、新しいKGの内部構造を破壊する。 一方、古い三重項は同等の優先度で保存され、破滅的な忘れを効果的に緩和することができない。 本稿では,KGsにおける明示的なグラフ構造の完全活用を考慮したインクリメンタル蒸留(IncDE)に基づくCKGEの競合手法を提案する。 まず、学習順序を最適化するために、階層的な戦略を導入し、層ごとの学習に新しい3倍をランク付けする。 階層内順序と階層内順序を併用することにより、グラフ構造の特徴に基づいて、新しいトリプルを層にグループ化する。 第2に, 従来の知識を効果的に保存するために, 先行層から次の層への実体表現のシームレスな移動を容易にする新しい漸進蒸留機構を考案し, 古い知識の保存を促進する。 最後に、未学習の新たな知識に影響される古い知識の過度な破壊を避けるために、2段階の訓練パラダイムを採用する。 実験結果から, 最先端のベースラインよりもInDEの方が優れていることが示された。 特に、増分蒸留機構は平均相反ランク(MRR)スコアの0.2%-6.5%の改善に寄与する。

Traditional knowledge graph embedding (KGE) methods typically require preserving the entire knowledge graph (KG) with significant training costs when new knowledge emerges. To address this issue, the continual knowledge graph embedding (CKGE) task has been proposed to train the KGE model by learning emerging knowledge efficiently while simultaneously preserving decent old knowledge. However, the explicit graph structure in KGs, which is critical for the above goal, has been heavily ignored by existing CKGE methods. On the one hand, existing methods usually learn new triples in a random order, destroying the inner structure of new KGs. On the other hand, old triples are preserved with equal priority, failing to alleviate catastrophic forgetting effectively. In this paper, we propose a competitive method for CKGE based on incremental distillation (IncDE), which considers the full use of the explicit graph structure in KGs. First, to optimize the learning order, we introduce a hierarchical strategy, ranking new triples for layer-by-layer learning. By employing the inter- and intra-hierarchical orders together, new triples are grouped into layers based on the graph structure features. Secondly, to preserve the old knowledge effectively, we devise a novel incremental distillation mechanism, which facilitates the seamless transfer of entity representations from the previous layer to the next one, promoting old knowledge preservation. Finally, we adopt a two-stage training paradigm to avoid the over-corruption of old knowledge influenced by under-trained new knowledge. Experimental results demonstrate the superiority of IncDE over state-of-the-art baselines. Notably, the incremental distillation mechanism contributes to improvements of 0.2%-6.5% in the mean reciprocal rank (MRR) score.
翻訳日:2024-05-08 13:21:31 公開日:2024-05-07
# テキスト・画像モデル評価における地理的包摂性を目指して

Towards Geographic Inclusion in the Evaluation of Text-to-Image Models ( http://arxiv.org/abs/2405.04457v1 )

ライセンス: Link先を確認
Melissa Hall, Samuel J. Bell, Candace Ross, Adina Williams, Michal Drozdzal, Adriana Romero Soriano, (参考訳) テキストから画像への生成モデルの急速な進歩と視覚コンテンツ作成への展開は、そのパフォーマンスを徹底的に評価し、潜在的なバイアスを特定することの重要性を拡大した。 現実的で、多様で、視覚的に魅力的で、与えられたプロンプトと一致した画像を生成するモデルを追求する研究者や実践者は、スケーラブルで費用対効果の高いパフォーマンスプロファイリングを容易にするために、自動化されたメトリクスに目を向けることが多い。 しかしながら、一般的に使用される指標は人間の嗜好の完全な多様性を説明できないことが多く、特に評価基準の解釈が地域や文化によって異なるため、深い人間の評価でさえ主観性のある課題に直面している。 本研究では,アフリカ,ヨーロッパ,東南アジアにおけるアノテータの地理的表現,視覚的魅力,一貫性について,最先端のパブリックAPIから生成した実画像および実画像に対する認識において,どの程度のアノテータがどの程度異なるかを研究するために,大規模な異文化横断的研究を行う。 65,000以上の画像アノテーションと20の回答を収集します。 我々は、人間のアノテーションを一般的な自動メトリクスと対比し、人間の好みが地理的な場所によって顕著に異なること、そして現在のメトリクスがこの多様性を十分に考慮していないことを発見した。 例えば、異なる場所のアノテータは、地理的に代表的であると見なされる領域の誇張されたステレオタイプ的な描写について、しばしば意見が一致しない。 また, 自動評価の有用性は, 対象の類似性に対する人間の認識と特徴抽出器のアライメントや, 基準データセットで捉えた「アパール」の定義など, 設定に関する仮定に依存する。 自動評価と人的評価を改善するためのステップを推奨する。

Rapid progress in text-to-image generative models coupled with their deployment for visual content creation has magnified the importance of thoroughly evaluating their performance and identifying potential biases. In pursuit of models that generate images that are realistic, diverse, visually appealing, and consistent with the given prompt, researchers and practitioners often turn to automated metrics to facilitate scalable and cost-effective performance profiling. However, commonly-used metrics often fail to account for the full diversity of human preference; often even in-depth human evaluations face challenges with subjectivity, especially as interpretations of evaluation criteria vary across regions and cultures. In this work, we conduct a large, cross-cultural study to study how much annotators in Africa, Europe, and Southeast Asia vary in their perception of geographic representation, visual appeal, and consistency in real and generated images from state-of-the art public APIs. We collect over 65,000 image annotations and 20 survey responses. We contrast human annotations with common automated metrics, finding that human preferences vary notably across geographic location and that current metrics do not fully account for this diversity. For example, annotators in different locations often disagree on whether exaggerated, stereotypical depictions of a region are considered geographically representative. In addition, the utility of automatic evaluations is dependent on assumptions about their set-up, such as the alignment of feature extractors with human perception of object similarity or the definition of "appeal" captured in reference datasets used to ground evaluations. We recommend steps for improved automatic and human evaluations.
翻訳日:2024-05-08 13:21:31 公開日:2024-05-07
# ReLUがアクティベーション関数を好むよりもはるかに優れたアクティベーション関数のクラス

A Significantly Better Class of Activation Functions Than ReLU Like Activation Functions ( http://arxiv.org/abs/2405.04459v1 )

ライセンス: Link先を確認
Mathew Mithra Noel, Yug Oswal, (参考訳) 本稿では、ほぼ普遍的に使われているReLUlikeやSigmoidalのアクティベーション関数よりもはるかに優れたアクティベーション関数のクラスを導入する。 CIFAR-10 と Imagenette のベンチマークでは、一般的なアクティベーション関数と大きく異なる2つの新しいアクティベーション関数が提案されている。 円錐活性化関数は有限区間でのみ正であり、その区間の終点を除いて厳密に負となる。 したがって、円錐活性化関数を持つニューロンに対して正の出力を生成する入力の集合は、通常の場合のように半空間ではなく超ストリップである。 ハイパーストリップは2つの平行超平面の間の領域であるため、ニューロンは無限に広い半空間を持つよりも、入力特徴空間を正と負のクラスに細分化することができる。 特に、XOR関数は錐体様活性化関数を持つ単一ニューロンによって学習することができる。 コーンとパラボリックコーンの活性化関数は、ベンチマーク上のニューロンが著しく少ない高い精度を達成することが示されている。 本稿では,多くの非線形実世界のデータセットを半空間よりも少ないハイパーストリップで分離できることを示す。 Cone と Parabolic-Cone の活性化関数は ReLU よりも大きな微分を持ち、非常に高速なトレーニングが示される。

This paper introduces a significantly better class of activation functions than the almost universally used ReLU like and Sigmoidal class of activation functions. Two new activation functions referred to as the Cone and Parabolic-Cone that differ drastically from popular activation functions and significantly outperform these on the CIFAR-10 and Imagenette benchmmarks are proposed. The cone activation functions are positive only on a finite interval and are strictly negative except at the end-points of the interval, where they become zero. Thus the set of inputs that produce a positive output for a neuron with cone activation functions is a hyperstrip and not a half-space as is the usual case. Since a hyper strip is the region between two parallel hyper-planes, it allows neurons to more finely divide the input feature space into positive and negative classes than with infinitely wide half-spaces. In particular the XOR function can be learn by a single neuron with cone-like activation functions. Both the cone and parabolic-cone activation functions are shown to achieve higher accuracies with significantly fewer neurons on benchmarks. The results presented in this paper indicate that many nonlinear real-world datasets may be separated with fewer hyperstrips than half-spaces. The Cone and Parabolic-Cone activation functions have larger derivatives than ReLU and are shown to significantly speedup training.
翻訳日:2024-05-08 13:21:31 公開日:2024-05-07
# 大規模MPC - プライベートアイリスコードの特異性チェックを数百万のユーザにスケールアップ

Large-Scale MPC: Scaling Private Iris Code Uniqueness Checks to Millions of Users ( http://arxiv.org/abs/2405.04463v1 )

ライセンス: Link先を確認
Remco Bloemen, Daniel Kales, Philipp Sippl, Roman Walch, (参考訳) この作業では、一般的に機密データ(指紋や虹彩コードなど)のサーバ側処理を必要とする生体認証システムにおけるプライバシー問題に対処する。 具体的には、Iris Codeが与えられたデータベースに類似しているかどうかを問合せできるソリューションを設計し、すべてのクエリとデータセットは、セキュアなマルチパーティ計算(MPC)を使用して保護されています。 近年の最先端システムであるJanus(S&P 24)と比較して3桁以上の性能向上を実現するための新たなプロトコルを提案する。 最後のプロトコルでは、クエリとデータベースの両方のプライバシを保護しながら、単一のCPUコア上で毎秒100万以上のIris Code比較のスループットを実現しています。 また、プロトコルのいくつかの構成要素に対するGPUアクセラレーションについても検討し、各マルチスレッドCPU実装と比較して38倍以上の高速化を実現した。

In this work we tackle privacy concerns in biometric verification systems that typically require server-side processing of sensitive data (e.g., fingerprints and Iris Codes). Concretely, we design a solution that allows us to query whether a given Iris Code is similar to one contained in a given database, while all queries and datasets are being protected using secure multiparty computation (MPC). Addressing the substantial performance demands of operational systems like World ID and aid distributions by the Red Cross, we propose new protocols to improve performance by more than three orders of magnitude compared to the recent state-of-the-art system Janus (S&P 24). Our final protocol can achieve a throughput of over a million Iris Code comparisons per second on a single CPU core, while protecting the privacy of both the query and database Iris Codes. We additionally investigate GPU acceleration for some building blocks of our protocol, which results in further speedups of over 38x compared to the respective multi-threaded CPU implementation.
翻訳日:2024-05-08 13:21:31 公開日:2024-05-07
# 対向UASシステムのための商用DTIソリューションの比較性能評価のためのオブジェクト指向テスト手法の設計

Designing an Objective-Driven Test Method for the Comparative Performance Evaluation of Commercial DTI Solutions for Counter UAS systems ( http://arxiv.org/abs/2405.04477v1 )

ライセンス: Link先を確認
Ali Mohamoud, Johan van de Pol, Hanno Hildmann, Rob van Heijster, Beatrice Masini, Martijn van den Heuvel, Amber van Keeken, (参考訳) 無人航空システム(UAS)やドローンはますます商業的になり、安価になる。 検出トラッキングと識別(DTI)ソリューションを備えた対UAS(Counter-UAS)システムの開発と展開に重点が置かれている。 しかし、これらのシステムの能力はベンチマークが難しい。 これらのシステムの性能主張は、現在証拠によって支持されていない。 さらに、これらのDTIシステムでは標準的なテスト方法論が利用できず、異なるテスト方法論がこれらのシステムの比較を困難または不可能にしている。 本稿では,C-UASを対象とした商用DTIソリューションにおける目標駆動型テスト手法の定義,開発,検証,およびそれに対応する性能評価について報告する。 開発された方法論は、運用上関係のあるエンドユーザーシナリオに基づいている。 テスト手法は汎用DTIシステムレイアウトに基づいており、コンテキスト情報とエンドユーザー入力を考慮して検出、追跡、識別を行う。 DTIシステムの性能に影響を及ぼす可能性のある潜在的な環境面を考慮し、関連する環境における方法論の使用を可能にするために、比較性能評価法を開発した。 関連する環境での作業の検証は、3つの運用試験で行われている。 運用試験の結果、本手法は、コンポーネントレベル(検出、追跡、識別コンポーネント)とシステムレベル(これらのコンポーネントとシステムソリューションの統合DTIシステム)のパフォーマンス評価を可能にすることが示された。

Unmanned Aerial Systems (UASs) or drones become more and more commercially available and cheap. There has been much emphasis on developing and deploying Counter-UAS systems (UASs) with Detection Tracking and Identification (DTI) solutions. However, the capabilities of these systems are hard to benchmark. Performance claims of these systems are currently not supported by evidence. In addition, no standard test methodologies are available for these DTI systems and different test methodologies make comparison of these systems hard or impossible. We report on the definition, development and verification of an objective-driven test method and corresponding comparative performance evaluation for commercial DTI solutions for C-UASs. The developed methodology is based on end-user scenarios that are operationally relevant. The test methodology is based on a generic DTI system lay-out and is detailed towards detection, tracking and identification, taking into account contextual information and end-user input. The comparative performance evaluation is developed to enable the use of the methodology in a relevant environment, thereby taking into account any potential environmental aspect that might influence DTI system performance. Validation of the work in a relevant environment has been done in three operational trials. The operational trial results show that the method allows for performance evaluation at component level (i.e., detection, tracking or identification component) and at system level (combinations of these components and integrated DTI system of system solutions).
翻訳日:2024-05-08 13:21:31 公開日:2024-05-07
# 共進化学習アルゴリズムと帯域学習アルゴリズムの集中位置境界解析

Concentration Tail-Bound Analysis of Coevolutionary and Bandit Learning Algorithms ( http://arxiv.org/abs/2405.04480v1 )

ライセンス: Link先を確認
Per Kristian Lehre, Shishen Lin, (参考訳) AI理論の分岐として、実行時解析は、解(実行時)を見つける前に、アルゴリズムの繰り返し数がどのように取るかを、アルゴリズムの設計と問題構造に依存する。 ドリフト分析(Drift analysis)は、進化的アルゴリズムやバンディットアルゴリズムのようなランダム化アルゴリズムのランタイムを推定するための最先端のツールである。 ドリフト(Drift)とは、イテレーション毎の最適化に向けた期待される進歩を指す。 本稿では,アルゴリズムの実行時/実行時/実行時における集中テールバウンドを導出する問題について考察する。 この定理は、正、弱、零、負のドリフトが与えられた正確な指数的なテールバウンドを与える新しいドリフト定理を提供する。 以前は、弱い、ゼロ、負のドリフトの場合、そのような指数的な尾の境界は失われていた。 我々のドリフト定理は、AIにおけるアルゴリズムのランタイム/レグレットの強い集中力を証明するのに使うことができる。 例えば、Sharwabbanditアルゴリズムの後悔は極めて集中しており、以前の分析では期待された後悔のみを考慮していた。 これはアルゴリズムが与えられた時間枠内で高い確率、すなわちアルゴリズムの信頼性の形で最適な値を得ることを意味する。 さらに, 共進化アルゴリズム RLS-PD により, 双線型極小ベンチマーク問題におけるナッシュ平衡を得るのに必要な時間は, 高度に集中していることが示唆された。 しかし、このアルゴリズムはナッシュ平衡を忘れており、この現象が起こるまでの時間は高度に集中していることも証明している。 これは今後の作業で対処すべきRSS-PDの弱点を浮き彫りにする。

Runtime analysis, as a branch of the theory of AI, studies how the number of iterations algorithms take before finding a solution (its runtime) depends on the design of the algorithm and the problem structure. Drift analysis is a state-of-the-art tool for estimating the runtime of randomised algorithms, such as evolutionary and bandit algorithms. Drift refers roughly to the expected progress towards the optimum per iteration. This paper considers the problem of deriving concentration tail-bounds on the runtime/regret of algorithms. It provides a novel drift theorem that gives precise exponential tail-bounds given positive, weak, zero and even negative drift. Previously, such exponential tail bounds were missing in the case of weak, zero, or negative drift. Our drift theorem can be used to prove a strong concentration of the runtime/regret of algorithms in AI. For example, we prove that the regret of the \rwab bandit algorithm is highly concentrated, while previous analyses only considered the expected regret. This means that the algorithm obtains the optimum within a given time frame with high probability, i.e. a form of algorithm reliability. Moreover, our theorem implies that the time needed by the co-evolutionary algorithm RLS-PD to obtain a Nash equilibrium in a \bilinear max-min-benchmark problem is highly concentrated. However, we also prove that the algorithm forgets the Nash equilibrium, and the time until this occurs is highly concentrated. This highlights a weakness in the RLS-PD which should be addressed by future work.
翻訳日:2024-05-08 13:21:31 公開日:2024-05-07
# OptPDE: AI-Humanコラボレーションによる新しい統合可能システム発見

OptPDE: Discovering Novel Integrable Systems via AI-Human Collaboration ( http://arxiv.org/abs/2405.04484v1 )

ライセンス: Link先を確認
Subhash Kantamneni, Ziming Liu, Max Tegmark, (参考訳) 積分可能な偏微分方程式(PDE)系は自然科学に非常に興味があるが、発見するのは極めて稀で困難である。 そこで本研究では,PDEの係数を最適化して保存量($n_{\rm CQ}$)を最大化し,新たな可積分系を探索する,第一種機械学習手法であるOpsPDEを紹介する。 統合可能PDEの4つのファミリーを発見し、そのうちの1つは以前に知られていたもので、そのうち3つは少なくとも1つの保存量を持つが、私たちの知識の最も良いところは文献に新しいものである。 これらの新しいPDE族のうちの1つである $u_t = (u_x+a^2u_{xxx})^3$ の性質についてより深く研究する。 機械学習は、人間の科学者が発見ループを真にクローズするために、統合可能なシステムに対して解釈可能な仮説を生成する。

Integrable partial differential equation (PDE) systems are of great interest in natural science, but are exceedingly rare and difficult to discover. To solve this, we introduce OptPDE, a first-of-its-kind machine learning approach that Optimizes PDEs' coefficients to maximize their number of conserved quantities, $n_{\rm CQ}$, and thus discover new integrable systems. We discover four families of integrable PDEs, one of which was previously known, and three of which have at least one conserved quantity but are new to the literature to the best of our knowledge. We investigate more deeply the properties of one of these novel PDE families, $u_t = (u_x+a^2u_{xxx})^3$. Our paper offers a promising schema of AI-human collaboration for integrable system discovery: machine learning generates interpretable hypotheses for possible integrable systems, which human scientists can verify and analyze, to truly close the discovery loop.
翻訳日:2024-05-08 13:21:31 公開日:2024-05-07
# 音声感情認識のためのWavLMの適応

Adapting WavLM for Speech Emotion Recognition ( http://arxiv.org/abs/2405.04485v1 )

ライセンス: Link先を確認
Daria Diatlova, Anton Udalov, Vitalii Shutov, Egor Spirin, (参考訳) 近年,下流タスクにおける音声自己教師モデル(SSL)の利用が注目されている。 訓練済みの大きなモデルは、スクラッチから訓練されたより小さなモデルよりも優れていますが、最適な微調整戦略に関する疑問はいまだ一般的です。 本稿では,MPP Podcast Corpus における音声感情認識タスクのための WavLM Large モデルの微調整戦略について検討する。 具体的には、発話からの性別や意味情報の利用に焦点を当てた一連の実験を行う。 次に、この結果をまとめ、2024年の音声感情認識チャレンジへの提出に使った最終モデルについて述べる。

Recently, the usage of speech self-supervised models (SSL) for downstream tasks has been drawing a lot of attention. While large pre-trained models commonly outperform smaller models trained from scratch, questions regarding the optimal fine-tuning strategies remain prevalent. In this paper, we explore the fine-tuning strategies of the WavLM Large model for the speech emotion recognition task on the MSP Podcast Corpus. More specifically, we perform a series of experiments focusing on using gender and semantic information from utterances. We then sum up our findings and describe the final model we used for submission to Speech Emotion Recognition Challenge 2024.
翻訳日:2024-05-08 13:21:31 公開日:2024-05-07
# 2つの純状態を用いた量子ラビン斜め移動

Quantum Rabin oblivious transfer using two pure states ( http://arxiv.org/abs/2405.04486v1 )

ライセンス: Link先を確認
Lara Stroh, James T. Peat, Mats Kroneberg, Ittoop V. Puthoor, Erika Andersson, (参考訳) 2つの信頼できない当事者間の公開転送は、暗号において重要なプリミティブである。 可逆転移には様々な種類がある。 ラビンの消極的転送では、送信機アリスがビットを保持し、受信機ボブがビットを取得するか、確率$p_? $. アリスはボブがそれを手に入れたかどうかを知るべきではない。 2つの純状態を用いる量子ラビンオブリビラス転送プロトコルについて検討する。 送信側と受信側で異なる不正シナリオを調査し,各事例において最適な不正確率を決定する。 量子ラビンオブリバスト転送プロトコルと古典ラビンオブリバスト転送プロトコルを比較すると、量子プロトコルは、ある値の$p_?に対して、サードパーティを使用しない古典的プロトコルよりも優れていることを示す。 $.

Oblivious transfer between two untrusting parties is an important primitive in cryptography. There are different variants of oblivious transfer. In Rabin oblivious transfer, the sender Alice holds a bit, and the receiver Bob either obtains the bit, or obtains no information with probability $p_?$. Alice should not know whether or not Bob obtained the bit. We examine a quantum Rabin oblivious transfer protocol that uses two pure states. Investigating different cheating scenarios for the sender and for the receiver, we determine optimal cheating probabilities in each case. Comparing the quantum Rabin oblivious transfer protocol to classical Rabin oblivious transfer protocols, we show that the quantum protocol outperforms classical protocols which do not use a third party, for some values of $p_?$.
翻訳日:2024-05-08 13:21:31 公開日:2024-05-07
# S3Former:ソーラーPVプロファイリングのための自己監督型高分解能変圧器

S3Former: Self-supervised High-resolution Transformer for Solar PV Profiling ( http://arxiv.org/abs/2405.04489v1 )

ライセンス: Link先を確認
Minh Tran, Adrian De Luis, Haitao Liao, Ying Huang, Roy McCann, Alan Mantooth, Jack Cothren, Ngan Le, (参考訳) 気候変動の影響が拡大するにつれて、持続可能なエネルギー源への世界的移行の必要性がますます顕在化している。 再生可能エネルギーは、ユーザにとって実行可能なソリューションとして現れており、太陽光発電エネルギーはその信頼性と効率性から、小さな設備に好まれる選択である。 PV導入の正確なマッピングは、導入の延長とエネルギー政策の報知に不可欠である。 このニーズを満たすため、我々はS3Formerを導入し、空撮画像からソーラーパネルを分割し、そのような設置がグリッドに与える影響を分析する上で重要な大きさと位置情報を提供する。 太陽パネルの識別は、様々な気象条件、屋根の特性、地上サンプリング距離の変動、最適化トレーニングのための適切な初期化重量の欠如などの要因により困難である。 これらの複雑さに対処するため、S3FormerはMasked Attention Mask Transformerを備えており、自己教師付き学習事前学習バックボーンが組み込まれている。 具体的には、バックボーンから抽出した低レベル・高レベルな特徴を活用し、Transformerアーキテクチャに組み込んだインスタンスクエリ機構を組み込んで、ソーラーPVの設置位置を向上する。 本稿では,S3Formerのバックボーンの初期化重みを改善するために,自己教師付き学習フェーズ(テキストタスク)を導入する。 多様なデータセットを用いてS3Formerを評価し,最先端モデルの改善を実証した。

As the impact of climate change escalates, the global necessity to transition to sustainable energy sources becomes increasingly evident. Renewable energies have emerged as a viable solution for users, with Photovoltaic energy being a favored choice for small installations due to its reliability and efficiency. Accurate mapping of PV installations is crucial for understanding the extension of its adoption and informing energy policy. To meet this need, we introduce S3Former, designed to segment solar panels from aerial imagery and provide size and location information critical for analyzing the impact of such installations on the grid. Solar panel identification is challenging due to factors such as varying weather conditions, roof characteristics, Ground Sampling Distance variations and lack of appropriate initialization weights for optimized training. To tackle these complexities, S3Former features a Masked Attention Mask Transformer incorporating a self-supervised learning pretrained backbone. Specifically, our model leverages low-level and high-level features extracted from the backbone and incorporates an instance query mechanism incorporated on the Transformer architecture to enhance the localization of solar PV installations. We introduce a self-supervised learning phase (pretext task) to improve the initialization weights on the backbone of S3Former. We evaluated S3Former using diverse datasets, demonstrate improvement state-of-the-art models.
翻訳日:2024-05-08 13:21:31 公開日:2024-05-07
# 量子-古典ハイブリッドシステムにおける資源効率と自己適応量子探索

Resource-Efficient and Self-Adaptive Quantum Search in a Quantum-Classical Hybrid System ( http://arxiv.org/abs/2405.04490v1 )

ライセンス: Link先を確認
Zihao Jiang, Zefan Du, Shaolun Ruan, Juntao Chen, Yong Wang, Long Cheng, Rajkumar Buyya, Ying Mao, (参考訳) 過去10年間で、ディープラーニングとビッグデータアプリケーションの急速な進歩は、膨大なデータセットと高性能コンピューティングシステムによって推進されてきた。 しかし、ムーアの法則時代における半導体製造の物理的限界に近づくと、これらの応用の将来について疑問が生じる。 並行して、量子コンピューティングは限界を破る可能性によって大きな進歩を遂げた。 IBM、Google、Microsoftといった主要企業は、ノイズの多い中規模量子コンピュータ(NISQ)へのアクセスを提供している。 ShorとGroverのアルゴリズムの理論的な約束にもかかわらず、現在の量子デバイスへの実践的な実装は、追加リソースの要求や多数の制御操作といった課題に直面している。 これらの課題に対処し、限られた量子ビットの利用を最適化するために、量子古典ハイブリッドフレームワーク内で資源効率の高い指数値探索システムReSaQuSを導入する。 Groverのアルゴリズムに基づいて、ReSaQuSは自動管理された反復探索アプローチを採用している。 この方法は問題の大きさを解析し、より少ない確率データポイントをフィルタリングし、キュービット要求を減らしてデータセットを漸進的に削減する。 Qiskitを用いて実装され、広範な実験を通じて評価されたReSaQuSは、累積量子ビット消費の86.36\%、アクティブな期間の72.72\%を大幅に削減し、量子コンピューティングアプリケーションのデプロイを最適化する可能性を強化した。

Over the past decade, the rapid advancement of deep learning and big data applications has been driven by vast datasets and high-performance computing systems. However, as we approach the physical limits of semiconductor fabrication in the post-Moore's Law era, questions arise about the future of these applications. In parallel, quantum computing has made significant progress with the potential to break limits. Major companies like IBM, Google, and Microsoft provide access to noisy intermediate-scale quantum (NISQ) computers. Despite the theoretical promise of Shor's and Grover's algorithms, practical implementation on current quantum devices faces challenges, such as demanding additional resources and a high number of controlled operations. To tackle these challenges and optimize the utilization of limited onboard qubits, we introduce ReSaQuS, a resource-efficient index-value searching system within a quantum-classical hybrid framework. Building on Grover's algorithm, ReSaQuS employs an automatically managed iterative search approach. This method analyzes problem size, filters fewer probable data points, and progressively reduces the dataset with decreasing qubit requirements. Implemented using Qiskit and evaluated through extensive experiments, ReSaQuS has demonstrated a substantial reduction, up to 86.36\% in cumulative qubit consumption and 72.72\% in active periods, reinforcing its potential in optimizing quantum computing application deployment.
翻訳日:2024-05-08 13:21:31 公開日:2024-05-07
# TorchDriveEnv: リアクティブ、リアリスティック、およびさまざまな非プレイ可能なキャラクタによる自律運転のための強化学習ベンチマーク

TorchDriveEnv: A Reinforcement Learning Benchmark for Autonomous Driving with Reactive, Realistic, and Diverse Non-Playable Characters ( http://arxiv.org/abs/2405.04491v1 )

ライセンス: Link先を確認
Jonathan Wilder Lavington, Ke Zhang, Vasileios Lioutas, Matthew Niedoba, Yunpeng Liu, Dylan Green, Saeid Naderiparizi, Xiaoxuan Liang, Setareh Dabiri, Adam Ścibior, Berend Zwartsenberg, Frank Wood, (参考訳) 自動運転車の訓練、テスト、展開には、現実的で効率的なシミュレータが必要である。 さらに、異なる自律システムで示される異なる問題間のばらつきが高いため、これらのシミュレータは使いやすく、変更が容易である必要がある。 これらの問題を解決するために、TorchDriveSimとそのベンチマーク拡張TorchDriveEnvを紹介します。 TorchDriveEnvは、Pythonで完全にプログラムされた軽量強化学習ベンチマークで、さまざまなキネマティックモデル、エージェントタイプ、トラフィック制御パターンの影響など、学習車両の振る舞いのさまざまな要因をテストするために修正することができる。 多くのリプレイベースのシミュレーションアプローチとは異なり、TorchDriveEnvは最先端の動作シミュレーションAPIと完全に統合されている。 これにより、初期化と運転動作がリアクティブでリアルで多様なデータ駆動型NPC(Non-Playable Characters)とともに、運転モデルをトレーニングし、評価することができる。 本稿では,TorchDriveEnvの学習環境と評価環境の共通強化学習ベースラインの評価により,TorchDriveEnvの効率性と簡易性について述べる。 実験の結果,TorchDriveEnvは使いやすく,解決が難しいことがわかった。

The training, testing, and deployment, of autonomous vehicles requires realistic and efficient simulators. Moreover, because of the high variability between different problems presented in different autonomous systems, these simulators need to be easy to use, and easy to modify. To address these problems we introduce TorchDriveSim and its benchmark extension TorchDriveEnv. TorchDriveEnv is a lightweight reinforcement learning benchmark programmed entirely in Python, which can be modified to test a number of different factors in learned vehicle behavior, including the effect of varying kinematic models, agent types, and traffic control patterns. Most importantly unlike many replay based simulation approaches, TorchDriveEnv is fully integrated with a state of the art behavioral simulation API. This allows users to train and evaluate driving models alongside data driven Non-Playable Characters (NPC) whose initializations and driving behavior are reactive, realistic, and diverse. We illustrate the efficiency and simplicity of TorchDriveEnv by evaluating common reinforcement learning baselines in both training and validation environments. Our experiments show that TorchDriveEnv is easy to use, but difficult to solve.
翻訳日:2024-05-08 13:21:31 公開日:2024-05-07
# Presence Versus $\(x,t)^* >(x, t)$ の確率

Probability of Presence Versus $ψ(x,t)^* ψ(x, t)$ ( http://arxiv.org/abs/2405.04493v1 )

ライセンス: Link先を確認
Frank Wilczek, Zara Yu, (参考訳) 物理的確率密度を持つ $\psi^*(x, t) \psi(x,t)$ の同定を仮定することは概念的には不満足であり、現実的には過度に制限される。 電子に対しては、$\nabla \psi^* \cdot \nabla \psi$に比例する単純で計算可能な相対論的補正が存在する。 特に、波動関数の零点は存在の消滅確率密度を示すものではない。 この種の効果は、粒子の概念を実装するラグランジアン理論に一般化して生じる。

Postulating the identification of $\psi^*(x, t) \psi(x,t)$ with a physical probability density is unsatisfactory conceptually and overly limited practically. For electrons, there is a simple, calculable relativistic correction proportional to $\nabla \psi^* \cdot \nabla \psi$. In particular, zeroes of the wave function do not indicate vanishing probability density of presence. Effects of this kind arise generically in Lagrangian-based theories implementing the particle concept.
翻訳日:2024-05-08 13:21:31 公開日:2024-05-07
# テキストエンコーダを用いた日々の動きデータの表現学習

Representation Learning of Daily Movement Data Using Text Encoders ( http://arxiv.org/abs/2405.04494v1 )

ライセンス: Link先を確認
Alexander Capstick, Tianyu Cui, Yu Chen, Payam Barnaghi, (参考訳) 時系列表現学習は遠隔医療モニタリングアプリケーションにおいて重要な研究領域である。 本研究では,認知症高齢者の在宅活動の記録データに焦点をあてる。 本研究では,30ドル(約3,300円)のウィンドウ内で,同一参加者からベクター空間に類似した埋め込みに変換する言語モデルを用いて,アクティビティをテキスト文字列に変換するための表現学習手法を設計する。 これにより、参加者や日数に対するクラスタリングとベクター検索が可能になり、ケアの個人化された配信を支援するための活動偏差の識別が可能になる。

Time-series representation learning is a key area of research for remote healthcare monitoring applications. In this work, we focus on a dataset of recordings of in-home activity from people living with Dementia. We design a representation learning method based on converting activity to text strings that can be encoded using a language model fine-tuned to transform data from the same participants within a $30$-day window to similar embeddings in the vector space. This allows for clustering and vector searching over participants and days, and the identification of activity deviations to aid with personalised delivery of care.
翻訳日:2024-05-08 13:21:31 公開日:2024-05-07
# インテクスト教育に向けて:学生の誤解に事例を適応させる

Toward In-Context Teaching: Adapting Examples to Students' Misconceptions ( http://arxiv.org/abs/2405.04495v1 )

ライセンス: Link先を確認
Alexis Ross, Jacob Andreas, (参考訳) 教師が生徒に学習の例を提供する場合、これらの例は情報的であり、生徒が現在の状態から目標となる概念やスキルへと進むことを可能にする必要がある。 良き教師は、生徒が既に知っていることを同時に推測し、その教えを生徒の知識の変化に適応させなければならない。 教育ツールとして計算モデル、特に大きな言語モデルを使うことへの関心が高まっている。 学生として、特に言語モデルは少数の例を挙げると、新しいタスクに適応する顕著な能力を示している。 しかし、これらのモデルは、異なるタイプの生徒に教師として効果的に適応できるのだろうか? そこで本研究では,AdapTと呼ばれるモデルと評価手法を紹介する。 AdapT は,(1) 自動指導法の評価に使用できるベイズ学生モデルの集合体,(2) 人間の学生による評価のためのプラットフォームにより,これらの手法の現実的な効果を特徴づける。 さらに, 学習者の過去の信念を共同で推論し, 将来の信念の正しさを最適化する適応教育の新しい確率モデルである (3) ATOM を導入する。 3つの学習領域(屈折算術、英語形態学、関数学習)にわたるシミュレーションされた学生の評価において、ATOMはLLMベースおよび標準ベイズ教育モデルより体系的に優れている。 人間実験では、AToMとLLMはどちらも非適応的ランダムなサンプル選択よりも優れている。 本研究は,適応型学習課題の難しさと,それを解決するための学習適応モデルの可能性を両立させるものである。

When a teacher provides examples for a student to study, these examples must be informative, enabling a student to progress from their current state toward a target concept or skill. Good teachers must therefore simultaneously infer what students already know and adapt their teaching to students' changing state of knowledge. There is increasing interest in using computational models, particularly large language models, as pedagogical tools. As students, language models in particular have shown a remarkable ability to adapt to new tasks given small numbers of examples. But how effectively can these models adapt as teachers to students of different types? To study this question, we introduce a suite of models and evaluation methods we call AdapT. AdapT has two components: (1) a collection of simulated Bayesian student models that can be used for evaluation of automated teaching methods; (2) a platform for evaluation with human students, to characterize the real-world effectiveness of these methods. We additionally introduce (3) AToM, a new probabilistic model for adaptive teaching that jointly infers students' past beliefs and optimizes for the correctness of future beliefs. In evaluations of simulated students across three learning domains (fraction arithmetic, English morphology, function learning), AToM systematically outperforms LLM-based and standard Bayesian teaching models. In human experiments, both AToM and LLMs outperform non-adaptive random example selection. Our results highlight both the difficulty of the adaptive teaching task and the potential of learned adaptive models for solving it.
翻訳日:2024-05-08 13:21:31 公開日:2024-05-07
# 編集-Your-Motion:ビデオモーション編集のための時空間拡散デカップリング学習

Edit-Your-Motion: Space-Time Diffusion Decoupling Learning for Video Motion Editing ( http://arxiv.org/abs/2405.04496v1 )

ライセンス: Link先を確認
Yi Zuo, Lingling Li, Licheng Jiao, Fang Liu, Xu Liu, Wenping Ma, Shuyuan Yang, Yuwei Guo, (参考訳) 既存の拡散に基づく動画編集手法は、モーション編集において印象的な成果を上げている。 既存の手法のほとんどは、編集されたビデオと参照されたビデオの間の動きのアライメントに焦点を当てている。 しかし、これらの手法は、ビデオの背景やオブジェクトの内容が変化し続けることを制限しないため、ユーザが予期せぬビデオを生成することができる。 本稿では,1対のテキスト・ビデオ・ペアだけでトレーニングできる,Edit-Your-Motionというワンショット動画モーション編集手法を提案する。 具体的には、時空間拡散モデルにおける時空間的特徴を分離するために、DPL(Detailed Prompt-Guided Learning Strategy)を設計する。 DPLは学習対象の内容と動作を2つの訓練段階に分ける。 第1の訓練段階では,空間的特徴(対象内容の特徴)を学習し,それらをシャッフルすることで映像フレーム内の時間的関係を分解することに集中する。 さらに、未順序ビデオフレームからオブジェクトの一貫性のあるコンテンツ特徴を学習するために、Recurrent-Causal Attention (RC-Attn)を提案する。 第2の訓練段階では,映像フレームにおける時間的関係を復元し,時間的特徴(背景と物体の動きの特徴)を学習する。 フレーム間の違いを円滑にするために、ノイズ制約損失も採用しています。 最後に、推論段階では、2ブランチ構造(編集ブランチと再構成ブランチ)を介して、ソースオブジェクトのコンテンツ特徴を編集ブランチに注入する。 Edit-Your-Motionを使えば、ユーザーはソースビデオの中のオブジェクトの動きを編集して、よりエキサイティングで多様なビデオを生成することができる。 総合的な質的実験、定量的実験、ユーザー嗜好研究は、編集-Your-Motionが他の方法よりも優れていることを示す。

Existing diffusion-based video editing methods have achieved impressive results in motion editing. Most of the existing methods focus on the motion alignment between the edited video and the reference video. However, these methods do not constrain the background and object content of the video to remain unchanged, which makes it possible for users to generate unexpected videos. In this paper, we propose a one-shot video motion editing method called Edit-Your-Motion that requires only a single text-video pair for training. Specifically, we design the Detailed Prompt-Guided Learning Strategy (DPL) to decouple spatio-temporal features in space-time diffusion models. DPL separates learning object content and motion into two training stages. In the first training stage, we focus on learning the spatial features (the features of object content) and breaking down the temporal relationships in the video frames by shuffling them. We further propose Recurrent-Causal Attention (RC-Attn) to learn the consistent content features of the object from unordered video frames. In the second training stage, we restore the temporal relationship in video frames to learn the temporal feature (the features of the background and object's motion). We also adopt the Noise Constraint Loss to smooth out inter-frame differences. Finally, in the inference stage, we inject the content features of the source object into the editing branch through a two-branch structure (editing branch and reconstruction branch). With Edit-Your-Motion, users can edit the motion of objects in the source video to generate more exciting and diverse videos. Comprehensive qualitative experiments, quantitative experiments and user preference studies demonstrate that Edit-Your-Motion performs better than other methods.
翻訳日:2024-05-08 13:11:46 公開日:2024-05-07
# 変分量子アルゴリズムによるQumode状態生成のためのベンチマーク最適化

Benchmarking Optimizers for Qumode State Preparation with Variational Quantum Algorithms ( http://arxiv.org/abs/2405.04499v1 )

ライセンス: Link先を確認
Shuwen Kan, Miguel Palma, Zefan Du, Samuel A Stein, Chenxu Liu, Juntao Chen, Ang Li, Ying Mao, (参考訳) 量子状態の準備には、初期システム、量子機械学習や線形方程式の解法のような応用に不可欠なプロセス、からターゲット状態を作成することが含まれる。 近年、この分野の進展と応用の可能性により、クォーモックへの関心が高まっている。 しかし、この地域に特化している文献には顕著なギャップがある。 本稿では,変分量子アルゴリズムを用いて状態準備に使用する各種オプティマイザの性能ベンチマークを提供することにより,このギャップを埋めることを目的とする。 我々は,様々なターゲット状態,理想とサンプリングの両方のシミュレーション,さまざまな基底ゲート層を含む,複数のシナリオにわたる広範囲なテストを行った。 我々の評価は、対象状態のタイプごとに学習する複雑さに関する洞察を与え、この文脈では、最適化者が他の状況よりも優れていることを示す。 特に、Powellオプティマイザはサンプリングエラーに対して非常に堅牢であることが判明し、このような不正確なシナリオでは好まれる選択となった。 さらに、パラメータの次元の増大を効果的に処理する効率と能力で、同時摂動確率近似最適化器を区別した。

Quantum state preparation involves preparing a target state from an initial system, a process integral to applications such as quantum machine learning and solving systems of linear equations. Recently, there has been a growing interest in qumodes due to advancements in the field and their potential applications. However there is a notable gap in the literature specifically addressing this area. This paper aims to bridge this gap by providing performance benchmarks of various optimizers used in state preparation with Variational Quantum Algorithms. We conducted extensive testing across multiple scenarios, including different target states, both ideal and sampling simulations, and varying numbers of basis gate layers. Our evaluations offer insights into the complexity of learning each type of target state and demonstrate that some optimizers perform better than others in this context. Notably, the Powell optimizer was found to be exceptionally robust against sampling errors, making it a preferred choice in scenarios prone to such inaccuracies. Additionally, the Simultaneous Perturbation Stochastic Approximation optimizer was distinguished for its efficiency and ability to handle increased parameter dimensionality effectively.
翻訳日:2024-05-08 13:11:46 公開日:2024-05-07
# デシッター空間と反デシッター空間における二原子分子

Diatomic Molecules in deSitter and Anti-deSitter Spaces ( http://arxiv.org/abs/2405.04502v1 )

ライセンス: Link先を確認
Meriem AbdelAziz, Mustafa Moumni, Mokhtar Falek, (参考訳) デシッター空間と反デシッター空間における二原子分子に対するシュル・オジンガー方程式は、拡張不確実性原理の定式化を用いて研究される。 方程式は、クラッツァーポテンシャルと擬調和振動子の両方に対するニキフォフ・ウバロフ法によって解かれる。 系のエネルギー固有値は解析的に導出され、その固有関数の正確な表現はロマノフスキ多項式とヤコビ多項式の項で提供される。 また, 空間変形パラメータが境界状態に与える影響についても検討し, このパラメータの上限を設定する実験を行った。

The Schr\"odinger equation for diatomic molecules in deSitter and anti-deSitter spaces is studied using the extended uncertainty principle formulation. The equations are solved by the Nikiforov-Uvarov method for both the Kratzer potential and the pseudoharmonic oscillator. The energy eigenvalues of the system have been derived analytically, and the exact expressions of the eigenfunctions are provided in terms of Romanovski and Jacobi polynomials. The impact of the spatial deformation parameter on the bound states is also examined, with experimental results used to establish an upper limit for this parameter.
翻訳日:2024-05-08 13:11:46 公開日:2024-05-07
# 光力学における合成磁性による大型機械的スクイーズ

Large mechanical squeezing through synthetic magnetism in optomechanics ( http://arxiv.org/abs/2405.04508v1 )

ライセンス: Link先を確認
D. R. Kenigoule Massembele, P. Djorwé, Souvik Agasti, Amarendra K. Sarma, (参考訳) 本稿では,バックワード刺激ブリルアン散乱(BSBS)過程をホストするオプトロメカティカルシステムにおける合成磁性に基づく,$\rm{3dB}$制限を超える大量のメカニカルスクイーズを生成する手法を提案する。 我々のベックマークシステムは、BSBSプロセスを介して2つの光学モードに結合された音響モードと、標準の光学放射圧を介して同一の光学モードに結合するダッフィング機械発振器から構成される。 合成磁性は、音響モードと機械モードの間の機械的結合の変調に由来する。 合成磁性がない場合には、所定の量の機械的スクイーズがシステム内で生成される。 このスクイーズは主にBSBSプロセスに依存しており、熱雑音に対して脆弱である。 合成磁性を切り替えることにより、生成したスクイージングの度合いは大幅に向上し、$\rm{3dB}$の限界を超えている。 この大きな磁気誘導のスクイージングは、システムにBSBSプロセスがない場合でも持続する。 さらに、この生成されたスクイーズは、合成磁気がオフになったときに誘導されるものと比べ、熱雑音に対して十分に堅牢である。 さらに, 機械的分散スクイーズと有効フォノン数の両方が, メカニカルカップリングの位相変調に依存する一連のピークおよびディップを示す。 この振動特性は、急激な死とスキーズ現象の復活を損なうものであり、この位相をチューニングすることで、所望の大きさのスキーズを維持できる。 我々の提案は、$\rm{3dB}$制限を超えて、大量のスクイーズを生成する柔軟なスキームへの道を提供する。 このような圧縮された状態は、量子情報処理、量子センシングとメトロジー、量子コンピューティングなどの量子アプリケーションに使用できる。

We propose a scheme to generate large amount of mechanical squeezing, far beyond the $\rm{3dB}$ limit, which is based on synthetic magnetism in optomechanical system that hosts a Backward Stimulated Brillouin Scattering (BSBS) process. Our benckmark system consists of an acoustic mode coupled to two optical modes through the BSBS process, and a Duffing mechanical oscillator that couples to the same optical modes through the standard optomechanical radiation pressure. The synthetic magnetism comes from the modulation of the mechanical coupling between the acoustic and the mechanical modes. When there is no synthetic magnetism, a given amount of mechanical squeezing is generated in the system. This squeezing is mainly dependent on the BSBS process, and it is fragile against thermal noise. By switching on the synthetic magnetism, the degree of the generated squeezing is greatly enhanced and goes far beyond the limit of the $\rm{3dB}$. This large magnetism induced squeezing persists even when there is no BSBS process in the system. Moreover, this generated squeezing is robust enough against thermal noise in comparison to the one induced when the synthetic magnetism is off. Furthermore, both the mechanical variance squeezing and effective phonon number exhibit series of peaks and dips depending on the phase modulation of the mechanical coupling. This oscillatory feature is reminscent of a sudden death and revival of squeezing phenomenon, which can be used to maintain a desired magnitude of squeezing by tuning this phase. Our proposal provides a path toward a flexible scheme that generates large amount of squeezing, far beyond the $\rm{3dB}$ limit. Such a generated squeezed states can be use for quantum applications including quantum information processing, quantum sensing and metrology, and quantum computing.
翻訳日:2024-05-08 13:11:46 公開日:2024-05-07
# スイッチブル決定:動的ニューラルネットワーク

Switchable Decision: Dynamic Neural Generation Networks ( http://arxiv.org/abs/2405.04513v1 )

ライセンス: Link先を確認
Shujian Zhang, Korawat Tanwisuth, Chengyue Gong, Pengcheng He, Mingyuan Zhou, (参考訳) 自己回帰生成モデルは、要約、質問応答、分類など、多くの異なるNLPタスク間での競合性能を達成する。 しかし、推論が遅いことでも知られており、リアルタイムアプリケーションへのデプロイが難しい。 本稿では,各データインスタンスに対して動的に計算資源を割り当てることで,推論を高速化する切換え可能な決定を提案する。 動的ニューラルジェネレーションネットワークは、スキップすべき場所と、制約付き最適化による品質と計算コストのバランスを自動的に決定し、効率的な推論パスを実行し、最適化されたトレードオフを決定する。 質問応答,要約,分類ベンチマークによる実験により,同精度を維持しながら推論時の計算コストの低減が得られた。 大規模な実験とアブレーション研究により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。

Auto-regressive generation models achieve competitive performance across many different NLP tasks such as summarization, question answering, and classifications. However, they are also known for being slow in inference, which makes them challenging to deploy in real-time applications. We propose a switchable decision to accelerate inference by dynamically assigning computation resources for each data instance. Automatically making decisions on where to skip and how to balance quality and computation cost with constrained optimization, our dynamic neural generation networks enforce the efficient inference path and determine the optimized trade-off. Experiments across question answering, summarization, and classification benchmarks show that our method benefits from less computation cost during inference while keeping the same accuracy. Extensive experiments and ablation studies demonstrate that our method can be general, effective, and beneficial for many NLP tasks.
翻訳日:2024-05-08 13:11:46 公開日:2024-05-07
# 資源制約分散量子システムにおけるスケーラブル回路切断とスケジューリング

Scalable Circuit Cutting and Scheduling in a Resource-constrained and Distributed Quantum System ( http://arxiv.org/abs/2405.04514v1 )

ライセンス: Link先を確認
Shuwen Kan, Zefan Du, Miguel Palma, Samuel A Stein, Chenxu Liu, Wenqi Wei, Juntao Chen, Ang Li, Ying Mao, (参考訳) 量子コンピューティングの急速な発展にもかかわらず、現在のシステムは量子ビット数と品質に制限があるため、実用上はまだ限られている。 超伝導、閉じ込められたイオン、中性原子量子コンピューティング技術といった様々な技術は耐障害性の時代に向かって進んでいるが、スケーラビリティと制御の様々な課題に直面している。 近年の取り組みは、複数の小さな量子デバイスを接続してより大きな回路を実行するマルチノード量子システムに焦点を当てている。 将来の実証では、量子チャネルをカップルのシステムに利用したいと考えているが、現在の実証では回路切断技術による古典的な通信を利用することができる。 これは、大きな回路を小さなサブ回路に切断し、実行後に再構築することを含む。 しかし, 既存の切削法は, クビット数やゲート数の増加に伴い, 長い探索時間によって妨げられる。 さらに、マルチノードシステムでは、さまざまなワーカー構成のリソースを効果的に利用できないことが多い。 これらの課題に対処するために、量子回路を重み付きグラフに変換する新しいアプローチであるFitCutを導入し、各ワーカーに対してリソース制約、例えば量子ビット数に応じて回路を切断するコミュニティベースのボトムアップアプローチを利用する。 FitCutには、ワーカ間のリソース利用を最適化するスケジューリングアルゴリズムも含まれている。 FitCutはQiskitで実装され、広範囲に評価され、Qiskit Circuit Knitting Toolboxを著しく上回り、3~2000の要因による時間コストを削減し、作業者側のリソース利用率を最大3.88倍改善し、システム全体の2.86倍の改善を実現した。

Despite quantum computing's rapid development, current systems remain limited in practical applications due to their limited qubit count and quality. Various technologies, such as superconducting, trapped ions, and neutral atom quantum computing technologies are progressing towards a fault tolerant era, however they all face a diverse set of challenges in scalability and control. Recent efforts have focused on multi-node quantum systems that connect multiple smaller quantum devices to execute larger circuits. Future demonstrations hope to use quantum channels to couple systems, however current demonstrations can leverage classical communication with circuit cutting techniques. This involves cutting large circuits into smaller subcircuits and reconstructing them post-execution. However, existing cutting methods are hindered by lengthy search times as the number of qubits and gates increases. Additionally, they often fail to effectively utilize the resources of various worker configurations in a multi-node system. To address these challenges, we introduce FitCut, a novel approach that transforms quantum circuits into weighted graphs and utilizes a community-based, bottom-up approach to cut circuits according to resource constraints, e.g., qubit counts, on each worker. FitCut also includes a scheduling algorithm that optimizes resource utilization across workers. Implemented with Qiskit and evaluated extensively, FitCut significantly outperforms the Qiskit Circuit Knitting Toolbox, reducing time costs by factors ranging from 3 to 2000 and improving resource utilization rates by up to 3.88 times on the worker side, achieving a system-wide improvement of 2.86 times.
翻訳日:2024-05-08 13:11:46 公開日:2024-05-07
# スタックアテンションを有する変圧器

A Transformer with Stack Attention ( http://arxiv.org/abs/2405.04515v1 )

ライセンス: Link先を確認
Jiaoda Li, Jennifer C. White, Mrinmaya Sachan, Ryan Cotterell, (参考訳) 自然言語は文脈に敏感であると考えられている。 非常に有能な大きな言語モデルを支えるにもかかわらず、トランスフォーマーは多くの文脈に依存しない言語タスクをモデル化することはできない。 変換器に基づく言語モデルのモデリング能力において、この制限に対処するために、微分可能なスタックベースのアテンション機構でそれらを拡張することを提案する。 我々のスタックベースのアテンションメカニズムは、トランスフォーマーベースの言語モデルに組み込むことができ、モデルに解釈可能性のレベルを追加することができる。 スタックベースのアテンション機構の追加により、トランスフォーマーは、決定論的文脈自由言語をモデル化できるが、全てではない。

Natural languages are believed to be (mildly) context-sensitive. Despite underpinning remarkably capable large language models, transformers are unable to model many context-free language tasks. In an attempt to address this limitation in the modeling power of transformer-based language models, we propose augmenting them with a differentiable, stack-based attention mechanism. Our stack-based attention mechanism can be incorporated into any transformer-based language model and adds a level of interpretability to the model. We show that the addition of our stack-based attention mechanism enables the transformer to model some, but not all, deterministic context-free languages.
翻訳日:2024-05-08 13:11:46 公開日:2024-05-07
# xLSTM: 長期記憶の拡張

xLSTM: Extended Long Short-Term Memory ( http://arxiv.org/abs/2405.04517v1 )

ライセンス: Link先を確認
Maximilian Beck, Korbinian Pöppel, Markus Spanring, Andreas Auer, Oleksandra Prudnikova, Michael Kopp, Günter Klambauer, Johannes Brandstetter, Sepp Hochreiter, (参考訳) 1990年代には、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。 それ以来、LSTMは時間の試験に立脚し、特に最初のLarge Language Models (LLMs) を構成する深層学習の成功に寄与してきた。 しかし、トランスフォーマー技術がコアに並列化可能な自己保持技術が出現したことで、LSTMを大規模に上回り、新しい時代の幕開けを告げた。 LSTMを数十億のパラメータにスケーリングする際の言語モデリングは、現在のLLMの最新のテクニックを活用しながら、LSTMの既知の制限を緩和する上で、どの程度の成果を上げますか? まず,正規化と安定化を適切に行う指数ゲーティングを導入する。 第2に、LSTMメモリ構造を変更し、 (i)スカラーメモリ、スカラー更新、新しいメモリミキシングを備えたsLSTM。 (ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。 これらのLSTM拡張を残留ブロックバックボーンに統合すると、xLSTMブロックが残りのxLSTMアーキテクチャに積み上げられる。 指数ゲーティングと修正メモリ構造は、パフォーマンスとスケーリングの両方において、最先端のトランスフォーマーやステートスペースモデルと比較して、xLSTM能力を向上する。

In the 1990s, the constant error carousel and gating were introduced as the central ideas of the Long Short-Term Memory (LSTM). Since then, LSTMs have stood the test of time and contributed to numerous deep learning success stories, in particular they constituted the first Large Language Models (LLMs). However, the advent of the Transformer technology with parallelizable self-attention at its core marked the dawn of a new era, outpacing LSTMs at scale. We now raise a simple question: How far do we get in language modeling when scaling LSTMs to billions of parameters, leveraging the latest techniques from modern LLMs, but mitigating known limitations of LSTMs? Firstly, we introduce exponential gating with appropriate normalization and stabilization techniques. Secondly, we modify the LSTM memory structure, obtaining: (i) sLSTM with a scalar memory, a scalar update, and new memory mixing, (ii) mLSTM that is fully parallelizable with a matrix memory and a covariance update rule. Integrating these LSTM extensions into residual block backbones yields xLSTM blocks that are then residually stacked into xLSTM architectures. Exponential gating and modified memory structures boost xLSTM capabilities to perform favorably when compared to state-of-the-art Transformers and State Space Models, both in performance and scaling.
翻訳日:2024-05-08 13:11:46 公開日:2024-05-07
# NaturalCodeBench: 人間のEvalとNatural User Prompt上でのコーディングパフォーマンスのミスマッチを調べる

NaturalCodeBench: Examining Coding Performance Mismatch on HumanEval and Natural User Prompts ( http://arxiv.org/abs/2405.04520v1 )

ライセンス: Link先を確認
Shudan Zhang, Hanlin Zhao, Xiao Liu, Qinkai Zheng, Zehan Qi, Xiaotao Gu, Xiaohan Zhang, Yuxiao Dong, Jie Tang, (参考訳) 大規模言語モデル(LLM)は、生産活動のためのコードを生成する強力な能力を示している。 しかし、HumanEval、MBPP、DS-1000といったコード合成のための現在のベンチマークは、主にアルゴリズムとデータサイエンスの入門的なタスクに向けられており、現実世界のコーディングで発生する困難な要件を十分に満たしていない。 このギャップを埋めるために、実際のコーディングタスクにおける複雑さとさまざまなシナリオを反映した、挑戦的なコードベンチマークであるNaturalCodeBench(NCB)を提案する。 NCBは、PythonとJavaの402の高品質な問題で構成されており、6つの異なるドメインをカバーするオンラインコーディングサービスからの自然なユーザクエリから慎重に選択されている。 実世界のクエリでテストケースを作成することの難しさに言及し、テストケース構築の効率を高めるための半自動パイプラインも導入する。 手動のソリューションと比較すると、効率は4倍以上に向上する。 39 LLM の系統的な実験から,HumanEval のスコアが近いモデル間の NCB のパフォーマンスギャップは依然として重要であり,実際のコード合成シナリオやHumanEval の過度な最適化に焦点が当てられていないことが示唆された。 一方、最高性能の GPT-4 でさえ NCB では満足できない。 評価ツールキットと開発セットはhttps://github.com/THUDM/NaturalCodeBench.comで入手できる。

Large language models (LLMs) have manifested strong ability to generate codes for productive activities. However, current benchmarks for code synthesis, such as HumanEval, MBPP, and DS-1000, are predominantly oriented towards introductory tasks on algorithm and data science, insufficiently satisfying challenging requirements prevalent in real-world coding. To fill this gap, we propose NaturalCodeBench (NCB), a challenging code benchmark designed to mirror the complexity and variety of scenarios in real coding tasks. NCB comprises 402 high-quality problems in Python and Java, meticulously selected from natural user queries from online coding services, covering 6 different domains. Noting the extraordinary difficulty in creating testing cases for real-world queries, we also introduce a semi-automated pipeline to enhance the efficiency of test case construction. Comparing with manual solutions, it achieves an efficiency increase of more than 4 times. Our systematic experiments on 39 LLMs find that performance gaps on NCB between models with close HumanEval scores could still be significant, indicating a lack of focus on practical code synthesis scenarios or over-specified optimization on HumanEval. On the other hand, even the best-performing GPT-4 is still far from satisfying on NCB. The evaluation toolkit and development set are available at https://github.com/THUDM/NaturalCodeBench.
翻訳日:2024-05-08 13:11:46 公開日:2024-05-07
# ニューラルネットワークによる半導体量子ドット量子ビットのディープラーニングによる自動制御

Neural network based deep learning analysis of semiconductor quantum dot qubits for automated control ( http://arxiv.org/abs/2405.04524v1 )

ライセンス: Link先を確認
Jacob R. Taylor, Sankar Das Sarma, (参考訳) 機械学習は、自動アルゴリズムを使用して物理学におけるノイズの多い混乱したデバイスを改善するために、ほとんど探索されていない道を提供する。 物理デバイス、特に量子デバイスにおける障害を含むシミュレーションを通じて、乱れた風景について学び、その洞察に基づいてデバイスをチューニングする可能性がある。 本研究では,半導体量子ドットスピン量子ビットアーキテクチャの基盤となる乱れ拡張Hubbardモデルのパラメータの乱れを識別するために,機械学習,特に畳み込みニューラルネットワーク(CNN)を用いた新しい手法を提案する。 この手法は、隣接する量子ドット対から実験的に取得可能な電荷安定性図を利用しており、CNNは拡張されたハバードモデルの各パラメータの障害を正確に識別することができる。 私たちのCNNは、ホッピング定数、オンサイト電位(ゲート電圧)、およびサイト内およびサイト間クーロン項の変動を含む、サイト固有の障害をHubbardパラメータで処理することができます。 この進歩は、全てのパラメータに高い精度(R^2>0.994$)と少ないパラメータ制約を同時に有する空間依存障害の予測を促進する。 さらに,提案手法では,5つ以上の量子ドットを同時にチューニングすることが可能であり,クロストークの問題を効果的に解決することができる。 我々の手法はチューニングプロセスを合理化し、完全な自動調整を可能にするだけでなく、ニューラルネットワークの予測を厳格に検証する"信頼なし"検証手法も導入している。 究極的には、本研究は、幅広い物理問題に対処するための手法を一般化するための基礎研究の展開を目的としている。

Machine learning offers a largely unexplored avenue for improving noisy disordered devices in physics using automated algorithms. Through simulations that include disorder in physical devices, particularly quantum devices, there is potential to learn about disordered landscapes and subsequently tune devices based on those insights. In this work, we introduce a novel methodology that employs machine learning, specifically convolutional neural networks (CNNs), to discern the disorder landscape in the parameters of the disordered extended Hubbard model underlying the semiconductor quantum dot spin qubit architectures. This technique takes advantage of experimentally obtainable charge stability diagrams from neighboring quantum dot pairs, enabling the CNN to accurately identify disorder in each parameter of the extended Hubbard model. Remarkably, our CNN can process site-specific disorder in Hubbard parameters, including variations in hopping constants, on-site potentials (gate voltages), and both intra-site and inter-site Coulomb terms. This advancement facilitates the prediction of spatially dependent disorder across all parameters simultaneously with high accuracy ($R^2>0.994$) and fewer parameter constraints, marking a significant improvement over previous methods that were focused only on analyzing on-site potentials at low coupling. Furthermore, our approach allows for the tuning of five or more quantum dots at a time, effectively addressing the often-overlooked issue of crosstalk. Not only does our method streamline the tuning process, potentially enabling fully automated adjustments, but it also introduces a "no trust" verification method to rigorously validate the neural network's predictions. Ultimately, this work aims to lay the groundwork for generalizing our method to tackle a broad spectrum of physical problems.
翻訳日:2024-05-08 13:11:46 公開日:2024-05-07
# ランダム遅延時のPoWセキュリティレイテンシとトランザクションフィーの効果

PoW Security-Latency under Random Delays and the Effect of Transaction Fees ( http://arxiv.org/abs/2405.04526v1 )

ライセンス: Link先を確認
Mustafa Doger, Sennur Ulukus, Nail Akar, (参考訳) 中本コンセンサスの安全性保証とセキュリティレイテンシ問題については, 境界遅延モデルを用いて過去10年間に広く研究されてきた。 近年の研究では、PoWプロトコルはランダム遅延モデルでも安全であることが示されている。 本稿では,ブロックチェーンのKディープ化後のブロックの安全性を,一般的なランダム遅延分布の下で解析する。 ランダム遅延時のポアソン到着数の分布のみを決定できる厳密で明示的な境界を提供する。 弊社は、最近のBitcoinの半減期がセキュリティレイテンシーの問題に与える影響をさらに検討している。

Safety guarantees and security-latency problem of Nakamoto consensus have been extensively studied in the last decade with a bounded delay model. Recent studies have shown that PoW protocol is secure under random delay models as well. In this paper, we analyze the security-latency problem, i.e., how secure a block is, after it becomes k-deep in the blockchain, under general random delay distributions. We provide tight and explicit bounds which only require determining the distribution of the number of Poisson arrivals during the random delay. We further consider potential effects of recent Bitcoin halving on the security-latency problem by extending our results.
翻訳日:2024-05-08 13:11:46 公開日:2024-05-07
# QServe: W4A8KV4 量子化と効率的な LLM 実行のためのシステム共設計

QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving ( http://arxiv.org/abs/2405.04532v1 )

ライセンス: Link先を確認
Yujun Lin, Haotian Tang, Shang Yang, Zhekai Zhang, Guangxuan Xiao, Chuang Gan, Song Han, (参考訳) 量子化は大規模言語モデル(LLM)の推論を加速させる。 INT8量子化を超えて、研究コミュニティはINT4のようなより低い精度を積極的に探求している。 それでも、最先端のINT4量子化技術は、低バッチでエッジなLLM推論を加速するだけで、大規模でクラウドベースのLLMサービスではパフォーマンス向上を達成できなかった。 既存のINT4量子化メソッドは、GPUの重み付けと部分和のいずれにおいても、大きなランタイムオーバーヘッド(20-90%)に悩まされている。 この課題に対処するために,4ビット重み,8ビットアクティベーション,4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムであるQoQを導入する。 QoQ は quattuor-octo-quattuor の略で、ラテン語で 4-8-4 を表す。 QoQは、測定スピードアップを実現するQServe推論ライブラリによって実装されている。 QServeを駆動する重要な洞察は、GPU上で動作するLLMの効率が、低スループットのCUDAコアでの操作に大きく影響されていることである。 この知見に基づくQoQアルゴリズムでは、W4A8 GEMMにおける低量子化オーバーヘッドを許容できるプログレッシブ量子化を導入する。 さらに,4ビットKV量子化による精度劣化を効果的に軽減するために,SmoothAttentionを開発した。 QServeシステムでは,重み付けの重み付けを行い,レジスタレベルの並列性を利用して復号化遅延を低減する。 また、KV4量子化による性能向上を生かして、メモリバウンドを融合させる。 その結果、QServeは、Llama-3-8Bの最大サービススループットをA100上の1.2倍、L40S上の1.4倍、Qwen1.5-72BをA100上の2.4倍、L40S上の3.5倍、TensorRT-LLMと比較して改善した。 注目すべきなのは、L40S GPU上のQServeは、A100上のTensorRT-LLMよりも高いスループットを実現することができることだ。 このようにして、QServeはLLMのドルコストを3倍に効果的に削減する。 コードはhttps://github.com/mit-han-lab/qserve.comから入手できる。

Quantization can accelerate large language model (LLM) inference. Going beyond INT8 quantization, the research community is actively exploring even lower precision, such as INT4. Nonetheless, state-of-the-art INT4 quantization techniques only accelerate low-batch, edge LLM inference, failing to deliver performance gains in large-batch, cloud-based LLM serving. We uncover a critical issue: existing INT4 quantization methods suffer from significant runtime overhead (20-90%) when dequantizing either weights or partial sums on GPUs. To address this challenge, we introduce QoQ, a W4A8KV4 quantization algorithm with 4-bit weight, 8-bit activation, and 4-bit KV cache. QoQ stands for quattuor-octo-quattuor, which represents 4-8-4 in Latin. QoQ is implemented by the QServe inference library that achieves measured speedup. The key insight driving QServe is that the efficiency of LLM serving on GPUs is critically influenced by operations on low-throughput CUDA cores. Building upon this insight, in QoQ algorithm, we introduce progressive quantization that can allow low dequantization overhead in W4A8 GEMM. Additionally, we develop SmoothAttention to effectively mitigate the accuracy degradation incurred by 4-bit KV quantization. In the QServe system, we perform compute-aware weight reordering and take advantage of register-level parallelism to reduce dequantization latency. We also make fused attention memory-bound, harnessing the performance gain brought by KV4 quantization. As a result, QServe improves the maximum achievable serving throughput of Llama-3-8B by 1.2x on A100, 1.4x on L40S; and Qwen1.5-72B by 2.4x on A100, 3.5x on L40S, compared to TensorRT-LLM. Remarkably, QServe on L40S GPU can achieve even higher throughput than TensorRT-LLM on A100. Thus, QServe effectively reduces the dollar cost of LLM serving by 3x. Code is available at https://github.com/mit-han-lab/qserve.
翻訳日:2024-05-08 13:11:46 公開日:2024-05-07
# ChatHuman: Retrieval-Augmented Tool Reasoningによる言語駆動型3Dヒューマン理解

ChatHuman: Language-driven 3D Human Understanding with Retrieval-Augmented Tool Reasoning ( http://arxiv.org/abs/2405.04533v1 )

ライセンス: Link先を確認
Jing Lin, Yao Feng, Weiyang Liu, Michael J. Black, (参考訳) 3次元ポーズ、形状、接触、人間と物体の相互作用、感情など、画像中の人の特性を検出し、推定し、分析するための多くの手法が提案されている。 これらのメソッドはそれぞれ、シナジスティックではなく分離して動作する。 ここでは、この問題に対処し、言語駆動の人間理解システム-ChatHumanを構築します。 そのため、ユーザ入力に応じて様々な既存ツールを選択し使用するために、LLM(Large Language Model)を微調整する。 そうすることでChatHumanは、複数のツールからの情報を組み合わせて、個々のツール自身よりも正確な問題を解決し、ツールのアウトプットを活用して、人間の推論能力を向上させることができる。 ChatHumanの新機能には、学術出版の活用による3Dヒューマン関連ツールの適用のガイド、新しいツールを扱うためのコンテキスト内学習例を生成するための検索強化生成モデルの利用、3Dヒューマン理解を強化するためのツール結果の識別と統合が含まれる。 実験の結果,ChatHumanは,複数の3次元人間関連タスクにおいて,ツール選択精度と性能の両方において,既存のモデルよりも優れていることがわかった。 ChatHumanは、人間の分析のための多様な手法を、単一の強力な3D推論システムに統合するための一歩だ。

Numerous methods have been proposed to detect, estimate, and analyze properties of people in images, including the estimation of 3D pose, shape, contact, human-object interaction, emotion, and more. Each of these methods works in isolation instead of synergistically. Here we address this problem and build a language-driven human understanding system -- ChatHuman, which combines and integrates the skills of many different methods. To do so, we finetune a Large Language Model (LLM) to select and use a wide variety of existing tools in response to user inputs. In doing so, ChatHuman is able to combine information from multiple tools to solve problems more accurately than the individual tools themselves and to leverage tool output to improve its ability to reason about humans. The novel features of ChatHuman include leveraging academic publications to guide the application of 3D human-related tools, employing a retrieval-augmented generation model to generate in-context-learning examples for handling new tools, and discriminating and integrating tool results to enhance 3D human understanding. Our experiments show that ChatHuman outperforms existing models in both tool selection accuracy and performance across multiple 3D human-related tasks. ChatHuman is a step towards consolidating diverse methods for human analysis into a single, powerful, system for 3D human reasoning.
翻訳日:2024-05-08 13:11:46 公開日:2024-05-07
# 触覚増強放射場

Tactile-Augmented Radiance Fields ( http://arxiv.org/abs/2405.04534v1 )

ライセンス: Link先を確認
Yiming Dou, Fengyu Yang, Yi Liu, Antonio Loquercio, Andrew Owens, (参考訳) 視覚と触覚を共有空間にもたらす触覚増強放射場(TaRF)を提示する。 この表現は、シーン内の所定の3D位置の視覚的および触覚的な信号を推定するために使用することができる。 私たちは、シーンのTaRFを、写真とわずかにサンプルされたタッチプローブの集合から捉えます。 私たちのアプローチには2つの洞察があります。 (i)一般的な視覚型タッチセンサは、通常のカメラ上に構築されており、多視点幾何法を用いて画像に登録することができる。 (II)シーンの視覚的・構造的に類似した領域は、同じ触覚的特徴を有する。 これらの知見を用いて、捕捉された視覚シーンにタッチ信号を登録し、ニューラル放射場からレンダリングされたRGB-D画像が対応する触覚信号を生成する条件拡散モデルを訓練する。 提案手法を評価するために,TaRFのデータセットを収集する。 このデータセットは、以前の実世界のデータセットよりも多くのタッチサンプルを含み、キャプチャされた各タッチ信号に対して空間的に整列された視覚信号を提供する。 本稿では,複数の下流タスクにおいて得られた視覚触覚データの有用性と,モダクティブモデルの有効性を実証する。 プロジェクトページ: https://dou-yiming.github.io/TaRF

We present a scene representation, which we call a tactile-augmented radiance field (TaRF), that brings vision and touch into a shared 3D space. This representation can be used to estimate the visual and tactile signals for a given 3D position within a scene. We capture a scene's TaRF from a collection of photos and sparsely sampled touch probes. Our approach makes use of two insights: (i) common vision-based touch sensors are built on ordinary cameras and thus can be registered to images using methods from multi-view geometry, and (ii) visually and structurally similar regions of a scene share the same tactile features. We use these insights to register touch signals to a captured visual scene, and to train a conditional diffusion model that, provided with an RGB-D image rendered from a neural radiance field, generates its corresponding tactile signal. To evaluate our approach, we collect a dataset of TaRFs. This dataset contains more touch samples than previous real-world datasets, and it provides spatially aligned visual signals for each captured touch signal. We demonstrate the accuracy of our cross-modal generative model and the utility of the captured visual-tactile data on several downstream tasks. Project page: https://dou-yiming.github.io/TaRF
翻訳日:2024-05-08 13:11:46 公開日:2024-05-07
# 頭頸部画像における前癌病変の同定のための注意に基づくパイプライン

An Attention Based Pipeline for Identifying Pre-Cancer Lesions in Head and Neck Clinical Images ( http://arxiv.org/abs/2405.01937v2 )

ライセンス: Link先を確認
Abdullah Alsalemi, Anza Shakeel, Mollie Clark, Syed Ali Khurram, Shan E Ahmed Raza, (参考訳) 早期のがん検出は早期の介入によって患者の予後を改善するのに役立つ。 頭頸部癌は外科生検後に専門病院で診断されるが、診断が遅れる可能性がある。 これらの課題を克服するため,疑わしい病変,セグメントを同定し,非異形成性病変,異形成性病変,癌性病変と分類するアテンションベースパイプラインを提案する。 特集にあたって (a)臨床画像の病変検出・セグメント化のための視覚変換器を用いたMask R-CNNネットワーク b) 分類のためのマルチインスタンス学習(MIL)に基づくスキーム。 その結果, セグメンテーションモデルでは, セグメンテーションマスクとバウンディングボックスを最大82%のオーバーラップ精度で生成し, 検証されたセグメンテーションベンチマークを上回った。 次に、内部コホートテストセットの分類F1スコアが85%である。 スマートデバイスを介して、病変のセグメンテーションを行うためのアプリが開発されている。 今後の研究は、正確な早期発見と予後のための内視鏡的ビデオデータの利用である。

Early detection of cancer can help improve patient prognosis by early intervention. Head and neck cancer is diagnosed in specialist centres after a surgical biopsy, however, there is a potential for these to be missed leading to delayed diagnosis. To overcome these challenges, we present an attention based pipeline that identifies suspected lesions, segments, and classifies them as non-dysplastic, dysplastic and cancerous lesions. We propose (a) a vision transformer based Mask R-CNN network for lesion detection and segmentation of clinical images, and (b) Multiple Instance Learning (MIL) based scheme for classification. Current results show that the segmentation model produces segmentation masks and bounding boxes with up to 82% overlap accuracy score on unseen external test data and surpassing reviewed segmentation benchmarks. Next, a classification F1-score of 85% on the internal cohort test set. An app has been developed to perform lesion segmentation taken via a smart device. Future work involves employing endoscopic video data for precise early detection and prognosis.
翻訳日:2024-05-08 13:00:13 公開日:2024-05-07
# 縮小パラメトリック空間からの高分解能解場データ再構成のためのマイクロ構造埋め込みオートエンコーダ手法の導入

Introducing a microstructure-embedded autoencoder approach for reconstructing high-resolution solution field data from a reduced parametric space ( http://arxiv.org/abs/2405.01975v2 )

ライセンス: Link先を確認
Rasoul Najafi Koopas, Shahed Rezaei, Natalie Rauter, Richard Ostwald, Rolf Lammering, (参考訳) 本研究では,パラメトリック空間情報を標準オートエンコーダアーキテクチャに組み込むことにより,低忠実度解写像を高忠実度に変換する新しい多忠実深層学習手法を提案する。 パラメトリック空間情報の統合により、低忠実度から高忠実度解を効果的に予測するためのトレーニングデータの必要性が大幅に低減される。 本研究では,高均一材料組織中の2次元定常熱伝達解析について検討した。 2つの異なる材料の熱伝導係数を101×101格子からより小さな格子に凝縮する。 次に、FOL(Finite Operator Learning)と呼ばれる、事前訓練された物理インフォームドニューラルネットワークを用いて、粗いグリッド上の境界値問題を解く。 結果として生じる低忠実度ソリューションは、新たに設計された拡張オートエンコーダを使用して、101 x 101グリッドにアップスケールされる。 改良された自己エンコーダの新規性は、異なる解像度の熱伝導率マップを異なるステップでデコーダセグメントに連結することにある。 したがって、開発したアルゴリズムは、MEA (microstructure-embedded autoencoder) と呼ばれる。 本稿では, 有限要素法, 標準U-Net, および補間関数やフィードフォワードニューラルネットワーク(FFNN)を含む様々なアップスケーリング手法とMEAの結果を比較した。 解析の結果,MEAはテストケースにおける計算効率や誤差の観点から,これらの手法よりも優れていることがわかった。 その結果、MEAは神経オペレーターネットワークの潜在的サプリメントとして機能し、特に補間で見られるような鋭いインターフェイスにおいて、従来のアップスケーリング手法でしばしば失われる重要な詳細を保ちながら、低忠実度ソリューションを高忠実度に効果的にアップスケーリングする。

In this study, we develop a novel multi-fidelity deep learning approach that transforms low-fidelity solution maps into high-fidelity ones by incorporating parametric space information into a standard autoencoder architecture. This method's integration of parametric space information significantly reduces the need for training data to effectively predict high-fidelity solutions from low-fidelity ones. In this study, we examine a two-dimensional steady-state heat transfer analysis within a highly heterogeneous materials microstructure. The heat conductivity coefficients for two different materials are condensed from a 101 x 101 grid to smaller grids. We then solve the boundary value problem on the coarsest grid using a pre-trained physics-informed neural operator network known as Finite Operator Learning (FOL). The resulting low-fidelity solution is subsequently upscaled back to a 101 x 101 grid using a newly designed enhanced autoencoder. The novelty of the developed enhanced autoencoder lies in the concatenation of heat conductivity maps of different resolutions to the decoder segment in distinct steps. Hence the developed algorithm is named microstructure-embedded autoencoder (MEA). We compare the MEA outcomes with those from finite element methods, the standard U-Net, and various other upscaling techniques, including interpolation functions and feedforward neural networks (FFNN). Our analysis shows that MEA outperforms these methods in terms of computational efficiency and error on test cases. As a result, the MEA serves as a potential supplement to neural operator networks, effectively upscaling low-fidelity solutions to high fidelity while preserving critical details often lost in traditional upscaling methods, particularly at sharp interfaces like those seen with interpolation.
翻訳日:2024-05-08 13:00:13 公開日:2024-05-07
# MBTI型マルチラベル分類の解説

Explainable Multi-Label Classification of MBTI Types ( http://arxiv.org/abs/2405.02349v2 )

ライセンス: Link先を確認
Siana Kong, Marina Sokolova, (参考訳) 本研究では、Reddit投稿とKaggleデータセットからMyers-Briggs Type Indicator(MBTI)タイプを正確に分類するための最も効果的な機械学習モデルを特定することを目的とする。 Binary Relevance 法によるマルチラベル分類を適用した。 説明可能な人工知能(XAI)アプローチを使用して、プロセスと結果の透明性と理解性を強調します。 これを実現するために,ガラス箱学習モデル,すなわち,シンプルさ,透明性,解釈可能性のために設計されたモデルを用いて実験を行った。 ガラス箱モデルに対して, k-Nearest Neighbour, Multinomial Naive Bayes, Logistic Regressionを選択した。 我々は, オブザーバ(S)特性を持つクラスが除外された場合, マルチノミアル・ネイブベイズとk-Nearest Neighbourがより優れていることを示す。

In this study, we aim to identify the most effective machine learning model for accurately classifying Myers-Briggs Type Indicator (MBTI) types from Reddit posts and a Kaggle data set. We apply multi-label classification using the Binary Relevance method. We use Explainable Artificial Intelligence (XAI) approach to highlight the transparency and understandability of the process and result. To achieve this, we experiment with glass-box learning models, i.e. models designed for simplicity, transparency, and interpretability. We selected k-Nearest Neighbour, Multinomial Naive Bayes, and Logistic Regression for the glass-box models. We show that Multinomial Naive Bayes and k-Nearest Neighbour perform better if classes with Observer (S) traits are excluded, whereas Logistic Regression obtains its best results when all classes have > 550 entries.
翻訳日:2024-05-08 13:00:13 公開日:2024-05-07
# 時系列基礎モデルに関する調査:大規模言語モデルを用いた時系列表現の一般化

A Survey of Time Series Foundation Models: Generalizing Time Series Representation with Large Language Model ( http://arxiv.org/abs/2405.02358v2 )

ライセンス: Link先を確認
Jiexia Ye, Weiqi Zhang, Ke Yi, Yongzi Yu, Ziyue Li, Jia Li, Fugee Tsung, (参考訳) 時系列データは様々な領域に分散しており、時系列解析が極めて重要である。 伝統的な時系列モデルはタスク固有であり、特異な機能と限定的な一般化能力を備えている。 近年,大規模言語基盤モデルでは,クロスタスク転送性,ゼロショット/フェーショット学習,意思決定説明性などの特長が明らかにされている。 この成功は、複数の時系列課題を同時に解決する基礎モデルの探求への関心を喚起した。 主な研究線は2つあり、例えば、時系列のためにゼロから事前訓練された基礎モデルと、時系列のために大きな言語基盤モデルを適用することである。 これらは共に、高度に一般化可能で、汎用的で、時系列解析のために理解可能な統一モデルの開発に寄与する。 本調査は,関連研究の総合的な調査を行うための3E分析フレームワークを提供する。 具体的には,有効性,効率性,説明可能性という3つの次元から既存の作品について検討する。 各次元において、時系列の領域におけるユニークな課題を考慮し、関連する作業がどのように調整されたソリューションを創出するかについて議論する。 さらに、我々は、フォロワーがドメイン固有の進歩に追いつくのを助けるために、ドメイン分類を提供する。 さらに、データセット、オープンソース、時系列ライブラリなど、フィールドの開発を容易にするための広範なリソースも導入する。 GitHubリポジトリもリソース更新のためにメンテナンスされている(https://github.com/start 2020/Awesome-TimeSeries-LLM-FM)。

Time series data are ubiquitous across various domains, making time series analysis critically important. Traditional time series models are task-specific, featuring singular functionality and limited generalization capacity. Recently, large language foundation models have unveiled their remarkable capabilities for cross-task transferability, zero-shot/few-shot learning, and decision-making explainability. This success has sparked interest in the exploration of foundation models to solve multiple time series challenges simultaneously. There are two main research lines, namely pre-training foundation models from scratch for time series and adapting large language foundation models for time series. They both contribute to the development of a unified model that is highly generalizable, versatile, and comprehensible for time series analysis. This survey offers a 3E analytical framework for comprehensive examination of related research. Specifically, we examine existing works from three dimensions, namely Effectiveness, Efficiency and Explainability. In each dimension, we focus on discussing how related works devise tailored solution by considering unique challenges in the realm of time series. Furthermore, we provide a domain taxonomy to help followers keep up with the domain-specific advancements. In addition, we introduce extensive resources to facilitate the field's development, including datasets, open-source, time series libraries. A GitHub repository is also maintained for resource updates (https://github.com/start2020/Awesome-TimeSeries-LLM-FM).
翻訳日:2024-05-08 13:00:13 公開日:2024-05-07
# Delphi: 分散Oracleの効率的な非同期近似契約

Delphi: Efficient Asynchronous Approximate Agreement for Distributed Oracles ( http://arxiv.org/abs/2405.02431v2 )

ライセンス: Link先を確認
Akhil Bandarupalli, Adithya Bhat, Saurabh Bagchi, Aniket Kate, Chen-Da Liu-Zhang, Michael K. Reiter, (参考訳) コンセンサスプロトコルは、分散(ブロックチェーン)オーラクルからフォールトトレラントなサイバー物理システムまで、様々な新興アプリケーションにおいて不可欠である。 センサ/光子ノードが共通のソースを測定する場合、凸妥当性として知られる正しい入力の凸範囲内で出力を維持することは必須である。 現在の非同期凸合意プロトコルは、ランダム化、実質的な計算オーバーヘッドの増大、あるいは近似した合意手法を用いており、$n$ノードシステムに対する高い$\mathcal{\tilde{O}}(n^3)$通信をもたらす。 本稿では,$\mathcal{\tilde{O}}(n^2)$通信と最小計算オーバーヘッドを持つ決定論的プロトコルであるDelphiを紹介する。 デルフィは、正直な入力は無視可能な確率を除いて有界であると仮定し、文学からの合意原始と、新しい重み付け平均化技術を統合する。 実験結果はDelphiの優れた性能を強調し、最先端のプロトコルに比べてレイテンシが大幅に低いことを示している。 具体的には、$n=160$-nodeシステムの場合、DelphiはCPSとAWS環境でそれぞれ8倍と3倍のレイテンシ改善を実現している。

Agreement protocols are crucial in various emerging applications, spanning from distributed (blockchains) oracles to fault-tolerant cyber-physical systems. In scenarios where sensor/oracle nodes measure a common source, maintaining output within the convex range of correct inputs, known as convex validity, is imperative. Present asynchronous convex agreement protocols employ either randomization, incurring substantial computation overhead, or approximate agreement techniques, leading to high $\mathcal{\tilde{O}}(n^3)$ communication for an $n$-node system. This paper introduces Delphi, a deterministic protocol with $\mathcal{\tilde{O}}(n^2)$ communication and minimal computation overhead. Delphi assumes that honest inputs are bounded, except with negligible probability, and integrates agreement primitives from literature with a novel weighted averaging technique. Experimental results highlight Delphi's superior performance, showcasing a significantly lower latency compared to state-of-the-art protocols. Specifically, for an $n=160$-node system, Delphi achieves an 8x and 3x improvement in latency within CPS and AWS environments, respectively.
翻訳日:2024-05-08 13:00:13 公開日:2024-05-07
# Mozartのタッチ: 事前学習された大規模モデルに基づく軽量マルチモーダル音楽生成フレームワーク

Mozart's Touch: A Lightweight Multi-modal Music Generation Framework Based on Pre-Trained Large Models ( http://arxiv.org/abs/2405.02801v2 )

ライセンス: Link先を確認
Tianze Xu, Jiajun Li, Xuesong Chen, Xinrui Yao, Shuchang Liu, (参考訳) 近年、AIGC(AI-Generated Content)は、様々な産業における音楽、画像、その他の芸術表現の創出を促進する、急速な進歩を目撃している。 しかし、一般的なマルチモーダル音楽生成モデルに関する研究はほとんどない。 このギャップを埋めるために,マルチモーダル音楽生成フレームワークであるMozart's Touchを提案する。 画像やビデオ、テキストなど、モダリティを越えた入力と整列した音楽を生成することができる。 MozartのTouchは、マルチモーダルキャプションモジュール、LLM (Large Language Model) Understanding & Bridging Module、Music Generation Moduleの3つの主要コンポーネントで構成されている。 従来のアプローチとは異なり、MozartのTouchはトレーニングや微調整を必要とせず、透明で解釈可能なプロンプトを通じて効率と透明性を提供する。 また,モーダルの異なる記述テキスト間の異種表現問題を解くために,LLM-Bridge法を導入する。 本研究は,提案モデルに基づく客観的および主観的な評価を行い,本モデルが現在の最先端モデルの性能を上回っていることを示す。 https://github.com/WangTooNaive/MozartsTouch

In recent years, AI-Generated Content (AIGC) has witnessed rapid advancements, facilitating the generation of music, images, and other forms of artistic expression across various industries. However, researches on general multi-modal music generation model remain scarce. To fill this gap, we propose a multi-modal music generation framework Mozart's Touch. It could generate aligned music with the cross-modality inputs, such as images, videos and text. Mozart's Touch is composed of three main components: Multi-modal Captioning Module, Large Language Model (LLM) Understanding & Bridging Module, and Music Generation Module. Unlike traditional approaches, Mozart's Touch requires no training or fine-tuning pre-trained models, offering efficiency and transparency through clear, interpretable prompts. We also introduce "LLM-Bridge" method to resolve the heterogeneous representation problems between descriptive texts of different modalities. We conduct a series of objective and subjective evaluations on the proposed model, and results indicate that our model surpasses the performance of current state-of-the-art models. Our codes and examples is availble at: https://github.com/WangTooNaive/MozartsTouch
翻訳日:2024-05-08 13:00:13 公開日:2024-05-07
# カモフラージュ物体検出のための適応誘導学習

Adaptive Guidance Learning for Camouflaged Object Detection ( http://arxiv.org/abs/2405.02824v2 )

ライセンス: Link先を確認
Zhennan Chen, Xuying Zhang, Tian-Zhu Xiang, Ying Tai, (参考訳) カモフラージュされた物体検出(COD)は、周囲に視覚的に埋め込まれた物体を分割することを目的としている。 この問題に対処するために、ほとんどの手法は、背景から偽装された物体をよりよく検出するための特徴学習を導くために追加情報(境界、テクスチャ、周波数ヒントなど)を組み込むことが多い。 進歩はあったものの、これらの手法は基本的に特定の補助的手段に個別に適合しており、適応性に欠け、高いセグメンテーション性能が得られない。 そこで本論文では,CNNモデルに異なる追加手法を探索し,適応させることにより,正確なキャモフラーグ付き特徴学習を導出するための一貫したエンド・ツー・エンド学習モデルである「textit{AGLNet}」という適応型ガイダンス学習ネットワークを提案する。 具体的には、まず、簡単な追加情報生成(AIG)モジュールを設計し、効果的なカモフラージュ特徴の探索に適応できる追加のカモフラーグオブジェクトキューを学習する。 次に,多段階融合方式でカモフラージュした特徴学習を誘導するために,追加の手がかりと画像特徴を深く統合する階層的特徴結合 (HFC) モジュールを提案する。 広範に使用されている3つのCODベンチマークデータセットに対する大規模な実験により、提案手法は異なる追加手法で大幅な性能向上を実現し、最近の20の最先端手法を大きなマージンで上回る結果となった。 私たちのコードは、次のように公開されます。

Camouflaged object detection (COD) aims to segment objects visually embedded in their surroundings, which is a very challenging task due to the high similarity between the objects and the background. To address it, most methods often incorporate additional information (e.g., boundary, texture, and frequency clues) to guide feature learning for better detecting camouflaged objects from the background. Although progress has been made, these methods are basically individually tailored to specific auxiliary cues, thus lacking adaptability and not consistently achieving high segmentation performance. To this end, this paper proposes an adaptive guidance learning network, dubbed \textit{AGLNet}, which is a unified end-to-end learnable model for exploring and adapting different additional cues in CNN models to guide accurate camouflaged feature learning. Specifically, we first design a straightforward additional information generation (AIG) module to learn additional camouflaged object cues, which can be adapted for the exploration of effective camouflaged features. Then we present a hierarchical feature combination (HFC) module to deeply integrate additional cues and image features to guide camouflaged feature learning in a multi-level fusion manner.Followed by a recalibration decoder (RD), different features are further aggregated and refined for accurate object prediction. Extensive experiments on three widely used COD benchmark datasets demonstrate that the proposed method achieves significant performance improvements under different additional cues, and outperforms the recent 20 state-of-the-art methods by a large margin. Our code will be made publicly available at: \textcolor{blue}{{https://github.com/ZNan-Chen/AGLNet}}.
翻訳日:2024-05-08 13:00:13 公開日:2024-05-07
# 個別学習ニューラルモデルより優れた統一型ダイナミックスキャンパス予測器

Unified Dynamic Scanpath Predictors Outperform Individually Trained Neural Models ( http://arxiv.org/abs/2405.02929v2 )

ライセンス: Link先を確認
Fares Abawi, Di Fu, Stefan Wermter, (参考訳) スキャンパス予測に関するこれまでの研究は、主にグループモデルに焦点を当てており、スキャンパスと個人の注意行動が多様であるという事実を無視している。 ロボットはヒューリスティックスや事前に定義されたパターンに基づいて人間の視線をエミュレートする。 しかしながら、ヒトの視線パターンは異質であり、様々な行動はそのような人間とロボットの相互作用の結果に大きな影響を及ぼす。 このギャップを埋めるため、私たちは、ビデオ中のスキャンパスを予測するために、給与予測のためのディープラーニングベースのソーシャルキュー統合モデルを開発した。 本モデルでは、ゲーティング機構とシーケンシャルアテンションを通じて、修正履歴と社会的手がかりを再帰的に統合することでスキャンパスを学習した。 我々は,自由視聴条件下で観察された動的社会シーンの視線データセットに対するアプローチを評価した。 私たちのモデルに固定履歴を導入することで、各スキャンパスに対して個々のモデルをトレーニングするリソース集約的なアプローチではなく、単一の統一モデルをトレーニングすることが可能になります。 我々は、ニューラルネットワークの後期アプローチが、同じ分布を持つ小さなデータセットと比較して、大規模なデータセット上でのトレーニングモデルにおいて、初期の融合よりも優れていることを観察した。 結果は、観察者のすべてのスキャンパスに基づいて訓練された単一の統一モデルが、個別に訓練されたモデルよりも同等以上のパフォーマンスを示すことも示している。 この結果は、モデルに普遍的な注意を喚起するグループサリエンシ表現の結果であり、一方で、監督信号と固定履歴は、パーソナライズされた注意行動を学ぶためのガイドであり、統一モデルは、その暗黙的な普遍的な注意の表現のために、個々のモデルに対して利益をもたらす。

Previous research on scanpath prediction has mainly focused on group models, disregarding the fact that the scanpaths and attentional behaviors of individuals are diverse. The disregard of these differences is especially detrimental to social human-robot interaction, whereby robots commonly emulate human gaze based on heuristics or predefined patterns. However, human gaze patterns are heterogeneous and varying behaviors can significantly affect the outcomes of such human-robot interactions. To fill this gap, we developed a deep learning-based social cue integration model for saliency prediction to instead predict scanpaths in videos. Our model learned scanpaths by recursively integrating fixation history and social cues through a gating mechanism and sequential attention. We evaluated our approach on gaze datasets of dynamic social scenes, observed under the free-viewing condition. The introduction of fixation history into our models makes it possible to train a single unified model rather than the resource-intensive approach of training individual models for each set of scanpaths. We observed that the late neural integration approach surpasses early fusion when training models on a large dataset, in comparison to a smaller dataset with a similar distribution. Results also indicate that a single unified model, trained on all the observers' scanpaths, performs on par or better than individually trained models. We hypothesize that this outcome is a result of the group saliency representations instilling universal attention in the model, while the supervisory signal and fixation history guide it to learn personalized attentional behaviors, providing the unified model a benefit over individual models due to its implicit representation of universal attention.
翻訳日:2024-05-08 13:00:13 公開日:2024-05-07
# バングラ自然言語推論のための変圧器モデルによる大規模言語モデルの優位性の解明 : 総合的研究

Unraveling the Dominance of Large Language Models Over Transformer Models for Bangla Natural Language Inference: A Comprehensive Study ( http://arxiv.org/abs/2405.02937v2 )

ライセンス: Link先を確認
Fatema Tuj Johora Faria, Mukaffi Bin Moin, Asif Iftekher Fahim, Pronay Debnath, Faisal Muhammad Shah, (参考訳) 自然言語推論(英: Natural Language Inference, NLI)は、自然言語処理(英: Natural Language Processing, NLP)の基盤であり、テキストペアリング間の関係に関する洞察を提供する。 自然言語理解(NLU)の重要な要素であり、音声や文字による対話から情報を抽出する能力を示す。 NLIは主に、前提と仮説として知られる2つの文の間の包含関係を決定することに関心がある。 前提が仮説を論理的に意味するならば、ペアは"entailment"とラベル付けされる。 仮説が前提と矛盾する場合、対は「矛盾」ラベルを受け取る。 接続を確立するのに不十分な証拠がある場合、このペアは「中立」と表現される。 LLM(Large Language Models)が様々なタスクで成功したにもかかわらず、NLIにおけるその有効性は、低リソース領域の精度、モデルの過信、人間の判断の不一致を捉えることの難しさといった問題によって制約されている。 本研究では,ベンガル語などの低リソース言語におけるLLMの評価について検討した。 本研究では,ベンガルのNLPタスクにおける顕著なLLMとSOTA(State-of-the-art)モデルの性能評価を行い,自然言語推論に着目した。 XNLIデータセットを利用することで、GPT-3.5 TurboやGemini 1.5 ProのようなLCMとBanglaBERT、Bangla BERT Base、DistilBERT、mBERT、SahajBERTといったモデルを比較し、ゼロショットと少数ショットの評価を行う。 我々の研究は, ベンガル語のような質素な資源を持つ言語において, LLMの理解を深めるためには, 微調整SOTAモデルに匹敵する, あるいは優れた性能を達成できることを示唆している。 本研究は,多様な言語文脈におけるLLM能力の探求への継続的な取り組みの重要性を浮き彫りにするものである。

Natural Language Inference (NLI) is a cornerstone of Natural Language Processing (NLP), providing insights into the entailment relationships between text pairings. It is a critical component of Natural Language Understanding (NLU), demonstrating the ability to extract information from spoken or written interactions. NLI is mainly concerned with determining the entailment relationship between two statements, known as the premise and hypothesis. When the premise logically implies the hypothesis, the pair is labeled "entailment". If the hypothesis contradicts the premise, the pair receives the "contradiction" label. When there is insufficient evidence to establish a connection, the pair is described as "neutral". Despite the success of Large Language Models (LLMs) in various tasks, their effectiveness in NLI remains constrained by issues like low-resource domain accuracy, model overconfidence, and difficulty in capturing human judgment disagreements. This study addresses the underexplored area of evaluating LLMs in low-resourced languages such as Bengali. Through a comprehensive evaluation, we assess the performance of prominent LLMs and state-of-the-art (SOTA) models in Bengali NLP tasks, focusing on natural language inference. Utilizing the XNLI dataset, we conduct zero-shot and few-shot evaluations, comparing LLMs like GPT-3.5 Turbo and Gemini 1.5 Pro with models such as BanglaBERT, Bangla BERT Base, DistilBERT, mBERT, and sahajBERT. Our findings reveal that while LLMs can achieve comparable or superior performance to fine-tuned SOTA models in few-shot scenarios, further research is necessary to enhance our understanding of LLMs in languages with modest resources like Bengali. This study underscores the importance of continued efforts in exploring LLM capabilities across diverse linguistic contexts.
翻訳日:2024-05-08 13:00:13 公開日:2024-05-07
# CoverLib: 反復問題分布被覆最大化によるドメイン調整型動作計画のための分類器付き体験ライブラリ

CoverLib: Classifiers-equipped Experience Library by Iterative Problem Distribution Coverage Maximization for Domain-tuned Motion Planning ( http://arxiv.org/abs/2405.02968v2 )

ライセンス: Link先を確認
Hirokazu Ishida, Naoki Hiraoka, Kei Okada, Masayuki Inaba, (参考訳) ライブラリベースの手法は、事前計算されたライブラリから取得した経験を適応させることにより、高速な動作計画に非常に効果的であることが知られている。 本稿では,このようなライブラリの構築と利用に関する原則的アプローチであるCoverLibについて述べる。 CoverLibはライブラリに経験分類器ペアを反復的に追加し、各分類器は問題空間内の経験の適応可能な領域に対応する。 この反復的プロセスは、未発見領域を効果的にカバーする能力に基づいて次の経験を選択するため、アクティブな手順である。 クエリフェーズでは、これらの分類器を使用して、与えられた問題に適応すると思われるエクスペリエンスを選択する。 実験により,CoverLibは,グローバル(サンプリングベース)法とローカル(最適化ベース)法で観測されるプランナビリティと速度のトレードオフを効果的に緩和することを示した。 その結果、問題領域よりも高速な計画と高い成功率を達成する。 さらに、適応アルゴリズムに依存しない性質のため、CoverLibは非線形プログラミングベースやサンプリングベースアルゴリズムを含む様々な適応手法とシームレスに統合される。

Library-based methods are known to be very effective for fast motion planning by adapting an experience retrieved from a precomputed library. This article presents CoverLib, a principled approach for constructing and utilizing such a library. CoverLib iteratively adds an experience-classifier-pair to the library, where each classifier corresponds to an adaptable region of the experience within the problem space. This iterative process is an active procedure, as it selects the next experience based on its ability to effectively cover the uncovered region. During the query phase, these classifiers are utilized to select an experience that is expected to be adaptable for a given problem. Experimental results demonstrate that CoverLib effectively mitigates the trade-off between plannability and speed observed in global (e.g. sampling-based) and local (e.g. optimization-based) methods. As a result, it achieves both fast planning and high success rates over the problem domain. Moreover, due to its adaptation-algorithm-agnostic nature, CoverLib seamlessly integrates with various adaptation methods, including nonlinear programming-based and sampling-based algorithms.
翻訳日:2024-05-08 13:00:13 公開日:2024-05-07
# 若年性特発性強皮症に対する親和性クラスタリングによる超音波カーブ角自動計測

Automatic Ultrasound Curve Angle Measurement via Affinity Clustering for Adolescent Idiopathic Scoliosis Evaluation ( http://arxiv.org/abs/2405.03141v2 )

ライセンス: Link先を確認
Yihao Zhou, Timothy Tin-Yan Lee, Kelly Ka-Lee Lai, Chonglin Wu, Hin Ting Lau, De Yang, Chui-Yi Chan, Winnie Chiu-Wing Chu, Jack Chun-Yiu Cheng, Tsz-Ping Lam, Yong-Ping Zheng, (参考訳) 思春期特発性強皮症(AIS)を評価するための現在の臨床金基準は、コブ角測定を用いたX線X線撮影である。 しかしながら、X線を用いたAIS進行の頻繁なモニタリングは、累積放射露光による課題となる。 3次元超音波検査は, 脊柱管狭窄評価のための信頼性と放射線のない代替手段として評価されているが, 脊椎曲率測定のプロセスはまだ手作業で行われている。 したがって、ボニーランドマークを見つけ、角度測定を行うことができる完全自動システムにはかなりの需要がある。 そこで本稿では,自動超音波曲線角測定(UCA)のための推定モデルを提案する。 このモデルでは、二重ブランチネットワークを用いて、候補のランドマークを検出し、超音波コロナ画像の椎骨分割を行う。 脊椎領域内のアフィニティクラスタリング戦略を利用して、候補ランドマーク間のアフィニティ関係を示す。 その後、UCA測定のためのクラスタ化親和性マップから線分線を効率的に行うことができる。 本手法は,UCA計算に特化して設計されているため,ランドマークおよびライン検出タスクにおいて,他の最先端手法よりも優れている。 R$^2$=0.858という自動UCA角とコブ角の相関が強いことから,本手法は超音波検診において手動UCA測定を代替できる可能性が示唆された。

The current clinical gold standard for evaluating adolescent idiopathic scoliosis (AIS) is X-ray radiography, using Cobb angle measurement. However, the frequent monitoring of the AIS progression using X-rays poses a challenge due to the cumulative radiation exposure. Although 3D ultrasound has been validated as a reliable and radiation-free alternative for scoliosis assessment, the process of measuring spinal curvature is still carried out manually. Consequently, there is a considerable demand for a fully automatic system that can locate bony landmarks and perform angle measurements. To this end, we introduce an estimation model for automatic ultrasound curve angle (UCA) measurement. The model employs a dual-branch network to detect candidate landmarks and perform vertebra segmentation on ultrasound coronal images. An affinity clustering strategy is utilized within the vertebral segmentation area to illustrate the affinity relationship between candidate landmarks. Subsequently, we can efficiently perform line delineation from a clustered affinity map for UCA measurement. As our method is specifically designed for UCA calculation, this method outperforms other state-of-the-art methods for landmark and line detection tasks. The high correlation between the automatic UCA and Cobb angle (R$^2$=0.858) suggests that our proposed method can potentially replace manual UCA measurement in ultrasound scoliosis assessment.
翻訳日:2024-05-08 13:00:13 公開日:2024-05-07
# Sachdev-Ye-Kitaev相互作用のための電池の量子優位性

Quantum advantage in batteries for Sachdev-Ye-Kitaev interactions ( http://arxiv.org/abs/2405.03306v2 )

ライセンス: Link先を確認
Gianluca Francica, (参考訳) セルが相互作用している場合、量子電池のユニタリ充電において量子アドバンテージが達成される。 ここでは、この量子優位性がスパースSachdev-Ye-Kitaev相互作用に対してどのように達成されるのかを解析計算で明らかにする。 単純なモデル化を行うことで、$q$-point rescaled sparse SYK 相互作用に対して、量子上の優位性は $\Gamma\sim N^{\frac{\alpha}{q}-\frac{1}{2}}$ となる。

A quantum advantage can be achieved in the unitary charging of quantum batteries if their cells are interacting. Here, we try to clarify with some analytical calculations whether and how this quantum advantage is achieved for sparse Sachdev-Ye-Kitaev interactions. By performing a simple modelization, we find that for $q$-point rescaled sparse SYK interactions the quantum advantage goes as $\Gamma\sim N^{\frac{\alpha}{q}-\frac{1}{2}}$, where $\alpha$ is related to the connectivity and $N$ is the number of cells.
翻訳日:2024-05-08 13:00:13 公開日:2024-05-07
# 民主化のためのエージェントとしての大規模言語モデル(LLM)

Large Language Models (LLMs) as Agents for Augmented Democracy ( http://arxiv.org/abs/2405.03452v2 )

ライセンス: Link先を確認
Jairo Gudiño-Rosero, Umberto Grandi, César A. Hidalgo, (参考訳) 我々は、2022年のブラジル大統領選挙で収集された67の政策提案にまたがる個人の嗜好を要約したデータに基づいて、市販のLLM上に構築された拡張民主主義システムの能力について検討する。 被験者の個別の政治的選択と参加者の全サンプルの集合的選好の両方をLLMが予測する精度を推定するために、列車試験のクロスバリデーション・セットアップを使用する。 個人レベルでは、サンプル予測の精度は69%-76%の範囲にあり、リベラルおよび大学教育の参加者の嗜好を予測するのに非常に優れている。 人口レベルでは、ボルダスコアの適応を用いて嗜好を集計し、参加者の確率的サンプルとLLMを用いたデータから得られた政策提案のランキングを比較した。 その結果,全人口の30%から40%に満たない場合には,確率的サンプルのみよりも全人口の嗜好を予測できることがわかった。 これらの結果から, LLMは民主化の強化システム構築に有用である可能性が示唆された。

We explore the capabilities of an augmented democracy system built on off-the-shelf LLMs fine-tuned on data summarizing individual preferences across 67 policy proposals collected during the 2022 Brazilian presidential elections. We use a train-test cross-validation setup to estimate the accuracy with which the LLMs predict both: a subject's individual political choices and the aggregate preferences of the full sample of participants. At the individual level, the accuracy of the out of sample predictions lie in the range 69%-76% and are significantly better at predicting the preferences of liberal and college educated participants. At the population level, we aggregate preferences using an adaptation of the Borda score and compare the ranking of policy proposals obtained from a probabilistic sample of participants and from data augmented using LLMs. We find that the augmented data predicts the preferences of the full population of participants better than probabilistic samples alone when these represent less than 30% to 40% of the total population. These results indicate that LLMs are potentially useful for the construction of systems of augmented democracy.
翻訳日:2024-05-08 13:00:13 公開日:2024-05-07
# LLMは複雑な悪意のあるクエリを深く検出できるか? 難読化インテントによる脱獄フレームワーク

Can LLMs Deeply Detect Complex Malicious Queries? A Framework for Jailbreaking via Obfuscating Intent ( http://arxiv.org/abs/2405.03654v2 )

ライセンス: Link先を確認
Shang Shang, Xinqiang Zhao, Zhongjiang Yao, Yepeng Yao, Liya Su, Zijing Fan, Xiaodan Zhang, Zhengwei Jiang, (参考訳) そこで,本研究では,ユーザプロンプトの背後にある真の意図を隠蔽して,その脆弱性を悪用するブラックボックス・ジェイルブレイク攻撃手法IntentObfuscatorを提案する。 このフレームワークでは、クエリの複雑さとあいまいさを操り、悪意のある意図の検出を効果的に回避する「Obscure Intention」と「Create Ambiguity」の2つの実装を詳述する。 本稿では,ChatGPT-3.5,ChatGPT-4,Qwen,Baichuanなど複数のモデルを対象としたIntentObfuscator法の有効性を実証的に検証した。 特に、週に1億人のアクティブユーザーを抱えるChatGPT-3.5での我々のテストは、83.65\%という驚くべき成功率を達成した。 私たちはまた、グラフィック暴力、人種差別、性差別、政治的感受性、サイバーセキュリティの脅威、犯罪スキルといった様々なタイプの機密コンテンツにも検証を拡大し、LLMコンテンツセキュリティフレームワークに対する「レッドチーム」戦略の強化に対する我々の発見の実質的な影響を証明しました。

To demonstrate and address the underlying maliciousness, we propose a theoretical hypothesis and analytical approach, and introduce a new black-box jailbreak attack methodology named IntentObfuscator, exploiting this identified flaw by obfuscating the true intentions behind user prompts.This approach compels LLMs to inadvertently generate restricted content, bypassing their built-in content security measures. We detail two implementations under this framework: "Obscure Intention" and "Create Ambiguity", which manipulate query complexity and ambiguity to evade malicious intent detection effectively. We empirically validate the effectiveness of the IntentObfuscator method across several models, including ChatGPT-3.5, ChatGPT-4, Qwen and Baichuan, achieving an average jailbreak success rate of 69.21\%. Notably, our tests on ChatGPT-3.5, which claims 100 million weekly active users, achieved a remarkable success rate of 83.65\%. We also extend our validation to diverse types of sensitive content like graphic violence, racism, sexism, political sensitivity, cybersecurity threats, and criminal skills, further proving the substantial impact of our findings on enhancing 'Red Team' strategies against LLM content security frameworks.
翻訳日:2024-05-08 13:00:13 公開日:2024-05-07