このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240704となっている論文です。

PDF登録状況(公開日: 20240704)

TitleAuthorsAbstract論文公表日・翻訳日
# FemQuest - プログラミングの女の子を魅了するインタラクティブなマルチプレイヤーゲーム

FemQuest -- An Interactive Multiplayer Game to Engage Girls in Programming ( http://arxiv.org/abs/2407.18325v1 )

ライセンス: Link先を確認
Michael Holly, Lisa Habich, Maria Seiser, Florian Glawogger, Kevin Innerebner, Sandra Kupsa, Philipp Einwallner, Johanna Pirker, (参考訳) 近年、コンピュータ科学(CS)は顕著な成長と多様化を遂げている。 魅力的なソーシャルゲームやハンズオンゲームを作ることは、ティーンエージャーや若者にCSに興味を持たせるためのアプローチとしてすでに認識されている。 しかし、CSにおける男女の関心と参加のグローバルなギャップを克服することは、今でも世界的問題である。 この課題に対処するため,ワークショップ環境において,女子に3Dゲーム環境を通したプログラムを動機付けるマルチプレイヤーゲームを提案する。 本論文は, コンピュータサイエンス教育における教育環境の拡充をめざし, 若年女性の協調的学習環境におけるプログラミング探求のためのモチベーションとエンゲージメントのプラットフォームを提供することを目的とする。 ワークショップ評価では,女子235名,コーチ50名,ゲーム内分析では20名であった。 本稿では,学習経験と学習結果だけでなく,ゲーム内のプログラミングクエストをプレイし,解決する上での認知的作業負荷の関与についても検討する。 その結果, ワークショップの肯定的な成果は, コンピュータ科学活動に興味を持つ女子にゲームベースの協調学習アプローチの有効性を裏付けるものであることがわかった。 様々なタスクで見つかる様々なソリューションは、参加者の創造性と問題解決のスキルを示し、批判的思考と計算スキルを促進するワークショップの有効性を根底から示している。

In recent decades, computer science (CS) has undergone remarkable growth and diversification. Creating attractive, social, or hands-on games has already been identified as a possible approach to get teenagers and young adults interested in CS. However, overcoming the global gap between the interest and participation of men and women in CS is still a worldwide problem. To address this challenge, we present a multiplayer game that is used in a workshop setting to motivate girls to program through a 3D game environment. The paper aims to expand the educational landscape within computer science education by offering a motivating and engaging platform for young women to explore programming quests in a collaborative environment. The study involved 235 girls and 50 coaches for the workshop evaluation and a subset of 20 participants for an in-game analysis. In this paper, we explore the engagement in programming and assess the cognitive workload while playing and solving programming quests within the game, as well as the learning experience and the outcome. The results show that the positive outcomes of the workshop underscore the effectiveness of a game-based collaborative learning approach to get girls interested in computer science activities. The variety of solutions found for the different tasks demonstrates the creativity and problem-solving skills of the participants and underlines the effectiveness of the workshop in promoting critical thinking and computational skills.
翻訳日:2024-08-05 01:35:56 公開日:2024-07-04
# LLMを用いた分類ベース自動HDLコード生成

Classification-Based Automatic HDL Code Generation Using LLMs ( http://arxiv.org/abs/2407.18326v1 )

ライセンス: Link先を確認
Wenhao Sun, Bing Li, Grace Li Zhang, Xunzhao Yin, Cheng Zhuo, Ulf Schlichtmann, (参考訳) 大規模言語モデル(LLM)は、デジタル回路用のハードウェア記述言語(HDL)コードを生成する能力を示したが、幻覚の問題に悩まされ、誤ったHDLコードの生成や仕様の誤解につながる。 本研究では,LLMの幻覚を緩和し,HDLコード生成の性能を向上させるために,人間の専門性に着想を得た手法を提案する。 まず、LLMが仕様に基づいて回路のタイプを分類する。 次に,電子設計自動化(EDA)ツールを用いて,情報抽出や人為的デザインフローなどのタスクをサブプロデューサに分割した。 また、コード生成のばらつきを軽減するために検索手法も使用しています。 実験結果から,本手法は生成したVerilogの機能的正しさを著しく向上し,LLMの幻覚を低減できることが示された。

While large language models (LLMs) have demonstrated the ability to generate hardware description language (HDL) code for digital circuits, they still suffer from the hallucination problem, which leads to the generation of incorrect HDL code or misunderstanding of specifications. In this work, we introduce a human-expert-inspired method to mitigate the hallucination of LLMs and improve the performance in HDL code generation. We first let LLMs classify the type of the circuit based on the specifications. Then, according to the type of the circuit, we split the tasks into several sub-procedures, including information extraction and human-like design flow using Electronic Design Automation (EDA) tools. Besides, we also use a search method to mitigate the variation in code generation. Experimental results show that our method can significantly improve the functional correctness of the generated Verilog and reduce the hallucination of LLMs.
翻訳日:2024-08-05 01:35:56 公開日:2024-07-04
# Llama 3 と GPT-4 を用いた金融分析報告における最も頻度の高い質問の同定

The Structure of Financial Equity Research Reports -- Identification of the Most Frequently Asked Questions in Financial Analyst Reports to Automate Equity Research Using Llama 3 and GPT-4 ( http://arxiv.org/abs/2407.18327v1 )

ライセンス: Link先を確認
Adria Pop, Jan Spörer, Siegfried Handschuh, (参考訳) 本研究は、ERR(金融エクイティ・リサーチ・レポート)を分類し、コンテンツをカテゴリに分類する。 ERRで回答した質問に対する経験的分析は不十分である。 特に、特定の情報がどれだけ頻度で現れるか、どの情報が必須と考えられるか、どんな情報が人間の判断でERRに蒸留する必要があるかは理解されていない。 調査では、72のERRを文単位で分析し、4940の文を169の質問アーチタイプに分類した。 我々は質問を事前に定義しなかったが、ERRの声明からのみ派生した。 このアプローチは、観測されたERRの内容の偏見のないビューを提供する。 その後、公的な企業報告を用いて、質問の自動化の可能性の分類を行った。 質問に対する回答が企業報告でアクセス可能であれば、回答は「テキスト抽出可能」とラベル付けされた。 ERRにおける質問の78.7%は自動化できる。 自動化可能な質問は48.2%のテキスト抽出可能(大きな言語モデル、LLMによる処理に適した)と30.5%のデータベース抽出可能質問で構成されている。 21.3%の質問は人間の判断で答える必要がある。 Llama-3-70B と GPT-4-turbo-2024-04-09 を用いて,最近の言語生成と情報抽出の進歩により,ERR における文の約80%の自動化が可能となることを実証的に検証した。 驚くべきことに、モデルは互いの強みと弱みをうまく補完する。 この研究は、現在のERRの書き込みプロセスが、さらなる自動化、品質と効率の改善の恩恵を受ける可能性があることを裏付けている。 そこで本研究では,ERR記述プロセスにおける大規模言語モデルの導入による潜在的影響を定量化する。 アーチェタイプとその頻度を含む全質問リストは、ピアレビュー後にオンラインで公開される。

This research dissects financial equity research reports (ERRs) by mapping their content into categories. There is insufficient empirical analysis of the questions answered in ERRs. In particular, it is not understood how frequently certain information appears, what information is considered essential, and what information requires human judgment to distill into an ERR. The study analyzes 72 ERRs sentence-by-sentence, classifying their 4940 sentences into 169 unique question archetypes. We did not predefine the questions but derived them solely from the statements in the ERRs. This approach provides an unbiased view of the content of the observed ERRs. Subsequently, we used public corporate reports to classify the questions' potential for automation. Answers were labeled "text-extractable" if the answers to the question were accessible in corporate reports. 78.7% of the questions in ERRs can be automated. Those automatable question consist of 48.2% text-extractable (suited to processing by large language models, LLMs) and 30.5% database-extractable questions. Only 21.3% of questions require human judgment to answer. We empirically validate using Llama-3-70B and GPT-4-turbo-2024-04-09 that recent advances in language generation and information extraction enable the automation of approximately 80% of the statements in ERRs. Surprisingly, the models complement each other's strengths and weaknesses well. The research confirms that the current writing process of ERRs can likely benefit from additional automation, improving quality and efficiency. The research thus allows us to quantify the potential impacts of introducing large language models in the ERR writing process. The full question list, including the archetypes and their frequency, will be made available online after peer review.
翻訳日:2024-08-05 01:35:56 公開日:2024-07-04
# 発声過程の解き方:自動発声におけるLLMと人格差の判別

Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring ( http://arxiv.org/abs/2407.18328v1 )

ライセンス: Link先を確認
Xuansheng Wu, Padmaja Pravin Saraf, Gyeong-Geon Lee, Ehsan Latif, Ninghao Liu, Xiaoming Zhai, (参考訳) 大規模言語モデル(LLM)は、構築された応答評価のための自動スコアリングを行う上で、強力な可能性を示している。 人間によってランク付けされた構築された応答は、通常、与えられた格付けされたルーリックに基づいているが、LSMがスコアを割り当てる方法はほとんど不明である。 また、AIのスコアリングプロセスが人間のスコアリングにどの程度近いか、あるいはそれが同じ格付け基準に準拠しているかどうかも不明である。 このギャップに対処するため,本論文では,理科授業における学生の書面回答と人間のスコアとの整合性を評価するために,LLMが用いた難解さを明らかにした。 また,アライメントの強化によってスコアリング精度が向上するかどうかについても検討した。 具体的には, LLMに対して, スコアを割り当てたり, 人間のグルーブとのアライメントギャップを調べたりするために使用する解析的ルーブリックを生成するよう促す。 LLM設定の様々な設定による一連の実験に基づいて、人間とLLMのグリーマー間の顕著なアライメントギャップを明らかにする。 LLMはスコアリングタスクに迅速に適応できるが、人間の格付けで期待されるより深い論理的推論を回避し、ショートカットを利用することが多い。 人間の格付け論理を反映した高品質な解析ルーブリックを組み込むことで、このギャップを緩和し、LLMのスコアリング精度を高めることができることがわかった。 これらの結果は,理科教育におけるLLMの簡便な適用に注意し,LLMのアウトプットを人間の期待に合わせることの重要性を強調し,効率的かつ正確な自動スコアリングを実現する。

Large language models (LLMs) have demonstrated strong potential in performing automatic scoring for constructed response assessments. While constructed responses graded by humans are usually based on given grading rubrics, the methods by which LLMs assign scores remain largely unclear. It is also uncertain how closely AI's scoring process mirrors that of humans, or if it adheres to the same grading criteria. To address this gap, this paper uncovers the grading rubrics that LLMs used to score students' written responses to science tasks and their alignment with human scores. We also examine whether enhancing the alignments can improve scoring accuracy. Specifically, we prompt LLMs to generate analytic rubrics that they use to assign scores and study the alignment gap with human grading rubrics. Based on a series of experiments with various configurations of LLM settings, we reveal a notable alignment gap between human and LLM graders. While LLMs can adapt quickly to scoring tasks, they often resort to shortcuts, bypassing deeper logical reasoning expected in human grading. We found that incorporating high-quality analytical rubrics designed to reflect human grading logic can mitigate this gap and enhance LLMs' scoring accuracy. These results caution against the simplistic application of LLMs in science education and highlight the importance of aligning LLM outputs with human expectations to ensure efficient and accurate automatic scoring.
翻訳日:2024-08-05 01:25:56 公開日:2024-07-04
# ノイズ・ノイズマッピングによるノイズ点雲からの符号付き距離関数の高速学習

Fast Learning of Signed Distance Functions from Noisy Point Clouds via Noise to Noise Mapping ( http://arxiv.org/abs/2407.14225v1 )

ライセンス: Link先を確認
Junsheng Zhou, Baorui Ma, Yu-Shen Liu, Zhizhong Han, (参考訳) 点雲から符号付き距離関数(SDF)を学習することは、3Dコンピュータビジョンにおいて重要な課題である。 しかし、地上の真理に署名された距離、点正規あるいはクリーンな点雲がなければ、現在の手法はノイズの多い点雲からSDFを学ぶのに苦戦している。 この課題を克服するために、クリーンポイントクラウドや地上の真実監督を必要としないノイズからノイズマッピングを通してSDFを学習することを提案する。 我々の新しい特徴はノイズ・ト・ノイズマッピングにあり、1つの物体やシーンの高精度なSDFを、その多重または単一ノイズの観測から推測することができる。 我々は、点雲が不規則であり、秩序がなく、ノイズの観測では点対応がないにもかかわらず、点雲の統計的推論を可能にし、幾何的整合性を維持する新しい損失によってこれを達成した。 トレーニングを高速化するために,CUDAで実装したマルチレゾリューションハッシュ符号化を用いて,トレーニング時間を10倍に短縮し,収束を1分以内で達成する。 さらに,SDFを事前推定することにより,多視点再構成を改善する新しいスキーマを提案する。 広範に使用されているベンチマークによる評価は、点雲や多視点画像、点雲のデノジングとアップサンプリングによる表面再構成において、最先端の手法よりも優れていることを示す。

Learning signed distance functions (SDFs) from point clouds is an important task in 3D computer vision. However, without ground truth signed distances, point normals or clean point clouds, current methods still struggle from learning SDFs from noisy point clouds. To overcome this challenge, we propose to learn SDFs via a noise to noise mapping, which does not require any clean point cloud or ground truth supervision. Our novelty lies in the noise to noise mapping which can infer a highly accurate SDF of a single object or scene from its multiple or even single noisy observations. We achieve this by a novel loss which enables statistical reasoning on point clouds and maintains geometric consistency although point clouds are irregular, unordered and have no point correspondence among noisy observations. To accelerate training, we use multi-resolution hash encodings implemented in CUDA in our framework, which reduces our training time by a factor of ten, achieving convergence within one minute. We further introduce a novel schema to improve multi-view reconstruction by estimating SDFs as a prior. Our evaluations under widely-used benchmarks demonstrate our superiority over the state-of-the-art methods in surface reconstruction from point clouds or multi-view images, point cloud denoising and upsampling.
翻訳日:2024-07-28 18:48:53 公開日:2024-07-04
# 点雲モデルにおける衝突検出のためのBSH

BSH for Collision Detection in Point Cloud models ( http://arxiv.org/abs/2407.15852v1 )

ライセンス: Link先を確認
Mauro Figueiredo, João Pereira, João Oliveira, Bruno Araujo, (参考訳) ポイントクラウドモデルは、いくつかの理由から共通の形状表現である。 近年3次元走査装置が広く使われており、点は複雑な幾何学を描画するための魅力的なプリミティブである。 それでも、点雲モデルに対する衝突検出に関する文献はあまりない。 本稿では,ボクセル,オクツリー,有界球面階層 (BSH) を用いた大点雲モデルに対する新しい衝突検出アルゴリズムを提案する。 シーングラフはボクセルに分割されています。 各ボクセルのオブジェクトはオクツリーに整理される。 シーン内の点数が多いため、オクツリーの各空でないセルは、R-ツリー階層のような構造に基づいて、有界球面階層で組織される。 BSH階層は、近隣の点をグループ化し、他のモデルと相互作用しないオブジェクトの非常に速い部分をフィルタリングするために使用される。 レーザースキャンデータから導出される点は、通常セグメント化されておらず、任意の空間分解能を持つため、計算やモデリングの問題が発生する。 これらの問題に対処し, 提案手法により, 衝突検出アルゴリズムは, 境界ボリュームチェックや更新数を削減できるため, ポイントクラウドモデル間の交差点を効果的に見つけることができることを示す。

Point cloud models are a common shape representation for several reasons. Three-dimensional scanning devices are widely used nowadays and points are an attractive primitive for rendering complex geometry. Nevertheless, there is not much literature on collision detection for point cloud models. This paper presents a novel collision detection algorithm for large point cloud models using voxels, octrees and bounding spheres hierarchies (BSH). The scene graph is divided in voxels. The objects of each voxel are organized into an octree. Due to the high number of points in the scene, each non-empty cell of the octree is organized in a bounding sphere hierarchy, based on an R-tree hierarchy like structure. The BSH hierarchies are used to group neighboring points and filter out very quickly parts of objects that do not interact with other models. Points derived from laser scanned data typically are not segmented and can have arbitrary spatial resolution thus introducing computational and modeling issues. We address these issues and our results show that the proposed collision detection algorithm effectively finds intersections between point cloud models since it is able to reduce the number of bounding volume checks and updates.
翻訳日:2024-07-28 18:29:13 公開日:2024-07-04
# プロンプティングの価格:大規模言語モデル推論におけるエネルギー利用のプロファイリング

The Price of Prompting: Profiling Energy Use in Large Language Models Inference ( http://arxiv.org/abs/2407.16893v1 )

ライセンス: Link先を確認
Erik Johannes Husom, Arda Goknil, Lwin Khin Shar, Sagar Sen, (参考訳) 人工知能の急速に進化する領域において、大規模言語モデル(LLM)の展開は、計算と環境の課題をますます押し付けている。 本稿では,データ駆動推論のためのMELODI - Monitoring Energy Levels and Optimization for Data-driven Inference - LLM推論プロセス中に消費されるエネルギーを監視し,分析するための多面的フレームワークを提案する。 MELODIは電力消費のダイナミクスの詳細な観察を可能にし、様々な展開シナリオにまたがるエネルギー効率を反映した包括的なデータセットの作成を容易にする。 MELODIを使用して生成されたデータセットは、幅広いLLMデプロイメントフレームワーク、複数の言語モデル、広範なプロンプトデータセットを含み、エネルギー使用の比較分析を可能にする。 このデータセットを用いて,長さや複雑性などの属性がエネルギー消費とどのように相関するかを検討する。 その結果, エネルギー効率の相違が指摘され, LLM導入における持続的対策の最適化と導入の十分な範囲が示唆された。 私たちの貢献は、MELODIフレームワークだけでなく、他の研究者によって拡張可能な新しいデータセットにも当てはまります。 したがって、MELODIはエネルギーを意識したLSM展開の研究を進めるための基礎的なツールとデータセットであり、より持続可能な未来に向けてその分野を推し進めている。

In the rapidly evolving realm of artificial intelligence, deploying large language models (LLMs) poses increasingly pressing computational and environmental challenges. This paper introduces MELODI - Monitoring Energy Levels and Optimization for Data-driven Inference - a multifaceted framework crafted to monitor and analyze the energy consumed during LLM inference processes. MELODI enables detailed observations of power consumption dynamics and facilitates the creation of a comprehensive dataset reflective of energy efficiency across varied deployment scenarios. The dataset, generated using MELODI, encompasses a broad spectrum of LLM deployment frameworks, multiple language models, and extensive prompt datasets, enabling a comparative analysis of energy use. Using the dataset, we investigate how prompt attributes, including length and complexity, correlate with energy expenditure. Our findings indicate substantial disparities in energy efficiency, suggesting ample scope for optimization and adoption of sustainable measures in LLM deployment. Our contribution lies not only in the MELODI framework but also in the novel dataset, a resource that can be expanded by other researchers. Thus, MELODI is a foundational tool and dataset for advancing research into energy-conscious LLM deployment, steering the field toward a more sustainable future.
翻訳日:2024-07-28 18:29:13 公開日:2024-07-04
# Black-Box Visual Promptingによる基礎モデルのロバスト適応

Robust Adaptation of Foundation Models with Black-Box Visual Prompting ( http://arxiv.org/abs/2407.17491v1 )

ライセンス: Link先を確認
Changdae Oh, Gyeongdeok Seo, Geunyoung Jung, Zhi-Qi Cheng, Hosik Choi, Jiyoung Jung, Kyungwoo Song, (参考訳) 大規模事前学習モデル(PTM)の急増に伴い、これらのモデルを多くの下流タスクに適応させることが重要な問題となっている。 その結果,大規模モデルのパラメータ効率変換学習(PETL)に大きな注目を集めた。 PETL法は優れた性能を示すが、概して2つの楽観的な仮定に依存している。 1) PTM の全パラメータが利用可能であり、 2) 中間活性化を全てキャッシュして勾配を計算するのに十分なメモリ容量が確保される。 しかし、現実世界のほとんどのアプリケーションでは、PTMは明確なパラメータアクセシビリティを持たないブラックボックスAPIやプロプライエタリなソフトウェアとして機能する。 また、現代のPTMにおいて大きなメモリ要件を満たすことは困難である。 本研究は,モデルアーキテクチャやパラメータを知らずに効率的にPTMを適応するブラックボックスビジュアルプロンプト (Black-box visual prompting, BlackVIP) を提案する。 BlackVIPには2つのコンポーネントがある。 1)コーディネータと 2) 傾斜補正 (SPSA-GC) を併用した同時摂動確率近似を行った。 コーディネーターは入力依存の視覚プロンプトを設計し、ターゲットのPTMが野生に適応できるようにする。 SPSA-GC はコーディネータを更新するために PTM の勾配を効率的に推定する。 さらに,BlackVIPのランタイムと計算コストを大幅に削減する変種BlackVIP-SEを提案する。 19のデータセットに対する大規模な実験により、BlackVIPは、最小限のメモリ要件で、多様なドメインやタスクへの堅牢な適応を可能にすることが示された。 さらに,視覚的プロンプト法の一般化に関する理論的解析を行い,ランダム化スムーシングの信頼性の高いロバスト性への関連性を示す。

With the surge of large-scale pre-trained models (PTMs), adapting these models to numerous downstream tasks becomes a crucial problem. Consequently, parameter-efficient transfer learning (PETL) of large models has grasped huge attention. While PETL methods show impressive performance, they commonly rely on two optimistic assumptions: 1) the entire parameters of a PTM are available, and 2) a sufficiently large memory capacity is equipped for caching all the intermediate activations to compute gradients. However, in most real-world applications, PTMs are served as black-box APIs or proprietary software without explicit parameter accessibility. Besides, it is hard to meet a large memory requirement for modern PTMs. This work proposes black-box visual prompting (BlackVIP), which efficiently adapts the PTMs without knowledge about model architectures and parameters. BlackVIP has two components; 1) Coordinator and 2) simultaneous perturbation stochastic approximation with gradient correction (SPSA-GC). The Coordinator designs input-dependent visual prompts, which allow the target PTM to adapt in the wild. SPSA-GC efficiently estimates the gradient of PTM to update the Coordinator. Besides, we propose a variant, BlackVIP-SE, which significantly reduces the runtime and computational cost of BlackVIP. Extensive experiments on 19 datasets demonstrate that BlackVIPs enable robust adaptation to diverse domains and tasks with minimal memory requirements. We further provide theoretical analysis on the generalization of visual prompting methods by presenting their connection to the certified robustness of randomized smoothing.
翻訳日:2024-07-28 17:59:54 公開日:2024-07-04
# 分子構造を解き放つ:化学のためのマルチモーダル分光データセット

Unraveling Molecular Structure: A Multimodal Spectroscopic Dataset for Chemistry ( http://arxiv.org/abs/2407.17492v1 )

ライセンス: Link先を確認
Marvin Alberts, Oliver Schilter, Federico Zipoli, Nina Hartrampf, Teodoro Laino, (参考訳) 分光技術は分子の構造を決定するのに欠かせない道具である。 核磁気共鳴(NMR)、赤外線分光法、質量分析法などの異なる分光技術は、官能基の存在や欠如を含む分子構造に関する洞察を与える。 化学者は異なる方法の相補的な性質をその利点に活用する。 しかし、様々な分光技術からのスペクトルを含む包括的マルチモーダルデータセットの欠如は、主にスペクトルから分子構造を予測するための単一モーダルタスクに対して、機械学習アプローチに制限がある。 本稿では,特許データから化学反応から抽出した790k分子に対して,$^1$H-NMR,$^{13}$C-NMR,HSQC-NMR,Infrared,Mass Spectra(正イオンモードおよび負イオンモード)を模擬したデータセットを提案する。 このデータセットは、複数の分光法からの情報を統合する基盤モデルの開発を可能にし、人間の専門家によるアプローチをエミュレートする。 さらに、構造解明、対象分子のスペクトルの予測、機能群予測などの単一モードタスクを評価するためのベンチマークも提供する。 このデータセットは、合成から構造決定までの分子発見パイプラインを合理化して、構造解明の可能性を秘めている。 ベンチマークのデータセットとコードはhttps://rxn4chemistry.github.io/multimodal-spectroscopic-datasetにある。

Spectroscopic techniques are essential tools for determining the structure of molecules. Different spectroscopic techniques, such as Nuclear magnetic resonance (NMR), Infrared spectroscopy, and Mass Spectrometry, provide insight into the molecular structure, including the presence or absence of functional groups. Chemists leverage the complementary nature of the different methods to their advantage. However, the lack of a comprehensive multimodal dataset, containing spectra from a variety of spectroscopic techniques, has limited machine-learning approaches mostly to single-modality tasks for predicting molecular structures from spectra. Here we introduce a dataset comprising simulated $^1$H-NMR, $^{13}$C-NMR, HSQC-NMR, Infrared, and Mass spectra (positive and negative ion modes) for 790k molecules extracted from chemical reactions in patent data. This dataset enables the development of foundation models for integrating information from multiple spectroscopic modalities, emulating the approach employed by human experts. Additionally, we provide benchmarks for evaluating single-modality tasks such as structure elucidation, predicting the spectra for a target molecule, and functional group predictions. This dataset has the potential automate structure elucidation, streamlining the molecular discovery pipeline from synthesis to structure determination. The dataset and code for the benchmarks can be found at https://rxn4chemistry.github.io/multimodal-spectroscopic-dataset.
翻訳日:2024-07-28 17:59:54 公開日:2024-07-04
# ReDiFine: Reuseable Diffusion Finetuning for Mitigating Degradation in the Chain of Diffusion

ReDiFine: Reusable Diffusion Finetuning for Mitigating Degradation in the Chain of Diffusion ( http://arxiv.org/abs/2407.17493v1 )

ライセンス: Link先を確認
Youngseok Yoon, Dainong Hu, Iain Weissburg, Yao Qin, Haewon Jeong, (参考訳) 拡散モデルは画像の生成モデリングにおいて著しく改善され、人間が実際の画像と区別できない高品質な生成を可能にした。 画像の品質はしきい値に達し、合成画像を再利用して機械学習モデルを再び訓練することができる。 これは、データ収集の高コストを軽減し、データ制限領域における多くの問題を根本的に解決できるため、この領域を惹きつける。 本稿では,事前学習したテキスト・画像拡散モデルが合成画像の集合を用いて反復的に微調整される現実的なシナリオに着目し,拡散の連鎖(Chain of Diffusion)と呼ぶ。 ファインチューニングされたモデルは、次のファインチューニングのイテレーションに使用されるイメージを生成する。 まず,これらの反復過程が画像品質を著しく低下させることを示す。 より詳細な調査により, 劣化の最も影響の大きい要因が明らかとなり, 劣化を効果的に解決できる微調整・生成戦略が提案される。 提案手法であるReuseable Diffusion Finetuning (ReDiFine) では,コンディションドロップの微調整とCFGスケジューリングを組み合わせることで,生成した画像の品質を反復的に維持する。 ReDiFineは、さらにハイパーパラメーター検索をすることなく、複数のデータセットやモデルに対して効果的に機能し、将来の生成モデルを微調整するために合成画像を再利用する。

Diffusion models have achieved tremendous improvements in generative modeling for images, enabling high-quality generation that is indistinguishable by humans from real images. The qualities of images have reached a threshold at which we can reuse synthetic images for training machine learning models again. This attracts the area as it can relieve the high cost of data collection and fundamentally solve many problems in data-limited areas. In this paper, we focus on a practical scenario in which pretrained text-to-image diffusion models are iteratively finetuned using a set of synthetic images, which we call the Chain of Diffusion. Finetuned models generate images that are used for the next iteration of finetuning. We first demonstrate how these iterative processes result in severe degradation in image qualities. Thorough investigations reveal the most impactful factor for the degradation, and we propose finetuning and generation strategies that can effectively resolve the degradation. Our method, Reusable Diffusion Finetuning (ReDiFine), combines condition drop finetuning and CFG scheduling to maintain the qualities of generated images throughout iterations. ReDiFine works effectively for multiple datasets and models without further hyperparameter search, making synthetic images reusable to finetune future generative models.
翻訳日:2024-07-28 17:59:54 公開日:2024-07-04
# 遠隔患者モニタリングにおけるAI

AI in Remote Patient Monitoring ( http://arxiv.org/abs/2407.17494v1 )

ライセンス: Link先を確認
Nishargo Nigar, (参考訳) 人工知能(AI)の急速な進化は、特に遠隔患者モニタリング(RPM)分野において、医療に大きな変革をもたらした。 この章では、実生活のアプリケーション、システムアーキテクチャ、そしてそれが患者のケアと医療システムにもたらすメリットを強調し、RPMにおけるAIの統合について説明する。 現在の技術、方法論、ケーススタディの包括的分析を通じて、AIが監視精度、予測分析、パーソナライズされた治療計画をどのように強化するかを詳述する。 この章では、この分野での課題と今後の方向性についても論じており、遠隔医療に革命をもたらすAIの役割を包括的に捉えている。

The rapid evolution of Artificial Intelligence (AI) has significantly transformed healthcare, particularly in the domain of Remote Patient Monitoring (RPM). This chapter explores the integration of AI in RPM, highlighting real-life applications, system architectures, and the benefits it brings to patient care and healthcare systems. Through a comprehensive analysis of current technologies, methodologies, and case studies, I present a detailed overview of how AI enhances monitoring accuracy, predictive analytics, and personalized treatment plans. The chapter also discusses the challenges and future directions in this field, providing a comprehensive view of AI's role in revolutionizing remote patient care.
翻訳日:2024-07-28 17:59:54 公開日:2024-07-04
# CaseGPT:言語モデルと検索拡張生成に基づく事例推論フレームワーク

CaseGPT: a case reasoning framework based on language models and retrieval-augmented generation ( http://arxiv.org/abs/2407.07913v1 )

ライセンス: Link先を確認
Rui Yang, (参考訳) 本稿では,Large Language Models (LLMs) とRetrieval-Augmented Generation (RAG) 技術を組み合わせて,医療・法分野におけるケースベース推論を強化する革新的なアプローチであるCaseGPTを提案する。 本システムは,不正確な記述に基づくファジィ検索を可能にすることにより,従来のデータベースクエリの課題に対処し,データ検索性とユーザビリティを向上させる。 CaseGPTは、関連するケースデータを取得するだけでなく、既存のケースデータから識別されるパターンに基づいて、洞察に富んだ提案やレコメンデーションを生成する。 この機能は、医学診断、法的な前例研究、ケースストラテジーの定式化といったタスクに特に有用である。 本論文は,システム方法論の詳細な議論,医療分野と法律分野におけるパフォーマンス,将来的な応用の可能性について述べる。 実験の結果,CaseGPT は従来のキーワードベースおよび単純な LLM ベースのシステムよりも精度,リコール,効率の点で優れていた。

This paper presents CaseGPT, an innovative approach that combines Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG) technology to enhance case-based reasoning in the healthcare and legal sectors. The system addresses the challenges of traditional database queries by enabling fuzzy searches based on imprecise descriptions, thereby improving data searchability and usability. CaseGPT not only retrieves relevant case data but also generates insightful suggestions and recommendations based on patterns discerned from existing case data. This functionality proves especially valuable for tasks such as medical diagnostics, legal precedent research, and case strategy formulation. The paper includes an in-depth discussion of the system's methodology, its performance in both medical and legal domains, and its potential for future applications. Our experiments demonstrate that CaseGPT significantly outperforms traditional keyword-based and simple LLM-based systems in terms of precision, recall, and efficiency.
翻訳日:2024-07-22 13:48:17 公開日:2024-07-04
# 人工知能の心理学 : ニューラルネットワークの認知分析の認識論的マーカー

Psychology of Artificial Intelligence: Epistemological Markers of the Cognitive Analysis of Neural Networks ( http://arxiv.org/abs/2407.09563v1 )

ライセンス: Link先を確認
Michael Pichat, (参考訳) 人工知能の認知過程と内容の「自然」とは何か? 言い換えれば、人工知能は基本的にどのようにして「考える」のか、その知識はどんな形で存在するのか? アシモフが1950年に予言した人工知能の心理学は、このAIの探索と説明可能性に敏感な物質の研究を目的としている。 この研究は、神経認知の二次的なマクロ認知結果(認知や文化的偏見など)に限らないように、認知的粒度の神経レベルを必要とする。 後者を調べるための前提条件は、その現象学に起因する認知状態に関する認識学的マイルストーンを明らかにすることである。

What is the "nature" of the cognitive processes and contents of an artificial neural network? In other words, how does an artificial intelligence fundamentally "think," and in what form does its knowledge reside? The psychology of artificial intelligence, as predicted by Asimov (1950), aims to study this AI probing and explainability-sensitive matter. This study requires a neuronal level of cognitive granularity, so as not to be limited solely to the secondary macro-cognitive results (such as cognitive and cultural biases) of synthetic neural cognition. A prerequisite for examining the latter is to clarify some epistemological milestones regarding the cognitive status we can attribute to its phenomenology.
翻訳日:2024-07-22 13:08:55 公開日:2024-07-04
# 汚染された畳み込みニューラルネットワークの浄化とロバスト回復

Purification Of Contaminated Convolutional Neural Networks Via Robust Recovery: An Approach with Theoretical Guarantee in One-Hidden-Layer Case ( http://arxiv.org/abs/2407.11031v1 )

ライセンス: Link先を確認
Hanxiao Lu, Zeyu Huang, Ren Wang, (参考訳) ディープラーニングモデルのキーアーキテクチャの1つである畳み込みニューラルネットワーク(CNN)は、画像分類、ビデオ認識、電力システムなど、多くの機械学習タスクにおいて、優れたパフォーマンスを実現している。 その成功にもかかわらず、CNNは自然騒音やバックドア攻撃などの人工的なノイズによって容易に汚染される。 本稿では,汚染される可能性のあるCNNからノイズを除去し,修正線形ユニット(ReLU)アクティベーション機能を備えた一層非重複CNNに対して,正確な回復保証を実現するための頑健なリカバリ手法を提案する。 理論的には, CNNの重みと偏りは, 幾らかの軽度の仮定で, オーバーパラメータ化条件下で正確に回復可能であることが示唆された。 実験結果は, 合成環境と実用的なニューラルネットワーク設定の両方において, 証明の正しさと手法の有効性を実証した。 また,提案手法は多層CNNに拡張可能であり,バックドア攻撃に対する防御戦略として有効である可能性が示唆された。

Convolutional neural networks (CNNs), one of the key architectures of deep learning models, have achieved superior performance on many machine learning tasks such as image classification, video recognition, and power systems. Despite their success, CNNs can be easily contaminated by natural noises and artificially injected noises such as backdoor attacks. In this paper, we propose a robust recovery method to remove the noise from the potentially contaminated CNNs and provide an exact recovery guarantee on one-hidden-layer non-overlapping CNNs with the rectified linear unit (ReLU) activation function. Our theoretical results show that both CNNs' weights and biases can be exactly recovered under the overparameterization setting with some mild assumptions. The experimental results demonstrate the correctness of the proofs and the effectiveness of the method in both the synthetic environment and the practical neural network setting. Our results also indicate that the proposed method can be extended to multiple-layer CNNs and potentially serve as a defense strategy against backdoor attacks.
翻訳日:2024-07-22 12:20:02 公開日:2024-07-04
# 協調因果推論におけるデータ共有のメカニズム(拡張版)

Mechanisms for Data Sharing in Collaborative Causal Inference (Extended Version) ( http://arxiv.org/abs/2407.11032v1 )

ライセンス: Link先を確認
Björn Filter, Ralf Möller, Özgür Lütfü Özçep, (参考訳) コラボレーティブ因果推論(Collaborative causal Inference, CCI)は、医療現場における治療変数の推定と最適化など、因果構造に対する共通の学習目標を達成するために、複数の利害関係者からデータをプールするフェデレートされた学習手法である。 参加者がデータを取得し、ユニークなデータを共有することは、競争上の優位性を失うリスクをもたらすため、公平な報酬やインセンティブを通じて、すべての当事者の参加を動機付ける必要がある。 本稿では、参加者が提供した観測データから推定した部分有向非巡回グラフ(CPDAG)を比較し、因果推論の統計的要求に合わせた、共通の学習課題に対する各当事者のデータ貢献の価値を測定するための評価手法を提案する。 得られたData Valuation Schemeは、エージェントにデータ提供のインセンティブを与えるメカニズムを導入するために使用することができる。 データの品質に応じてエージェントを公平に報酬するために、あるいはすべてのエージェントのデータコントリビューションを最大化するために利用することができる。

Collaborative causal inference (CCI) is a federated learning method for pooling data from multiple, often self-interested, parties, to achieve a common learning goal over causal structures, e.g. estimation and optimization of treatment variables in a medical setting. Since obtaining data can be costly for the participants and sharing unique data poses the risk of losing competitive advantages, motivating the participation of all parties through equitable rewards and incentives is necessary. This paper devises an evaluation scheme to measure the value of each party's data contribution to the common learning task, tailored to causal inference's statistical demands, by comparing completed partially directed acyclic graphs (CPDAGs) inferred from observational data contributed by the participants. The Data Valuation Scheme thus obtained can then be used to introduce mechanisms that incentivize the agents to contribute data. It can be leveraged to reward agents fairly, according to the quality of their data, or to maximize all agents' data contributions.
翻訳日:2024-07-22 12:20:02 公開日:2024-07-04
# Hadamard Adapter: 事前学習型言語モデルのための極端パラメータ効率の良い適応調整法

Hadamard Adapter: An Extreme Parameter-Efficient Adapter Tuning Method for Pre-trained Language Models ( http://arxiv.org/abs/2407.11033v1 )

ライセンス: Link先を確認
Yuyan Chen, Qiang Fu, Ge Fan, Lun Du, Jian-Guang Lou, Shi Han, Dongmei Zhang, Zhixu Li, Yanghua Xiao, (参考訳) 近年、プレトレーニング言語モデル(PLM)が人工知能の様々な分野に浸透し、大きな成功を収めている。 しかし、T5 や GPT3 のようなほとんどの PLM は大量のパラメータを持ち、微調整は高価で時間を要することが多く、保存には多くの時間がかかる。 したがって、下流タスクにおける性能を損なうことなく、微調整時にPLMのパラメータを減らすためのパラメータ効率のアプローチを採用する必要がある。 本稿では, PLMにおける自己注意出力のみに作用する新しいアダプタを設計する。 このアダプタは、アダマール積を用いた要素ワイド線形変換を採用しており、したがってアダマールアダプタと名付けられ、従来のパラメータ効率のよいアダプタと比較して、最も少ないパラメータを必要とする。 さらに、様々な下流タスクで共有されるアダマールアダプタのチューニングパターンについても要約し、将来の研究において、共有アダプタを用いたパラメータ削減のためのガイダンスを提供することを期待している。 いくつかのSOTA PLMを用いたGLUEベンチマークで行った実験により、アダマールアダプタは完全な微調整と比較して0.033\%のパラメータしか持たず、他のアダプタと比較して最も少ないパラメータを持つことがわかった。 さらに、Adamardアダプタには、0.022\%のパラメータしか持たないパラメータ効率を達成するために除去できる冗長な層がいくつか存在することもわかりました。

Recent years, Pre-trained Language models (PLMs) have swept into various fields of artificial intelligence and achieved great success. However, most PLMs, such as T5 and GPT3, have a huge amount of parameters, fine-tuning them is often expensive and time consuming, and storing them takes up a lot of space. Therefore, it is necessary to adopt a parameter-efficient approach to reduce parameters of PLMs in fine-tuning without compromising their performance in downstream tasks. In this paper, we design a novel adapter which only acts on self-attention outputs in PLMs. This adapter adopts element-wise linear transformation using Hadamard product, hence named as Hadamard adapter, requires the fewest parameters compared to previous parameter-efficient adapters. In addition, we also summarize some tuning patterns for Hadamard adapter shared by various downstream tasks, expecting to provide some guidance for further parameter reduction with shared adapters in future studies. The experiments conducted on the widely-used GLUE benchmark with several SOTA PLMs prove that the Hadamard adapter achieves competitive performance with only 0.033\% parameters compared with full fine-tuning, and it has the fewest parameters compared with other adapters. Moreover, we further find that there is also some redundant layers in the Hadamard adapter which can be removed to achieve more parameter efficiency with only 0.022\% parameters.
翻訳日:2024-07-22 12:20:02 公開日:2024-07-04
# 医療におけるブリッジングデータギャップ: バイオメディカルデータ分析におけるトランスファーラーニングのスコーピングレビュー

Bridging Data Gaps in Healthcare: A Scoping Review of Transfer Learning in Biomedical Data Analysis ( http://arxiv.org/abs/2407.11034v1 )

ライセンス: Link先を確認
Siqi Li, Xin Li, Kunyu Yu, Di Miao, Mingcheng Zhu, Mengying Yan, Yuhe Ke, Danny D'Agostino, Yilin Ning, Qiming Wu, Ziwen Wang, Yuqing Shang, Molei Liu, Chuan Hong, Nan Liu, (参考訳) 低リソース環境における臨床および生医学的な研究は、有効なモデルを構築するのに十分なサンプルサイズを持つ高品質なデータを必要とするため、しばしば重大な課題に直面している。 これらの制約は、堅牢なモデルトレーニングを妨げ、研究者は、関連する研究から既存の知識を活用して新しい研究活動を支援する方法を模索する。 機械学習技術であるTransfer Learning(TL)は、トレーニング済みモデルからの知識を活用して、新たなモデルのパフォーマンスを高め、さまざまな医療領域に約束を提供することによって、強力なソリューションとして登場した。 1990年代の概念的起源にもかかわらず、医学研究におけるTLの応用は、特に画像解析を超えて制限されている。 構造化された臨床・生医学的データにおけるTL適用のレビューでは,3,515紙をスクリーニングし,55紙が包括的基準を満たした。 そのうち、外部調査を利用したのは2%(55点中1点)で、7%(55点中4点)がプライバシー制約による複数サイトコラボレーションに関わるシナリオに対処した。 医療研究における地域格差,不平等,プライバシの制約に対処しながら,構造化された医療データを用いた実用的なTLを実現するために,適切なソースデータとモデルの慎重な識別,適切なTLフレームワークの選択,適切なベースラインによるTLモデルの検証を提唱する。

Clinical and biomedical research in low-resource settings often faces significant challenges due to the need for high-quality data with sufficient sample sizes to construct effective models. These constraints hinder robust model training and prompt researchers to seek methods for leveraging existing knowledge from related studies to support new research efforts. Transfer learning (TL), a machine learning technique, emerges as a powerful solution by utilizing knowledge from pre-trained models to enhance the performance of new models, offering promise across various healthcare domains. Despite its conceptual origins in the 1990s, the application of TL in medical research has remained limited, especially beyond image analysis. In our review of TL applications in structured clinical and biomedical data, we screened 3,515 papers, with 55 meeting the inclusion criteria. Among these, only 2% (one out of 55) utilized external studies, and 7% (four out of 55) addressed scenarios involving multi-site collaborations with privacy constraints. To achieve actionable TL with structured medical data while addressing regional disparities, inequality, and privacy constraints in healthcare research, we advocate for the careful identification of appropriate source data and models, the selection of suitable TL frameworks, and the validation of TL models with proper baselines.
翻訳日:2024-07-22 12:20:02 公開日:2024-07-04
# 歴史インク:19世紀のラテンアメリカ・スペイン新聞社 LLM OCR 補正

Historical Ink: 19th Century Latin American Spanish Newspaper Corpus with LLM OCR Correction ( http://arxiv.org/abs/2407.12838v1 )

ライセンス: Link先を確認
Laura Manrique-Gómez, Tony Montes, Rubén Manrique, (参考訳) 本稿は,19世紀のラテンアメリカのプレステキストの新たなデータセットである,歴史的・言語学的分析のための特別なコーパスの欠如に対処する2つの重要な貢献について述べる。 第2に,大規模言語モデルを用いたディジタルコーパスにおけるOCR誤り訂正と言語表面形状検出のためのフレームワークを導入する。 このフレームワークはさまざまなコンテキストに適用可能で,本論文では新たに作成されたデータセットに特化して適用する。

This paper presents two significant contributions: first, a novel dataset of 19th-century Latin American press texts, which addresses the lack of specialized corpora for historical and linguistic analysis in this region. Second, it introduces a framework for OCR error correction and linguistic surface form detection in digitized corpora, utilizing a Large Language Model. This framework is adaptable to various contexts and, in this paper, is specifically applied to the newly created dataset.
翻訳日:2024-07-22 08:37:51 公開日:2024-07-04
# 反復TDDの形式的分析

A Formal Analysis of Iterated TDD ( http://arxiv.org/abs/2407.12839v1 )

ライセンス: Link先を確認
Hemil Ruparel, Nabarun Mondal, (参考訳) 本稿では,テスト駆動開発(TDD)と呼ばれるソフトウェア方法論を公式に分析する。 私たちは、TDDの観点からソフトウェア開発の性質について議論するために、仕様、ソフトウェア、テスト、等価な分割、結合を正式に定義します。 反復型TDDを形式化し、反復型TDDの 'provably produce'' 'provably correct code''' を `provably correct code'' から 'provably correct code'' と定義し、反復型コードのチャーンの観点から安定しているコンテキストを見つけます。 このコンテキストの外では、反復されたTDDがカオス的な振る舞いを示し、予測不可能なほどの乱雑なコードの塊を意味することを実証しています。 我々は、以前の研究で見つかった'非効率'の反復TDDの発見は、この文脈を欠いているためであり、''非効率'の反復TDDの発見は、誤ってコンテキストに落ちたり、単にプラセボに落ちたりすることによるものである、と論じている。

In this paper we formally analyze the software methodology called (iterated) Test Driven Development (TDD). We formally define Specification, Software, Testing, Equivalence Partitions, Coupling, to argue about the nature of the software development in terms of TDD. We formalize Iterative TDD and find a context in which iterated TDD ``provably produce'' ``provably correct code'' from ``specifications'' while being stable in terms of iterated code churns. We demonstrate that outside this context iterated TDD will exhibit chaotic behavior, implying unpredictable messy amount of code churn. We argue that the research finding of ``ineffective'' iterated TDD found by earlier researches are due to missing this context, while the findings of ``effective'' iterated TDD is due to accidentally falling into the context or simply placebo.
翻訳日:2024-07-22 08:37:51 公開日:2024-07-04
# 言語モデルが一致しない場合、どうすればいいのか? テキストおよび視覚的質問応答のためのブラックボックスモデル

What to do if language models disagree? Black-box model ensembling for textual and visual question answering ( http://arxiv.org/abs/2407.12841v1 )

ライセンス: Link先を確認
Yuxi Xia, Kilm Zaporojets, Benjamin Roth, (参考訳) 大規模言語モデル(LLM)、例えば、ChatGPT(英語版)、VQA(英語版)モデル(例えば、BLIP)は、テキストおよび視覚的質問応答タスクを解決するために開発された。 しかしながら、LLMとVQAモデルの両方は、タスク固有のデータセットに適用する際の課題に直面する。 これらのモデルを微調整することは、API経由のアクセスを必要とするか、ブラックボックスとしてレンダリングする必要があるか、あるいは多数のパラメータをチューニングする必要があるため、コストがかかる。 そこで本稿では,既存のブラックボックスモデルから勝者を動的に選別し,テキストおよびマルチモーダルな視覚的質問応答タスクの予測を行うデータ効率・軽量アンサンブル手法であるInfoSelを紹介する。 従来のアンサンブルモデルとは異なり、InfoSelは予測確率や信頼性に依存しておらず、通常はブラックボックスモデルでは利用できない。 4つのデータセットによる実験結果から,F1スコアはスタンドアローンのLCMに比べて最大5.27%向上することがわかった。 注目すべきは、タスク固有のアンサンブルモデルをトレーニングするために、1Kトレーニングインスタンスと110Mモデルパラメータのみを活用することで、この改善が達成されることだ。

A diverse range of large language models (LLMs), e.g., ChatGPT, and visual question answering (VQA) models, e.g., BLIP, have been developed for solving textual and visual question answering tasks. However, both LLMs and VQA models encounter challenges when applied to task-specific datasets. Fine-tuning these models is either difficult, as it requires access via APIs, rendering them as black-boxes, or costly due to the need of tuning a large number of parameters. To address this, we introduce InfoSel, a data-efficient and lightweight ensemble method that learns to dynamically pick the winner from existing black-box models for predictions on both textual and multimodal visual question answering tasks. Unlike traditional ensemble models, InfoSel does not rely on prediction probabilities or confidences, which typically are not available in black-box models. Experimental results on four datasets demonstrate that our approach achieves an absolute increase of up to +5.27% in the F1-score compared to standalone LLMs. Remarkably, this improvement is achieved by utilizing only 1K training instances and 110M model parameters for training task-specific ensemble models.
翻訳日:2024-07-22 08:37:51 公開日:2024-07-04
# MS2SL:マルチモーダルなデータ駆動型連続手話生成

MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production ( http://arxiv.org/abs/2407.12842v1 )

ライセンス: Link先を確認
Jian Ma, Wenguan Wang, Yi Yang, Feng Zheng, (参考訳) 手話理解は大きな進歩を遂げてきたが、音声コンテンツ全体、例えばテキストや音声から直接手話列を生成するための有効なソリューションはいまだに存在しない。 本稿では,サインと非サイン言語ユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。 特に、テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。 さらに、テキスト、音声、手話のための共同埋め込み空間を作成することで、これらのモダリティを結合し、それら間のセマンティック一貫性を活用して、モデルのトレーニングに有益なフィードバックを提供する。 この埋め込み一貫性学習戦略は、手話三重奏への依存を最小限に抑え、音声のモダリティが欠如している場合でも、連続的なモデルの洗練を保証する。 How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。

Sign language understanding has made significant strides; however, there is still no viable solution for generating sign sequences directly from entire spoken content, e.g., text or speech. In this paper, we propose a unified framework for continuous sign language production, easing communication between sign and non-sign language users. In particular, a sequence diffusion model, utilizing embeddings extracted from text or speech, is crafted to generate sign predictions step by step. Moreover, by creating a joint embedding space for text, audio, and sign, we bind these modalities and leverage the semantic consistency among them to provide informative feedback for the model training. This embedding-consistency learning strategy minimizes the reliance on sign triplets and ensures continuous model refinement, even with a missing audio modality. Experiments on How2Sign and PHOENIX14T datasets demonstrate that our model achieves competitive performance in sign language production.
翻訳日:2024-07-22 08:37:51 公開日:2024-07-04
# NutriBench: 食事記述からの炭水化物推定における大規模言語モデル評価用データセット

NutriBench: A Dataset for Evaluating Large Language Models in Carbohydrate Estimation from Meal Descriptions ( http://arxiv.org/abs/2407.12843v1 )

ライセンス: Link先を確認
Andong Hua, Mehak Preet Dhaliwal, Ryan Burke, Yao Qin, (参考訳) 正確な栄養推定は、人々が食事の選択について情報を得るのを助け、深刻な健康問題を防ぐのに不可欠である。 我々はNutriBenchについて紹介する。NutriBenchは、初めて公開された自然言語による食事記述に基づく栄養ベンチマークである。 ヌトリベンチは、炭水化物、タンパク質、脂肪、カロリーを含む、マクロ栄養成分のラベルで、5,000人の人間によって検証された食事記述で構成されている。 データは、食事中の食品の数、提供者数、人気度、サービスサイズ記述の特異性に基づいて、複雑さの異なる15のサブセットに分けられる。 GPT-3.5, Llama-3, and a medical domain-specific model with standard, Chain-of-Thought and Retrieval-Augmented Generation strategy on our benchmark for Carbohydrate Estimation。 また、専門家と非専門家の被験者による人間による研究を行い、LSMがより正確で高速な予測を、より複雑なクエリに対して提供できることを見出した。 実生活シナリオにおける栄養推定にLLMを使用する機会と課題を明らかにする。 私たちのベンチマークは、https://mehak126.github.io/nutribench.htmlで公開されています。

Accurate nutrition estimation helps people make informed decisions about their dietary choices and is crucial for preventing serious health issues. We present NutriBench, the first publicly available natural language meal description based nutrition benchmark. NutriBench consists of 5,000 human-verified meal descriptions with macro-nutrient labels, including carbohydrates, proteins, fats, and calories. The data is divided into 15 subsets varying in complexity based on the number, servings, and popularity of the food items in the meal and the specificity of serving size descriptions. We conducted an extensive evaluation of seven popular and state-of-the-art Large Language Models (LLMs), including GPT-3.5, Llama-3, and a medical domain-specific model with standard, Chain-of-Thought and Retrieval-Augmented Generation strategies on our benchmark for carbohydrate estimation. We also conducted a human study involving expert and non-expert participants and found that LLMs can provide more accurate and faster predictions over a range of complex queries. We present a thorough analysis and comparison of different LLMs, highlighting the opportunities and challenges of using LLMs for nutrition estimation in real-life scenarios. Our benchmark is publicly available at: https://mehak126.github.io/nutribench.html
翻訳日:2024-07-22 08:28:07 公開日:2024-07-04
# $\texttt{metabench}$ -- 大規模言語モデルの一般的な能力を測定するためのスパースベンチマーク

$\texttt{metabench}$ -- A Sparse Benchmark to Measure General Ability in Large Language Models ( http://arxiv.org/abs/2407.12844v1 )

ライセンス: Link先を確認
Alex Kipnis, Konstantinos Voudouris, Luca M. Schulze Buschoff, Eric Schulz, (参考訳) 大きな言語モデル(LLM)は、様々なタスクでその能力が異なる。 $\texttt{Open LLM Leaderboard}$のようなイニシアティブは、これらの違いをいくつかの大きなベンチマーク(LLMが正しくも正しくも対応可能なテスト項目のセット)で定量化することを目的としています。 しかし, ベンチマークスコア内とベンチマークスコア間の相関は, 1) ベンチマークが測定する共通能力の小さなセットが存在し, (2) 項目が冗長な情報に埋もれ, ベンチマークは大幅に圧縮される可能性があることを示唆している。 我々は$n > 5000$ LLMsのデータを用いて、ARC、GSM8K、HellaSwag、MMLU、TruthfulQA、WinoGrande(合計$d=28,632$)の6つのベンチマークの最も情報性の高い項目を識別します。 これらのベンチマークから、$\texttt{metabench}$というスパースベンチマークを蒸留します。 この新しいスパースベンチマークは、基礎となるベンチマーク固有の能力を推定することでポイントスコアを超える。 これらの推定器(1)は、各元の$\textit{individual}$ベンチマークスコアを平均で$1.5\%$root mean square error (RMSE)で再構成し、(2)元の$\textit{total}$スコアを$0.8\%$RMSEで再構成し、(3)スピアマンと合計スコアとの相関が$r = 0.93$である単一の共通因子を持つことを示す。

Large Language Models (LLMs) vary in their abilities on a range of tasks. Initiatives such as the $\texttt{Open LLM Leaderboard}$ aim to quantify these differences with several large benchmarks (sets of test items to which an LLM can respond either correctly or incorrectly). However, high correlations within and between benchmark scores suggest that (1) there exists a small set of common underlying abilities that these benchmarks measure, and (2) items tap into redundant information and the benchmarks may thus be considerably compressed. We use data from $n > 5000$ LLMs to identify the most informative items of six benchmarks, ARC, GSM8K, HellaSwag, MMLU, TruthfulQA and WinoGrande (with $d=28,632$ items in total). From them we distill a sparse benchmark, $\texttt{metabench}$, that has less than $3\%$ of the original size of all six benchmarks combined. This new sparse benchmark goes beyond point scores by yielding estimators of the underlying benchmark-specific abilities. We show that these estimators (1) can be used to reconstruct each original $\textit{individual}$ benchmark score with, on average, $1.5\%$ root mean square error (RMSE), (2) reconstruct the original $\textit{total}$ score with $0.8\%$ RMSE, and (3) have a single underlying common factor whose Spearman correlation with the total score is $r = 0.93$.
翻訳日:2024-07-22 08:28:07 公開日:2024-07-04
# 機械学習による希少事象の分類におけるバイアス補正

Bias Correction in Machine Learning-based Classification of Rare Events ( http://arxiv.org/abs/2407.06212v1 )

ライセンス: Link先を確認
Luuk Gubbels, Marco Puts, Piet Daas, (参考訳) オンラインプラットフォームビジネスは、Webスクラッドテキストを使用して識別することができる。 これは自然言語処理とまれな事象検出の要素を組み合わせた分類問題である。 オンラインプラットフォームはまれなので、それらを機械学習アルゴリズムで正確に識別することは難しい。 本稿では,機械学習に基づくテキスト分類手法の開発について述べる。 キャリブレーションされた確率とアンサンブルを用いて得られた推定値のバイアスを大幅に低減する。

Online platform businesses can be identified by using web-scraped texts. This is a classification problem that combines elements of natural language processing and rare event detection. Because online platforms are rare, accurately identifying them with Machine Learning algorithms is challenging. Here, we describe the development of a Machine Learning-based text classification approach that reduces the number of false positives as much as possible. It greatly reduces the bias in the estimates obtained by using calibrated probabilities and ensembles.
翻訳日:2024-07-10 22:32:40 公開日:2024-07-04
# 半自動研削(SAG)ミルのリアルタイム最適化のための自動外乱検出機能付きディジタルツイン

Digital twin with automatic disturbance detection for real-time optimization of a semi-autogenous grinding (SAG) mill ( http://arxiv.org/abs/2407.06216v1 )

ライセンス: Link先を確認
Daniel Navia, Rodrigo Bruna, Francisco Fernández, Cristobal Mancilla, Matías Rojas, Mauricio Estrada, Paulina Quintanilla, (参考訳) 本研究は、エキスパート制御システムによって制御される半自動研削(SAG)ミル用ディジタルツインの開発と妥当性を示す。 ディジタルツインは,(1)エキスパート制御システムのファジィ論理,(2)制御制御のための状態空間モデル,(3)SAGミルプロセスのためのリカレントニューラルネットワーク(RNN)という,クローズドループシステムの動作をエミュレートする3つの相互接続モジュールから構成される。 このモデルは68時間の運用に対応するデータで訓練され、8時間の試験データで検証された。 デジタルツインは、30秒のサンプリング時間で2.5分間の水平線内で、ミルの軸受圧力、モータパワー、トナージ、固体比、回転速度の動的挙動を予測する。 RNNは、検出とトレーニングのための2つのシリアルモジュールから構成される。 この外乱検出は, 予測誤差と予測誤差を平均, 分散, 確率分布の仮説テストを用いて比較することにより, トレーニングの必要性を評価する。 検出モジュールがアクティベートされた場合、ニューラルモデルのパラメータは、最近のデータで再推定される。 検出モジュールは、偽陽性を排除するテストデータで構成されている。 その結果、デジタル双生児は、専門家制御システムで操作されるSAGミルを十分に監督できることが示唆された。 今後は、このデジタルツインを産業的検証を伴うリアルタイム最適化戦略に統合することに注力する。

This work presents the development and validation of a digital twin for a semi-autogenous grinding (SAG) mill controlled by an expert control system. The digital twin consists of three interconnected modules that emulate the behavior of a closed-loop system: (1) fuzzy logic for the expert control system, (2) a state-space model for the regulatory control, and (3) a recurrent neural network (RNN) for the SAG mill process. The model was trained with data corresponding to 68 hours of operation and validated with 8 hours of test data. The digital twin predicts the dynamic behavior of the mill's bearing pressure, motor power, tonnage, solids percentage, and rotational speed within a 2.5-minute horizon with a 30-second sampling time. The RNN comprises two serial modules for detection and training. The disturbance detection evaluates the need for training by comparing the recent prediction error with the expected error using hypothesis tests for mean, variance, and probability distribution. If the detection module is activated, the parameters of the neural model are re-estimated with recent data. The detection module was configured with test data to eliminate false positives. Results indicate that the digital twin can satisfactorily supervise the SAG mill, which is operated with the expert control system. Future work will focus on integrating this digital twin into real-time optimization strategies with industrial validation.
翻訳日:2024-07-10 22:32:40 公開日:2024-07-04
# SystemC-AMSによる電力系統とマイクログリッド部品のシミュレーションについて

On Simulation of Power Systems and Microgrid Components with SystemC-AMS ( http://arxiv.org/abs/2407.06217v1 )

ライセンス: Link先を確認
Rahul Bhadani, Satyaki Banik, Hao Tu, Srdjan Lukic, Gabor Karsai, (参考訳) マイクログリッドのようなサイバー物理システムは、相互接続されたコンポーネント、局所的な電力システム、明確に定義された電気境界を持つ分散エネルギー資源から構成される。 独立して機能することができるが、メイングリッドとタンデムで動作することもできる。 電力系統変換器とその制御ループは、グリッドを安定化し、メイングリッドとマイクログリッドの対面において重要な役割を果たす。 マイクログリッド部品の最適選択は高価である。 マイクログリッドのシミュレーションはコスト効率の良いソリューションを提供する。 しかし、電磁過渡応答を研究する場合、そのシミュレーションは遅い。 さらに、電磁過渡応答を容易にするソフトウェアパッケージは、違法に高価である可能性がある。 本稿では,SystemC-AMSを用いたマイクログリッド部品の電磁過渡応答を高速にシミュレーションする手法を提案する。 本稿では, 位相同期ループを用いた光電力グリッド追従インバータの応用例について述べる。 その結果, SystemC-AMS を用いて行ったシミュレーションは, Simulink を用いて行ったベンチマークシミュレーションの約3倍高速であることがわかった。 アクティブかつリアクティブな電力をモニタする位相同期ループを備えた太陽電池グリッド追従インバータの実装により,SystemC-AMS を用いたシミュレーションは,Simulink を用いたベンチマークシミュレーションの約3倍高速であることが判明した。 我々の実装はモデルベース設計を採用し、ますます複雑なグリッドアーキテクチャを構築するのに使用できるコンポーネントのライブラリを生成します。 さらに、Cベースの性質により、リアルタイム機能と最適化機能を追加するための外部ライブラリの統合が可能になる。 また, 一定の抵抗荷重を有する直流マイクログリッドを用いた実時間シミュレーションのユースケースを提案する。

Cyber-physical systems such as microgrids consist of interconnected components, localized power systems, and distributed energy resources with clearly defined electrical boundaries. They can function independently but can also work in tandem with the main grid. Power system converters and their control loops play an essential role in stabilizing grids and interfacing a microgrid with the main grid. The optimal selection of microgrid components for installation is expensive. Simulation of microgrids provides a cost-effective solution. However, when studying the electromagnetic transient response, their simulation is slow. Furthermore, software packages facilitating electromagnetic transient response may be prohibitively expensive. This paper presents a faster method for simulating the electromagnetic transient response of microgrid components using SystemC-AMS. We present a use case of a photovoltaic grid-following inverter with a phase-locked loop to track reference active and reactive power. Our results demonstrate that the simulation performed using SystemC-AMS is roughly three times faster than the benchmark simulation conducted using Simulink. Our implementation of a photovoltaic grid-following inverter equipped with a phase-locked loop for monitoring reference active and reactive power reveals that the simulation executed using SystemC-AMS is approximately three times faster than the benchmark simulation carried out using Simulink. Our implementation adopts a model-based design and produces a library of components that can be used to construct increasingly complex grid architectures. Additionally, the C-based nature allows for the integration of external libraries for added real-time capability and optimization functionality. We also present a use case for real-time simulation using a DC microgrid with a constant resistive load.
翻訳日:2024-07-10 22:22:56 公開日:2024-07-04
# ロバストな検証 - 分散が移行したとしても、信頼性の高い予測

Robust Validation: Confident Predictions Even When Distributions Shift ( http://arxiv.org/abs/2008.04267v3 )

ライセンス: Link先を確認
Maxime Cauchois, Suyash Gupta, Alnur Ali, John C. Duchi, (参考訳) 機械学習と統計学における伝統的な視点では、トレーニングとテストのサンプルは同じ人口から来ていると仮定しているが、実践はこのフィクションを物語っている。 したがって、ロバストな統計と最適化から来る1つの戦略は、分散的な摂動に対して堅牢なモデルを構築することである。 本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順を記述するために,異なるアプローチをとる。 本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。 この方法は、共形推論に基づいて、訓練データが交換可能であるという条件下で、有限サンプルにおいて(ほぼ)有効なカバレッジを達成する。 提案手法の重要な構成要素は,将来予想されるデータシフトの量を推定し,それに対するロバスト性を構築することである。 Recht et al's CIFAR-v4 や ImageNet-V2 などの大規模ベンチマークデータセットを実験することにより、堅牢な予測妥当性の重要性を強調した補完的な実験結果を提供する。

While the traditional viewpoint in machine learning and statistics assumes training and testing samples come from the same population, practice belies this fiction. One strategy -- coming from robust statistics and optimization -- is thus to build a model robust to distributional perturbations. In this paper, we take a different approach to describe procedures for robust predictive inference, where a model provides uncertainty estimates on its predictions rather than point predictions. We present a method that produces prediction sets (almost exactly) giving the right coverage level for any test distribution in an $f$-divergence ball around the training population. The method, based on conformal inference, achieves (nearly) valid coverage in finite samples, under only the condition that the training data be exchangeable. An essential component of our methodology is to estimate the amount of expected future data shift and build robustness to it; we develop estimators and prove their consistency for protection and validity of uncertainty estimates under shifts. By experimenting on several large-scale benchmark datasets, including Recht et al.'s CIFAR-v4 and ImageNet-V2 datasets, we provide complementary empirical results that highlight the importance of robust predictive validity.
翻訳日:2024-07-10 06:10:05 公開日:2024-07-04
# Kernel Ridge Riesz Representers: Generalization, Mis-specification, and the Counterfactual Effective Dimension

Kernel Ridge Riesz Representers: Generalization, Mis-specification, and the Counterfactual Effective Dimension ( http://arxiv.org/abs/2102.11076v4 )

ライセンス: Link先を確認
Rahul Singh, (参考訳) カーネルバランスウェイトは平均処理効果に対する信頼区間を提供し、処理群と未処理群との特徴空間のバランスをとるという考え方に基づいており、しばしばリッジ正則化を伴う。 古典的なカーネルリッジバランスウェイトに関する以前の研究には、いくつかの制限がある。 一 バランスウェイトに対する一般化誤差を明示しないこと。 (二)典型的には特徴の正確な明細書が必要で、 (三)平均効果のみに対するガウス近似を正当化すること。 私はカーネルの重みをカーネルリッジRiesz表現子(KRRR)と解釈し、これらの制限に反現実的有効次元の新たな特徴を通して対処する。 KRRRはカーネルリッジ回帰とカーネルリッジバランスウェイトを正確に一般化したものである。 私はカーネルリッジ回帰に類似した強い性質を証明している:集団$L_2$ 一般化誤差を制御するレートと、補間可能なスタンドアロン閉形式解である。 このフレームワークは、基礎となる回帰モデルが機能によって正しく指定されているという厳密な仮定を緩和する。 これはガウス近似を平均効果から不均一効果まで拡張し、因果関数に対する信頼集合を正当化する。 私はKRRRを用いて、資産に対する401(k)の非均一な処理効果について、年齢によって不確実性を定量化します。

Kernel balancing weights provide confidence intervals for average treatment effects, based on the idea of balancing covariates for the treated group and untreated group in feature space, often with ridge regularization. Previous works on the classical kernel ridge balancing weights have certain limitations: (i) not articulating generalization error for the balancing weights, (ii) typically requiring correct specification of features, and (iii) justifying Gaussian approximation for only average effects. I interpret kernel balancing weights as kernel ridge Riesz representers (KRRR) and address these limitations via a new characterization of the counterfactual effective dimension. KRRR is an exact generalization of kernel ridge regression and kernel ridge balancing weights. I prove strong properties similar to kernel ridge regression: population $L_2$ rates controlling generalization error, and a standalone closed form solution that can interpolate. The framework relaxes the stringent assumption that the underlying regression model is correctly specified by the features. It extends Gaussian approximation beyond average effects to heterogeneous effects, justifying confidence sets for causal functions. I use KRRR to quantify uncertainty for heterogeneous treatment effects, by age, of 401(k) eligibility on assets.
翻訳日:2024-07-10 06:10:05 公開日:2024-07-04
# 物の人工知能を活用したセマンティック通信ネットワーク

Semantic Communication Networks Empowered Artificial Intelligence of Things ( http://arxiv.org/abs/2407.06082v1 )

ライセンス: Link先を確認
Yuntao Wang, (参考訳) セマンティックコミュニケーションは、人間、機械、生物を含む多様な知的な実体間の目的ある情報交換を促進することを目的としている。 それは、効率的な情報伝達のために通信資源を最適化しながら、意味のある表現を目指して、データの忠実さを正確に意味伝達することを強調する。 それでも、既存のセマンティックコミュニケーションシステムは、インテリジェント通信アプリケーションにAI技術を統合する際のセキュリティ、プライバシ、信頼の課題に直面している。 本稿では,セマンティックコミュニケーションシステムにおけるセキュリティとプライバシの脅威を包括的に調査し,学術的・産業的両面での最先端の対策について考察する。 最後に、この急成長する分野における重要なオープンな問題を特定し、さらなる調査を保証します。

Semantic communication aims to facilitate purposeful information exchange among diverse intelligent entities, including humans, machines, and organisms. It emphasizes precise semantic transmission over data fidelity, striving for meaningful expression while optimizing communication resources for efficient information transfer. Nevertheless, extant semantic communication systems face security, privacy, and trust challenges in integrating AI technologies for intelligent communication applications. This paper presents a comprehensive survey of security and privacy threats across various layers of semantic communication systems and discusses state-of-the-art countermeasures within both academic and industry contexts. Finally, we identify critical open issues in this burgeoning field warranting further investigation.
翻訳日:2024-07-09 15:01:12 公開日:2024-07-04
# 制御可能な学習に関する調査:情報検索における方法と応用

A Survey of Controllable Learning: Methods and Applications in Information Retrieval ( http://arxiv.org/abs/2407.06083v1 )

ライセンス: Link先を確認
Chenglei Shen, Xiao Zhang, Teng Shi, Changshuo Zhang, Guofu Xie, Jun Xu, (参考訳) 制御可能な学習(CL)は、信頼できる機械学習において重要な要素として現れ、学習者が予め定義された目標を満たすことを保証する。 我々はCLの形式的定義を提供し、情報要求が複雑で動的である情報検索(IR)におけるその応用について論じる。 CLは、制御可能なもの(ユーザまたはプラットフォーム)、制御可能なもの(例えば、検索対象物、ユーザの過去の行動、制御可能な環境適応)、制御の実装方法(例えば、ルールベースの方法、Pareto最適化、Hypernetwork)、制御を実装する場所(例えば、前処理、内処理、後処理メソッド)によって分類される。 そして、学習、評価、タスク設定、オンライン環境への展開など、CLが直面している課題を特定します。 さらに、理論解析、効率的な計算、大規模言語モデル、アプリケーションシナリオ、IRにおける評価フレームワークの強化におけるCLの有望な方向性について概説する。

Controllable learning (CL) emerges as a critical component in trustworthy machine learning, ensuring that learners meet predefined targets and can adaptively adjust without retraining according to the changes in those targets. We provide a formal definition of CL, and discuss its applications in information retrieval (IR) where information needs are often complex and dynamic. The survey categorizes CL according to who controls (users or platforms), what is controllable (e.g., retrieval objectives, users' historical behaviors, controllable environmental adaptation), how control is implemented (e.g., rule-based method, Pareto optimization, Hypernetwork), and where to implement control (e.g.,pre-processing, in-processing, post-processing methods). Then, we identify challenges faced by CL across training, evaluation, task setting, and deployment in online environments. Additionally, we outline promising directions for CL in theoretical analysis, efficient computation, empowering large language models, application scenarios and evaluation frameworks in IR.
翻訳日:2024-07-09 14:51:28 公開日:2024-07-04
# $s$-value:分布シフトに対する安定性の評価

The $s$-value: evaluating stability with respect to distributional shifts ( http://arxiv.org/abs/2105.03067v4 )

ライセンス: Link先を確認
Suyash Gupta, Dominik Rothenhäusler, (参考訳) p$値や信頼区間といった不確実性に関する一般的な統計測度は、サンプリングによる不確実性、すなわち、全人口を観察していないことによる不確実性を定量化する。 しかし、サンプリングだけが不確実性の原因ではない。 実際には、分布は場所と時間によって変化する。 これにより、データセット間で伝達される知識の収集が困難になる。 本論文では,Kulback-Leibler分散球における一般分布摂動下でのパラメータの感度について,統計パラメータの分布不安定度を定量的に評価する不安定度尺度を提案する。 さらに、方向や変数固有のシフトに関して、パラメータの不安定性を定量化する。 方向シフトに関する不安定性の測定は、パラメータが敏感なシフトの種類を検出するために使用することができる。 このような知識が、シフト分布下での統計的パラメータの推定を改善するために、どのようにデータ収集に役立てるかについて議論する。 提案手法の有効性を実データ上で評価し,パラメータの分布不安定性を一定のシフトに対して解明し,シフトした分布下での推定精度の向上に有効であることを示す。

Common statistical measures of uncertainty such as $p$-values and confidence intervals quantify the uncertainty due to sampling, that is, the uncertainty due to not observing the full population. However, sampling is not the only source of uncertainty. In practice, distributions change between locations and across time. This makes it difficult to gather knowledge that transfers across data sets. We propose a measure of instability that quantifies the distributional instability of a statistical parameter with respect to Kullback-Leibler divergence, that is, the sensitivity of the parameter under general distributional perturbations within a Kullback-Leibler divergence ball. In addition, we quantify the instability of parameters with respect to directional or variable-specific shifts. Measuring instability with respect to directional shifts can be used to detect the type of shifts a parameter is sensitive to. We discuss how such knowledge can inform data collection for improved estimation of statistical parameters under shifted distributions. We evaluate the performance of the proposed measure on real data and show that it can elucidate the distributional instability of a parameter with respect to certain shifts and can be used to improve estimation accuracy under shifted distributions.
翻訳日:2024-07-09 03:30:47 公開日:2024-07-04
# 量子参照

Quantum references ( http://arxiv.org/abs/2105.10914v3 )

ライセンス: Link先を確認
Dominique Unruh, (参考訳) 古典的関数型プログラミングにおけるレンズと同様の「量子参照」の理論を提示し、より大きな量子系のサブシステムを指し示すことができ、その部分を変更する/測定することができる。 量子回路における可変古典変数、量子レジスタ、ワイヤなどがその例であるが、より大きな量子データ構造の一部にも言及している。 我々の設定における量子参照は、他の参照の部分、異なる参照からの部品の組み合わせ、異なるベースで見られる量子参照などを参照することもできる。 我々のモデリングは、定理プローバーの形式化や量子プログラムにおける変数のモデル化の基盤として好適である。 量子参照をより詳細に研究し、無限次元の場合もカバーすると同時に、量子の場合に特有でないより一般的な処理も提供する。 我々は、Isabelle/HOL定理証明器において、結果の大部分(小さな量子ホア論理と量子テレポーテーションの解析を含む)を実装した。

We present a theory of "quantum references", similar to lenses in classical functional programming, that allow to point to a subsystem of a larger quantum system, and to mutate/measure that part. Mutable classical variables, quantum registers, and wires in quantum circuits are examples of this, but also references to parts of larger quantum datastructures. Quantum references in our setting can also refer to subparts of other references, or combinations of parts from different references, or quantum references seen in a different basis, etc. Our modeling is intended to be well suited for formalization in theorem provers and as a foundation for modeling variables in quantum programs. We study quantum references in greater detail and cover the infinite-dimensional case as well, but also provide a more general treatment not specific to the quantum case. We implemented a large part of our results (including a small quantum Hoare logic and an analysis of quantum teleportation) in the Isabelle/HOL theorem prover.
翻訳日:2024-07-09 03:30:47 公開日:2024-07-04
# 非マルコフ決定過程に対するモンテカルロ木学習によるポリシー勾配アルゴリズム

Policy Gradient Algorithms with Monte Carlo Tree Learning for Non-Markov Decision Processes ( http://arxiv.org/abs/2206.01011v2 )

ライセンス: Link先を確認
Tetsuro Morimura, Kazuhiro Ota, Kenshi Abe, Peinan Zhang, (参考訳) ポリシー・グラデーション(PG)は、勾配上昇を用いた予測リターンに対するパラメータ化政策モデルを最適化する強化学習(RL)アプローチである。 PGは非マルコフ環境でもうまく機能するが、高原やピークネスの問題に遭遇することがある。 もうひとつの成功したRLアプローチとして、AlphaZeroを含むモンテカルロ木探索(MCTS)に基づくアルゴリズムが、特にゲームプレイング領域において、画期的な結果を得た。 また、非マルコフ決定プロセスに適用する場合にも有効である。 しかし、標準MCTSはオンラインRL設定とは異なる意思決定時計画法である。 本稿では,オンラインRL設定のためのMCTSを適応したモンテカルロ木学習(MCTL)について紹介する。 次に,PG と MCTL を併用して,その強みを生かした政策手法を提案する。 2時間スケールの確率近似の結果から漸近収束の条件を導出し、これらの条件を満たすアルゴリズムを提案し、妥当な解に収束する。 提案手法の有効性を数値実験により検証した。

Policy gradient (PG) is a reinforcement learning (RL) approach that optimizes a parameterized policy model for an expected return using gradient ascent. While PG can work well even in non-Markovian environments, it may encounter plateaus or peakiness issues. As another successful RL approach, algorithms based on Monte Carlo Tree Search (MCTS), which include AlphaZero, have obtained groundbreaking results, especially in the game-playing domain. They are also effective when applied to non-Markov decision processes. However, the standard MCTS is a method for decision-time planning, which differs from the online RL setting. In this work, we first introduce Monte Carlo Tree Learning (MCTL), an adaptation of MCTS for online RL setups. We then explore a combined policy approach of PG and MCTL to leverage their strengths. We derive conditions for asymptotic convergence with the results of a two-timescale stochastic approximation and propose an algorithm that satisfies these conditions and converges to a reasonable solution. Our numerical experiments validate the effectiveness of the proposed methods.
翻訳日:2024-07-09 03:30:47 公開日:2024-07-04
# 経路依存型ニューラルジャンプによるジェネリックダイナミクスの最適推定

Optimal Estimation of Generic Dynamics by Path-Dependent Neural Jump ODEs ( http://arxiv.org/abs/2206.14284v6 )

ライセンス: Link先を確認
Florian Krach, Marc Nübel, Josef Teichmann, (参考訳) 本稿では,ニューラルジャンプODE(NJ-ODE)フレームワークの経路依存拡張を用いた一般確率過程の予測問題について検討する。 NJ-ODEは、不規則に観測された時系列の予測のための収束保証を確立する最初のフレームワークであったが、これらの結果は完全な観測、特にすべての座標を同時に観測するマルコフ過程から得られたデータに限られていた。 本研究では、シグネチャ変換の再構成特性を利用して、これらの結果を、不完全な観測を伴う一般的な、おそらくは非マルコフ的あるいは不連続な確率過程に一般化する。 これらの理論結果は経験的研究によって支持され、パス依存NJ-ODEは非マルコフデータの場合、元のNJ-ODEフレームワークより優れていることが示されている。 さらに、PD-NJ-ODEは古典的確率的フィルタリング問題や順序帳(LOB)データにうまく適用可能であることを示す。

This paper studies the problem of forecasting general stochastic processes using a path-dependent extension of the Neural Jump ODE (NJ-ODE) framework \citep{herrera2021neural}. While NJ-ODE was the first framework to establish convergence guarantees for the prediction of irregularly observed time series, these results were limited to data stemming from It\^o-diffusions with complete observations, in particular Markov processes, where all coordinates are observed simultaneously. In this work, we generalise these results to generic, possibly non-Markovian or discontinuous, stochastic processes with incomplete observations, by utilising the reconstruction properties of the signature transform. These theoretical results are supported by empirical studies, where it is shown that the path-dependent NJ-ODE outperforms the original NJ-ODE framework in the case of non-Markovian data. Moreover, we show that PD-NJ-ODE can be applied successfully to classical stochastic filtering problems and to limit order book (LOB) data.
翻訳日:2024-07-09 03:30:47 公開日:2024-07-04
# 非Myopic Multifidelity Bayesian Optimization

Non-Myopic Multifidelity Bayesian Optimization ( http://arxiv.org/abs/2207.06325v3 )

ライセンス: Link先を確認
Francesco Di Fiore, Laura Mainini, (参考訳) ベイズ最適化はブラックボックス関数の最適化のための一般的なフレームワークである。 多重忠実度法は、高価な目的関数の低忠実度表現を利用してベイズ最適化を加速することができる。 人気のある多忠実ベイズ戦略は、特定の入力で目的関数を評価できる即時報酬を考慮に入れたサンプリングポリシーに依存しており、より多くのステップで得られるかもしれないより多くの情報的利得を除外している。 本稿では,この最適化の今後のステップから長期報酬を把握するための,非筋電多忠実ベイズフレームワークを提案する。 我々の計算戦略は2段階のルックアヘッド多面体獲得関数を伴い, 2段階の解法改善を計測した累積報酬を最大化する。 提案アルゴリズムは,一般的なベンチマーク最適化問題において,標準的なマルチ忠実ベイズフレームワークよりも優れていることを示す。

Bayesian optimization is a popular framework for the optimization of black box functions. Multifidelity methods allows to accelerate Bayesian optimization by exploiting low-fidelity representations of expensive objective functions. Popular multifidelity Bayesian strategies rely on sampling policies that account for the immediate reward obtained evaluating the objective function at a specific input, precluding greater informative gains that might be obtained looking ahead more steps. This paper proposes a non-myopic multifidelity Bayesian framework to grasp the long-term reward from future steps of the optimization. Our computational strategy comes with a two-step lookahead multifidelity acquisition function that maximizes the cumulative reward obtained measuring the improvement in the solution over two steps ahead. We demonstrate that the proposed algorithm outperforms a standard multifidelity Bayesian framework on popular benchmark optimization problems.
翻訳日:2024-07-09 03:30:47 公開日:2024-07-04
# 光通信における複合PMD PDL効果の数学的記述と誘導障害の最小化について

On the mathematical description of combined PMD PDL effects in optical communications and how their induced impairments can be minimized ( http://arxiv.org/abs/2209.07855v5 )

ライセンス: Link先を確認
Carlos L. Janer, (参考訳) 本稿では,光ファイバーにおける偏光モード分散と偏光依存損失(複合PMD-PDL効果または障害)の組み合わせによる正しい数学的枠組みが,拡張ローレンツ群の既約スピノル表現であることを示す。 PMD-PDLの組み合わせ効果は、スピン1/2ゼロ質量粒子に作用するローレンツ変換と正式に同一であることが示されている。 制限ローレンツ群には2つの異なる既約スピノル表現が存在するため、PMD-PDL効果の記述に関係のある2種類の偏極状態(SOP)が存在する必要がある。 1つの種をもう1つの種に変換することができる光学過程は、光位相共役として同定される。 光位相共役はローレンツ群表現論において時間反転作用素と同じ役割を果たす。 PMD-PDL誘発障害を著しく低減する手法である,これらのアイデアの実用的かつ極めて重要な例を示す。 この技術は、組み合わせたPMD-PDL障害のPDL部分を、非常にシンプルで簡単な方法でキャンセルすることができる。

In this paper it is shown that the correct mathematical framework of combined polarization mode dispersion and polarization dependent losses (combined PMD-PDL effects or impairments) in optical fibers is the irreducible spinor representation of the extended Lorentz Group. Combined PMD-PDL effects are shown to be formally identical to Lorentz Transformations acting on spin 1/2 zero mass particles. Since there are two different irreducible spinor representations of the restricted Lorentz Group, there must also exist two kinds of states of polarizations (SOPs) that are relevant in the description of PMD-PDL effects. The optical process that allows to convert one kind into the other is identified as optical phase conjugation. Optical phase conjugation plays the same role as the time inversion operator in the Lorentz Group representation theory. A practical and extremely important example of utility of these ideas, a technique that significantly reduces the PMD-PDL induced impairments, is presented. This technique allows to cancel the PDL part of the combined PMD-PDL impairments in a very simple and straightforward way.
翻訳日:2024-07-09 03:30:47 公開日:2024-07-04
# シミュレーションに基づく推論のためのコントラストニューラル比推定

Contrastive Neural Ratio Estimation for Simulation-based Inference ( http://arxiv.org/abs/2210.06170v3 )

ライセンス: Link先を確認
Benjamin Kurt Miller, Christoph Weniger, Patrick Forré, (参考訳) Likelihood-to-evidence ratio Estimation は通常、バイナリ (NRE-A) またはマルチクラス (NRE-B) の分類タスクとしてキャストされる。 バイナリ分類フレームワークとは対照的に、現在のマルチクラスバージョンの定式化は本質的で未知のバイアス項を持ち、それ以外の情報的診断は信頼できない。 我々は,NRE-Bに固有のバイアスを最適に含まないマルチクラスフレームワークを提案し,実践者が依存する診断を行う立場に置かれる。 また、1つのコーナーケースでNRE-Aを、制限ケースでNRE-Bを回復する。 公正な比較のために,共同で描画されたデータが無制限である場合,データの固定と事前の描画が無制限である場合,一般的な固定データとパラメータ設定のいずれにおいても,すべてのアルゴリズムの挙動をベンチマークする。 本研究は,高パラメータ空間における競合モデル (NRE-A, NRE-B) から高い性能のモデルが遠ざかっていることを示す。 従来のモデルとは異なるハイパーパラメータを推奨する。 シミュレーションに基づく推論手法の性能指標として,後続サンプルを必要とせず,相互情報の2つの境界条件を提案し,実験結果を提供する。 このバージョンは$\gamma$で小さな実装エラーを修正し、結果を改善する。

Likelihood-to-evidence ratio estimation is usually cast as either a binary (NRE-A) or a multiclass (NRE-B) classification task. In contrast to the binary classification framework, the current formulation of the multiclass version has an intrinsic and unknown bias term, making otherwise informative diagnostics unreliable. We propose a multiclass framework free from the bias inherent to NRE-B at optimum, leaving us in the position to run diagnostics that practitioners depend on. It also recovers NRE-A in one corner case and NRE-B in the limiting case. For fair comparison, we benchmark the behavior of all algorithms in both familiar and novel training regimes: when jointly drawn data is unlimited, when data is fixed but prior draws are unlimited, and in the commonplace fixed data and parameters setting. Our investigations reveal that the highest performing models are distant from the competitors (NRE-A, NRE-B) in hyperparameter space. We make a recommendation for hyperparameters distinct from the previous models. We suggest two bounds on the mutual information as performance metrics for simulation-based inference methods, without the need for posterior samples, and provide experimental results. This version corrects a minor implementation error in $\gamma$, improving results.
翻訳日:2024-07-09 03:30:47 公開日:2024-07-04
# FedCross: マルチモデルクロスアグリゲーションによる正確なフェデレーション学習を目指して

FedCross: Towards Accurate Federated Learning via Multi-Model Cross-Aggregation ( http://arxiv.org/abs/2210.08285v2 )

ライセンス: Link先を確認
Ming Hu, Peiheng Zhou, Zhihao Yue, Zhiwei Ling, Yihao Huang, Anran Li, Yang Liu, Xiang Lian, Mingsong Chen, (参考訳) 有望な分散機械学習パラダイムとして、フェデレートラーニング(FL)は、ユーザのプライバシを損なうことなく、データサイロの問題に対処するために注目を集めている。 クラウドサーバがひとつのグローバルモデルを複数のクライアントにディスパッチする古典的なワンツーマルチトレーニングスキーム(FedAvg)を採用することで、従来のFLメソッドはデータ共有なしで協調的なモデルトレーニングを実現することができる。 しかし、1つの大域的モデルだけが局所モデルのすべての不整合収束方向に対応できないため、既存のFLアプローチは分類精度が劣る。 この問題に対処するため、我々はFedCrossという効率的なFLフレームワークを提案し、このフレームワークは、提案したマルチモデル・クロスアグリゲーションアプローチに基づいた、新しいマルチツーマルチFLトレーニングスキームを用いている。 従来のFL法とは異なり、FL訓練の各ラウンドでは、FedCrossは複数のミドルウェアモデルを使用して個別に重み付き融合を行う。 FedCrossが使用するミドルウェアモデルは、損失景観の観点からは、すぐに同じ平らな谷に収束できるため、生成されたグローバルモデルは、十分に一般化できる。 様々なよく知られたデータセットの実験結果から、FedCrossは最先端のFL法と比較して、追加の通信オーバーヘッドを発生させることなく、IIDおよび非IIDシナリオのFL精度を著しく向上させることができることが示された。

As a promising distributed machine learning paradigm, Federated Learning (FL) has attracted increasing attention to deal with data silo problems without compromising user privacy. By adopting the classic one-to-multi training scheme (i.e., FedAvg), where the cloud server dispatches one single global model to multiple involved clients, conventional FL methods can achieve collaborative model training without data sharing. However, since only one global model cannot always accommodate all the incompatible convergence directions of local models, existing FL approaches greatly suffer from inferior classification accuracy. To address this issue, we present an efficient FL framework named FedCross, which uses a novel multi-to-multi FL training scheme based on our proposed multi-model cross-aggregation approach. Unlike traditional FL methods, in each round of FL training, FedCross uses multiple middleware models to conduct weighted fusion individually. Since the middleware models used by FedCross can quickly converge into the same flat valley in terms of loss landscapes, the generated global model can achieve a well-generalization. Experimental results on various well-known datasets show that, compared with state-of-the-art FL methods, FedCross can significantly improve FL accuracy within both IID and non-IID scenarios without causing additional communication overhead.
翻訳日:2024-07-09 03:30:46 公開日:2024-07-04
# $\sqrt{T}$ Regret を用いた分散線形二次レギュレータの学習

Learning Decentralized Linear Quadratic Regulators with $\sqrt{T}$ Regret ( http://arxiv.org/abs/2210.08886v4 )

ライセンス: Link先を確認
Lintao Ye, Ming Chi, Ruiquan Liao, Vijay Gupta, (参考訳) 本稿では,システムモデルが未知な場合の分散線形二次規制を適応的に設計するオンライン学習アルゴリズムを提案する。 このアルゴリズムは、状態フィードバックコントローラの障害フィードバック表現と、オンライン凸最適化とメモリと遅延フィードバックを組み合わせた。 システムが安定であるか、あるいは既知の安定化コントローラが与えられたという仮定の下で、我々のコントローラは、部分的にネストされた情報パターンの場合、時間水平線$T$で$\sqrt{T}$までスケールする期待された後悔を楽しんでいることを示す。 より一般的な情報パターンについては、システムモデルが知られている場合でも最適制御器は未知である。 この場合、線形準最適制御器に関して、制御器の後悔が示される。 数値実験により理論的知見を検証した。

We propose an online learning algorithm that adaptively designs a decentralized linear quadratic regulator when the system model is unknown a priori and new data samples from a single system trajectory become progressively available. The algorithm uses a disturbance-feedback representation of state-feedback controllers coupled with online convex optimization with memory and delayed feedback. Under the assumption that the system is stable or given a known stabilizing controller, we show that our controller enjoys an expected regret that scales as $\sqrt{T}$ with the time horizon $T$ for the case of partially nested information pattern. For more general information patterns, the optimal controller is unknown even if the system model is known. In this case, the regret of our controller is shown with respect to a linear sub-optimal controller. We validate our theoretical findings using numerical experiments.
翻訳日:2024-07-09 03:22:23 公開日:2024-07-04
# ブラックボックスモデルの説明と人間の解釈可能性期待 -殺人予測の文脈における分析-

Black Box Model Explanations and the Human Interpretability Expectations -- An Analysis in the Context of Homicide Prediction ( http://arxiv.org/abs/2210.10849v2 )

ライセンス: Link先を確認
José Ribeiro, Níkolas Carneiro, Ronnie Alves, (参考訳) 説明可能な人工知能(XAI)に基づく戦略は、ブラックボックスモデルの結果のより良い人間の解釈可能性を促進する。 これにより、XAI手法による説明が人間の期待に合致するかどうかを疑問視する可能性が開ける。 現在使われているXAIメソッド(Ciu、Dalex、Eli5、Lofo、Shap、Skater)は、その入力と出力の結果、モデルがどのように説明されるかの概観を可能にする、機能との関連性のグローバルなランキングを含む、さまざまなタイプの説明を提供する。 これらの手法は、モデルの説明可能性の向上と、問題の文脈に基づく解釈可能性の向上を提供する。 本研究は、XAI法とその解釈による説明の隠蔽を目的として、殺人予測に関連する現実世界の分類問題に対処し、既にピア検証済みで、提案したブラックボックスモデルを再現し、6つの異なるXAI法を用いて説明と6つの異なる人間の専門家を作成した。 その結果は, 相関関係の計算, 比較分析, 生成した特徴のすべての階級間の関係の同定によって得られた。 説明が難しいモデルであるにもかかわらず, XAI法と人的専門家の間では, 人的専門家の期待の75%が満たされ, 約48パーセントの合意が得られた。 その結果,「人間の専門家間での解釈の期待は類似しているか」「XAIメソッドは,提案された問題に対して同様の説明を生成するのか」「XAIメソッドが生成する説明は,解釈の人間の期待に合致しているか」「解釈の期待と期待は一緒に働くか」といった疑問に答えることができた。

Strategies based on Explainable Artificial Intelligence (XAI) have promoted better human interpretability of the results of black box models. This opens up the possibility of questioning whether explanations created by XAI methods meet human expectations. The XAI methods being currently used (Ciu, Dalex, Eli5, Lofo, Shap, and Skater) provide various forms of explanations, including global rankings of relevance of features, which allow for an overview of how the model is explained as a result of its inputs and outputs. These methods provide for an increase in the explainability of the model and a greater interpretability grounded on the context of the problem. Intending to shed light on the explanations generated by XAI methods and their interpretations, this research addresses a real-world classification problem related to homicide prediction, already peer-validated, replicated its proposed black box model and used 6 different XAI methods to generate explanations and 6 different human experts. The results were generated through calculations of correlations, comparative analysis and identification of relationships between all ranks of features produced. It was found that even though it is a model that is difficult to explain, 75\% of the expectations of human experts were met, with approximately 48\% agreement between results from XAI methods and human experts. The results allow for answering questions such as: "Are the Expectation of Interpretation generated among different human experts similar?", "Do the different XAI methods generate similar explanations for the proposed problem?", "Can explanations generated by XAI methods meet human expectation of Interpretations?", and "Can Explanations and Expectations of Interpretation work together?".
翻訳日:2024-07-09 03:22:23 公開日:2024-07-04
# 事前学習モデルは継続学習に等しく相応しいか?

Do Pre-trained Models Benefit Equally in Continual Learning? ( http://arxiv.org/abs/2210.15701v2 )

ライセンス: Link先を確認
Kuan-Ying Lee, Yuanyi Zhong, Yu-Xiong Wang, (参考訳) 既存の継続学習(CL)の研究は主に、ゼロから訓練されたモデルのアルゴリズムの開発に費やされている。 コントリビュートベンチマークのパフォーマンスは高いが、これらのアルゴリズムは現実のシナリオで劇的なパフォーマンス低下を示す。 そこで本論文では,下流の課題に知識を伝達する一般的なレシピであるCLへの事前学習の体系的導入を提唱するが,CLコミュニティにはかなり欠落している。 本研究は, 3つの異なる軸, 事前学習モデル, CLアルゴリズム, CLシナリオに沿って, CLの事前学習モデルを利用する多面的複雑性を明らかにする。 おそらく最も興味深いのは、事前学習によるCLアルゴリズムの改善は、全てのアルゴリズムが事前訓練されたモデルから始めると、性能の低いアルゴリズムが競合し、最先端のアルゴリズムになる可能性があることである。 これは、全てのCLメソッドがオフスクラッチトレーニングで比較される現在のパラダイムは、真のCL目標と望ましい進歩を十分に反映していないことを示している。 さらに、正規化の少ないCLアルゴリズムは、事前訓練されたモデルによってより恩恵を受けられることや、CLIPのようなより強力な事前学習モデルでは、改善が保証されないことなど、いくつかの重要な観察を行う。 これらの知見に基づいて、最小限の正規化を採用し、より有益な事前学習モデルと2段階のトレーニングパイプラインを併用した、単純で効果的なベースラインを導入する。 我々はこの強力なベースラインを今後のCLアルゴリズムの開発に組み込むことを推奨する。

Existing work on continual learning (CL) is primarily devoted to developing algorithms for models trained from scratch. Despite their encouraging performance on contrived benchmarks, these algorithms show dramatic performance drops in real-world scenarios. Therefore, this paper advocates the systematic introduction of pre-training to CL, which is a general recipe for transferring knowledge to downstream tasks but is substantially missing in the CL community. Our investigation reveals the multifaceted complexity of exploiting pre-trained models for CL, along three different axes, pre-trained models, CL algorithms, and CL scenarios. Perhaps most intriguingly, improvements in CL algorithms from pre-training are very inconsistent an underperforming algorithm could become competitive and even state-of-the-art when all algorithms start from a pre-trained model. This indicates that the current paradigm, where all CL methods are compared in from-scratch training, is not well reflective of the true CL objective and desired progress. In addition, we make several other important observations, including that CL algorithms that exert less regularization benefit more from a pre-trained model; and that a stronger pre-trained model such as CLIP does not guarantee a better improvement. Based on these findings, we introduce a simple yet effective baseline that employs minimum regularization and leverages the more beneficial pre-trained model, coupled with a two-stage training pipeline. We recommend including this strong baseline in the future development of CL algorithms, due to its demonstrated state-of-the-art performance.
翻訳日:2024-07-09 03:22:23 公開日:2024-07-04
# トーションによる一般相対論的波$-$粒子双対性

General-relativistic wave$-$particle duality with torsion ( http://arxiv.org/abs/2211.03234v3 )

ライセンス: Link先を確認
Francisco Ribeiro Benard Guedes, Nikodem Janusz Popławski, (参考訳) ディラック粒子の4つの速度は、その相対論的波動関数に$u^i=\bar{\psi}\gamma^i\psi/\bar{\psi}\psi$で関連している。 この相対論的波$-$粒子双対関係は、平時時における平面波に関連する自由粒子に対して示される。 ねじれを持つ曲線時空の場合、スピノルの運動量 4-ベクトルは共変微分によって与えられる変換の生成物と関連付けられる。 スピノルのスピン角運動量 4-テンソルはローレンツ群の回転生成器と関連している。 スピンとエネルギーの共変保存法則をアインシュタイン$-$カルタントーションの存在下でスピノル場に対して使用し、波が曲線ディラック方程式を満たすならば、4-速度、4-モーメント、スピンは古典的なマシソン$-$パパペトロウ方程式を満たすことを示す。 これらの方程式は測地方程式に還元されることを示す。 その結果、パイロット波量子力学における4速で導かれる粒子の運動は、時空によって決定される測地運動と一致する。 また、Mathisson$-$Papapetrou方程式の双対性と作用素形式は、トーションの存在下でのハイゼンベルク運動の共変方程式から生じることを示す。

We propose that the four-velocity of a Dirac particle is related to its relativistic wave function by $u^i=\bar{\psi}\gamma^i\psi/\bar{\psi}\psi$. This relativistic wave$-$particle duality relation is demonstrated for a free particle related to a plane wave in a flat spacetime. For a curved spacetime with torsion, the momentum four-vector of a spinor is related to a generator of translation, given by a covariant derivative. The spin angular momentum four-tensor of a spinor is related to a generator of rotation in the Lorentz group. We use the covariant conservation laws for the spin and energy$-$momentum tensors for a spinor field in the presence of the Einstein$-$Cartan torsion to show that if the wave satisfies the curved Dirac equation, then the four-velocity, four-momentum, and spin satisfy the classical Mathisson$-$Papapetrou equations of motion. We show that these equations reduce to the geodesic equation. Consequently, the motion of a particle guided by the four-velocity in the pilot-wave quantum mechanics coincides with the geodesic motion determined by spacetime. We also show how the duality and the operator form of the Mathisson$-$Papapetrou equations arise from the covariant Heisenberg equation of motion in the presence of torsion.
翻訳日:2024-07-09 03:22:23 公開日:2024-07-04
# 外傷の進行的塗布を指導した線画

Line Drawing Guided Progressive Inpainting of Mural Damage ( http://arxiv.org/abs/2211.06649v2 )

ライセンス: Link先を確認
Luxi Li, Qin Zou, Fan Zhang, Hongkai Yu, Long Chen, Chengfang Song, Xianfeng Huang, Xiaoguang Wang, Qingquan Li, (参考訳) 死像の塗布は、自然像と比較するとはるかに少ないが、未解決のままである。 既存の画像塗装法の多くは、ターゲット画像のみを入力とし、損傷を直接修復して視覚的に妥当な結果を生成する傾向にある。 これらの方法は、例えば、人の顔、布地、印刷物などの予め定義された物の復元や完成において高い性能を得るが、さまざまな被写体や大きな損傷領域のある壁画の修復には適さない。 また、絵具の個々の色により、壁画の塗り絵は明らかな色の偏りに悩まされることがある。 そこで本稿では,線画ガイドによるプログレッシブ壁画塗装法を提案する。 SRN(Structure Restruction Network)とCCN(Color Restruction Network)の2つのステップに分けられる。 構造復元において、SRNはライン描画を補助として利用し、大規模コンテンツ認証と構造安定性を実現する。 色補正において、CCNは、色バイアスとエッジジャンプの負の効果を低減するために、欠落画素の局所色調整を行う。 提案手法は,現在の画像塗装法に対して評価される。 壁画の塗装における提案手法の優位性を示す質的,定量的な結果を得た。 コードとデータはhttps://github.com/qinnzou/mural-image-inpainting.comで公開されている。

Mural image inpainting is far less explored compared to its natural image counterpart and remains largely unsolved. Most existing image-inpainting methods tend to take the target image as the only input and directly repair the damage to generate a visually plausible result. These methods obtain high performance in restoration or completion of some pre-defined objects, e.g., human face, fabric texture, and printed texts, etc., however, are not suitable for repairing murals with varying subjects and large damaged areas. Moreover, due to discrete colors in paints, mural inpainting may suffer from apparent color bias. To this end, in this paper, we propose a line drawing guided progressive mural inpainting method. It divides the inpainting process into two steps: structure reconstruction and color correction, implemented by a structure reconstruction network (SRN) and a color correction network (CCN), respectively. In structure reconstruction, SRN utilizes the line drawing as an assistant to achieve large-scale content authenticity and structural stability. In color correction, CCN operates a local color adjustment for missing pixels which reduces the negative effects of color bias and edge jumping. The proposed approach is evaluated against the current state-of-the-art image inpainting methods. Qualitative and quantitative results demonstrate the superiority of the proposed method in mural image inpainting. The codes and data are available at https://github.com/qinnzou/mural-image-inpainting.
翻訳日:2024-07-09 03:22:23 公開日:2024-07-04
# 操作量子力学と最小スクランブル

Operational Quantum Mereology and Minimal Scrambling ( http://arxiv.org/abs/2212.14340v5 )

ライセンス: Link先を確認
Paolo Zanardi, Emanuel Dallas, Faidon Andreadakis, Seth Lloyd, (参考訳) 本稿では,系の力学則から生じる自然量子サブシステムとは何か,という問いに答える。 この質問に答えるために、まず可観測性の観点から一般化テンソル積構造(gTPS)を作用素部分代数 $\cal A$ とその可換体の双対として定義する。 第2に、gTPSを動的に選択するために、短時間でスクランブルする最小限の情報の運用基準を提案する。 このようにして、創発的なサブシステムは、最も長い情報的アイデンティティを保持するサブシステムである。 この戦略は、時間秩序相関関数(OTOC)の代数版、すなわち$\cal A$-OTOCの短期展開という観点からガウススクランブル率を定義することによって定量化される。 ガウスのスクランブルレートは、サブシステムへの一般分割の物理的に重要なケースに対して解析的に計算され、サブシステム間の相互作用強度の最小化という観点から、直感的で説得力のある物理的解釈を持つことが示されている。

In this paper we will attempt to answer the following question: what are the natural quantum subsystems which emerge out of a system's dynamical laws? To answer this question we first define generalized tensor product structures (gTPS) in terms of observables, as dual pairs of an operator subalgebra $\cal A$ and its commutant. Second, we propose an operational criterion of minimal information scrambling at short time scales to dynamically select gTPS. In this way the emergent subsystems are those which maintain the longest informational identity. This strategy is made quantitative by defining a Gaussian scrambling rate in terms of the short-time expansion of an algebraic version of the Out of Time Order Correlation (OTOC) function i.e., the $\cal A$-OTOC. The Gaussian scrambling rate is computed analytically for physically important cases of general division into subsystems, and is shown to have an intuitive and compelling physical interpretation in terms of minimizing the interaction strength between subsystems.
翻訳日:2024-07-09 03:22:23 公開日:2024-07-04
# \boldmath $SU(\infty)$ Quantum Gravity: Emergence of Gravity in an Infinitely Divisible Quantum Universe

\boldmath $SU(\infty)$ Quantum Gravity: Emergence of Gravity in an Infinitely Divisible Quantum Universe ( http://arxiv.org/abs/2301.02813v4 )

ライセンス: Link先を確認
Houri Ziaeepour, (参考訳) SU(\infty)$-QGR は重力に対する基本的な量子的アプローチである。 宇宙全体のヒルベルト空間は対称性群 $SU(\infty)$ を表すと仮定し、任意の有限階内対称性をランダムに現れて表す無限個の部分系のヒルベルト空間に対してこの対称性を示す。 これらの状態は、大域的な$U(1)$対称性の破れによって生じる次元パラメータに依存しており、相対力学は、部分系をクロックとして選択することによって定義される。 この作用は、$SU(\infty)$ - 重力と内部対称性の両方に対して(3+1)次元のパラメータ空間上で定義されるヤン・ミルズ量子場理論の形式を持つ。 したがって、$SU(\infty)$-QGRは再正規化可能であるが、量子重力のスピン-1メディエータを予測する。 それでも、量子重力効果が検出できないとき、力学はアインシュタイン・ヒルベルト作用と似ていることが証明されている。 本研究の目的は,本モデルの基礎と特性を深く研究することである。 特に、大域的な$SU(\infty)$対称性は、宇宙の他の部分系の絡み合いを通して現れ、観測可能空間のパラメータ空間の幾何が無関係であることを示す。 したがって、$SU(\infty)$-QGRはゲージ重力双対性モデルから逸脱し、古典時空は負のシグネチャを持つ創発的な有効幾何学であり、サブシステムと量子不確実性の量子状態の相対的変動を反映している。 また、暗黒エネルギーに対するSU(\infty)$-QGR比モデルについても簡単に論じる。

$SU(\infty)$-QGR is a foundationally quantum approach to gravity. It assumes that the Hilbert space of the Universe as a whole represents the symmetry group $SU(\infty)$, and demonstrates this symmetry for Hilbert spaces of infinite number of subsystems that randomly emerge and represent arbitrary finite rank internal symmetries. It is shown that their states depend on a dimensionful parameter arising due to the breaking of a global $U(1)$ symmetry, and a relative dynamics can be defined by selection of a subsystem as clock. The action has the form of a Yang-Mills quantum field theory defined on the (3+1)-dimensional parameter space for both $SU(\infty)$ - gravity - and internal symmetries. Therefore, $SU(\infty)$-QGR is renormalizable, but predicts a spin-1 mediator for quantum gravity. Nonetheless, it is proved that when quantum gravity effects are not detectable, dynamics is similar to the Einstein-Hilbert action. The aim of present work is in depth study of the foundation and properties of this model. In particular, we show that the global $SU(\infty)$ symmetry manifests itself through the entanglement of subsystems with the rest of the Universe, and demonstrate irrelevance of geometry of the parameter space for observables. Hence, $SU(\infty)$-QGR deviates from gauge-gravity duality models, because the classical spacetime is an emergent effective geometry with negative signature, reflecting relative variation of quantum states of subsystems and quantum uncertainties. We also briefly discuss $SU(\infty)$-QGR specific models for dark energy.
翻訳日:2024-07-09 03:22:23 公開日:2024-07-04
# 弱依存確率過程の最大値に基づく高次元可変クラスタリング

High-dimensional variable clustering based on maxima of a weakly dependent random process ( http://arxiv.org/abs/2302.00934v3 )

ライセンス: Link先を確認
Alexis Boulin, Elena Di Bernardino, Thomas Laloë, Gwladys Toulemonde, (参考訳) 本稿では,多変量定常混合ランダムプロセスの最大値の独立性に基づいて,集団レベルのクラスタを定義したAsymsymotic Independent Block (AI-block)モデルと呼ばれる,変数クラスタリングのための新しいモデルのクラスを提案する。 このモデルのクラスは特定可能であり、つまり、分割の間に部分的な順序を持つ極大要素が存在し、統計的推測が可能であることを意味する。 また,クラスタ数を指定せずに変数のクラスタを復元するチューニングパラメータに依存するアルゴリズムを提案する。 我々の研究はアルゴリズムの整合性に関する理論的知見を提供し、ある条件下では、データ内のクラスタを次元の多項式である計算複雑性で効果的に識別できることを示した。 また,チューニングパラメータに対するデータ駆動選択法を提案する。 研究の意義をさらに明らかにするため,我々は神経科学と環境リアルタイムに本手法を適用した。 これらの応用は、提案されたアプローチの可能性と汎用性を強調している。

We propose a new class of models for variable clustering called Asymptotic Independent block (AI-block) models, which defines population-level clusters based on the independence of the maxima of a multivariate stationary mixing random process among clusters. This class of models is identifiable, meaning that there exists a maximal element with a partial order between partitions, allowing for statistical inference. We also present an algorithm depending on a tuning parameter that recovers the clusters of variables without specifying the number of clusters \emph{a priori}. Our work provides some theoretical insights into the consistency of our algorithm, demonstrating that under certain conditions it can effectively identify clusters in the data with a computational complexity that is polynomial in the dimension. A data-driven selection method for the tuning parameter is also proposed. To further illustrate the significance of our work, we applied our method to neuroscience and environmental real-datasets. These applications highlight the potential and versatility of the proposed approach.
翻訳日:2024-07-09 03:22:23 公開日:2024-07-04
# Socialz: 多機能ソーシャルファズテスト

Socialz: Multi-Feature Social Fuzz Testing ( http://arxiv.org/abs/2302.08664v4 )

ライセンス: Link先を確認
Francisco Zanartu, Christoph Treude, Markus Wagner, (参考訳) オンラインソーシャルネットワークは私たちの日常生活に不可欠な要素となり、他人との関係を形作る上で重要な役割を担っている。 しかし、バグや不具合は、たとえマイナーなものであっても、フラストレーションのある問題から深刻なデータリークまで、何百万ものユーザーに影響を与える可能性がある。 これらのリスクを軽減するために、ランダムな入力でテストする方法であるファズテストは、ソーシャルネットワークの正しい機能に対する信頼性を高めることができる。 しかし、従来のファズテスト手法の実装は、ソーシャルネットワークの開発チーム以外のプログラマにとって、違法に困難または非現実的である可能性がある。 この課題に対処するため、Socialzは、(1)ソーシャルネットワークの実際のユーザを特徴づけ、(2)複数の非自明な特徴にまたがって進化計算を用いてインタラクションを多様化し、(3)これらのインタラクションの実行時にパフォーマンスデータを収集する、ソーシャルファズテストの新しいアプローチを提案する。 Socialzでは、ソーシャルテストツールをみんなの手に置き、世界中で使われているソーシャルネットワークの信頼性とセキュリティを改善したいと考えています。 調査では、(1)現在のGitLab CEの1つの既知の制限と(2)6,907のエラーに遭遇し、そのうち40.16%がデバッグスキルを超えた。

Online social networks have become an integral aspect of our daily lives and play a crucial role in shaping our relationships with others. However, bugs and glitches, even minor ones, can cause anything from frustrating problems to serious data leaks that can have farreaching impacts on millions of users. To mitigate these risks, fuzz testing, a method of testing with randomised inputs, can provide increased confidence in the correct functioning of a social network. However, implementing traditional fuzz testing methods can be prohibitively difficult or impractical for programmers outside of the social network's development team. To tackle this challenge, we present Socialz, a novel approach to social fuzz testing that (1) characterises real users of a social network, (2) diversifies their interaction using evolutionary computation across multiple, non-trivial features, and (3) collects performance data as these interactions are executed. With Socialz, we aim to put social testing tools in everybody's hands, thereby improving the reliability and security of social networks used worldwide. In our study, we came across (1) one known limitation of the current GitLab CE and (2) 6,907 errors, of which 40.16% are beyond our debugging skills.
翻訳日:2024-07-09 03:22:23 公開日:2024-07-04
# 振幅減衰チャネルにおける粒子内量子相関の生成とそのロバスト性

Generation of intraparticle quantum correlations in amplitude damping channel and its robustness ( http://arxiv.org/abs/2303.01238v2 )

ライセンス: Link先を確認
Animesh Sinha Roy, Namitha C. V., Subroto Mukerjee, Prasanta K. Panigrahi, Urbasi Sinha, (参考訳) 同じ粒子の2つ以上の異なる自由度の間の量子相関は、しばしば粒子内絡みと呼ばれる。 本研究では, 各種脱コヒーレンスチャネルにおける2つの自由度間の粒子内相関について検討し, 振幅減衰, 偏極, 位相減衰チャネルについて検討した。 振幅減衰流の特異な特徴を観察し, 絡み合いが分離状態から始まることを示した。 非極端に絡み合った入力状態の場合、絡み合いの突然の死に加えて、絡み合いの生成も観察され、長年にわたり漸近的な崩壊が見られた。 これらの反直感的行動は、チャネルと入力状態パラメータの微妙な相互作用に起因するものであり、非マルコフノイズを考慮せずに粒子間絡み合いには見られない。 また、最大絡み合った入力状態に対しては観測されない。 さらに, 相減衰・脱分極チャネルにおける絡み合いの進展の研究は, 粒子間絡み合いと比較して, 脱コヒーレンスに対する堅牢性を示している。

Quantum correlations between two or more different degrees of freedom of the same particle is sometimes referred to as intraparticle entanglement. In this work, we study these intra-particle correlations between two different degrees of freedom under various decoherence channels viz. amplitude damping, depolarising and phase damping channels. We observe a unique feature of the amplitude damping channel, wherein entanglement is shown to arise starting from separable states. In case of non maximally entangled input states, in addition to entanglement sudden death, the creation of entanglement is also observed, having an asymptotic decay over a long time. These counter-intuitive behaviours arise due to the subtle interplay of channel and input state parameters, and are not seen for interparticle entanglement without consideration of non-Markovian noise. It is also not observed for maximally entangled input states. Furthermore, investigation of entanglement evolution in phase damping and depolarizing channels shows its robustness against decoherence as compared to interparticle entanglement.
翻訳日:2024-07-09 03:22:23 公開日:2024-07-04
# 接触入射二レベル最適化を用いたロバストピボットマニピュレーション

Robust Pivoting Manipulation using Contact Implicit Bilevel Optimization ( http://arxiv.org/abs/2303.08965v2 )

ライセンス: Link先を確認
Yuki Shirai, Devesh K. Jha, Arvind U. Raghunathan, (参考訳) 汎用的な操作は、ロボットが新しい物体や環境と対話できることを必要とする。 この要件は、ロボットが物体と環境の物理的性質の不確実性と複雑な摩擦相互作用を推論する必要があるため、操作を極めて困難にしている。 本稿では,不確実性の存在下でのピボット操作計画のためのロバストな最適化について検討する。 操作中の物理特性の推定における不正確さを補うために、摩擦をどのように活用できるかについての知見を提示する。 特定の仮定の下では、ピボット操作時の摩擦によって得られる安定性の限界に対する解析的表現を導出する。 このマージンは、オブジェクトのいくつかの物理パラメータの不確実性に対して堅牢性を提供するために、この安定性マージンを最大化する軌道を最適化するために、CIBO(Contact Implicit Bilevel Optimization)フレームワークで使用される。 本稿では、基礎となる二段階最適化問題に関わるいくつかのパラメータについて、安定性マージンの分析を行う。 提案手法は,複数の異なる物体を操作するための 6 DoF マニピュレータを用いて提案手法を実証する。 また,提案アルゴリズムを用いて,操作中の物体の位置をトラッキングし,制御できるMPCコントローラの設計と評価を行う。

Generalizable manipulation requires that robots be able to interact with novel objects and environment. This requirement makes manipulation extremely challenging as a robot has to reason about complex frictional interactions with uncertainty in physical properties of the object and the environment. In this paper, we study robust optimization for planning of pivoting manipulation in the presence of uncertainties. We present insights about how friction can be exploited to compensate for inaccuracies in the estimates of the physical properties during manipulation. Under certain assumptions, we derive analytical expressions for stability margin provided by friction during pivoting manipulation. This margin is then used in a Contact Implicit Bilevel Optimization (CIBO) framework to optimize a trajectory that maximizes this stability margin to provide robustness against uncertainty in several physical parameters of the object. We present analysis of the stability margin with respect to several parameters involved in the underlying bilevel optimization problem. We demonstrate our proposed method using a 6 DoF manipulator for manipulating several different objects. We also design and validate an MPC controller using the proposed algorithm which can track and regulate the position of the object during manipulation.
翻訳日:2024-07-09 03:12:39 公開日:2024-07-04
# PINNSim:物理インフォームドニューラルネットワークに基づく電力系統ダイナミクスシミュレータ

PINNSim: A Simulator for Power System Dynamics based on Physics-Informed Neural Networks ( http://arxiv.org/abs/2303.10256v3 )

ライセンス: Link先を確認
Jochen Stiasny, Baosen Zhang, Spyros Chatzivasileiadis, (参考訳) パワーシステムの動的挙動は微分代数方程式の系によって記述できる。 時間領域シミュレーションは、これらの力学の進化をシミュレートするために用いられる。 それらはしばしば小さな時間ステップサイズを必要とするため、計算コストがかかる。 これらのシミュレーションを高速化するために,より大きな時間ステップを踏むことができるシミュレータ PINNSim を提案する。 電力系統における単一成分の動的解の解法として物理インフォームドニューラルネットワーク(PINN)を基礎としている。 これらの相互作用を解決するために、スケーラブルなルートフィニングアルゴリズムを用いる。 9-busシステム上でPINNSimを実演し,PINNSimの時間ステップサイズを台形積分法と比較した。 我々は、PINNSimの重要な特徴と、PINNSimを本格的なシミュレーターとして開発するための重要なステップについて論じる。 そのため、時間ステップのサイズを大幅に拡大し、時間領域シミュレーションを加速する機会を提供することができる。

The dynamic behaviour of a power system can be described by a system of differential-algebraic equations. Time-domain simulations are used to simulate the evolution of these dynamics. They often require the use of small time step sizes and therefore become computationally expensive. To accelerate these simulations, we propose a simulator - PINNSim - that allows to take significantly larger time steps. It is based on Physics-Informed Neural Networks (PINNs) for the solution of the dynamics of single components in the power system. To resolve their interaction we employ a scalable root-finding algorithm. We demonstrate PINNSim on a 9-bus system and show the increased time step size compared to a trapezoidal integration rule. We discuss key characteristics of PINNSim and important steps for developing PINNSim into a fully fledged simulator. As such, it could offer the opportunity for significantly increasing time step sizes and thereby accelerating time-domain simulations.
翻訳日:2024-07-09 03:12:39 公開日:2024-07-04
# NISQデバイスにおける変分ギブズ状態生成

Variational Gibbs State Preparation on NISQ devices ( http://arxiv.org/abs/2303.11276v3 )

ライセンス: Link先を確認
Mirko Consiglio, Jacopo Settino, Andrea Giordano, Carlo Mastroianni, Francesco Plastina, Salvatore Lorenzo, Sabrina Maniscalco, John Goold, Tony J. G. Apollaro, (参考訳) ノイズの多い中間スケール量子(NISQ)デバイス上での量子多体系の平衡熱状態の調製は、量子計算の応用範囲を広げるために重要な課題である。 忠実なギブス状態の準備は、熱化や平衡外熱力学などのプロトコルの研究の道を開くとともに、ギブス状態からのサンプリングが重要なサブルーチンを構成する量子アルゴリズムに有用な資源を提供する。 本稿では,量子多体系のギブス状態を作成するための変分量子アルゴリズム(VQA)を提案する。 我々のVQAの新規性は、(CNOTゲートを介して)2つの異なる接続された量子レジスタに作用するパラメータ化量子回路を実装することである。 VQAはヘルムホルツ自由エネルギーを評価し、フォン・ノイマンエントロピーは1つのレジスタ上の計算基底測定の後処理によって得られる。 最後に, 逆場Ising と Heisenberg XXZ モデルのギブス状態を作成してVQAをベンチマークする。 また、IBM量子コンピュータにおけるVQAの性能を評価し、現在のNISQデバイスで実現可能であることを示す。

The preparation of an equilibrium thermal state of a quantum many-body system on noisy intermediate-scale quantum (NISQ) devices is an important task in order to extend the range of applications of quantum computation. Faithful Gibbs state preparation would pave the way to investigate protocols such as thermalization and out-of-equilibrium thermodynamics, as well as providing useful resources for quantum algorithms, where sampling from Gibbs states constitutes a key subroutine. We propose a variational quantum algorithm (VQA) to prepare Gibbs states of a quantum many-body system. The novelty of our VQA consists in implementing a parameterized quantum circuit acting on two distinct, yet connected (via CNOT gates), quantum registers. The VQA evaluates the Helmholtz free energy, where the von Neumann entropy is obtained via post-processing of computational basis measurements on one register, while the Gibbs state is prepared on the other register, via a unitary rotation in the energy basis. Finally, we benchmark our VQA by preparing Gibbs states of the transverse field Ising and Heisenberg XXZ models and achieve remarkably high fidelities across a broad range of temperatures in statevector simulations. We also assess the performance of the VQA on IBM quantum computers, showcasing its feasibility on current NISQ devices.
翻訳日:2024-07-09 03:12:39 公開日:2024-07-04
# 変分モンテカルロシミュレーションとスケール不変事前学習の収束性

Convergence of variational Monte Carlo simulation and scale-invariant pre-training ( http://arxiv.org/abs/2303.11602v4 )

ライセンス: Link先を確認
Nilin Abrahamsen, Zhiyan Ding, Gil Goldshlager, Lin Lin, (参考訳) 電子構造問題に対するニューラルネットワーク波動関数の最適化に応用した変分モンテカルロ法(VMC)の理論的収束バウンダリを提案する。 エネルギー最小化に先立って一般的に用いられるエネルギー最小化相と教師付き事前学習相の両方について検討する。 エネルギー最小化フェーズでは、標準アルゴリズムは設計によってスケール不変であり、このアルゴリズムの収束性の証明を変更せずに提供する。 事前学習段階は、通常そのようなスケール不変性を持たない。 本研究では,事前学習フェーズにスケール不変損失を用いることで,事前学習の高速化を実証する。

We provide theoretical convergence bounds for the variational Monte Carlo (VMC) method as applied to optimize neural network wave functions for the electronic structure problem. We study both the energy minimization phase and the supervised pre-training phase that is commonly used prior to energy minimization. For the energy minimization phase, the standard algorithm is scale-invariant by design, and we provide a proof of convergence for this algorithm without modifications. The pre-training stage typically does not feature such scale-invariance. We propose using a scale-invariant loss for the pretraining phase and demonstrate empirically that it leads to faster pre-training.
翻訳日:2024-07-09 03:12:39 公開日:2024-07-04
# 画像生成のためのオブジェクト中心関係表現

Object-Centric Relational Representations for Image Generation ( http://arxiv.org/abs/2303.14681v2 )

ライセンス: Link先を確認
Luca Butera, Andrea Cini, Alberto Ferrante, Cesare Alippi, (参考訳) 所望の出力の特定の特徴に対する条件付き画像生成は、現代の生成モデルの鍵となる要素である。 しかし、既存のアプローチでは、様々な粒度レベルで構造的および意味的条件を表現する一般的な統一的な方法が欠如している。 本稿では,オブジェクト中心のリレーショナル表現に基づく条件画像生成手法を提案する。 特に,その構造と関連する意味情報を表す属性グラフ上に,画像中のオブジェクトの生成を条件付ける手法を提案する。 このようなアーキテクチャバイアスは、生成プロセスの操作と条件付けを容易にし、トレーニング手順の正規化を可能にする特性を伴っていることを示す。 提案した条件付けフレームワークは、下流生成タスクにおいてソフトな帰納バイアスとして使用できる、オブジェクトの2D、マルチチャネル、レイアウトマスクの生成を学習するニューラルネットワークを用いて実装されている。 そのため、2Dおよびグラフ畳み込み演算子の両方を利用する。 また,関係表現と組み合わせた画像の合成データセットからなる画像生成のための新しいベンチマークを提案する。 実験の結果,提案手法は関連するベースラインと良好に比較できることがわかった。

Conditioning image generation on specific features of the desired output is a key ingredient of modern generative models. However, existing approaches lack a general and unified way of representing structural and semantic conditioning at diverse granularity levels. This paper explores a novel method to condition image generation, based on object-centric relational representations. In particular, we propose a methodology to condition the generation of objects in an image on the attributed graph representing their structure and the associated semantic information. We show that such architectural biases entail properties that facilitate the manipulation and conditioning of the generative process and allow for regularizing the training procedure. The proposed conditioning framework is implemented by means of a neural network that learns to generate a 2D, multi-channel, layout mask of the objects, which can be used as a soft inductive bias in the downstream generative task. To do so, we leverage both 2D and graph convolutional operators. We also propose a novel benchmark for image generation consisting of a synthetic dataset of images paired with their relational representation. Empirical results show that the proposed approach compares favorably against relevant baselines.
翻訳日:2024-07-09 03:12:39 公開日:2024-07-04
# NLPにおけるソフトウェア品質の重要性

When Good and Reproducible Results are a Giant with Feet of Clay: The Importance of Software Quality in NLP ( http://arxiv.org/abs/2303.16166v5 )

ライセンス: Link先を確認
Sara Papi, Marco Gaido, Andrea Pilzer, Matteo Negri, (参考訳) 研究実験において重要な役割を担っているにもかかわらず、コード正当性はしばしば、知覚された結果の品質に基づいてのみ推定される。 この仮定は、誤った結果のリスクと、潜在的に誤解を招く発見が伴う。 この問題に対処するため、我々は、再現性に焦点を合わせ、ソフトウェアの品質に重点を置くべきであると仮定する。 本稿では,最先端コンフォーマーアーキテクチャの実装で広く使用されている3つのバグを特定し,修正するケーススタディを提案する。 様々な言語における音声認識と翻訳の実験を通して、バグの存在は良い結果や再現可能な結果の達成を妨げないことを示した。 この対策として,ニューラルモデルテスト専用のライブラリであるコード品質チェックリストとリリースパンゴリNNを提案し,コーディングベストプラクティスの促進とNLPコミュニティにおける研究ソフトウェア品質の向上を目標としている。

Despite its crucial role in research experiments, code correctness is often presumed only on the basis of the perceived quality of results. This assumption comes with the risk of erroneous outcomes and potentially misleading findings. To address this issue, we posit that the current focus on reproducibility should go hand in hand with the emphasis on software quality. We present a case study in which we identify and fix three bugs in widely used implementations of the state-of-the-art Conformer architecture. Through experiments on speech recognition and translation in various languages, we demonstrate that the presence of bugs does not prevent the achievement of good and reproducible results, which however can lead to incorrect conclusions that potentially misguide future research. As a countermeasure, we propose a Code-quality Checklist and release pangoliNN, a library dedicated to testing neural models, with the goal of promoting coding best practices and improving research software quality within the NLP community.
翻訳日:2024-07-09 03:12:39 公開日:2024-07-04
# ParamNet: 高速マルチツーワンステン正規化のための動的パラメータネットワーク

ParamNet: A Dynamic Parameter Network for Fast Multi-to-One Stain Normalization ( http://arxiv.org/abs/2305.06511v2 )

ライセンス: Link先を確認
Hongtao Kang, Die Luo, Li Chen, Junbo Hu, Tingwei Quan, Shaoqun Zeng, Shenghua Cheng, Xiuli Liu, (参考訳) 実際には、デジタル病理画像は様々な要因に影響され、色と明るさに大きな違いをもたらすことが多い。 Stain normalizationは、デジタル病理画像の色と明るさの違いを効果的に低減し、コンピュータ支援診断システムの性能を向上させる。 従来の染色正規化法は1つまたは複数の参照画像に依存しているが、1つまたは複数の画像はデータセット全体を適切に表現していない。 学習に基づく染色正規化法は一般的な手法であるが、複雑なディープネットワークを使用し、計算効率を大幅に低下させるだけでなく、アーティファクトの導入リスクも低減する。 特殊なネットワーク構造を用いて計算効率と信頼性を向上させる研究もあるが、これらの手法はネットワーク容量が不足しているため、複数対1の染色正規化に適用することは困難である。 本研究では,動的パラメータネットワークを導入し,ParamNetと呼ばれる新しい染色正規化法を提案する。 ParamNetは、ネットワーク設計に動的パラメータ(畳み込み層の重みとバイアス)を導入することで、限られたネットワーク容量と計算効率の課題に対処する。 これらのパラメータを効果的に活用することにより、ParamNetは、計算効率を維持しながら、染色正規化における優れた性能を達成する。 その結果、ParamNetは25秒で10万×100,000のスライド画像(WSI)を正規化できることがわかった。 コードは、https://github.com/khtao/ParamNet.comで入手できる。

In practice, digital pathology images are often affected by various factors, resulting in very large differences in color and brightness. Stain normalization can effectively reduce the differences in color and brightness of digital pathology images, thus improving the performance of computer-aided diagnostic systems. Conventional stain normalization methods rely on one or several reference images, but one or several images may not adequately represent the entire dataset. Although learning-based stain normalization methods are a general approach, they use complex deep networks, which not only greatly reduce computational efficiency, but also risk introducing artifacts. Some studies use specialized network structures to enhance computational efficiency and reliability, but these methods are difficult to apply to multi-to-one stain normalization due to insufficient network capacity. In this study, we introduced dynamic-parameter network and proposed a novel method for stain normalization, called ParamNet. ParamNet addresses the challenges of limited network capacity and computational efficiency by introducing dynamic parameters (weights and biases of convolutional layers) into the network design. By effectively leveraging these parameters, ParamNet achieves superior performance in stain normalization while maintaining computational efficiency. Results show ParamNet can normalize one whole slide image (WSI) of 100,000x100,000 within 25s. The code is available at: https://github.com/khtao/ParamNet.
翻訳日:2024-07-09 03:12:39 公開日:2024-07-04
# アグリゲーションは唯一の選択か?レイヤワイドモデル組換えによるフェデレーションラーニング

Is Aggregation the Only Choice? Federated Learning via Layer-wise Model Recombination ( http://arxiv.org/abs/2305.10730v2 )

ライセンス: Link先を確認
Ming Hu, Zhihao Yue, Xiaofei Xie, Cheng Chen, Yihao Huang, Xian Wei, Xiang Lian, Yang Liu, Mingsong Chen, (参考訳) Federated Learning(FL)は、クライアント間で不均一に分散したデータのために、生データを妥協することなく、クライアント間でグローバルなモデルトレーニングを可能にするが、既存のFederated Averaging(FedAvg)ベースのメソッドは、推論性能の低い問題に悩まされている。 具体的には、クライアント間でのデータ分散が異なるため、ローカルモデルの様々な最適化方向が導かれる。 ローカルモデルの集約は通常、低一般化のグローバルモデルをもたらし、ほとんどのクライアントでパフォーマンスが悪化する。 このような問題に対処するために、幾何学的な観点から、よく一般化された解が鋭い領域ではなく平坦な領域にあるという観察から着想を得たFedMR(Federated Model Recombination)という新しいヒューリスティックなFLパラダイムを提案する。 FedMRの目標は、フラットな領域に向けてトレーニングされる組換えモデルをガイドすることである。 従来のFedAvgベースの方法とは異なり、FedMRでは、クラウドサーバが各レイヤをシャッフルしてローカルモデルを収集し、集約されたグローバルモデルではなく、クライアント上のローカルトレーニング用の複数の再結合モデルを生成する。 平坦領域の面積はシャープ領域よりも大きいため、局所モデルが異なる領域にある場合、再結合されたモデルは平坦領域に配置する確率が高い。 すべての組換えモデルが同じ平坦な領域にある場合、それらは同じ方向に最適化される。 モデル組換えの収束を理論的に解析する。 実験の結果,FedMRは最先端のFL法と比較して,各クライアントのプライバシを公開せずに推論精度を大幅に向上させることができることがわかった。

Although Federated Learning (FL) enables global model training across clients without compromising their raw data, due to the unevenly distributed data among clients, existing Federated Averaging (FedAvg)-based methods suffer from the problem of low inference performance. Specifically, different data distributions among clients lead to various optimization directions of local models. Aggregating local models usually results in a low-generalized global model, which performs worse on most of the clients. To address the above issue, inspired by the observation from a geometric perspective that a well-generalized solution is located in a flat area rather than a sharp area, we propose a novel and heuristic FL paradigm named FedMR (Federated Model Recombination). The goal of FedMR is to guide the recombined models to be trained towards a flat area. Unlike conventional FedAvg-based methods, in FedMR, the cloud server recombines collected local models by shuffling each layer of them to generate multiple recombined models for local training on clients rather than an aggregated global model. Since the area of the flat area is larger than the sharp area, when local models are located in different areas, recombined models have a higher probability of locating in a flat area. When all recombined models are located in the same flat area, they are optimized towards the same direction. We theoretically analyze the convergence of model recombination. Experimental results show that, compared with state-of-the-art FL methods, FedMR can significantly improve the inference accuracy without exposing the privacy of each client.
翻訳日:2024-07-09 03:12:39 公開日:2024-07-04
# 量子誤り訂正のための雑音適応リカバリ回路

Noise-adapted recovery circuits for quantum error correction ( http://arxiv.org/abs/2305.11093v2 )

ライセンス: Link先を確認
Debjyoti Biswas, Gaurav M. Vaidya, Prabha Mandayam, (参考訳) 量子エラー訂正(QEC)プロトコルの実装は、今日のノイズの多い中間スケール量子デバイスの時代において難しい課題である。 任意の符号や雑音チャネルに対して、最適に近い忠実性を実現することが知られているペッツマップと呼ばれる、普遍的な雑音適応型回復マップに対して量子回路を提案する。 回路構成のうち2つは等尺拡張やブロック符号化といった代数的手法に基づくものであるが、第3のアプローチは回復マップを2つの出力POVMの列に分解する。 3つのケースのそれぞれで、文献に現在存在するリソース要件を改善します。 ペッツ回収回路とは別に、符号化された状態と回収された状態との間の忠実度を直接推定できる回路も提示する。 回路構成の具体例として,振幅減衰防止のための4ドルキュービットQECコードに対応するペッツリカバリ回路を実装した。 ノイズ適応型回復回路の有効性は, 理想的, 雑音的シミュレーションによって実証される。

Implementing quantum error correction (QEC) protocols is a challenging task in today's era of noisy intermediate-scale quantum devices. We present quantum circuits for a universal, noise-adapted recovery map, often referred to as the Petz map, which is known to achieve close-to-optimal fidelity for arbitrary codes and noise channels. While two of our circuit constructions draw upon algebraic techniques such as isometric extension and block encoding, the third approach breaks down the recovery map into a sequence of two-outcome POVMs. In each of the three cases we improve upon the resource requirements that currently exist in the literature. Apart from Petz recovery circuits, we also present circuits that can directly estimate the fidelity between the encoded state and the recovered state. As a concrete example of our circuit constructions, we implement Petz recovery circuits corresponding to the $4$-qubit QEC code tailored to protect against amplitude-damping noise. The efficacy of our noise-adapted recovery circuits is then demonstrated through ideal and noisy simulations.
翻訳日:2024-07-09 01:21:29 公開日:2024-07-04
# 大規模言語モデルを用いた遺伝子セット要約

Gene Set Summarization using Large Language Models ( http://arxiv.org/abs/2305.13338v3 )

ライセンス: Link先を確認
Marcin P. Joachimiak, J. Harry Caufield, Nomi L. Harris, Hyeongsik Kim, Christopher J. Mungall, (参考訳) 分子生物学者は、高スループット実験と計算解析から得られた遺伝子リストをしばしば解釈する。 これは典型的には、遺伝子オントロジー(GO)のような知識ベース(KB)からのキュレートされたアサーションに基づいて、遺伝子またはそれらの性質に関連する生物学的機能用語の過剰または過小表現を測定する統計エンリッチメント解析として行われる。 遺伝子リストの解釈は、テキスト要約タスクとしてフレーム化され、Large Language Models (LLM) が利用可能になり、科学的なテキストを直接利用でき、KBへの依存を避けることができる。 本研究では,GPTモデルを用いて遺伝子セット関数の要約を行うSPINDOCTOR(Structured Prompt Interpolation of Natural Language Descriptions of Controlled Terms for Ontology Reporting)を開発した。 本手法では,(1) オントロジ的KBアノテーションから得られた構造化テキスト,(2) オントロジのない物語遺伝子要約,(3) 直接モデル検索など,遺伝子機能の異なる情報源を利用できる。 これらの手法は,遺伝子セットのGO項リストを,有用かつ生物学的に有効に作成できることを示す。 しかし、GPTベースのアプローチでは、信頼できるスコアやp値が得られず、統計的に重要でない項を返すこともしばしばある。 重要なことは、これらの手法が標準的な豊かさから最も正確で情報的な用語を再カプセル化することはめったになかった。 結果は極めて非決定論的であり、わずかに異なる用語リストが生じる。 この結果から, LLM を用いた手法は, 標準項濃縮分析の代替として不適であり, オントロジ的アサーションのマニュアルキュレーションは依然として必要であることが示唆された。

Molecular biologists frequently interpret gene lists derived from high-throughput experiments and computational analysis. This is typically done as a statistical enrichment analysis that measures the over- or under-representation of biological function terms associated with genes or their properties, based on curated assertions from a knowledge base (KB) such as the Gene Ontology (GO). Interpreting gene lists can also be framed as a textual summarization task, enabling the use of Large Language Models (LLMs), potentially utilizing scientific texts directly and avoiding reliance on a KB. We developed SPINDOCTOR (Structured Prompt Interpolation of Natural Language Descriptions of Controlled Terms for Ontology Reporting), a method that uses GPT models to perform gene set function summarization as a complement to standard enrichment analysis. This method can use different sources of gene functional information: (1) structured text derived from curated ontological KB annotations, (2) ontology-free narrative gene summaries, or (3) direct model retrieval. We demonstrate that these methods are able to generate plausible and biologically valid summary GO term lists for gene sets. However, GPT-based approaches are unable to deliver reliable scores or p-values and often return terms that are not statistically significant. Crucially, these methods were rarely able to recapitulate the most precise and informative term from standard enrichment, likely due to an inability to generalize and reason using an ontology. Results are highly nondeterministic, with minor variations in prompt resulting in radically different term lists. Our results show that at this point, LLM-based methods are unsuitable as a replacement for standard term enrichment analysis and that manual curation of ontological assertions remains necessary.
翻訳日:2024-07-09 01:21:29 公開日:2024-07-04
# 強い相互作用を持つリドバーグ気体中の散逸時間結晶

Dissipative time crystal in a strongly interacting Rydberg gas ( http://arxiv.org/abs/2305.20070v3 )

ライセンス: Link先を確認
Xiaoling Wu, Zhuqing Wang, Fan Yang, Ruochen Gao, Chao Liang, Meng Khoon Tey, Xiangliang Li, Thomas Pohl, Li You, (参考訳) 自発的対称性の破れの概念は、凝縮、結晶化、量子磁気など、物質の古典的および量子的相転移を特徴づけるためによく確立されている。 このパラダイムの時間次元への一般化は、系の時間翻訳対称性を自発的に破る時間結晶相につながる。 平衡における連続時間結晶の存在は、no-go定理によって問題視されているが、この困難は開系における散逸によって回避できる。 ここでは, 地中原子がリドベルク状態に連続的に駆動される室温原子ガス中での, このような散逸時間結晶秩序の実験的観察について報告する。 励起時間結晶は光子透過の持続的な振動によって明らかにされ、観測された極限周期は、異なるRydberg成分間の共存と競合から生じることを示す。 振動の非脱落自己相関は、時間的ノイズに対する堅牢性とともに、真の長距離時間秩序の確立を示し、連続時間結晶の実現を実証する。

The notion of spontaneous symmetry breaking has been well established to characterize classical and quantum phase transitions of matter, such as in condensation, crystallization or quantum magnetism. Generalizations of this paradigm to the time dimension can lead to a time crystal phase, which spontaneously breaks the time translation symmetry of the system. Whereas the existence of a continuous time crystal at equilibrium has been challenged by no-go theorems, this difficulty can be circumvented by dissipation in an open system. Here, we report the experimental observation of such dissipative time crystalline order in a room-temperature atomic gas, where ground-state atoms are continuously driven to Rydberg states. The emergent time crystal is revealed by persistent oscillations of the photon transmission, and we show that the observed limit cycles arise from the coexistence and competition between distinct Rydberg components. The nondecaying autocorrelation of the oscillation, together with the robustness against temporal noises, indicate the establishment of true long-range temporal order and demonstrates the realization of a continuous time crystal.
翻訳日:2024-07-09 01:21:29 公開日:2024-07-04
# アウト・オブ・ディストリビューションの忘れ方--クラス内分布シフトに対する継続学習の脆弱性

Out-of-distribution forgetting: vulnerability of continual learning to intra-class distribution shift ( http://arxiv.org/abs/2306.00427v2 )

ライセンス: Link先を確認
Liangxuan Guo, Yang Chen, Shan Yu, (参考訳) 連続学習(CL)は、人工ニューラルネットワークをオープン環境で動作させるための重要な技術である。 CLは、古いタスクのパフォーマンスに深刻な干渉を伴わずに、新しいタスクを学習することを可能にする。 共同学習においては、意図的な攻撃や環境摂動によるアウト・オブ・ディストリビューション(OOD)問題がネットワークの一般化能力を著しく損なうことが知られている。 本研究では,OOD問題によって引き起こされた破滅的忘れを連続学習環境において特別な形で報告し,それをOODF(out-of-distriion forgetting)と名付けた。 連続的な画像分類タスクにおいて、クラス内分布シフトを導入すると、その後の学習において、そのカテゴリに対するCLメソッドの認識精度が著しく低下することを発見した。 興味深いことに、この現象はCLにとって特別な現象であり、同じレベルの分布シフトが、共同学習シナリオにおいて無視できる効果しかなかった。 我々は,個々のタスクにサブネットを使わずにCLメソッドがOODFに対して脆弱であることを検証した。 さらに、OODFは分布をシフトする方法に依存せず、幅広い状況においてCLのリスクを示唆している。 共同で研究を行い、OODFを克服できるアプローチを開発することの重要性を強調した。 コードは: \url{https://github.com/Hiroid/OODF}

Continual learning (CL) is an important technique to allow artificial neural networks to work in open environments. CL enables a system to learn new tasks without severe interference to its performance on old tasks, i.e., overcome the problems of catastrophic forgetting. In joint learning, it is well known that the out-of-distribution (OOD) problem caused by intentional attacks or environmental perturbations will severely impair the ability of networks to generalize. In this work, we reported a special form of catastrophic forgetting raised by the OOD problem in continual learning settings, and we named it out-of-distribution forgetting (OODF). In continual image classification tasks, we found that for a given category, introducing an intra-class distribution shift significantly impaired the recognition accuracy of CL methods for that category during subsequent learning. Interestingly, this phenomenon is special for CL as the same level of distribution shift had only negligible effects in the joint learning scenario. We verified that CL methods without dedicating subnetworks for individual tasks are all vulnerable to OODF. Moreover, OODF does not depend on any specific way of shifting the distribution, suggesting it is a risk for CL in a wide range of circumstances. Taken together, our work identified an under-attended risk during CL, highlighting the importance of developing approaches that can overcome OODF. Code available: \url{https://github.com/Hiroid/OODF}
翻訳日:2024-07-09 01:21:29 公開日:2024-07-04
# 生成AIを用いた医療画像モデルとデータセットの調査

Using generative AI to investigate medical imagery models and datasets ( http://arxiv.org/abs/2306.00985v2 )

ライセンス: Link先を確認
Oran Lang, Doron Yaya-Stupp, Ilana Traynis, Heather Cole-Lewis, Chloe R. Bennett, Courtney Lyles, Charles Lau, Michal Irani, Christopher Semturs, Dale R. Webster, Greg S. Corrado, Avinatan Hassidim, Yossi Matias, Yun Liu, Naama Hammel, Boris Babenko, (参考訳) AIモデルは、多くの医療画像タスクにおいて有望であることを示している。 しかし、これらのモデルがどのような信号を学んだかを説明する能力は極めて欠如している。 AIベースのモデルの信頼性を高めるために説明が必要であり、専門家に知られていないデータの信号を明らかにすることによって、新たな科学的発見を可能にする。 本稿では,画像中の視覚信号がタスクと相関しているという仮説を生成することによって,チームベースの専門知識を活用した視覚的説明自動生成手法を提案する。 以下の4つのステップを提案する。 一 与えられた業務を行うために分類器を訓練すること (ii)StyleGANベースの画像生成装置(StylEx)を訓練する 三 分類器が敏感な上位視覚属性を自動的に検出し、可視化すること。 四 将来の研究を刺激するためのメカニズムの定式化仮説 具体的には、これらの属性を専門家の学際的なパネルに提示し、仮説が健康の社会的および構造的決定要因を説明できるようにした。 本研究は,網膜眼底写真,外眼写真,胸部X線写真という,3つの医用画像モダリティにまたがる8つの予測課題について実験を行った。 臨床的に知られている特徴を捉えた属性の例,生理的メカニズム以外の要因から生じる共同創設者について紹介し,多くの生理学的に妥当な新規属性を明らかにした。 私たちのアプローチには、研究者がより理解し、評価を改善し、AIベースのモデルから新たな知識を抽出できる可能性があります。 重要なことは、我々のフレームワークが生み出す属性は、生理学や病理生理学以外の現象を捉え、医療提供の現実的な性質と社会文化的要因を反映している点である。 最後に、研究者が独自のStylExモデルをトレーニングし、予測タスクを分析するためのコードをリリースするつもりです。

AI models have shown promise in many medical imaging tasks. However, our ability to explain what signals these models have learned is severely lacking. Explanations are needed in order to increase the trust in AI-based models, and could enable novel scientific discovery by uncovering signals in the data that are not yet known to experts. In this paper, we present a method for automatic visual explanations leveraging team-based expertise by generating hypotheses of what visual signals in the images are correlated with the task. We propose the following 4 steps: (i) Train a classifier to perform a given task (ii) Train a classifier guided StyleGAN-based image generator (StylEx) (iii) Automatically detect and visualize the top visual attributes that the classifier is sensitive towards (iv) Formulate hypotheses for the underlying mechanisms, to stimulate future research. Specifically, we present the discovered attributes to an interdisciplinary panel of experts so that hypotheses can account for social and structural determinants of health. We demonstrate results on eight prediction tasks across three medical imaging modalities: retinal fundus photographs, external eye photographs, and chest radiographs. We showcase examples of attributes that capture clinically known features, confounders that arise from factors beyond physiological mechanisms, and reveal a number of physiologically plausible novel attributes. Our approach has the potential to enable researchers to better understand, improve their assessment, and extract new knowledge from AI-based models. Importantly, we highlight that attributes generated by our framework can capture phenomena beyond physiology or pathophysiology, reflecting the real world nature of healthcare delivery and socio-cultural factors. Finally, we intend to release code to enable researchers to train their own StylEx models and analyze their predictive tasks.
翻訳日:2024-07-09 01:21:29 公開日:2024-07-04
# HCIの課題のマッピング:規模のマイニングインサイトへのChatGPTとGPT-4の適用と評価

Mapping the Challenges of HCI: An Application and Evaluation of ChatGPT and GPT-4 for Mining Insights at Scale ( http://arxiv.org/abs/2306.05036v4 )

ライセンス: Link先を確認
Jonas Oppenlaender, Joonas Hämäläinen, (参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は、広く普及している。 しかし、これらのLCMはクローズドソースであり、実世界のユースケースにおけるそれらの性能についてはほとんど知られていない。 本稿では,HCI分野の研究課題を特定するために,テキストコーパスからインサイトをマイニングする実世界の課題に対して,ChatGPTとGPT-4の組み合わせを適用し,評価する。 我々は2023〜CHIカンファレンスの100以上のトピックから4,392件の研究課題を抽出し、インタラクティブな探索のための研究課題を可視化する。 本稿では,本実践課題におけるLCMを批判的に評価し,ChatGPTとGPT-4の組み合わせは,テキストコーパスを大規模に解析する上で,優れたコスト効率の手段となると結論づける。 費用効率は研究のアイデアを柔軟にプロトタイピングし、異なる視点からテキストコーパスを分析する上で鍵となる。

Large language models (LLMs), such as ChatGPT and GPT-4, are gaining wide-spread real world use. Yet, these LLMs are closed source, and little is known about their performance in real-world use cases. In this paper, we apply and evaluate the combination of ChatGPT and GPT-4 for the real-world task of mining insights from a text corpus in order to identify research challenges in the field of HCI. We extract 4,392 research challenges in over 100 topics from the 2023~CHI conference proceedings and visualize the research challenges for interactive exploration. We critically evaluate the LLMs on this practical task and conclude that the combination of ChatGPT and GPT-4 makes an excellent cost-efficient means for analyzing a text corpus at scale. Cost-efficiency is key for flexibly prototyping research ideas and analyzing text corpora from different perspectives, with implications for applying LLMs for mining insights in academia and practice.
翻訳日:2024-07-09 01:21:29 公開日:2024-07-04
# カラーコードデコーダによる表面符号故障の最小化

Minimising surface-code failures using a color-code decoder ( http://arxiv.org/abs/2306.16476v2 )

ライセンス: Link先を確認
Asmae Benhemou, Kaavya Sahay, Lingling Lao, Benjamin J. Brown, (参考訳) 実用的な高性能デコードアルゴリズムの開発により、フォールトトレラント量子コンピューティングのリソースコストが削減される。 本稿では、偏極雑音モデルによって生じる誤差に対する低重補正演算子を求める表面符号のデコーダを提案する。 このデコーダは、表面符号のシンドロームをカラーコードのシンドロームにマッピングすることにより、より洗練されたカラーコードデコーダアルゴリズムを採用することができる。 解析的議論と徹底的なテストにより、結果のデコーダは、コード距離が$d$であっても、すべての重みに対して$d/2$のデポラライズエラーを最小限に修正できることがわかった。 これにより、指数係数$O(2^{d/2})$による論理誤差率をビットフリップとデフォーカスエラーを別々に扱うデコーダと比較して改善する。 解析的議論でこの改善を実証し、低い誤差率で数値シミュレーションをサポートする。 また、従来のカラーコード復号アルゴリズムと比較して、カラーコードに影響を及ぼす独立かつ同一に分散したビットフリップ誤りを補正するために使用するデコーダの論理誤差率を指数関数的に改善することを示した。

The development of practical, high-performance decoding algorithms reduces the resource cost of fault-tolerant quantum computing. Here we propose a decoder for the surface code that finds low-weight correction operators for errors produced by the depolarising noise model. The decoder is obtained by mapping the syndrome of the surface code onto that of the color code, thereby allowing us to adopt more sophisticated color-code decoding algorithms. Analytical arguments and exhaustive testing show that the resulting decoder can find a least-weight correction for all weight $d/2$ depolarising errors for even code distance $d$. This improves the logical error rate by an exponential factor $O(2^{d/2})$ compared with decoders that treat bit-flip and dephasing errors separately. We demonstrate this improvement with analytical arguments and supporting numerical simulations at low error rates. Of independent interest, we also demonstrate an exponential improvement in logical error rate for our decoder used to correct independent and identically distributed bit-flip errors affecting the color code compared with more conventional color-code decoding algorithms.
翻訳日:2024-07-09 01:11:44 公開日:2024-07-04
# オンライン等角予測によるホルマル安全保証によるベイズ最適化

Bayesian Optimization with Formal Safety Guarantees via Online Conformal Prediction ( http://arxiv.org/abs/2306.17815v3 )

ライセンス: Link先を確認
Yunchuan Zhang, Sangwoo Park, Osvaldo Simeone, (参考訳) ブラックボックスゼロ階最適化は、金融、物理学、工学といった分野における応用において中心的な原始である。 この問題の一般的な定式化において、設計者は、システムから各試行の値に対するノイズフィードバックを受けながら、順次、候補解を試行する。 本稿では,提案手法の安全性に関するフィードバックも提供するシナリオについて検討し,最適化プロセスを通じて試される安全でないソリューションの数を制限するために最適化器を制約する。 ベイズ最適化(BO)に基づく手法に着目した先行技術では、安全制約関数の厳密な仮定が満たされる限り、フィードバックノイズよりも制御可能な確率で安全でないソリューションを選択することが保証されるSAFEOPTと呼ばれる最適化スキームが導入された。 本稿では,制約関数の性質に関わらず,安全要件を満たす新しいBOベースのアプローチを提案する。 この強力な理論的保証は、任意で制御可能だがゼロでない安全制約の違反率を許容するコストで得られる。 提案手法は,SAFE-BOCPと呼ばれるオンラインコンフォーマル予測(CP)に基づいており,安全制約に対するフィードバックがノイズのない場合とノイズの多い場合に特化している。 合成および実世界のデータによる実験結果は,提案したSAFE-BOCPの利点と柔軟性を検証した。

Black-box zero-th order optimization is a central primitive for applications in fields as diverse as finance, physics, and engineering. In a common formulation of this problem, a designer sequentially attempts candidate solutions, receiving noisy feedback on the value of each attempt from the system. In this paper, we study scenarios in which feedback is also provided on the safety of the attempted solution, and the optimizer is constrained to limit the number of unsafe solutions that are tried throughout the optimization process. Focusing on methods based on Bayesian optimization (BO), prior art has introduced an optimization scheme -- referred to as SAFEOPT -- that is guaranteed not to select any unsafe solution with a controllable probability over feedback noise as long as strict assumptions on the safety constraint function are met. In this paper, a novel BO-based approach is introduced that satisfies safety requirements irrespective of properties of the constraint function. This strong theoretical guarantee is obtained at the cost of allowing for an arbitrary, controllable but non-zero, rate of violation of the safety constraint. The proposed method, referred to as SAFE-BOCP, builds on online conformal prediction (CP) and is specialized to the cases in which feedback on the safety constraint is either noiseless or noisy. Experimental results on synthetic and real-world data validate the advantages and flexibility of the proposed SAFE-BOCP.
翻訳日:2024-07-09 01:11:44 公開日:2024-07-04
# 大規模不均一グラフの長距離メタパス探索

Long-range Meta-path Search on Large-scale Heterogeneous Graphs ( http://arxiv.org/abs/2307.08430v5 )

ライセンス: Link先を確認
Chao Li, Zijie Guo, Qiuting He, Hao Xu, Kun He, (参考訳) 等質グラフで広く研究されている概念である長距離依存を用いることで、特に大きなグラフでは、計算コストの削減と、不均一性の存在下での効果的な情報利用の最大化と、グラフニューラルネットワークにおける過度に滑らかな問題を克服という2つの重要な課題が浮き彫りにされている。 このギャップに対処するために、異なるメタパスの重要性を調査し、プログレッシブサンプリング(LMSPS)による長距離メタパス探索(Long-range Meta-path Search)と呼ばれる異種グラフへの長距離依存性を利用するための自動フレームワークを導入する。 具体的には、ターゲットノードタイプに関連する全てのメタパスを持つ検索空間を開発する。 プログレッシブサンプリングアルゴリズムを用いることで、LMSPSはホップに依存しない時間複雑さで探索空間を動的に縮小する。 サンプリング評価戦略により、LMSPSは特殊かつ効果的なメタパス選択を行い、効果的なメタパスのみを用いて再訓練し、コストと過度なスムーシングを緩和する。 多様な異種データセットにわたる大規模な実験は、LMSPSが有効な長距離メタパスを発見し、最先端の手法を超越する能力を検証する。 私たちのコードはhttps://github.com/JHL-HUST/LMSPSで利用可能です。

Utilizing long-range dependency, a concept extensively studied in homogeneous graphs, remains underexplored in heterogeneous graphs, especially on large ones, posing two significant challenges: Reducing computational costs while maximizing effective information utilization in the presence of heterogeneity, and overcoming the over-smoothing issue in graph neural networks. To address this gap, we investigate the importance of different meta-paths and introduce an automatic framework for utilizing long-range dependency on heterogeneous graphs, denoted as Long-range Meta-path Search through Progressive Sampling (LMSPS). Specifically, we develop a search space with all meta-paths related to the target node type. By employing a progressive sampling algorithm, LMSPS dynamically shrinks the search space with hop-independent time complexity. Through a sampling evaluation strategy, LMSPS conducts a specialized and effective meta-path selection, leading to retraining with only effective meta-paths, thus mitigating costs and over-smoothing. Extensive experiments across diverse heterogeneous datasets validate LMSPS's capability in discovering effective long-range meta-paths, surpassing state-of-the-art methods. Our code is available at https://github.com/JHL-HUST/LMSPS.
翻訳日:2024-07-09 01:11:44 公開日:2024-07-04
# クエンチ後の局所作用素の期待値の時間エントロピーと計算の複雑さについて

On temporal entropy and the complexity of computing the expectation value of local operators after a quench ( http://arxiv.org/abs/2307.11649v2 )

ライセンス: Link先を確認
Stefano Carignano, Carlos Ramos Marimón, Luca Tagliacozzo, (参考訳) 時間的行列積状態を用いて1次元量子システムにおける局所演算子の時間依存期待値をシミュレーションする計算複雑性について検討する。 このようなコストは、時間遷移行列とその部分的トレースを符号化するコストと密接に関連していると論じる。 特に、局所作用素のハイゼンベルク進化の1つにより、これらの縮小遷移行列のランクを上界にすることができることを示し、したがって、時間的絡み合いと局所作用素絡み合いという2つの明らかに異なる量の接続を成す。 その結果、時間的に局所作用素の絡み合いが線形よりも遅くなると、時間的行列積状態を用いた局所作用素の時間依存期待値が、標準行列積状態を用いた同じ量の計算に対して有利であることを示す。

We study the computational complexity of simulating the time-dependent expectation value of a local operator in a one-dimensional quantum system by using temporal matrix product states. We argue that such cost is intimately related to that of encoding temporal transition matrices and their partial traces. In particular, we show that we can upper-bound the rank of these reduced transition matrices by the one of the Heisenberg evolution of local operators, thus making connection between two apparently different quantities, the temporal entanglement and the local operator entanglement. As a result, whenever the local operator entanglement grows slower than linearly in time, we show that computing time-dependent expectation values of local operators using temporal matrix product states is likely advantageous with respect to computing the same quantities using standard matrix product states techniques.
翻訳日:2024-07-09 01:11:44 公開日:2024-07-04
# 量子力学におけるp-進シュレーディンガー方程式と二分割実験

The p-Adic Schrödinger Equation and the Two-slit Experiment in Quantum Mechanics ( http://arxiv.org/abs/2308.01283v3 )

ライセンス: Link先を確認
W. A. Zúñiga-Galindo, (参考訳) p-進量子力学は、N-次元 p-進空間上の二乗可積分函数を持つ量子状態を特定するディラック・ヴォン・ノイマン公理から構成される。 この選択は空間の離散性の仮説と等価である。 時間は実変数であると仮定される。 p進量子力学は、空間が離散的な性質を持つ場合、標準量子力学で何が起こるかという問題によって動機付けられている。 量子状態の時間的進化は、時間的ウィック回転によりp進熱方程式から得られる非局所的なSchr\"{o}dinger方程式によって制御される。 このp進熱方程式は、N次元のp進空間でランダムな運動を行う粒子を記述する。 ハミルトニアンは非局所作用素であるため、シュル・"{o}ディンガー方程式は非局所相互作用の下での量子状態の進化を記述する。 このフレームワークでは、Schr\"{o}dinger 方程式は複素数値平面波動解を認め、これを p-進デブロリー波と解釈する。 これらの数学的波動は、すべて波長1/pである。 p進フレームワークでは、ド・ブロイ波の干渉を用いて二重スリット実験を説明できない。 波動関数はド・ブロイ波の収束級数として表せるが、p-進ド・ブロイ波はただの数学的対象である。 波動関数の係数の正方形のみが時間依存確率密度として物理的意味を持つ。 これらの確率密度は、「量子波」によって生じるものに似た干渉パターンを示す。 「p進法では、二重スリット実験では、各粒子は1つのスリットのみを通り抜ける。」

p-Adic quantum mechanics is constructed from the Dirac-von Neumann axioms identifying quantum states with square-integrable functions on the N-dimensional p-adic space. This choice is equivalent to the hypothesis of the discreteness of the space. The time is assumed to be a real variable. The p-adic quantum mechanics is motivated by the question: what happens with the standard quantum mechanics if the space has a discrete nature? The time evolution of a quantum state is controlled by a nonlocal Schr\"{o}dinger equation obtained from a p-adic heat equation by a temporal Wick rotation. This p-adic heat equation describes a particle performing a random motion in the N-dimensional p-adic space. The Hamiltonian is a nonlocal operator; thus, the Schr\"{o}dinger equation describes the evolution of a quantum state under nonlocal interactions. In this framework, the Schr\"{o}dinger equation admits complex-valued plane wave solutions, which we interpret as p-adic de Broglie waves. These mathematical waves have all wavelength 1/p. In the p-adic framework, the double-slit experiment cannot be explained using the interference of the de Broglie waves. The wavefunctions can be represented as convergent series in the de Broglie waves, but the p-adic de Broglie waves are just mathematical objects. Only the square of the modulus of a wave function has a physical meaning as a time-dependent probability density. These probability densities exhibit interference patterns similar to the ones produced by `quantum waves.' In the p-adic framework, in the double-slit experiment, each particle goes through one slit only.
翻訳日:2024-07-09 01:11:44 公開日:2024-07-04
# 変圧器モデルのためのOOD一般化における謎のパフォーマンス低下の理解

It Ain't That Bad: Understanding the Mysterious Performance Drop in OOD Generalization for Generative Transformer Models ( http://arxiv.org/abs/2308.08268v2 )

ライセンス: Link先を確認
Xingcheng Xu, Zihao Pan, Haipeng Zhang, Yanqing Yang, (参考訳) 大規模言語モデル (LLM) は多様な問題を解決するのに優れた能力を発揮している。 しかし、それらの一般化能力は必ずしも満足しておらず、一般化問題は一般に生成トランスモデルに共通である。 研究者は、n桁の加算や乗算といった基本的な数学的タスクを、一般化の振る舞いを研究する上で重要な視点として捉えている。 両方の入力オペランドが n-digit である n-digit 操作のトレーニングモデル(例:加算)では、モデルが未知の n-digit 入力(in-distribution (ID) 一般化)をうまく一般化するが、より長い、見つからないケース(out-of-distriion (OOD) 一般化)で失敗する。 我々は、この説明されていないパフォーマンスの低下に注目し、体系的なOOD一般化が存在するかどうかを問う。 LLMの理解に向けて、我々は、同じ基盤となるメカニズムを共有する可能性のある、様々な小さな言語モデルを訓練する。 我々は、強いID一般化が構造化表現に由来することを発見したが、不満足なOOD性能の裏では、モデルは依然として明確な学習された代数的構造を示す。 具体的には、これらのモデルはOOD入力をID領域における学習された等価関係を持つ出力にマッピングし、同値一般化と呼ぶ。 これらの知見は、LLMを含む生成モデルの一般化可能性に関する知識を深め、改善のための潜在的道筋についての洞察を提供する。

Large language models (LLMs) have achieved remarkable proficiency on solving diverse problems. However, their generalization ability is not always satisfying and the generalization problem is common for generative transformer models in general. Researchers take basic mathematical tasks like n-digit addition or multiplication as important perspectives for investigating their generalization behaviors. It is observed that when training models on n-digit operations (e.g., additions) in which both input operands are n-digit in length, models generalize successfully on unseen n-digit inputs (in-distribution (ID) generalization), but fail miserably on longer, unseen cases (out-of-distribution (OOD) generalization). We bring this unexplained performance drop into attention and ask whether there is systematic OOD generalization. Towards understanding LLMs, we train various smaller language models which may share the same underlying mechanism. We discover that the strong ID generalization stems from structured representations, while behind the unsatisfying OOD performance, the models still exhibit clear learned algebraic structures. Specifically, these models map unseen OOD inputs to outputs with learned equivalence relations in the ID domain, which we call the equivalence generalization. These findings deepen our knowledge regarding the generalizability of generative models including LLMs, and provide insights into potential avenues for improvement.
翻訳日:2024-07-09 01:11:44 公開日:2024-07-04
# LEGO: ポイントクラウドによるオンラインマルチオブジェクトトラッキングのための学習とグラフ最適化モジュールトラッカー

LEGO: Learning and Graph-Optimized Modular Tracker for Online Multi-Object Tracking with Point Clouds ( http://arxiv.org/abs/2308.09908v3 )

ライセンス: Link先を確認
Zhenrong Zhang, Jianan Liu, Yuxuan Xia, Tao Huang, Qing-Long Han, Hongbin Liu, (参考訳) オンラインマルチオブジェクトトラッキング(MOT)は、自律システムにおいて重要な役割を果たす。 最先端のアプローチは通常、トラッキング・バイ・検出方式を採用し、データアソシエーションが重要な役割を果たす。 本稿では,既存の文献におけるデータ関連性を改善するために,学習とグラフ最適化(LEGO)モジュールトラッカーを提案する。 提案するLEGOトラッカーはグラフ最適化と自己認識機構を統合し,関連スコアマップを効率的に定式化し,時間枠間のオブジェクトの正確なマッチングを容易にする。 状態更新プロセスをさらに強化するため、オブジェクト状態に時間的コヒーレンスを組み込むことで、一貫したトラッキングを保証するために、Kalmanフィルタが追加される。 提案手法は,LiDARとLiDARの融合方式を含む他のオンライン追跡手法と比較して,優れた性能を示した。 LEGOは、KITTIオブジェクトトラッキング評価ランキングボードに結果が提出された時点で第1位であり、本論文提出時点では、KITTI MOTベンチマーク1のオンライントラッカーの中で第2位にとどまっている。

Online multi-object tracking (MOT) plays a pivotal role in autonomous systems. The state-of-the-art approaches usually employ a tracking-by-detection method, and data association plays a critical role. This paper proposes a learning and graph-optimized (LEGO) modular tracker to improve data association performance in the existing literature. The proposed LEGO tracker integrates graph optimization and self-attention mechanisms, which efficiently formulate the association score map, facilitating the accurate and efficient matching of objects across time frames. To further enhance the state update process, the Kalman filter is added to ensure consistent tracking by incorporating temporal coherence in the object states. Our proposed method utilizing LiDAR alone has shown exceptional performance compared to other online tracking approaches, including LiDAR-based and LiDAR-camera fusion-based methods. LEGO ranked 1st at the time of submitting results to KITTI object tracking evaluation ranking board and remains 2nd at the time of submitting this paper, among all online trackers in the KITTI MOT benchmark for cars1
翻訳日:2024-07-09 01:01:54 公開日:2024-07-04
# ロジスティックスハブ配置最適化:道路ネットワーク距離を用いたK平均とP媒介モデルハイブリッドアプローチ

Logistics Hub Location Optimization: A K-Means and P-Median Model Hybrid Approach Using Road Network Distances ( http://arxiv.org/abs/2308.11038v3 )

ライセンス: Link先を確認
Muhammad Abdul Rahman, Muhammad Aamir Basheer, Zubair Khalid, Muhammad Tahir, Momin Uppal, (参考訳) ロジスティックハブは、最終マイルの配送距離において重要な役割を担っている。少し距離を増すだけでも、Eコマース業界のビジネスに悪影響を及ぼし、カーボンフットプリントも増加する。 コビッド19以降のこの産業の成長は、都市環境における資源配分の最適化の必要性をさらに高めている。 本研究では,ロジスティックハブの配置を最適化するためにハイブリッドアプローチを用いる。 アプローチにはさまざまなテクニックが順次採用されている。 最初は、配送ポイントは空間的位置に関連してK-Meansを使ってクラスタ化される。 クラスタリング手法はユークリッド距離とは対照的に道路網距離を利用する。 非道路ネットワークベースのアプローチは、誤った、誤解を招く結果をもたらすため、避けられている。 最後に、ハブはP-Medianメソッドを使って配置される。 P-Median法はまた、配達数と人口を重みとして含んでいる。 Muller と Phipps (M&P) の実際の配信データは、このアプローチの有効性を示すために使用される。 最適なハブ場所からの配達は、1回の配送で815メートル (10%) 節約される。

Logistic hubs play a pivotal role in the last-mile delivery distance; even a slight increment in distance negatively impacts the business of the e-commerce industry while also increasing its carbon footprint. The growth of this industry, particularly after Covid-19, has further intensified the need for optimized allocation of resources in an urban environment. In this study, we use a hybrid approach to optimize the placement of logistic hubs. The approach sequentially employs different techniques. Initially, delivery points are clustered using K-Means in relation to their spatial locations. The clustering method utilizes road network distances as opposed to Euclidean distances. Non-road network-based approaches have been avoided since they lead to erroneous and misleading results. Finally, hubs are located using the P-Median method. The P-Median method also incorporates the number of deliveries and population as weights. Real-world delivery data from Muller and Phipps (M&P) is used to demonstrate the effectiveness of the approach. Serving deliveries from the optimal hub locations results in the saving of 815 (10%) meters per delivery.
翻訳日:2024-07-09 01:01:54 公開日:2024-07-04
# 機械学習パラメータ化の信頼性向上を目的とした大規模ハイブリッド気候シミュレーションのサンプリング

Sampling Hybrid Climate Simulation at Scale to Reliably Improve Machine Learning Parameterization ( http://arxiv.org/abs/2309.16177v2 )

ライセンス: Link先を確認
Jerry Lin, Sungduk Yu, Liran Peng, Tom Beucler, Eliot Wong-Toi, Zeyuan Hu, Pierre Gentine, Margarita Geleta, Mike Pritchard, (参考訳) サブグリッドプロセス(乱流、対流、放射)の機械学習(ML)パラメータ化は、明示的なシミュレーションのコストを伴わずに高分解能物理をエミュレートすることで、従来のパラメータ化を置き換えることができる。 しかし、オフライン性能の改善がオンラインパフォーマンスの向上に繋がるかどうかという不確実性(大規模な総合循環モデル(GCM)と組み合わせた場合)により、その発展は妨げられている。 鍵となる障壁は、ハイブリッド物理とML気候シミュレーションの大きなアンサンブルを実行する複雑さのため、ML設計決定とチューニングのオンライン効果の限定的なサンプリングである。 本研究は, ハイブリッドシミュレーションの大規模なアンサンブルを用いて, 完全物理MLパラメタライゼーションの結合挙動について検討した。 大規模なサンプリングにより、オフラインエラーの低減がオンラインエラーを減少させる(一定の制約を課す)ことを統計的に確認する。 しかし、オンラインエラーを減らす決定は、ドロップアウトを除去するなど、ハイブリッドモデルの安定性とトレードオフし、その逆も可能であることも明らかにします。 それでも、オフラインやオンラインのパフォーマンスに不明確な改善をもたらす設計上の決定を特定できます。 また,比湿度から相対湿度への水分入力の変換によりオンラインの安定性が向上し,平均絶対誤差(MAE)損失が上記のオフライン/オンラインの誤差関係を損なうことも見出した。 大規模なオンライン実験を迅速に行えるようにすることで、サブグリッドMLパラメータ化設計に関する未解決の問題に実証的に答える。

Machine-learning (ML) parameterizations of subgrid processes (here of turbulence, convection, and radiation) may one day replace conventional parameterizations by emulating high-resolution physics without the cost of explicit simulation. However, their development has been stymied by uncertainty surrounding whether or not improved offline performance translates to improved online performance (i.e., when coupled to a large-scale general circulation model (GCM)). A key barrier has been the limited sampling of the online effects of the ML design decisions and tuning due to the complexity of performing large ensembles of hybrid physics-ML climate simulations. Our work examines the coupled behavior of full-physics ML parameterizations using large ensembles of hybrid simulations, totalling 2,970 in our case. With extensive sampling, we statistically confirm that lowering offline error lowers online error (given certain constraints). However, we also reveal that decisions decreasing online error, like removing dropout, can trade off against hybrid model stability and vice versa. Nevertheless, we are able to identify design decisions that yield unambiguous improvements to offline and online performance, namely incorporating memory and training on multiple climates. We also find that converting moisture input from specific to relative humidity enhances online stability and that using a Mean Absolute Error (MAE) loss breaks the aforementioned offline/online error relationship. By enabling rapid online experimentation at scale, we empirically answer previously unresolved questions regarding subgrid ML parameterization design.
翻訳日:2024-07-09 01:01:54 公開日:2024-07-04
# 不均一な臨床データセットにおける個人化フェデレーション学習の総合的考察

A Comprehensive View of Personalized Federated Learning on Heterogeneous Clinical Datasets ( http://arxiv.org/abs/2309.16825v3 )

ライセンス: Link先を確認
Fatemeh Tavakoli, D. B. Emerson, Sana Ayromlou, John Jewell, Amrit Krishnan, Yuchong Zhang, Amol Verma, Fahad Razak, (参考訳) フェデレーテッド・ラーニング(FL)は、臨床環境での機械学習モデルのトレーニングと展開を頻繁に妨害するデータサイロを克服するための重要なアプローチとして、ますます認識されている。 本研究は,臨床応用に焦点を当てたFL研究の進展に寄与する。 まず、FLambyベンチマーク(du Terrail et al , 2022a)を拡張し、パーソナライズされたFL手法を包括的に評価し、元の結果よりも実質的な性能改善を示す。 次に,現実的な設定を反映し,複数の比較ベースラインを提供するために,FLの総合的なチェックポイントと評価フレームワークを提案する。 この目的のために、FL実験をシンプルで再現しやすいものにするためのオープンソースライブラリがリリースされた。 最後に、PerFCL(Zhang et al , 2022)の重要なアブレーションを提案する。 このアブレーションはFENDA(Kim et al , 2016)のFL設定への自然な拡張をもたらす。 FLambyベンチマークとGEMINIデータセット(Verma et al , 2017)で実施された実験では、提案手法は異種の臨床データに対して堅牢であり、PerFCLを含む既存のグローバルおよびパーソナライズされたFL技術よりも優れていることが示されている。

Federated learning (FL) is increasingly being recognized as a key approach to overcoming the data silos that so frequently obstruct the training and deployment of machine-learning models in clinical settings. This work contributes to a growing body of FL research specifically focused on clinical applications along three important directions. First, we expand the FLamby benchmark (du Terrail et al., 2022a) to include a comprehensive evaluation of personalized FL methods and demonstrate substantive performance improvements over the original results. Next, we advocate for a comprehensive checkpointing and evaluation framework for FL to reflect practical settings and provide multiple comparison baselines. To this end, an open-source library aimed at making FL experimentation simpler and more reproducible is released. Finally, we propose an important ablation of PerFCL (Zhang et al., 2022). This ablation results in a natural extension of FENDA (Kim et al., 2016) to the FL setting. Experiments conducted on the FLamby benchmark and GEMINI datasets (Verma et al., 2017) show that the proposed approach is robust to heterogeneous clinical data and often outperforms existing global and personalized FL techniques, including PerFCL.
翻訳日:2024-07-09 00:52:08 公開日:2024-07-04
# 医療画像解析のためのマルチドメインによるアウト・オブ・ディストリビューションとデータ制限シナリオの改善

Multi-domain improves out-of-distribution and data-limited scenarios for medical image analysis ( http://arxiv.org/abs/2310.06737v3 )

ライセンス: Link先を確認
Ece Ozkan, Xavier Boix, (参考訳) 医用画像分析のための現在の機械学習手法は、主にターゲット領域内のデータを利用して、特定のタスクに適したモデルを開発することに焦点を当てている。 これらの特化モデルはデータ収集であり、しばしば配布外サンプルへの一般化の限界を示す。 本研究では,複数のドメインを組み込んだモデルを用いることで,特殊なモデルで観測される限界を著しく軽減することを示す。 このアプローチをマルチドメインモデルと呼び、その性能を専門モデルと比較する。 そこで本研究では,X線,MRI,CT,超音波画像などの様々な画像モダリティや,軸方向,コロナ視,矢状視などの様々な視点を含む,多様な医用画像領域の取り込みについて紹介する。 以上の結果から,マルチドメインモデルの優れた一般化能力,特に医療アプリケーションで頻繁に発生するデータ可用性の制限とアウト・オブ・ディストリビューションを特徴とするシナリオにおいて,本研究の成果が浮き彫りになった。 多様なデータの統合により、複数のドメインモデルが複数のドメインにまたがる情報を活用することができ、全体的な結果を大幅に向上させることができる。 臓器認識のためのマルチドメインモデルは,従来の特殊モデルと比較して最大8%精度を向上させることができる。

Current machine learning methods for medical image analysis primarily focus on developing models tailored for their specific tasks, utilizing data within their target domain. These specialized models tend to be data-hungry and often exhibit limitations in generalizing to out-of-distribution samples. In this work, we show that employing models that incorporate multiple domains instead of specialized ones significantly alleviates the limitations observed in specialized models. We refer to this approach as multi-domain model and compare its performance to that of specialized models. For this, we introduce the incorporation of diverse medical image domains, including different imaging modalities like X-ray, MRI, CT, and ultrasound images, as well as various viewpoints such as axial, coronal, and sagittal views. Our findings underscore the superior generalization capabilities of multi-domain models, particularly in scenarios characterized by limited data availability and out-of-distribution, frequently encountered in healthcare applications. The integration of diverse data allows multi-domain models to utilize information across domains, enhancing the overall outcomes substantially. To illustrate, for organ recognition, multi-domain model can enhance accuracy by up to 8% compared to conventional specialized models.
翻訳日:2024-07-09 00:52:08 公開日:2024-07-04
# CVPR2023 NICE Image Captioning Challengeの解法

The Solution for the CVPR2023 NICE Image Captioning Challenge ( http://arxiv.org/abs/2310.06879v2 )

ライセンス: Link先を確認
Xiangyu Wu, Yi Gao, Hailiang Zhang, Yang Yang, Weili Guo, Jianfeng Lu, (参考訳) 本稿では,Zero-shot Image Captioning Challengeのための新たなフロンティアについて述べる。 従来の画像キャプションデータセットとは異なり、この課題には、さまざまな画像タイプ(写真、イラスト、グラフィック)だけでなく、多くのドメイン(COVID-19など)からの新しいさまざまな視覚概念が含まれている。 データレベルでは、大規模なCLIPフィルタリング画像テキストデータセットであるLaion-5Bから外部トレーニングデータを収集する。 モデルレベルでは、手作りテンプレートに基づく大規模視覚言語事前学習モデルOFAを用いて、画像キャプションタスクを実行する。 さらに,コントラスト学習を導入し,画像とテキストのペアを合わせることで,事前学習段階における新しい視覚概念を学習する。 そこで我々は,類似化戦略を提案し,この戦略をテンプレートに組み込んで,モデルに高品質なキャプションを強制的に生成させる。 最後に、検索強化戦略により、他の画像テキストペアから最も関連性の高いトップkキャプションを含むコンテンツリッチテンプレートを構築し、セマンティックリッチキャプションの生成を指導する。 本手法は, それぞれ105.17と325.72のCider-Scoreを検証, テストフェーズで達成し, トップボードにランクインする。

In this paper, we present our solution to the New frontiers for Zero-shot Image Captioning Challenge. Different from the traditional image captioning datasets, this challenge includes a larger new variety of visual concepts from many domains (such as COVID-19) as well as various image types (photographs, illustrations, graphics). For the data level, we collect external training data from Laion-5B, a large-scale CLIP-filtered image-text dataset. For the model level, we use OFA, a large-scale visual-language pre-training model based on handcrafted templates, to perform the image captioning task. In addition, we introduce contrastive learning to align image-text pairs to learn new visual concepts in the pre-training stage. Then, we propose a similarity-bucket strategy and incorporate this strategy into the template to force the model to generate higher quality and more matching captions. Finally, by retrieval-augmented strategy, we construct a content-rich template, containing the most relevant top-k captions from other image-text pairs, to guide the model in generating semantic-rich captions. Our method ranks first on the leaderboard, achieving 105.17 and 325.72 Cider-Score in the validation and test phase, respectively.
翻訳日:2024-07-09 00:52:08 公開日:2024-07-04
# 直交注意によるオペレータ学習の改善

Improved Operator Learning by Orthogonal Attention ( http://arxiv.org/abs/2310.12487v3 )

ライセンス: Link先を確認
Zipeng Xiao, Zhongkai Hao, Bokai Lin, Zhijie Deng, Hang Su, (参考訳) ニューラルネットワークは、PDEの解を学習するための効率的な代理モデルとして、科学機械学習の分野で広く注目を集めている。 それらの中で、注意に基づく神経オペレーターは、関連する研究の主流の1つになっている。 しかし、既存のアプローチは、注意機構のかなりの数のパラメータのため、限られたトレーニングデータに過度に適合する。 これを解決するために、カーネル積分作用素の固有分解と固有関数のニューラル近似に基づいて直交注意を発達させる。 直交化は自然に、結果として生じる神経オペレーターに適切な正則化効果を示し、過度な適合に抵抗し、一般化を促進するのに役立つ。 正規測地と不規則測地の両方からなる6つの標準ニューラル演算子ベンチマークデータセットの実験により、本手法は、競合するベースラインを十分なマージンで上回ることを示す。

Neural operators, as an efficient surrogate model for learning the solutions of PDEs, have received extensive attention in the field of scientific machine learning. Among them, attention-based neural operators have become one of the mainstreams in related research. However, existing approaches overfit the limited training data due to the considerable number of parameters in the attention mechanism. To address this, we develop an orthogonal attention based on the eigendecomposition of the kernel integral operator and the neural approximation of eigenfunctions. The orthogonalization naturally poses a proper regularization effect on the resulting neural operator, which aids in resisting overfitting and boosting generalization. Experiments on six standard neural operator benchmark datasets comprising both regular and irregular geometries show that our method can outperform competing baselines with decent margins.
翻訳日:2024-07-09 00:52:08 公開日:2024-07-04
# 大きな言語モデルでも画像を共有できます!

Large Language Models can Share Images, Too! ( http://arxiv.org/abs/2310.14804v2 )

ライセンス: Link先を確認
Young-Jun Lee, Dokyong Lee, Joo Won Sung, Jonghwan Hyeon, Ho-Jin Choi, (参考訳) 本稿では,GPT-4 や LLaMA 2 などの大規模言語モデル (LLM) のゼロショット設定における画像共有機能について検討する。 LLMの包括的な評価を容易にするために、豊富なアノテーション(インテント、トリガー文、画像記述、有能な情報など)を含むPhotoChat++データセットを導入する。 さらに、勾配のない拡張可能な決定、記述、検索(DribeR)フレームワークを提案する。 広汎な実験により、ゼロショットプロンプトにおいてLDMを備えたDribeRのイメージ共有能力を解放し、ChatGPTが最高のパフォーマンスを実現した。 また,ゼロショット条件下でのLDMの創発的画像共有能力も明らかにし,DribeRの有効性を検証した。 この枠組みは,(1)人間とロボットの相互作用と(2)データセットの増大の2つの現実シナリオにおいて,その実用性と有効性を示すものである。 我々の知る限りでは、ゼロショット環境での様々なLLMの画像共有能力を評価するための最初の研究である。 ソースコードとデータセットをhttps://github.com/passing2961/DribeR.comで公開しています。

This paper explores the image-sharing capability of Large Language Models (LLMs), such as GPT-4 and LLaMA 2, in a zero-shot setting. To facilitate a comprehensive evaluation of LLMs, we introduce the PhotoChat++ dataset, which includes enriched annotations (i.e., intent, triggering sentence, image description, and salient information). Furthermore, we present the gradient-free and extensible Decide, Describe, and Retrieve (DribeR) framework. With extensive experiments, we unlock the image-sharing capability of DribeR equipped with LLMs in zero-shot prompting, with ChatGPT achieving the best performance. Our findings also reveal the emergent image-sharing ability in LLMs under zero-shot conditions, validating the effectiveness of DribeR. We use this framework to demonstrate its practicality and effectiveness in two real-world scenarios: (1) human-bot interaction and (2) dataset augmentation. To the best of our knowledge, this is the first study to assess the image-sharing ability of various LLMs in a zero-shot setting. We make our source code and dataset publicly available at https://github.com/passing2961/DribeR.
翻訳日:2024-07-09 00:52:08 公開日:2024-07-04
# AViTMP:シングルブランチビジュアルトラッキングのためのトラッキング専用変換器

AViTMP: A Tracking-Specific Transformer for Single-Branch Visual Tracking ( http://arxiv.org/abs/2310.19542v3 )

ライセンス: Link先を確認
Chuanming Tang, Kai Wang, Joost van de Weijer, Jianlin Zhang, Yongmei Huang, (参考訳) ビジュアルオブジェクトトラッキングは、特にインテリジェントな運転において、輸送システムの基本コンポーネントである。 視覚追跡における最先端のパフォーマンスは達成されているが、最近のシングルブランチトラッカーは、視覚追跡におけるビジョントランスフォーマー(ViT)エンコーダと推論パイプラインに関連する弱い前提を見逃す傾向にある。 さらに、デュアルブランチパイプラインの採用により、識別トラッカーの有効性が制限されている。 バニラVTの劣悪な有効性に対処するために、カスタマイズされたトラッキング手法を設計するための適応VTモデル予測トラッカー(AViTMP)を提案する。 この方法は、初めて識別モデルで単一ブランチネットワークをブリッジする。 具体的には、提案するエンコーダAViTエンコーダにおいて、バニラViT用のトラッキング調整型アダプタモジュールと、ターゲット-プライア埋め込みパラダイムの強化を目的としたジョイントターゲット状態埋め込みを導入する。 次に、AViTエンコーダと識別変換器固有のモデル予測器を組み合わせて正確な位置を推定する。 さらに,従来の推論手法の限界を緩和するため,双方向のサイクルトラッキング検証を通じて,邪魔者の存在下での追跡堅牢性を向上するCycleTrackという新しい推論パイプラインを提案する。 実験では,LaSOT,LaSOTExtSub,AVisTなどの総合的な評価を行うため,AViTMPを8つの追跡ベンチマークで評価した。 実験結果は、公正な比較では、AViTMPは、特に長期追跡とロバストネスの観点から、最先端のパフォーマンスを達成することを明らかにしている。 ソースコードはhttps://github.com/Tchuanm/AViTMPで公開される。

Visual object tracking is a fundamental component of transportation systems, especially for intelligent driving. Despite achieving state-of-the-art performance in visual tracking, recent single-branch trackers tend to overlook the weak prior assumptions associated with the Vision Transformer (ViT) encoder and inference pipeline in visual tracking. Moreover, the effectiveness of discriminative trackers remains constrained due to the adoption of the dual-branch pipeline. To tackle the inferior effectiveness of vanilla ViT, we propose an Adaptive ViT Model Prediction tracker (AViTMP) to design a customised tracking method. This method bridges the single-branch network with discriminative models for the first time. Specifically, in the proposed encoder AViT encoder, we introduce a tracking-tailored Adaptor module for vanilla ViT and a joint target state embedding to enrich the target-prior embedding paradigm. Then, we combine the AViT encoder with a discriminative transformer-specific model predictor to predict the accurate location. Furthermore, to mitigate the limitations of conventional inference practice, we present a novel inference pipeline called CycleTrack, which bolsters the tracking robustness in the presence of distractors via bidirectional cycle tracking verification. In the experiments, we evaluated AViTMP on eight tracking benchmarks for a comprehensive assessment, including LaSOT, LaSOTExtSub, AVisT, etc. The experimental results unequivocally establish that, under fair comparison, AViTMP achieves state-of-the-art performance, especially in terms of long-term tracking and robustness. The source code will be released at https://github.com/Tchuanm/AViTMP.
翻訳日:2024-07-09 00:52:08 公開日:2024-07-04
# SegGen: Text2Mask と Mask2Img 合成によるスーパーチャージセグメンテーションモデル

SegGen: Supercharging Segmentation Models with Text2Mask and Mask2Img Synthesis ( http://arxiv.org/abs/2311.03355v2 )

ライセンス: Link先を確認
Hanrong Ye, Jason Kuen, Qing Liu, Zhe Lin, Brian Price, Dan Xu, (参考訳) 画像セグメンテーションのための高効率なトレーニングデータ生成手法であるSegGenを提案し,最先端セグメンテーションモデルの性能限界をある程度押し上げる。 SegGenはMaskSynとImgSynという2つのデータ生成戦略を設計、統合している。 (i)MaskSynは、提案したテキスト・ツー・マスク生成モデルとマスク・ツー・マスク生成モデルを介して新しいマスク・イメージ・ペアを合成し、モデル管理のためのセグメンテーションマスクの多様性を大幅に改善する。 (II)ImgSynはマスク・ツー・イメージ生成モデルを用いて既存のマスクをベースとした新しい画像を合成し,モデル入力における画像の多様性を強く向上させる。 ADE20KとCOCOの高度に競争力のあるベンチマークでは,データ生成手法により,セマンティックセグメンテーション,パン光学セグメンテーション,インスタンスセグメンテーションにおける最先端セグメンテーションモデルの性能が著しく向上する。 特にADE20K mIoUでは、Mask2Former R50は47.2から49.9(+2.7)に大きく向上し、Mask2Former Swin-Lも56.1から57.4(+1.3)に大幅に増加した。 これらの有望な結果は、豊富な人手によるトレーニングデータが利用される場合でも、SegGenの有効性を強く示唆する。 さらに、我々の合成データを用いたトレーニングにより、セグメント化モデルは、目に見えない領域に対してより堅牢になる。 プロジェクトウェブサイト:https://seggenerator.github.io

We propose SegGen, a highly-effective training data generation method for image segmentation, which pushes the performance limits of state-of-the-art segmentation models to a significant extent. SegGen designs and integrates two data generation strategies: MaskSyn and ImgSyn. (i) MaskSyn synthesizes new mask-image pairs via our proposed text-to-mask generation model and mask-to-image generation model, greatly improving the diversity in segmentation masks for model supervision; (ii) ImgSyn synthesizes new images based on existing masks using the mask-to-image generation model, strongly improving image diversity for model inputs. On the highly competitive ADE20K and COCO benchmarks, our data generation method markedly improves the performance of state-of-the-art segmentation models in semantic segmentation, panoptic segmentation, and instance segmentation. Notably, in terms of the ADE20K mIoU, Mask2Former R50 is largely boosted from 47.2 to 49.9 (+2.7); Mask2Former Swin-L is also significantly increased from 56.1 to 57.4 (+1.3). These promising results strongly suggest the effectiveness of our SegGen even when abundant human-annotated training data is utilized. Moreover, training with our synthetic data makes the segmentation models more robust towards unseen domains. Project website: https://seggenerator.github.io
翻訳日:2024-07-09 00:52:08 公開日:2024-07-04
# MultiIoT:モノのインターネットのための機械学習ベンチマーク

MultiIoT: Benchmarking Machine Learning for the Internet of Things ( http://arxiv.org/abs/2311.06217v2 )

ライセンス: Link先を確認
Shentong Mo, Louis-Philippe Morency, Russ Salakhutdinov, Paul Pu Liang, (参考訳) 次世代の機械学習システムは、多様な感覚チャネルを通じて物理的な世界を知覚し、相互作用しなくてはならない。 一般的には"IoT(Internet of Things)"エコシステムと呼ばれ、運動、熱、位置情報、深度、無線信号、ビデオ、オーディオといった感覚データを、物理的な環境と内部の人間の状態のモデル化に利用している。 人間の幸福を理解し、物理的デバイスを制御し、スマートシティを相互接続する可能性にもかかわらず、コミュニティはIoTのための機械学習システムを構築するための限られたベンチマークを見てきた。 既存の取り組みは、単一の知覚的モダリティや予測タスクに特化していることが多いため、多くのIoTセンサやタスクにわたる大規模なモデルの研究とトレーニングが困難になる。 この論文では、IoTのための新しい機械学習技術の開発を加速するために、12のモダリティと8つの実世界のタスクから115万以上のサンプルを含む、これまでで最も拡張的で統一されたIoTベンチマークであるMulti IoTを提案する。 マルチIoTは,(1)多くの感覚モーダル性からの一般化可能な学習,(2)長期にわたるマルチモーダルインタラクション,(3)現実世界のセンサにおけるユニークな構造とノイズトポロジによる極端な異質性,(4)トレーニングと推論の複雑さなど,ユニークな課題を導入している。 モータリティとタスク固有の手法,マルチセンサとマルチタスクの教師付きモデル,大規模マルチセンサ基盤モデルなどを含む,MultiIoTの包括的なモデルセットを評価する。 私たちの結果は、MLがIoTに大きな影響を与える機会を浮き彫りにしていますが、異種、長距離、不完全な感覚のモダリティからのスケーラブルな学習には、多くの課題がまだ残っています。 IoTのための機械学習の研究を加速するために、すべてのコードとデータをリリースします。

The next generation of machine learning systems must be adept at perceiving and interacting with the physical world through a diverse array of sensory channels. Commonly referred to as the `Internet of Things (IoT)' ecosystem, sensory data from motion, thermal, geolocation, depth, wireless signals, video, and audio are increasingly used to model the states of physical environments and the humans inside them. Despite the potential for understanding human wellbeing, controlling physical devices, and interconnecting smart cities, the community has seen limited benchmarks for building machine learning systems for IoT. Existing efforts are often specialized to a single sensory modality or prediction task, which makes it difficult to study and train large-scale models across many IoT sensors and tasks. To accelerate the development of new machine learning technologies for IoT, this paper proposes MultiIoT, the most expansive and unified IoT benchmark to date, encompassing over 1.15 million samples from 12 modalities and 8 real-world tasks. MultiIoT introduces unique challenges involving (1) generalizable learning from many sensory modalities, (2) multimodal interactions across long temporal ranges, (3) extreme heterogeneity due to unique structure and noise topologies in real-world sensors, and (4) complexity during training and inference. We evaluate a comprehensive set of models on MultiIoT, including modality and task-specific methods, multisensory and multitask supervised models, and large multisensory foundation models. Our results highlight opportunities for ML to make a significant impact in IoT, but many challenges in scalable learning from heterogeneous, long-range, and imperfect sensory modalities still persist. We release all code and data to accelerate future research in machine learning for IoT.
翻訳日:2024-07-09 00:42:23 公開日:2024-07-04
# SynA-ResNet: OR残差接続によるスパイク駆動型ResNetの実現

SynA-ResNet: Spike-driven ResNet Achieved through OR Residual Connection ( http://arxiv.org/abs/2311.06570v2 )

ライセンス: Link先を確認
Yimeng Shan, Xuerui Qiu, Rui-jie Zhu, Malu Zhang, Jason K. Eshraghian, Haicheng Qu, (参考訳) スパイキングニューラルネットワーク(SNN)は、その生物学的忠実さとエネルギー効率のよいスパイク駆動操作を実行する能力のために、脳のような計算にかなりの注意を払っている。 SNNのパフォーマンス向上の需要が急増するにつれて、ディープニューラルネットワークのトレーニングにおいて、残差学習が重要な方法であるのに対して、ディープニューラルネットワークのトレーニングに向けたトレンドが重要になる。 調査では,深部スパイクニューラルネットワークの代表であるSEW-ResNetが,非イベント駆動の操作を取り入れていることを確認した。 そこで本稿では,まずORRC (OR Residual Connection) を通じて大量の冗長情報を蓄積し,その冗長情報をSynA (SynA) モジュールを用いてフィルタリングする手法を提案する。 ネットワークにSynAを組み込むと、トレーニング後、モデルの分類精度に影響を与えることなく、ネットワーク内のショートカットの一部または全部が自然に消えてしまう「自然なプルーニング」現象が観察された。 これにより、計算オーバーヘッドが大幅に削減され、エッジデバイスへのデプロイがより適する。 様々な公開データセットの実験結果から、SynA-ResNetはニューロン当たり0.8スパイクの単一サンプル分類を達成したことが確認された。 さらに, 他のSNNモデルと比較すると, 高精度で28倍のエネルギー消費削減が可能であった。

Spiking Neural Networks (SNNs) have garnered substantial attention in brain-like computing for their biological fidelity and the capacity to execute energy-efficient spike-driven operations. As the demand for heightened performance in SNNs surges, the trend towards training deeper networks becomes imperative, while residual learning stands as a pivotal method for training deep neural networks. In our investigation, we identified that the SEW-ResNet, a prominent representative of deep residual spiking neural networks, incorporates non-event-driven operations. To rectify this, we propose a novel training paradigm that first accumulates a large amount of redundant information through OR Residual Connection (ORRC), and then filters out the redundant information using the Synergistic Attention (SynA) module, which promotes feature extraction in the backbone while suppressing the influence of noise and useless features in the shortcuts. When integrating SynA into the network, we observed the phenomenon of "natural pruning", where after training, some or all of the shortcuts in the network naturally drop out without affecting the model's classification accuracy. This significantly reduces computational overhead and makes it more suitable for deployment on edge devices. Experimental results on various public datasets confirmed that the SynA-ResNet achieved single-sample classification with as little as 0.8 spikes per neuron. Moreover, when compared to other residual SNN models, it exhibited higher accuracy and up to a 28-fold reduction in energy consumption.
翻訳日:2024-07-09 00:42:23 公開日:2024-07-04
# ニューラルネットワーク翻訳モデルの調整:トレーニングと推論における人間のフィードバック

Aligning Neural Machine Translation Models: Human Feedback in Training and Inference ( http://arxiv.org/abs/2311.09132v2 )

ライセンス: Link先を確認
Miguel Moura Ramos, Patrick Fernandes, António Farinhas, André F. T. Martins, (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、言語モデルによって生成されたテキストの品質を改善するための最近の技術であり、人間が生成するものに近いものになっている。 RLHFが大規模言語モデル(LLM)の整合と改善に成功した中核となる要素は、モデル出力に対する人間のフィードバックを用いてトレーニングされた報酬モデルである。 人間のアノテーションからトレーニングされたメトリクスを報酬モデルとして容易に利用できる機械翻訳(MT)では、最小ベイズリスクデコーディングと再ランクを用いた最近の手法が最終品質の向上に成功している。 本研究では,報奨モデルとして品質指標を統合する手法をMTパイプラインに包括的に検討し,比較する。 これには、データフィルタリング、RLによるトレーニング段階での報酬モデル、再ランク付け手法による推論時間の利用が含まれており、それらを統一的なアプローチで組み合わせることの効果を評価する。 複数の翻訳タスクにまたがって実施した実験結果は,MT品質向上におけるRLの潜在能力を最大限に活用する上で,推定品質に基づく効果的なデータフィルタリングの重要性を浮き彫りにした。 さらに,RLトレーニングとリグレード技術を組み合わせることで,翻訳品質が大幅に向上したことを示す。

Reinforcement learning from human feedback (RLHF) is a recent technique to improve the quality of the text generated by a language model, making it closer to what humans would generate. A core ingredient in RLHF's success in aligning and improving large language models (LLMs) is its reward model, trained using human feedback on model outputs. In machine translation (MT), where metrics trained from human annotations can readily be used as reward models, recent methods using minimum Bayes risk decoding and reranking have succeeded in improving the final quality of translation. In this study, we comprehensively explore and compare techniques for integrating quality metrics as reward models into the MT pipeline. This includes using the reward model for data filtering, during the training phase through RL, and at inference time by employing reranking techniques, and we assess the effects of combining these in a unified approach. Our experimental results, conducted across multiple translation tasks, underscore the crucial role of effective data filtering, based on estimated quality, in harnessing the full potential of RL in enhancing MT quality. Furthermore, our findings demonstrate the effectiveness of combining RL training with reranking techniques, showcasing substantial improvements in translation quality.
翻訳日:2024-07-09 00:42:23 公開日:2024-07-04
# Open-Vocabulary Camouflaged Object Segmentation

Open-Vocabulary Camouflaged Object Segmentation ( http://arxiv.org/abs/2311.11241v3 )

ライセンス: Link先を確認
Youwei Pang, Xiaoqi Zhao, Jiaming Zuo, Lihe Zhang, Huchuan Lu, (参考訳) 近年、CLIPのような大規模視覚言語モデル(VLM)の出現により、オープンワールドオブジェクト認識への道が開かれた。 多くの研究が、推論時に新しいクラスを持つ多様なオブジェクトを知覚する必要がある、オープン語彙の高密度な予測課題に対する事前学習VLMの利用について検討している。 既存の手法は、オープン語彙に適合せず、データ収集バイアスとアノテーションコストのために複雑な場面でキャモフラージュされた知覚不可能なオブジェクトを伴わない、関連するタスクの公開データセットに基づく実験を構築している。 このギャップを埋めるために、我々は新しいタスク、オープン語彙カモフラージュオブジェクトセグメンテーション(OVCOS)を導入し、11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複雑なシーンデータセット(\textbf{OVCamo})を構築した。 さらに、パラメータ固定されたCLIPに反復的意味指導と構造拡張を付加した、強力な単一ステージのオープン語彙である \underline{c}amouflaged \underline{o}bject \underline{s}egmentation transform\underline{er} baseline \textbf{OVCoser} を構築した。 クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。 さらに、この効果的なフレームワークは、OVCamoデータセットに対する大きなマージンで、従来のオープン語彙のセマンティックイメージセグメンテーションの最先端を超越している。 提案したデータセットとベースラインにより、より実用的な価値を持つこの新しいタスクが、よりオープンな語彙密度予測タスクの研究をさらに拡大することを期待している。 我々のコードとデータは、 \href{https://github.com/lartpang/OVCamo}{link} にある。

Recently, the emergence of the large-scale vision-language model (VLM), such as CLIP, has opened the way towards open-world object perception. Many works have explored the utilization of pre-trained VLM for the challenging open-vocabulary dense prediction task that requires perceiving diverse objects with novel classes at inference time. Existing methods construct experiments based on the public datasets of related tasks, which are not tailored for open vocabulary and rarely involve imperceptible objects camouflaged in complex scenes due to data collection bias and annotation costs. To fill in the gaps, we introduce a new task, open-vocabulary camouflaged object segmentation (OVCOS), and construct a large-scale complex scene dataset (\textbf{OVCamo}) containing 11,483 hand-selected images with fine annotations and corresponding object classes. Further, we build a strong single-stage open-vocabulary \underline{c}amouflaged \underline{o}bject \underline{s}egmentation transform\underline{er} baseline \textbf{OVCoser} attached to the parameter-fixed CLIP with iterative semantic guidance and structure enhancement. By integrating the guidance of class semantic knowledge and the supplement of visual structure cues from the edge and depth information, the proposed method can efficiently capture camouflaged objects. Moreover, this effective framework also surpasses previous state-of-the-arts of open-vocabulary semantic image segmentation by a large margin on our OVCamo dataset. With the proposed dataset and baseline, we hope that this new task with more practical value can further expand the research on open-vocabulary dense prediction tasks. Our code and data can be found in the \href{https://github.com/lartpang/OVCamo}{link}.
翻訳日:2024-07-09 00:42:23 公開日:2024-07-04
# 言語誘導コモンセマンティック空間における統一医用画像事前訓練

Unified Medical Image Pre-training in Language-Guided Common Semantic Space ( http://arxiv.org/abs/2311.14851v2 )

ライセンス: Link先を確認
Xiaoxuan He, Yifan Yang, Xinyang Jiang, Xufang Luo, Haoji Hu, Siyun Zhao, Dongsheng Li, Yuqing Yang, Lili Qiu, (参考訳) VLP(Vision-Language Pre-Training)は、医用画像とそれに対応するレポートのセマンティックな一致を利用して、医用画像を分析する利点を示している。 視覚表現を効率的に学習し、複雑な画像データの分析と解釈を容易にする。 しかしながら、そのような観察は、主に単一のモダリティデータ(主にX線のような2次元画像)で正当化されており、実際のシナリオにおける医用画像の統一表現の学習にVLPを適用することは、未解決の課題である。 これは医学画像から生じるもので、しばしば様々なモダリティ、特に様々な次元を持つモダリティ(例えば、Computed Tomographyのような3D画像)を含んでいる。 上記の課題を克服するために、診断報告を共通意味空間として活用し、医用画像(特に2Dおよび3D画像)の多彩なモダリティのための統一表現を作成する統一医用画像事前訓練フレームワークUniMedIを提案する。 テキストの指導のもと、視覚的モダリティ情報を効果的に発見し、高度な3次元CTスキャンで病変を含む2次元X線およびスライス領域の損傷領域を特定し、最終的に様々な医用画像モダリティの整合性を高めた。 UniMedIの有効性と汎用性を実証するため,10種類のデータセットにまたがる2次元画像と3次元画像の性能を評価し,分類,セグメンテーション,検索などの幅広い医療画像タスクを網羅した。 UniMedIは、ダウンストリームタスクにおいて優れたパフォーマンスを示し、普遍的な医用視覚表現を確立する効果を示している。

Vision-Language Pre-training (VLP) has shown the merits of analysing medical images, by leveraging the semantic congruence between medical images and their corresponding reports. It efficiently learns visual representations, which in turn facilitates enhanced analysis and interpretation of intricate imaging data. However, such observation is predominantly justified on single-modality data (mostly 2D images like X-rays), adapting VLP to learning unified representations for medical images in real scenario remains an open challenge. This arises from medical images often encompass a variety of modalities, especially modalities with different various number of dimensions (e.g., 3D images like Computed Tomography). To overcome the aforementioned challenges, we propose an Unified Medical Image Pre-training framework, namely UniMedI, which utilizes diagnostic reports as common semantic space to create unified representations for diverse modalities of medical images (especially for 2D and 3D images). Under the text's guidance, we effectively uncover visual modality information, identifying the affected areas in 2D X-rays and slices containing lesion in sophisticated 3D CT scans, ultimately enhancing the consistency across various medical imaging modalities. To demonstrate the effectiveness and versatility of UniMedI, we evaluate its performance on both 2D and 3D images across 10 different datasets, covering a wide range of medical image tasks such as classification, segmentation, and retrieval. UniMedI has demonstrated superior performance in downstream tasks, showcasing its effectiveness in establishing a universal medical visual representation.
翻訳日:2024-07-09 00:42:23 公開日:2024-07-04
# ランダム射影に対するマハラノビス距離のディップ統計に基づく多変量一様性試験

A Multivariate Unimodality Test Harnessing the Dip Statistic of Mahalanobis Distances Over Random Projections ( http://arxiv.org/abs/2311.16614v4 )

ライセンス: Link先を確認
Prodromos Kolyvakis, Aristidis Likas, (参考訳) 統計解析において中心的な一様性は、データセット構造に関する洞察を与え、洗練された分析手順を駆動する。 一様性(英語版)の確認は、シルバーマンのアプローチやハルティガンスのディップ統計のような方法を用いた一次元データでは容易であるが、高次元への一般化は依然として困難である。 線形ランダム射影を用いて一次元一様性原理を多次元空間へ外挿し、点対点距離を生かし、この手法は$\alpha$-一様性仮定に根ざし、新しい多変量一様性試験である泥ッドを提示する。 理論的および実証的研究は,多次元データセットの一様性評価およびクラスタ数推定における本手法の有効性を確認した。

Unimodality, pivotal in statistical analysis, offers insights into dataset structures and drives sophisticated analytical procedures. While unimodality's confirmation is straightforward for one-dimensional data using methods like Silverman's approach and Hartigans' dip statistic, its generalization to higher dimensions remains challenging. By extrapolating one-dimensional unimodality principles to multi-dimensional spaces through linear random projections and leveraging point-to-point distancing, our method, rooted in $\alpha$-unimodality assumptions, presents a novel multivariate unimodality test named mud-pod. Both theoretical and empirical studies confirm the efficacy of our method in unimodality assessment of multidimensional datasets as well as in estimating the number of clusters.
翻訳日:2024-07-09 00:42:23 公開日:2024-07-04
# 量子適応分布探索による連続最適化

Continuous optimization by quantum adaptive distribution search ( http://arxiv.org/abs/2311.17353v2 )

ライセンス: Link先を確認
Kohei Morimoto, Yusuke Takase, Kosuke Mitarai, Keisuke Fujii, (参考訳) 本稿では、Grover Adaptive Search(GAS)と共分散行列適応-進化戦略(CMA-ES)を統合した量子連続最適化アルゴリズムQuADSを紹介する。 QuADSはGASの量子ベースの探索機能を利用し、より効率的な最適化のためにCMA-ESの原理でそれらを強化する。 量子探索の初期状態に多変量正規分布を用い、最適化プロセスを通して繰り返し更新する。 数値実験の結果,QuADSはGASとCMA-ESの両方に優れていた。 これは、一様状態を使い続けるのではなく、初期状態分布を適応的に洗練することで達成され、オラクル呼び出しが少なくなる。 本研究は,連続最適化のための量子コンピューティングの可能性を活用するための重要なステップを示す。

In this paper, we introduce the quantum adaptive distribution search (QuADS), a quantum continuous optimization algorithm that integrates Grover adaptive search (GAS) with the covariance matrix adaptation - evolution strategy (CMA-ES), a classical technique for continuous optimization. QuADS utilizes the quantum-based search capabilities of GAS and enhances them with the principles of CMA-ES for more efficient optimization. It employs a multivariate normal distribution for the initial state of the quantum search and repeatedly updates it throughout the optimization process. Our numerical experiments show that QuADS outperforms both GAS and CMA-ES. This is achieved through adaptive refinement of the initial state distribution rather than consistently using a uniform state, resulting in fewer oracle calls. This study presents an important step toward exploiting the potential of quantum computing for continuous optimization.
翻訳日:2024-07-09 00:42:23 公開日:2024-07-04
# モデル圧縮によるフェデレーション学習における会員推論攻撃の対応

Addressing Membership Inference Attack in Federated Learning with Model Compression ( http://arxiv.org/abs/2311.17750v2 )

ライセンス: Link先を確認
Gergely Dániel Németh, Miguel Ángel Lozano, Novi Quadrianto, Nuria Oliver, (参考訳) 機械学習のプライバシ保護ソリューションとしてフェデレートラーニング(FL)が提案されている。 しかし、最近の研究報告では、FLはメンバーシップ推論攻撃によってプライベートクライアントデータを漏洩させることができると報告されている。 本稿では、クライアントに対するこれらの攻撃の有効性は、クライアントのデータセットのサイズとモデルの複雑さに負の相関関係があることを示す。 そこで本研究では,モデルに依存しないフェデレーションラーニング(Federated Learning,Federated Learning,Federated Learning,Federated Learning)のプライバシ保護能力について検討する。 本研究は,まず,サーバモデルからサブモデルを選択するためのクライアントの戦略に従って,モデルに依存しないFLメソッドの分類法を提案する。 この分類学は、既存のモデルに依存しないFLアプローチの枠組みを提供し、分類のギャップを埋めるための新しいFL手法の提案につながる。 次に、CIFAR-10およびCIFAR-100ビジョンデータセットに対する3つの異なるメンバーシップ推論攻撃を受けると、提案した分類基準に従って、モデルに依存しないFLアーキテクチャのプライバシパフォーマンストレードオフを分析する。 実験では,クライアントのモデルを訓練するためにサーバのサブモデルを選択する戦略におけるランダム性が,サーバ側の競争性能を維持しながらクライアントのプライバシを制御できることが判明した。

Federated Learning (FL) has been proposed as a privacy-preserving solution for machine learning. However, recent works have reported that FL can leak private client data through membership inference attacks. In this paper, we show that the effectiveness of these attacks on the clients negatively correlates with the size of the client's datasets and model complexity. Based on this finding, we study the capabilities of model-agnostic Federated Learning to preserve privacy, as it enables the use of models of varying complexity in the clients. To systematically study this topic, we first propose a taxonomy of model-agnostic FL methods according to the strategies adopted by the clients to select the sub-models from the server's model. This taxonomy provides a framework for existing model-agnostic FL approaches and leads to the proposal of new FL methods to fill the gaps in the taxonomy. Next, we analyze the privacy-performance trade-off of all the model-agnostic FL architectures as per the proposed taxonomy when subjected to 3 different membership inference attacks on the CIFAR-10 and CIFAR-100 vision datasets. In our experiments, we find that randomness in the strategy used to select the server's sub-model to train the clients' models can control the clients' privacy while keeping competitive performance on the server's side.
翻訳日:2024-07-09 00:42:23 公開日:2024-07-04
# 深層強化学習における時間的クレジット割り当てに関する調査

A Survey of Temporal Credit Assignment in Deep Reinforcement Learning ( http://arxiv.org/abs/2312.01072v2 )

ライセンス: Link先を確認
Eduardo Pignatelli, Johan Ferret, Matthieu Geist, Thomas Mesnard, Hado van Hasselt, Olivier Pietquin, Laura Toni, (参考訳) クレディ・アサインメント問題(Capital Assignment Problem, CAP)とは、強化学習(Reinforcement Learning, RL)エージェントが長期的な結果と行動を関連付けるための長年にわたる課題を指す。 CAPの解決は、ほとんどの決定問題は、ノイズがあり、遅延があり、原因に関する情報がほとんど、あるいは全くないフィードバックを提供するので、現実の世界でRLのデプロイを成功させるための重要なステップである。 これらの条件は、情報的意思決定によって引き起こされた結果とセレンディピティーな結果の区別を困難にしている。 しかし、クレジットとCAPの数学的性質はいまだに理解されておらず、定義されていない。 本調査では,深部RLにおける時間クレジット割り当て(CA)の現状を概観する。 本稿では,最先端アルゴリズムの公平な比較を可能にし,各種手法間のトレードオフの理解を深める信用の一元化形式について提案する。 我々はCAPを、経験の少ない結果に対する行動の影響を学習する問題として捉えた。 我々は、遅延効果、転置、行動への影響の欠如に起因する課題について論じ、既存の手法がそれらにどう対処しようとしているのかを分析した。 最後に,信用割当手法を評価するためのプロトコルを調査し,異なる方法の問題点を診断する方法を提案する。 本調査は,新入生実践者や研究者の分野を概観するとともに,CAP研究の開始段階を早めるための一貫性のある視点を提供し,今後の研究の方向性を示唆するものである。

The Credit Assignment Problem (CAP) refers to the longstanding challenge of Reinforcement Learning (RL) agents to associate actions with their long-term consequences. Solving the CAP is a crucial step towards the successful deployment of RL in the real world since most decision problems provide feedback that is noisy, delayed, and with little or no information about the causes. These conditions make it hard to distinguish serendipitous outcomes from those caused by informed decision-making. However, the mathematical nature of credit and the CAP remains poorly understood and defined. In this survey, we review the state of the art of Temporal Credit Assignment (CA) in deep RL. We propose a unifying formalism for credit that enables equitable comparisons of state-of-the-art algorithms and improves our understanding of the trade-offs between the various methods. We cast the CAP as the problem of learning the influence of an action over an outcome from a finite amount of experience. We discuss the challenges posed by delayed effects, transpositions, and a lack of action influence, and analyse how existing methods aim to address them. Finally, we survey the protocols to evaluate a credit assignment method and suggest ways to diagnose the sources of struggle for different methods. Overall, this survey provides an overview of the field for new-entry practitioners and researchers, it offers a coherent perspective for scholars looking to expedite the starting stages of a new study on the CAP, and it suggests potential directions for future research.
翻訳日:2024-07-09 00:42:23 公開日:2024-07-04
# スプーフィング攻撃下での量子セキュリティ単一画素イメージングにおける真の画像構築

True image construction in quantum-secured single-pixel imaging under spoofing attack ( http://arxiv.org/abs/2312.03465v3 )

ライセンス: Link先を確認
Jaesung Heo, Taek Jeong, Nam Hun Park, Yonggi Jo, (参考訳) 本稿では,量子セキュアな単一画素イメージング(QS-SPI)技術を提案する。 真の信号が存在する場合でも、動作を制限するしきい値エラー率を課す従来の量子セキュリティプロトコルとは異なり、我々のアプローチは偽造攻撃を識別するだけでなく、真の画像の再構築を容易にする。 本手法は, 画像形成に使用されるモードに依存しない光子対の特定のモード相関を解析し, セキュリティチェックを行う。 この分析により,攻撃による対象画像領域とスプーフ攻撃の種類の両方を識別し,真の画像の復元を可能にする。 光子対の偏光相関を利用したプリンシプル実証を行い、真の信号より2000倍強いスプーフィング信号の条件下であっても、良好な画像再構成を示す。 我々は、量子目標検出やレンジといった量子セキュアな信号処理に、我々のアプローチを適用することを期待する。

In this paper, we introduce a quantum-secured single-pixel imaging (QS-SPI) technique designed to withstand spoofing attacks, wherein adversaries attempt to deceive imaging systems with fake signals. Unlike previous quantum-secured protocols that impose a threshold error rate limiting their operation, even with the existence of true signals, our approach not only identifies spoofing attacks but also facilitates the reconstruction of a true image. Our method involves the analysis of a specific mode correlation of a photon-pair, which is independent of the mode used for image construction, to check security. Through this analysis, we can identify both the targeted image region by the attack and the type of spoofing attack, enabling reconstruction of the true image. A proof-of-principle demonstration employing polarization-correlation of a photon-pair is provided, showcasing successful image reconstruction even under the condition of spoofing signals 2000 times stronger than the true signals. We expect our approach to be applied to quantum-secured signal processing such as quantum target detection or ranging.
翻訳日:2024-07-09 00:32:39 公開日:2024-07-04
# Simul-LLM:大規模言語モデルを用いた高品質同時翻訳のためのフレームワーク

Simul-LLM: A Framework for Exploring High-Quality Simultaneous Translation with Large Language Models ( http://arxiv.org/abs/2312.04691v4 )

ライセンス: Link先を確認
Victor Agostinelli, Max Wild, Matthew Raffel, Kazi Ahmed Asif Fuad, Lizhong Chen, (参考訳) 数十億のパラメータを持ち、大量のデータに事前訓練された大規模言語モデル(LLM)は、さまざまな下流自然言語処理タスクにおいて、最先端の性能に近いかそれ以上の性能を持つようになった。 ニューラルマシン翻訳(NMT)は、LLMが大きな成功を収めたタスクの一つである。 しかし、LLMをNMTのより難しいサブセットである同時翻訳(SimulMT)に適用することに注力する研究はほとんどない。 本稿では,従来のSimulMTのコンセプトと実践をLLMの文脈で検証し,NMTで微調整されたLCMをSimulMTのタスクに適応させる,Simul-LLMを紹介し,SimulMTにフォーカスしたLLMのためのオープンソースのファインチューニングおよび評価パイプライン開発フレームワークであるSimul-LLMを紹介する。

Large language models (LLMs) with billions of parameters and pretrained on massive amounts of data are now capable of near or better than state-of-the-art performance in a variety of downstream natural language processing tasks. Neural machine translation (NMT) is one such task that LLMs have been applied to with great success. However, little research has focused on applying LLMs to the more difficult subset of NMT called simultaneous translation (SimulMT), where translation begins before the entire source context is available to the model. In this paper, we address key challenges facing LLMs fine-tuned for SimulMT, validate classical SimulMT concepts and practices in the context of LLMs, explore adapting LLMs that are fine-tuned for NMT to the task of SimulMT, and introduce Simul-LLM, the first open-source fine-tuning and evaluation pipeline development framework for LLMs focused on SimulMT.
翻訳日:2024-07-09 00:32:39 公開日:2024-07-04
# 物理を意識した多忠実ベイズ最適化 : 一般化された定式化

Physics-Aware Multifidelity Bayesian Optimization: a Generalized Formulation ( http://arxiv.org/abs/2312.05831v2 )

ライセンス: Link先を確認
Francesco Di Fiore, Laura Mainini, (参考訳) マルチクエリ最適化問題に対する高忠実度モデルの導入は、各クエリでの評価に要する計算コストに大きく制限されている。 MFBO(Multifidelity Bayesian Method)は、クエリのサブセレクションのみに対してコストの高い高忠実度応答を組み込むことを可能にし、最適化プロセスを高速化するために高速な低忠実度モデルを使用する。 State-of-the-artメソッドは純粋にデータ駆動型検索に依存しており、物理的なコンテキストに関する明示的な情報は含まない。 本稿では、これらのデータ駆動探索を高速化するために、工学的問題の物理領域に関する事前知識を活用できることを認識し、最適化手順中にドメイン認識の形式を組み込むために、MFBOの一般化された定式化を提案する。 特に、偏見を領域の物理的構造を捉える多元性獲得関数として定式化する。 これにより、データ駆動検索がドメインのプロパティをオンザフライで学習することから部分的に緩和され、複数の情報ソースの管理が微妙に強化される。 本手法は,全計算コストを抑えつつ最適化探索を誘導する高忠実度シミュレーションを効率よく組み込むことができる。 物理を意識した多重忠実度ベイズ最適化について, 設計最適化と健康モニタリング問題という, 科学と工学でよく見られる最適化問題の2つのクラスについて, 考察を行った。

The adoption of high-fidelity models for many-query optimization problems is majorly limited by the significant computational cost required for their evaluation at every query. Multifidelity Bayesian methods (MFBO) allow to include costly high-fidelity responses for a sub-selection of queries only, and use fast lower-fidelity models to accelerate the optimization process. State-of-the-art methods rely on a purely data-driven search and do not include explicit information about the physical context. This paper acknowledges that prior knowledge about the physical domains of engineering problems can be leveraged to accelerate these data-driven searches, and proposes a generalized formulation for MFBO to embed a form of domain awareness during the optimization procedure. In particular, we formalize a bias as a multifidelity acquisition function that captures the physical structure of the domain. This permits to partially alleviate the data-driven search from learning the domain properties on-the-fly, and sensitively enhances the management of multiple sources of information. The method allows to efficiently include high-fidelity simulations to guide the optimization search while containing the overall computational expense. Our physics-aware multifidelity Bayesian optimization is presented and illustrated for two classes of optimization problems frequently met in science and engineering, namely design optimization and health monitoring problems.
翻訳日:2024-07-09 00:32:39 公開日:2024-07-04
# 複雑な果樹園環境におけるオブジェクトセグメンテーションのためのYOLOv8とMask RCNNの比較

Comparing YOLOv8 and Mask RCNN for object segmentation in complex orchard environments ( http://arxiv.org/abs/2312.07935v3 )

ライセンス: Link先を確認
Ranjan Sapkota, Dawood Ahmed, Manoj Karkee, (参考訳) 農業における自動化のための重要な画像処理操作であるインスタンスセグメンテーション(インスタンスセグメンテーション)は、画像内の個々の関心対象を正確に記述するために使用され、選択的な収穫や精密刈り取りなどの様々な自動化またはロボットタスクの基礎情報を提供する。 本研究では,1段階のYOLOv8と2段階のMask R-CNN機械学習モデルを比較した。 休眠期に収集されたデータセット1には、木の枝と幹を並べた多目的セグメンテーションモデルのトレーニングに使用された休眠リンゴのイメージが含まれている。 初期の成長期に収集されたデータセット2には、未熟リンゴのみを規定する単一対象セグメンテーションモデルを訓練するために用いられた、緑の葉を持つリンゴの樹冠と未熟リンゴ(フルーツレットとも呼ばれる)のイメージが含まれている。 その結果, YOLOv8 は Mask R-CNN より優れており, 信頼性閾値0.5。 具体的には、Dataset 1ではYOLOv8が0.90の精度で、すべてのクラスで0.95のリコールを達成した。 比較として、Mask R-CNNは0.81の精度を示し、同じデータセットに対して0.81のリコールを行った。 Dataset 2でYOLOv8は精度0.93、リコール0.97を達成した。 Mask R-CNNはこのシングルクラスのシナリオで精度0.85とリコール0.88を達成した。 さらに、YOLOv8の推論時間は、マルチクラスのセグメンテーション(データセット1)で10.9ms、シングルクラスのセグメンテーション(データセット2)で7.8msであり、Mask R-CNNが達成した15.6msと12.8msである。

Instance segmentation, an important image processing operation for automation in agriculture, is used to precisely delineate individual objects of interest within images, which provides foundational information for various automated or robotic tasks such as selective harvesting and precision pruning. This study compares the one-stage YOLOv8 and the two-stage Mask R-CNN machine learning models for instance segmentation under varying orchard conditions across two datasets. Dataset 1, collected in dormant season, includes images of dormant apple trees, which were used to train multi-object segmentation models delineating tree branches and trunks. Dataset 2, collected in the early growing season, includes images of apple tree canopies with green foliage and immature (green) apples (also called fruitlet), which were used to train single-object segmentation models delineating only immature green apples. The results showed that YOLOv8 performed better than Mask R-CNN, achieving good precision and near-perfect recall across both datasets at a confidence threshold of 0.5. Specifically, for Dataset 1, YOLOv8 achieved a precision of 0.90 and a recall of 0.95 for all classes. In comparison, Mask R-CNN demonstrated a precision of 0.81 and a recall of 0.81 for the same dataset. With Dataset 2, YOLOv8 achieved a precision of 0.93 and a recall of 0.97. Mask R-CNN, in this single-class scenario, achieved a precision of 0.85 and a recall of 0.88. Additionally, the inference times for YOLOv8 were 10.9 ms for multi-class segmentation (Dataset 1) and 7.8 ms for single-class segmentation (Dataset 2), compared to 15.6 ms and 12.8 ms achieved by Mask R-CNN's, respectively.
翻訳日:2024-07-09 00:32:39 公開日:2024-07-04
# 比較リファインメントフレームワークを用いた科学文書からの物体認識

Object Recognition from Scientific Document based on Compartment Refinement Framework ( http://arxiv.org/abs/2312.09038v3 )

ライセンス: Link先を確認
Jinghong Li, Wen Gu, Koichi Ota, Shinobu Hasegawa, (参考訳) 過去10年間のインターネットの急速な発展に伴い、大規模な資源から貴重な情報を効率的に抽出することがますます重要になってきており、特に調査や理解の文脈において、包括的なデジタルエコシステムの確立に不可欠である。 これらのタスクの基礎は、堅牢なデータ基盤を構築するのに不可欠である科学文書からのデータの正確な抽出と深層採掘に焦点を当てている。 しかし、複雑な科学資料から生データを解析したり、データを抽出したりすることは、現在進行中の課題である。 科学文書の現在のデータ抽出方法は、ルールベース(RB)または機械学習(ML)アプローチを用いるのが一般的である。 しかし、ルールベースの手法を使えば、複雑なタイプセットを持つ記事に対して高いコーディングコストを発生させることができる。 逆に、機械学習の手法にのみ依存するため、科学文書内の複雑なコンテンツタイプに対するアノテーション作業が必要であり、コストがかかる可能性がある。 さらに、科学的文書の階層的レイアウトを徹底的に定義し、調査する研究はほとんどない。 文書の内部構造と要素の包括的定義の欠如は、テキスト分類とオブジェクト認識タスクの精度に間接的に影響を及ぼす。 特定出版物における標準レイアウトとタイプセットの分析の観点から,CTBR(Compartment & Text Blocks Refinement)と呼ばれる新しい文書レイアウト分析フレームワークを提案する。 まず,学術文書を基本領域,コンパートメント,テキストブロックという階層的な区分に分類する。 次に,テキストブロックの意味の詳細な探索と分類を行う。 最後に,ルールベースのコンパートメントセグメンテーションに基づいて,テキストブロック分類の結果を用いて,科学的文書内にオブジェクト認識を実装した。

With the rapid development of the internet in the past decade, it has become increasingly important to extract valuable information from vast resources efficiently, which is crucial for establishing a comprehensive digital ecosystem, particularly in the context of research surveys and comprehension. The foundation of these tasks focuses on accurate extraction and deep mining of data from scientific documents, which are essential for building a robust data infrastructure. However, parsing raw data or extracting data from complex scientific documents have been ongoing challenges. Current data extraction methods for scientific documents typically use rule-based (RB) or machine learning (ML) approaches. However, using rule-based methods can incur high coding costs for articles with intricate typesetting. Conversely, relying solely on machine learning methods necessitates annotation work for complex content types within the scientific document, which can be costly. Additionally, few studies have thoroughly defined and explored the hierarchical layout within scientific documents. The lack of a comprehensive definition of the internal structure and elements of the documents indirectly impacts the accuracy of text classification and object recognition tasks. From the perspective of analyzing the standard layout and typesetting used in the specified publication, we propose a new document layout analysis framework called CTBR(Compartment & Text Blocks Refinement). Firstly, we define scientific documents into hierarchical divisions: base domain, compartment, and text blocks. Next, we conduct an in-depth exploration and classification of the meanings of text blocks. Finally, we utilize the results of text block classification to implement object recognition within scientific documents based on rule-based compartment segmentation.
翻訳日:2024-07-09 00:32:39 公開日:2024-07-04
# マルチステージフレームワークと階層型マルチデコーダアーキテクチャによる拡散モデルの効率化

Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures ( http://arxiv.org/abs/2312.09181v3 )

ライセンス: Link先を確認
Huijie Zhang, Yifu Lu, Ismail Alkhouri, Saiprasad Ravishankar, Dogyoon Song, Qing Qu, (参考訳) 拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。 トレーニングサンプルにノイズを導入し、ランダムノイズを新しいサンプル(例:画像)に変換するモデルを使用する。 しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。 これは、広範囲の前方および逆拡散軌跡を追跡する必要があり、複数の時間ステップ(ノイズレベル)にまたがる多数のパラメータを持つ大きなモデルを使用する必要があるためである。 これらの課題に対処するために、経験的発見にインスパイアされた多段階のフレームワークを提案する。 これらの観察は、全ての時間ステップで共有される普遍的なパラメータを保持しながら、各時間ステップに合わせた異なるパラメータを使用する利点を示している。 このアプローチでは、時間依存モデルと普遍的に共有されるエンコーダをブレンドするカスタムマルチデコーダU-netアーキテクチャを用いて、時間間隔を複数のステージに分割する。 本フレームワークは,計算資源の効率的な分配を可能にし,段階間干渉を緩和し,トレーニング効率を大幅に向上させる。 大規模な潜伏拡散モデルを含む3つの最先端拡散モデルに対して,本フレームワークの有効性を実証し,大幅なトレーニングとサンプリング効率の向上を図った。 さらに、当社のアブレーション調査では、フレームワークにおける2つの重要なコンポーネントの影響が示されています。 (i)ステージ分割のための新しいタイムステップクラスタリングアルゴリズム (II) ユニバーサルおよびカスタマイズされたハイパーパラメータをシームレスに統合した,革新的なマルチデコーダU-netアーキテクチャ。

Diffusion models, emerging as powerful deep generative tools, excel in various applications. They operate through a two-steps process: introducing noise into training samples and then employing a model to convert random noise into new samples (e.g., images). However, their remarkable generative performance is hindered by slow training and sampling. This is due to the necessity of tracking extensive forward and reverse diffusion trajectories, and employing a large model with numerous parameters across multiple timesteps (i.e., noise levels). To tackle these challenges, we present a multi-stage framework inspired by our empirical findings. These observations indicate the advantages of employing distinct parameters tailored to each timestep while retaining universal parameters shared across all time steps. Our approach involves segmenting the time interval into multiple stages where we employ custom multi-decoder U-net architecture that blends time-dependent models with a universally shared encoder. Our framework enables the efficient distribution of computational resources and mitigates inter-stage interference, which substantially improves training efficiency. Extensive numerical experiments affirm the effectiveness of our framework, showcasing significant training and sampling efficiency enhancements on three state-of-the-art diffusion models, including large-scale latent diffusion models. Furthermore, our ablation studies illustrate the impact of two important components in our framework: (i) a novel timestep clustering algorithm for stage division, and (ii) an innovative multi-decoder U-net architecture, seamlessly integrating universal and customized hyperparameters.
翻訳日:2024-07-09 00:32:39 公開日:2024-07-04
# SeiT++: Masked Token Modelingはストレージ効率のトレーニングを改善する

SeiT++: Masked Token Modeling Improves Storage-efficient Training ( http://arxiv.org/abs/2312.10105v4 )

ライセンス: Link先を確認
Minhyun Lee, Song Park, Byeongho Heo, Dongyoon Han, Hyunjung Shim, (参考訳) 近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。 しかし、高度に一般化可能で高性能な視覚モデルを実現するには、拡張データセットが必要であるため、かなりのストレージ要求が生じる。 このストレージの課題は、モデルをスケールアップする上で重要なボトルネックである。 SeiTによる最近のブレークスルーでは、視覚分類のためのネットワーク入力としてベクトル量子化(VQ)特徴ベクトル(トークン)が提案されている。 このアプローチは、ストレージの1%しか持たないフルピクセル画像でトレーニングされたモデルの性能の90%を達成した。 SeiTにはラベル付きデータが必要だが、完全に教師付き学習以上のシナリオの可能性はほとんどない。 本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。 ラベルの欠如により、自己組織化されたアプローチがより多くのデータを要求することが多いことを認識し、TokenAdaptとColorAdaptを紹介します。 これらの手法は、トークンフレンドリーなデータ拡張を促進し、自己教師付き学習におけるデータ要求の増加に効果的に対処する。 我々は,ストレージ効率の高いImageNet-1k分類,きめ細かい分類,ADE-20kセマンティックセグメンテーション,ロバストネスベンチマークなど,さまざまなシナリオにおけるアプローチを評価した。 実験の結果,様々な実験において一貫した性能向上が示され,本手法の有効性が検証された。 コードはhttps://github.com/naver-ai/seit.comから入手できる。

Recent advancements in Deep Neural Network (DNN) models have significantly improved performance across computer vision tasks. However, achieving highly generalizable and high-performing vision models requires expansive datasets, resulting in significant storage requirements. This storage challenge is a critical bottleneck for scaling up models. A recent breakthrough by SeiT proposed the use of Vector-Quantized (VQ) feature vectors (i.e., tokens) as network inputs for vision classification. This approach achieved 90% of the performance of a model trained on full-pixel images with only 1% of the storage. While SeiT needs labeled data, its potential in scenarios beyond fully supervised learning remains largely untapped. In this paper, we extend SeiT by integrating Masked Token Modeling (MTM) for self-supervised pre-training. Recognizing that self-supervised approaches often demand more data due to the lack of labels, we introduce TokenAdapt and ColorAdapt. These methods facilitate comprehensive token-friendly data augmentation, effectively addressing the increased data requirements of self-supervised learning. We evaluate our approach across various scenarios, including storage-efficient ImageNet-1k classification, fine-grained classification, ADE-20k semantic segmentation, and robustness benchmarks. Experimental results demonstrate consistent performance improvement in diverse experiments, validating the effectiveness of our method. Code is available at https://github.com/naver-ai/seit.
翻訳日:2024-07-09 00:32:39 公開日:2024-07-04
# ALOHA: From Attention to Likes -- 多様な視覚コンテンツに対するHumAn応答を理解するための統一mOdel

ALOHA: from Attention to Likes -- a unified mOdel for understanding HumAn responses to diverse visual content ( http://arxiv.org/abs/2312.10175v2 )

ライセンス: Link先を確認
Peizhao Li, Junfeng He, Gang Li, Rachit Bhargava, Shaolei Shen, Nachiappan Valliappan, Youwei Liang, Hongxiang Gu, Venky Ramachandran, Golnaz Farhadi, Yang Li, Kai J Kohlhoff, Vidhya Navalpakkam, (参考訳) 人間の行動モデリングの進歩は、人間の注意のような暗黙的、初期的な知覚的行動と、主観的嗜好や好意のような明示的、後期的な行動の両方を理解することを含む。 しかし、これまでのほとんどの研究は、暗黙的かつ明示的な人間の振る舞いを単独でモデリングすることに重点を置いており、しばしば特定の種類の視覚的コンテンツに限られている。 多様な視覚コンテンツに対して確実に機能する、人間の注意と嗜好行動の統一モデルを構築することができるだろうか? このようなモデルは、人間の注意や相互作用のヒートマップ、視聴順序とともに、満足感や美的品質などの主観的なフィードバックを予測することを可能にし、デザイナーとコンテンツ作成モデルが、人間中心の改善のために自分たちの創造を最適化することを可能にする。 本稿では,視覚的内容の多様さにまたがって,注目から好意への人間の反応を理解する統一モデルALOHAを提案する。 ALOHAは、顔ごとに異なる予測ヘッドを特徴とするマルチモーダルトランスフォーマー%を活用し、アテンションヒートマップ、スキャンパス、視聴順序などの異なる人間の反応を予測し、主観評価/参照を行う。 我々は、自然画像、Webページ、グラフィックデザインにまたがる様々なパブリックデータセットに基づいてALOHAをトレーニングし、異なる画像領域と様々な振る舞いモデリングタスクにわたる複数のベンチマークでSOTAパフォーマンスを達成する。 潜在的なアプリケーションには、UI/デザイン/イメージの有効性に関する即時フィードバックの提供や、視覚コンテンツ生成をさらに最適化するための報酬モデルとしての役割などが含まれる。

Progress in human behavior modeling involves understanding both implicit, early-stage perceptual behavior such as human attention and explicit, later-stage behavior such as subjective preferences/likes. Yet, most prior research has focused on modeling implicit and explicit human behavior in isolation; and often limited to a specific type of visual content. Can we build a unified model of human attention and preference behavior that works reliably across diverse types of visual content? Such a model would enable predicting subjective feedback such as satisfaction or aesthetic quality, along with the underlying human attention or interaction heatmaps and viewing order, enabling designers and content-creation models to optimize their creation for human-centric improvements. In this paper, we propose ALOHA -- a unified model for understanding human responses from attention to likes, across diverse visual content. ALOHA leverages a multimodal transformer % featuring distinct prediction heads for each facet, and predicts different human responses such as attention heatmaps, scanpath or viewing order, as well as subjective rating/preference. We train ALOHA on diverse public datasets spanning natural images, webpages and graphic designs, and achieve SOTA performance on multiple benchmarks across different image domains and various behavior modeling tasks. Potential applications include providing instant feedback on the effectiveness of UIs/designs/images, and serving as a reward model to further optimize visual-content creation.
翻訳日:2024-07-09 00:22:48 公開日:2024-07-04
# 球面:球面表現による3次元3次元点群分割

Spherical Mask: Coarse-to-Fine 3D Point Cloud Instance Segmentation with Spherical Representation ( http://arxiv.org/abs/2312.11269v2 )

ライセンス: Link先を確認
Sangyun Shin, Kaichen Zhou, Madhu Vankadari, Andrew Markham, Niki Trigoni, (参考訳) 最近のGroupingベース, Kernelベース, Transformerベースの手法と比較して, 粗大な3次元インスタンスセグメンテーション手法は弱い性能を示す。 これは2つの制限によると我々は主張する。 1)軸配向バウンディングボックス(AABB)によるインスタンスサイズ過大評価 2) 不正確な箱から精製相への偽陰誤差蓄積。 本研究では、球面表現に基づく新しい粗粒化アプローチであるSpherical Maskを紹介し、これらの2つの制限を克服し、いくつかの利点を享受する。 具体的には,AABBの過大なサイズ推定を回避するために,中心および半径距離予測を用いた3次元ポリゴンを用いて各インスタンスを推定する。 既存の粗大なアプローチにおける誤差の伝搬を削減するために,ポリゴンに基づいて仮想的に点を移動し,偽陰性を含むすべての前景点を改良する。 推論中、提案とポイントマイグレーションモジュールは並列に実行され、インスタンスのバイナリマスクを形成するために組み立てられる。 また,偽陽性/陰性点の補正と前景点の凝集を強制する点移動のマージンに基づく2つの損失を導入し,性能を著しく改善した。 ScanNetV2, S3DIS, STPLS3Dの3つのデータセットによる実験結果から, 提案手法は既存手法よりも優れており, 球面座標を用いた新しいインスタンス表現の有効性が示された。 コードは、https://github.com/yunshin/SphericalMask.comで入手できる。

Coarse-to-fine 3D instance segmentation methods show weak performances compared to recent Grouping-based, Kernel-based and Transformer-based methods. We argue that this is due to two limitations: 1) Instance size overestimation by axis-aligned bounding box(AABB) 2) False negative error accumulation from inaccurate box to the refinement phase. In this work, we introduce Spherical Mask, a novel coarse-to-fine approach based on spherical representation, overcoming those two limitations with several benefits. Specifically, our coarse detection estimates each instance with a 3D polygon using a center and radial distance predictions, which avoids excessive size estimation of AABB. To cut the error propagation in the existing coarse-to-fine approaches, we virtually migrate points based on the polygon, allowing all foreground points, including false negatives, to be refined. During inference, the proposal and point migration modules run in parallel and are assembled to form binary masks of instances. We also introduce two margin-based losses for the point migration to enforce corrections for the false positives/negatives and cohesion of foreground points, significantly improving the performance. Experimental results from three datasets, such as ScanNetV2, S3DIS, and STPLS3D, show that our proposed method outperforms existing works, demonstrating the effectiveness of the new instance representation with spherical coordinates. The code is available at: https://github.com/yunshin/SphericalMask
翻訳日:2024-07-09 00:22:48 公開日:2024-07-04
# 視覚言語学習のためのクラスタ条件付きLORAエキスパートの混合

Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning ( http://arxiv.org/abs/2312.12379v5 )

ライセンス: Link先を確認
Yunhao Gou, Zhili Liu, Kai Chen, Lanqing Hong, Hang Xu, Aoxue Li, Dit-Yan Yeung, James T. Kwok, Yu Zhang, (参考訳) LVLM(Large Vision-Language Models)のインストラクションチューニングは、幅広い下流視覚言語タスクにおいてゼロショットの一般化を伴う多目的モデルの開発に革命をもたらした。 しかし、異なるソースとフォーマットのトレーニングタスクの多様性は、同じモデルのパラメータのセットに対して異なるタスクが競合する、必然的なタスク競合を引き起こす。 そこで本研究では,クラスタ条件付きLoRAエキスパートの混合(Mixture of Cluster-conditional LoRA Experts (MoCLE))を提案する。 新たな命令に対するMoCLEの一般化能力を改善するために、別個のユニバーサルエキスパートが組み込まれている。 InstructBLIPとLLaVAの大規模な実験により、MoCLEの有効性が示された。

Instruction tuning of Large Vision-language Models (LVLMs) has revolutionized the development of versatile models with zero-shot generalization across a wide range of downstream vision-language tasks. However, the diversity of training tasks of different sources and formats would lead to inevitable task conflicts, where different tasks conflict for the same set of model parameters, resulting in sub-optimal instruction-following abilities. To address that, we propose the Mixture of Cluster-conditional LoRA Experts (MoCLE), a novel Mixture of Experts (MoE) architecture designed to activate the task-customized model parameters based on the instruction clusters. A separate universal expert is further incorporated to improve generalization capabilities of MoCLE for novel instructions. Extensive experiments on InstructBLIP and LLaVA demonstrate the effectiveness of MoCLE.
翻訳日:2024-07-09 00:22:48 公開日:2024-07-04
# 衝突機での散乱断面積によるベルの不等式測定は可能か?

Can Bell inequalities be tested via scattering cross-section at colliders ? ( http://arxiv.org/abs/2401.01162v3 )

ライセンス: Link先を確認
Song Li, Wei Shen, Jin Min Yang, (参考訳) 衝突子におけるベルの不等式をテストするための最近の研究では、散乱断面積からのスピン相関の再構成はスピン相関の双線型形式に依存するが、すべての局所隠れ変数モデル(LHVM)がそのような性質を持つわけではない。 一般LHVMが散乱断面積データによって排除できないことを示すために,粒子生成と崩壊の散乱断面積を標準量子理論と正確に同一に再現できる特定のLHVMを提案する。 これにもかかわらず、散乱断面積によるスピン相関の再構成は、量子スピン相関の代用として古典的なスピン相関を用いたモデルにおいて、LHVMの幅広いクラスを除外することができる。

In current studies for testing Bell inequalities at colliders, the reconstruction of spin correlations from scattering cross-sections relies on the bilinear form of the spin correlations, but not all local hidden variable models (LHVMs) have such a property. To demonstrate that a general LHVM cannot be rule out via scattering cross-section data, we propose a specific LHVM, which can exactly duplicate the same scattering cross-section for particle production and decay as the standard quantum theory, making it indistinguishable at colliders in principle. Despite of this, we find that reconstructing spin correlations through scattering cross-sections can still exclude a broad class of LHVMs, e.g., those models employing classical spin correlations as a surrogate for quantum spin correlations.
翻訳日:2024-07-09 00:22:48 公開日:2024-07-04
# AI生成顔を用いた偽ソーシャルメディアプロファイルの特徴と頻度

Characteristics and prevalence of fake social media profiles with AI-generated faces ( http://arxiv.org/abs/2401.02627v2 )

ライセンス: Link先を確認
Kai-Cheng Yang, Danishjeet Singh, Filippo Menczer, (参考訳) 生成人工知能(AI)の最近の進歩は、偽のソーシャルメディアアカウントを偽造する可能性を懸念しているが、実証的な証拠は乏しい。 本稿では,GAN(Generative Adversarial Networks)が生成した人物のプロフィール画像からTwitter(X)アカウントを体系的に分析する。 我々は、1420件のアカウントのデータセットを提示し、それらが詐欺、スパム、調整されたメッセージの増幅に使われていることを示す。 GAN生成顔の特徴(一貫した眼の配置)を活用し、それを人間のアノテーションで補うことで、野生のGAN生成顔の識別に有効な方法を考案した。 この手法をアクティブなTwitterユーザーのランダムなサンプルに適用することにより、GAN生成した顔の頻度を0.021%から0.044%と見積もる。 これらの発見は、マルチモーダル生成AIがもたらす脅威を浮き彫りにしている。 我々は,検出手法のソースコードと収集したデータを公開し,さらなる調査を行う。 また,ソーシャルメディア利用者のアカウント認識を支援するための実践的ヒューリスティックスも提供する。

Recent advancements in generative artificial intelligence (AI) have raised concerns about their potential to create convincing fake social media accounts, but empirical evidence is lacking. In this paper, we present a systematic analysis of Twitter (X) accounts using human faces generated by Generative Adversarial Networks (GANs) for their profile pictures. We present a dataset of 1,420 such accounts and show that they are used to spread scams, spam, and amplify coordinated messages, among other inauthentic activities. Leveraging a feature of GAN-generated faces -- consistent eye placement -- and supplementing it with human annotation, we devise an effective method for identifying GAN-generated profiles in the wild. Applying this method to a random sample of active Twitter users, we estimate a lower bound for the prevalence of profiles using GAN-generated faces between 0.021% and 0.044% -- around 10K daily active accounts. These findings underscore the emerging threats posed by multimodal generative AI. We release the source code of our detection method and the data we collect to facilitate further investigation. Additionally, we provide practical heuristics to assist social media users in recognizing such accounts.
翻訳日:2024-07-09 00:22:48 公開日:2024-07-04
# Malla: 現実の大規模言語モデル統合型悪意サービス

Malla: Demystifying Real-world Large Language Model Integrated Malicious Services ( http://arxiv.org/abs/2401.03315v2 )

ライセンス: Link先を確認
Zilong Lin, Jian Cui, Xiaojing Liao, XiaoFeng Wang, (参考訳) 大規模言語モデル(LLM)の悪意あるサービス(すなわちMalla)に対する地下での搾取は、サイバー脅威の風景を増幅し、LLM技術の信頼性に関する疑問を呈している。 しかし、この新たなサイバー犯罪を、その規模、影響、技術の観点から理解する努力はほとんどなかった。 本稿では,212の現実世界のMallasに関する最初の体系的研究を行い,地下市場におけるMallasの増殖を明らかにし,その運用的モダリティを明らかにする。 我々の研究は、Mallaエコシステムを明らかにし、その大きな成長と今日の公共LLMサービスへの影響を明らかにします。 Mallas 212 を調査した結果,Mallas が使用する 8 つのバックエンド LLM と,公共 LLM API の保護対策を回避する 182 のプロンプトが発見された。 脱獄プロンプトによる無検閲LLMの悪用や、公開LLM APIの悪用など、Mallasが採用した戦術をさらに軽視する。 我々の発見は、サイバー犯罪によるLLMの現実世界の搾取をよりよく理解し、このサイバー犯罪に対処するための戦略に関する洞察を提供する。

The underground exploitation of large language models (LLMs) for malicious services (i.e., Malla) is witnessing an uptick, amplifying the cyber threat landscape and posing questions about the trustworthiness of LLM technologies. However, there has been little effort to understand this new cybercrime, in terms of its magnitude, impact, and techniques. In this paper, we conduct the first systematic study on 212 real-world Mallas, uncovering their proliferation in underground marketplaces and exposing their operational modalities. Our study discloses the Malla ecosystem, revealing its significant growth and impact on today's public LLM services. Through examining 212 Mallas, we uncovered eight backend LLMs used by Mallas, along with 182 prompts that circumvent the protective measures of public LLM APIs. We further demystify the tactics employed by Mallas, including the abuse of uncensored LLMs and the exploitation of public LLM APIs through jailbreak prompts. Our findings enable a better understanding of the real-world exploitation of LLMs by cybercriminals, offering insights into strategies to counteract this cybercrime.
翻訳日:2024-07-09 00:22:48 公開日:2024-07-04
# PythonSaga: LLMを生成するコードを評価するベンチマークを再定義

PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLMs ( http://arxiv.org/abs/2401.03855v4 )

ライセンス: Link先を確認
Ankit Yadav, Himanshu Beniwal, Mayank Singh, (参考訳) 大規模言語モデル(LLM)を使用したコード生成の急増によって、これらのLLM機能を評価するために多くのベンチマークが登場した。 我々はHumanEvalとMBPPの大規模評価を行い、Pythonコード生成の2つの人気のあるベンチマークを行い、その多様性と難易度を分析した。 我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。 さらに、簡単なタスクの頻度を心配し、モデルの性能推定を膨らませる可能性を明らかにする。 これらの制約に対処するため,様々な難易度にまたがる38のプログラミング概念のバランスのとれた表現を手作りで185のプロンプトを特徴とする,PythonSagaという新しいベンチマークを提案する。 ベンチマークの堅牢性は、既存のCode-LLMの低パフォーマンスによって実証されます。

Driven by the surge in code generation using large language models (LLMs), numerous benchmarks have emerged to evaluate these LLMs capabilities. We conducted a large-scale human evaluation of HumanEval and MBPP, two popular benchmarks for Python code generation, analyzing their diversity and difficulty. Our findings unveil a critical bias towards a limited set of programming concepts, neglecting most of the other concepts entirely. Furthermore, we uncover a worrying prevalence of easy tasks, potentially inflating model performance estimations. To address these limitations, we propose a novel benchmark, PythonSaga, featuring 185 hand-crafted prompts on a balanced representation of 38 programming concepts across diverse difficulty levels. The robustness of our benchmark is demonstrated by the poor performance of existing Code-LLMs.
翻訳日:2024-07-09 00:22:48 公開日:2024-07-04
# 学習したマニフォールド補正によるスコア蒸留サンプリング

Score Distillation Sampling with Learned Manifold Corrective ( http://arxiv.org/abs/2401.05293v2 )

ライセンス: Link先を確認
Thiemo Alldieck, Nikos Kolotouros, Cristian Sminchisescu, (参考訳) SDS(Score Distillation Sampling)は、画像拡散モデルを用いてテキストプロンプトを用いた最適化問題を制御する手法である。 本稿では、SDS損失関数の詳細な解析を行い、その定式化による固有の問題を特定し、驚くほど簡単だが効果的な修正を提案する。 具体的には、損失を異なる要因に分解し、ノイズ勾配の原因となる成分を分離する。 オリジナルの定式化では、ノイズを考慮に入れた高いテキストガイダンスが使用され、過飽和や繰り返し詳細といった不要な副作用が生じる。 その代わりに、画像拡散モデルの時間依存性周波数バイアスを模倣した浅いネットワークを訓練し、効果的に分解する。 我々は、最適化に基づく画像合成と編集、ゼロショット画像翻訳ネットワークトレーニング、テキスト・ツー・3D合成など、定性的かつ定量的な実験を通じて、新たな損失定式化の有効性と効果を実証する。

Score Distillation Sampling (SDS) is a recent but already widely popular method that relies on an image diffusion model to control optimization problems using text prompts. In this paper, we conduct an in-depth analysis of the SDS loss function, identify an inherent problem with its formulation, and propose a surprisingly easy but effective fix. Specifically, we decompose the loss into different factors and isolate the component responsible for noisy gradients. In the original formulation, high text guidance is used to account for the noise, leading to unwanted side effects such as oversaturation or repeated detail. Instead, we train a shallow network mimicking the timestep-dependent frequency bias of the image diffusion model in order to effectively factor it out. We demonstrate the versatility and the effectiveness of our novel loss formulation through qualitative and quantitative experiments, including optimization-based image synthesis and editing, zero-shot image translation network training, and text-to-3D synthesis.
翻訳日:2024-07-09 00:22:48 公開日:2024-07-04
# 分散型動的6Gアプリケーションのためのセマンティック・アウェア・マルチアクセス・スキーム

A Semantic-Aware Multiple Access Scheme for Distributed, Dynamic 6G-Based Applications ( http://arxiv.org/abs/2401.06308v2 )

ライセンス: Link先を確認
Hamidreza Mazandarani, Masoud Shokrnezhad, Tarik Taleb, (参考訳) セマンティック・アウェア・パラダイムの出現は、特に6Gベースのアプリケーションにおいて、革新的なサービスの可能性を示す。 セマンティック抽出技術は大きな進歩を遂げているが,資源配分決定へのセマンティック情報の導入はまだ初期段階であり,今後のシステム要件や特性は考慮されていない。 そこで本研究では,無線スペクトルへの多重アクセス問題に対する新しい定式化を提案する。 これは、$\alpha$-fairnessメトリックを使用して、自己および補助スループットの概念を導入し、ユーザデータ相関を考慮しながら、利用-公正トレードオフを最適化することを目的としている。 当初、この問題は最適解を特定するために分析される。 その後,Semantic-Aware Multi-Agent Double and Dueling Deep Q-Learning (SAMA-D3QL)技術を提案する。 本手法は,MADRL (Model-free Multi-Agent Deep Reinforcement Learning) に基礎を置いている。 提案手法の効率性は, シングルチャネルとマルチチャネルの2つのシナリオを通して評価する。 この結果は、$\alpha$値、関連行列、チャネルのスペクトルにおいて、SAMA-D3QLは代替アプローチよりも一貫して優れていることを示している。 これにより、将来の連合的で動的に進化するアプリケーションの実現を促進するための有望な候補として確立される。

The emergence of the semantic-aware paradigm presents opportunities for innovative services, especially in the context of 6G-based applications. Although significant progress has been made in semantic extraction techniques, the incorporation of semantic information into resource allocation decision-making is still in its early stages, lacking consideration of the requirements and characteristics of future systems. In response, this paper introduces a novel formulation for the problem of multiple access to the wireless spectrum. It aims to optimize the utilization-fairness trade-off, using the $\alpha$-fairness metric, while accounting for user data correlation by introducing the concepts of self- and assisted throughputs. Initially, the problem is analyzed to identify its optimal solution. Subsequently, a Semantic-Aware Multi-Agent Double and Dueling Deep Q-Learning (SAMA-D3QL) technique is proposed. This method is grounded in Model-free Multi-Agent Deep Reinforcement Learning (MADRL), enabling the user equipment to autonomously make decisions regarding wireless spectrum access based solely on their local individual observations. The efficiency of the proposed technique is evaluated through two scenarios: single-channel and multi-channel. The findings illustrate that, across a spectrum of $\alpha$ values, association matrices, and channels, SAMA-D3QL consistently outperforms alternative approaches. This establishes it as a promising candidate for facilitating the realization of future federated, dynamically evolving applications.
翻訳日:2024-07-09 00:22:48 公開日:2024-07-04
# 深層学習の統計理論に関する調査研究:近似, トレーニングダイナミクス, 生成モデル

A Survey on Statistical Theory of Deep Learning: Approximation, Training Dynamics, and Generative Models ( http://arxiv.org/abs/2401.07187v2 )

ライセンス: Link先を確認
Namjoon Suh, Guang Cheng, (参考訳) 本稿では,3つの観点から,ニューラルネットワークの統計理論に関する文献をレビューする。 第一部では、回帰または分類の非パラメトリックフレームワークにおいて、ニューラルネットワークの過剰リスクに関する結果についてレビューする。 これらの結果はニューラルネットワークの明示的な構築に依存しており、近似理論からのツールが採用されているため、過剰リスクの高速収束率につながる。 これらの構成により、ネットワークの幅と深さはサンプルサイズ、データ次元、関数の滑らかさで表現できる。 それでも、その基盤となる分析は、ディープニューラルネットワークの非凸な状況におけるグローバルな最小化にのみ適用される。 これは、第2部におけるニューラルネットワークのトレーニングダイナミクスをレビューする動機となります。 具体的には、勾配に基づく手法でトレーニングされたニューラルネットワークが、目に見えないデータに対してうまく一般化できるソリューションを見つける方法」に答えようとする論文をレビューする。 特に、ニューラルタンジェントカーネル(NTK)パラダイムと平均フィールド(MF)パラダイムの2つのよく知られたパラダイムがレビューされている。 最後に,GAN(Generative Adversarial Networks)や拡散モデル,Large Language Models(LLMs)におけるICL(In-context Learning)などの生成モデルに関する最近の理論的進歩について概説する。 以前の2つのモデルは、現代の生成AI時代の主要な柱として知られており、ICLは、文脈におけるいくつかの例から学ぶLLMの強力な能力である。 最後に,深層学習理論に期待できるいくつかの方向性を提案することで,論文を締めくくる。

In this article, we review the literature on statistical theories of neural networks from three perspectives. In the first part, results on excess risks for neural networks are reviewed in the nonparametric framework of regression or classification. These results rely on explicit constructions of neural networks, leading to fast convergence rates of excess risks, in that tools from the approximation theory are adopted. Through these constructions, the width and depth of the networks can be expressed in terms of sample size, data dimension, and function smoothness. Nonetheless, their underlying analysis only applies to the global minimizer in the highly non-convex landscape of deep neural networks. This motivates us to review the training dynamics of neural networks in the second part. Specifically, we review papers that attempt to answer ``how the neural network trained via gradient-based methods finds the solution that can generalize well on unseen data.'' In particular, two well-known paradigms are reviewed: the Neural Tangent Kernel (NTK) paradigm, and Mean-Field (MF) paradigm. In the last part, we review the most recent theoretical advancements in generative models including Generative Adversarial Networks (GANs), diffusion models, and in-context learning (ICL) in the Large Language Models (LLMs). The former two models are known to be the main pillars of the modern generative AI era, while ICL is a strong capability of LLMs in learning from a few examples in the context. Finally, we conclude the paper by suggesting several promising directions for deep learning theory.
翻訳日:2024-07-09 00:22:48 公開日:2024-07-04
# Fourier Reparameterized Training によるインシシトニューラル表現の改善

Improved Implicit Neural Representation with Fourier Reparameterized Training ( http://arxiv.org/abs/2401.07402v4 )

ライセンス: Link先を確認
Kexuan Shi, Xingyu Zhou, Shuhang Gu, (参考訳) Inlicit Neural Representation (INR)は、近年様々なコンピュータビジョンタスクにおいて、強力な表現パラダイムとして成功している。 バニラ多層パーセプトロン(MLP)の低周波バイアス問題により、位置符号化や周期的アクティベーション関数といった高度な手法を研究し、INRの精度を向上させる。 本稿では,ネットワークトレーニングバイアスと再パラメータ化手法を結合し,重み付け再パラメータ化がMDPのスペクトルバイアスを軽減することができることを理論的に証明する。 理論解析に基づき,固定されたフーリエ基底の係数行列を学習し,MLPの重みを構成するフーリエ再パラメータ化法を提案する。 本稿では,バニラ型MLP,位置符号化型MLP,高度なアクティベーション機能付きMLPなど,様々なMLPアーキテクチャを用いたINRタスクに対するフーリエ再パラメータ化手法の評価を行った。 異なるMLPアーキテクチャ上での優越性近似は,提案手法の利点を明らかに証明する。 フーリエのパラメータ化手法によって、より多くのテクスチャと少ないアーティファクトを持つより優れたINRをトレーニングデータから学べる。

Implicit Neural Representation (INR) as a mighty representation paradigm has achieved success in various computer vision tasks recently. Due to the low-frequency bias issue of vanilla multi-layer perceptron (MLP), existing methods have investigated advanced techniques, such as positional encoding and periodic activation function, to improve the accuracy of INR. In this paper, we connect the network training bias with the reparameterization technique and theoretically prove that weight reparameterization could provide us a chance to alleviate the spectral bias of MLP. Based on our theoretical analysis, we propose a Fourier reparameterization method which learns coefficient matrix of fixed Fourier bases to compose the weights of MLP. We evaluate the proposed Fourier reparameterization method on different INR tasks with various MLP architectures, including vanilla MLP, MLP with positional encoding and MLP with advanced activation function, etc. The superiority approximation results on different MLP architectures clearly validate the advantage of our proposed method. Armed with our Fourier reparameterization method, better INR with more textures and less artifacts can be learned from the training data.
翻訳日:2024-07-09 00:22:48 公開日:2024-07-04
# ChatGPTベースのレコメンダシステムにおけるバイアスの理解:プロバイダフェアネス、時間安定性、信頼性

Understanding Biases in ChatGPT-based Recommender Systems: Provider Fairness, Temporal Stability, and Recency ( http://arxiv.org/abs/2401.10545v3 )

ライセンス: Link先を確認
Yashar Deldjoo, (参考訳) 本稿では,ChatGPTに基づく推薦システムにおけるバイアスについて考察し,提供者フェアネス(イテム側フェアネス)に着目した。 広範な実験と1000以上のAPI呼び出しを通じて、提供者フェアネス、カタログのカバレッジ、時間的安定性、リレーシシデンスなどの設計戦略、構造、システムの役割、インテントオン評価指標を含む、迅速な設計戦略の影響を調査する。 第1実験では、これらの戦略を古典的トップKレコメンデーションで検証し、第2実験では、逐次インコンテキスト学習(ICL)を評価する。 最初の実験では、トップK推薦の精度と公平性について、7つの異なるプロンプトシナリオを評価した。 Simple and Chain-of-Thought (COT)のような正確性指向のプロンプトは、時間的鮮度を向上しているにもかかわらず、精度を最大50%低下させる多様化プロンプトより優れている。 フェアネスを「フェアレコメンデーターとしての行動」のようなシステムの役割に組み込むことは、プロンプト内のフェアネスディレクティブよりも効果的であることが証明された。 多様化の促進により新しい映画が推奨され、従来のコラボレーティブ・フィルタリング(CF)モデルよりも幅広いジャンルの配給が提供された。 第2の実験では、ゼロショットと少数ショットのICLを比較してシーケンシャルICLを探索している。 その結果,プロンプトにユーザ人口統計情報を含めると,モデルバイアスやステレオタイプに影響を及ぼすことがわかった。 しかし、ICLはゼロショット学習よりもアイテムフェアネスとカタログカバレッジを一貫して改善しなかった。 ゼロショット学習はNDCGとカバレッジを向上し, ICL-2は年齢群コンテキストを含む場合のヒット率(HR)をわずかに改善した。 本稿では,RecLLMsのバイアス,特にプロバイダフェアネスとカタログカバレッジについて考察する。 迅速な設計,学習戦略,システムの役割を検討することで,LLMをレコメンデーションシステムに統合する可能性と課題を明らかにする。 詳細はhttps://github.com/yasdel/Benchmark_RecLLM_Fairnessで確認できる。

This paper explores the biases in ChatGPT-based recommender systems, focusing on provider fairness (item-side fairness). Through extensive experiments and over a thousand API calls, we investigate the impact of prompt design strategies-including structure, system role, and intent-on evaluation metrics such as provider fairness, catalog coverage, temporal stability, and recency. The first experiment examines these strategies in classical top-K recommendations, while the second evaluates sequential in-context learning (ICL). In the first experiment, we assess seven distinct prompt scenarios on top-K recommendation accuracy and fairness. Accuracy-oriented prompts, like Simple and Chain-of-Thought (COT), outperform diversification prompts, which, despite enhancing temporal freshness, reduce accuracy by up to 50%. Embedding fairness into system roles, such as "act as a fair recommender," proved more effective than fairness directives within prompts. Diversification prompts led to recommending newer movies, offering broader genre distribution compared to traditional collaborative filtering (CF) models. The second experiment explores sequential ICL, comparing zero-shot and few-shot ICL. Results indicate that including user demographic information in prompts affects model biases and stereotypes. However, ICL did not consistently improve item fairness and catalog coverage over zero-shot learning. Zero-shot learning achieved higher NDCG and coverage, while ICL-2 showed slight improvements in hit rate (HR) when age-group context was included. Our study provides insights into biases of RecLLMs, particularly in provider fairness and catalog coverage. By examining prompt design, learning strategies, and system roles, we highlight the potential and challenges of integrating LLMs into recommendation systems. Further details can be found at https://github.com/yasdel/Benchmark_RecLLM_Fairness.
翻訳日:2024-07-09 00:13:02 公開日:2024-07-04
# 確率最適化のためのヘシアン逆数のオンライン推定と普遍確率ニュートンアルゴリズムへの応用

Online estimation of the inverse of the Hessian for stochastic optimization with application to universal stochastic Newton algorithms ( http://arxiv.org/abs/2401.10923v2 )

ライセンス: Link先を確認
Antoine Godichon-Baggioni, Wei Lu, Bruno Portier, (参考訳) 本稿では,期待値として記述された凸関数の最小値推定のための2階確率最適化について述べる。 Robbins-Monro 法を用いて逆 Hessian 行列の直接帰納的推定手法を提案する。 このアプローチは、計算の複雑さを大幅に減らすことができる。 とりわけ、普遍確率ニュートン法を開発し、提案手法の漸近的効率性を調べることができる。 これにより、確率最適化における二階アルゴリズムの適用範囲が拡大される。

This paper addresses second-order stochastic optimization for estimating the minimizer of a convex function written as an expectation. A direct recursive estimation technique for the inverse Hessian matrix using a Robbins-Monro procedure is introduced. This approach enables to drastically reduces computational complexity. Above all, it allows to develop universal stochastic Newton methods and investigate the asymptotic efficiency of the proposed approach. This work so expands the application scope of secondorder algorithms in stochastic optimization.
翻訳日:2024-07-09 00:13:02 公開日:2024-07-04
# PhotoBot: 自然言語による参照ガイド付きインタラクティブ写真

PhotoBot: Reference-Guided Interactive Photography via Natural Language ( http://arxiv.org/abs/2401.11061v3 )

ライセンス: Link先を確認
Oliver Limoyo, Jimmy Li, Dmitriy Rivkin, Jonathan Kelly, Gregory Dudek, (参考訳) 我々は,ハイレベルな人間の言語指導とロボットカメラマンとの相互作用に基づいた,完全自動写真取得のためのフレームワークPhotoBotを紹介する。 本稿では,キュレートされたギャラリーから選択した参照画像を通じて,ユーザに対して写真提案を伝えることを提案する。 視覚言語モデル (VLM) とオブジェクト検出器を用いて, テキスト記述による参照画像の特徴付けを行い, テキストベース推論によるユーザの言語クエリに基づく参照画像の検索に, 大規模言語モデル (LLM) を用いる。 参照画像と観察シーンを対応付けるために,視覚変換器から事前学習した特徴を利用して,特徴のある外観変化を横断する意味的類似性を捉える。 これらの特徴を用いて,視点n-point(PnP)問題を解くことにより,RGB-Dカメラのポーズ調整を提案する。 我々は手首カメラを備えたマニピュレータによるアプローチを実証する。 われわれのユーザー調査によると、PhotoBotが撮影した写真は、人間のフィードバックによって測定された、ユーザー自身が撮影した写真よりも審美的に喜ぶことが多い。 また,PhotoBotが絵画などの参考資料に一般化可能であることも示している。

We introduce PhotoBot, a framework for fully automated photo acquisition based on an interplay between high-level human language guidance and a robot photographer. We propose to communicate photography suggestions to the user via reference images that are selected from a curated gallery. We leverage a visual language model (VLM) and an object detector to characterize the reference images via textual descriptions and then use a large language model (LLM) to retrieve relevant reference images based on a user's language query through text-based reasoning. To correspond the reference image and the observed scene, we exploit pre-trained features from a vision transformer capable of capturing semantic similarity across marked appearance variations. Using these features, we compute suggested pose adjustments for an RGB-D camera by solving a perspective-n-point (PnP) problem. We demonstrate our approach using a manipulator equipped with a wrist camera. Our user studies show that photos taken by PhotoBot are often more aesthetically pleasing than those taken by users themselves, as measured by human feedback. We also show that PhotoBot can generalize to other reference sources such as paintings.
翻訳日:2024-07-09 00:13:02 公開日:2024-07-04
# AIのアイデアが人間のアイデアの創造性、多様性、進化にどのように影響するか:大規模でダイナミックな実験から

How AI Ideas Affect the Creativity, Diversity, and Evolution of Human Ideas: Evidence From a Large, Dynamic Experiment ( http://arxiv.org/abs/2401.13481v2 )

ライセンス: Link先を確認
Joshua Ashkinaze, Julia Mendelsohn, Li Qiwei, Ceren Budak, Eric Gilbert, (参考訳) 大規模言語モデルの出力への露出は急速に増加している。 AIが生み出すアイデアは人間のアイデアにどのように影響するのか? 実験(800人以上、40カ国以上)を行い、参加者はChatGPTまたは先行実験参加者の創造的アイデアを観察し、その上で自身のアイデアをブレインストーミングした。 我々は,AI生成例数(無,低,高露出)と,その例が「AI」とラベル付けされている場合(開示)を変動させた。 我々の動的実験設計 - 実験条件における先行参加者のアイデアは、同じ実験条件における将来の参加者の刺激として使用されます - は、文化創造の相互依存的なプロセスに言及します。 したがって,LLMを「培養ループ内」に組み込むことによる複合効果を捉える。 高いAI露出(AI露出は低いが)は個々のアイデアの創造性に影響を与えるものではなく、集団的なアイデアの多様性の平均量と変化率を増加させることを発見した。 AIは考えを変えましたが、良くありません。 開示の主な効果はなかった。 また、自己報告されたクリエイティブな人々は、AIからのアイデアを知ることで影響を受けていないこと、そして参加者がタスクが難しいときにAIのアイデアを意識的に採用する可能性があることもわかりました。 我々の研究結果は、AIのアイデアの導入は集団の多様性を増すが、個人の創造性は増さないことを示唆している。

Exposure to large language model output is rapidly increasing. How will seeing AI-generated ideas affect human ideas? We conducted an experiment (800+ participants, 40+ countries) where participants viewed creative ideas that were from ChatGPT or prior experimental participants and then brainstormed their own idea. We varied the number of AI-generated examples (none, low, or high exposure) and if the examples were labeled as 'AI' (disclosure). Our dynamic experiment design -- ideas from prior participants in an experimental condition are used as stimuli for future participants in the same experimental condition -- speaks to the interdependent process of cultural creation: creative ideas are built upon prior ideas. Hence, we capture the compounding effects of having LLMs 'in the culture loop'. We find that high AI exposure (but not low AI exposure) did not affect the creativity of individual ideas but did increase the average amount and rate of change of collective idea diversity. AI made ideas different, not better. There were no main effects of disclosure. We also found that self-reported creative people were less influenced by knowing an idea was from AI and that participants may knowingly adopt AI ideas when the task is difficult. Our findings suggest that introducing AI ideas may increase collective diversity but not individual creativity.
翻訳日:2024-07-09 00:13:02 公開日:2024-07-04
# 古典的ハードハミルトニアンの基底状態解く多項式時間散逸に基づく量子アルゴリズム

A polynomial-time dissipation-based quantum algorithm for solving the ground states of a class of classically hard Hamiltonians ( http://arxiv.org/abs/2401.13946v5 )

ライセンス: Link先を確認
Zhong-Xia Shang, Zi-Han Chen, Chao-Yang Lu, Jian-Wei Pan, Ming-Cheng Chen, (参考訳) 本研究では、ハミルトン群の基底状態を解決するための量子アルゴリズムを提案する。 我々のアルゴリズムに現れた指数的スピードアップのメカニズムは、オープン量子系における散逸に由来する。 この散逸を利用するために、中心的なアイデアはベクトル化と正規化により$n$-qubit 密度行列 $\rho$ を 2n$-qubit 純状態 $|\rho\rangle$ として扱うことである。 そうすることによって、リンドブラッドマスター方程式(LME)は、非エルミート的ハミルトニアン$L$を持つシュリンガー方程式となる。 したがって、 LME の定常状態 $\rho_{ss}$ は、基底状態 $|\rho_{ss}\rangle$ と $L^\dag L$ の形で対応する。 LMEのランタイムは、初期状態と基底状態の重複を$\zeta$に依存しない。 入力部分に対して、ハミルトニアン$H$が妥当な仮定の下で与えられたとき、多項式時間的古典的手続きを与え、$L$が存在して$H-E_0=L^\dag L$であるかどうかを判断し、解決する。 出力部分について、ミッションは基底状態 $|\rho_{ss}\rangle$ に対する任意の作用素の期待値を推定するものと定義する。 我々は、実際に$|\rho_{ss}\rangle$を作成することの量子硬さに関するいくつかの証拠を与え、これは、我々のアルゴリズムと量子位相推定のような射影に基づく量子アルゴリズムの間の潜在的な複雑さの分離を示す。 さらに、我々のアルゴリズムで効率的に解けるハミルトニアンは、$\text{P}\neq \text{BQP}$を仮定する古典的なハードなインスタンスを含むことを示す。 その後、他の種類のハミルトニアンへの一般化や、アルゴリズムの「非線形」力学など、アルゴリズムの重要な側面について論じ、分析する。

In this work, we give a quantum algorithm for solving the ground states of a class of Hamiltonians. The mechanism of the exponential speedup that appeared in our algorithm comes from dissipation in open quantum systems. To utilize the dissipation, the central idea is to treat $n$-qubit density matrices $\rho$ as $2n$-qubit pure states $|\rho\rangle$ by vectorization and normalization. By doing so, the Lindblad master equation (LME) becomes a Schr\"odinger equation with non-Hermitian Hamiltonian $L$. The steady-state $\rho_{ss}$ of the LME, therefore, corresponds to the ground states $|\rho_{ss}\rangle$ of Hamiltonians with the form $L^\dag L$. The runtime of the LME has no dependence on $\zeta$ the overlap between the initial state and the ground state compared with the Heisenberg scaling $\mathcal{O}(\zeta^{-1})$ in other algorithms. For the input part, given a Hamiltonian $H$, under plausible assumptions, we give a polynomial-time classical procedure to judge and solve whether there exists $L$ such that $H-E_0=L^\dag L$. For the output part, we define the mission as estimating expectation values of arbitrary operators with respect to the ground state $|\rho_{ss}\rangle$, which can be done surprisingly by an efficient measurement protocol on $\rho_{ss}$ with no need to prepare $|\rho_{ss}\rangle$. We give several pieces of evidence on the quantum hardness of really preparing $|\rho_{ss}\rangle$, which indicates a potential complexity separation between our algorithm and those projection-based quantum algorithms such as quantum phase estimation. Further, we show that the Hamiltonians that can be efficiently solved by our algorithms contain classically hard instances assuming $\text{P}\neq \text{BQP}$. Later, we discuss and analyze several important aspects of the algorithm including generalizing to other types of Hamiltonians and the "non-linear`` dynamics in the algorithm.
翻訳日:2024-07-09 00:13:02 公開日:2024-07-04
# CNG-SFDA: クリーンでノイズの多い領域で、オンラインのソース-フリードメイン適応をガイド

CNG-SFDA: Clean-and-Noisy Region Guided Online-Offline Source-Free Domain Adaptation ( http://arxiv.org/abs/2401.14587v2 )

ライセンス: Link先を確認
Hyeonwoo Cho, Chanmin Park, Donghee Kim, Jinyoung Kim, Won Hwa Kim, (参考訳) ドメインシフトは、トレーニング(ソース)とテスト(ターゲット)データが分散する際に発生する。 Source-Free Domain Adaptation (SFDA)はこのドメインシフト問題に対処し、十分にトレーニングされたソースモデルとラベルなしのターゲットデータのみが利用可能なシナリオで、ソースドメイン上のトレーニング済みモデルをターゲットドメインに採用することを目指している。 このシナリオでは、モデルの性能に悪影響を与えるため、ターゲットドメインでの偽ラベルの扱いが不可欠である。 この問題に対処するため,本研究では,クラスタのプロトタイプ(例えば,各サンプルクラスタのセントロイド)とその構造を,ソースモデルによってオンライン的に定式化されたターゲットドメインに更新することを提案する。 特徴空間では, 異なる領域のサンプルは, クラスタのプロトタイプによって異なる擬似ラベル分布特性を有しており, クリーンかつノイズの多い領域を定義して, 対象領域をクリーンな擬似ラベルで選択的に訓練する一方, クリーンな領域とノイズの多い領域の中間特徴を表す混合入力を導入し, クラスタのコンパクト性を高める。 我々は、オンライン/オフラインのFDA設定において、複数のデータセットについて広範な実験を行い、その結果、我々の方法であるCNG-SFDAは、ほとんどのケースで最先端を実現していることを示した。

Domain shift occurs when training (source) and test (target) data diverge in their distribution. Source-Free Domain Adaptation (SFDA) addresses this domain shift problem, aiming to adopt a trained model on the source domain to the target domain in a scenario where only a well-trained source model and unlabeled target data are available. In this scenario, handling false labels in the target domain is crucial because they negatively impact the model performance. To deal with this problem, we propose to update cluster prototypes (i.e., centroid of each sample cluster) and their structure in the target domain formulated by the source model in online manners. In the feature space, samples in different regions have different pseudo-label distribution characteristics affected by the cluster prototypes, and we adopt distinct training strategies for these samples by defining clean and noisy regions: we selectively train the target with clean pseudo-labels in the clean region, whereas we introduce mix-up inputs representing intermediate features between clean and noisy regions to increase the compactness of the cluster. We conducted extensive experiments on multiple datasets in online/offline SFDA settings, whose results demonstrate that our method, CNG-SFDA, achieves state-of-the-art for most cases.
翻訳日:2024-07-09 00:13:02 公開日:2024-07-04
# 任意スケールの病理画像スーパーレゾリューションに向けて: インシシト自己テクスチャ強化による効率的なデュアルブランチフレームワーク

Towards Arbitrary-Scale Histopathology Image Super-resolution: An Efficient Dual-branch Framework via Implicit Self-texture Enhancement ( http://arxiv.org/abs/2401.15613v4 )

ライセンス: Link先を確認
Minghong Duan, Linhao Qu, Zhiwei Yang, Manning Wang, Chenxi Zhang, Zhijian Song, (参考訳) 高品質な全スライディングスキャナーは高価で複雑で時間を要するため、日常臨床における高解像度の病理画像の取得と利用が制限される。 低分解能画像から高分解能画像を合成することにより、深層学習に基づく単一画像の超解像技術がこの問題の解決に有効な方法である。 しかし、病理画像に適用された既存の超解像モデルは、固定整数倍率でしか機能せず、適用性が著しく低下する。 暗黙的な神経表現に基づく手法は、自然画像の任意のスケールの超解像において有望な結果を示しているが、それを病理画像に直接適用することは、自然画像とは異なる独特の微細な画像テクスチャを持つため、不十分である。 そこで本研究では,この課題に対処するために,任意の規模の病理像の超解像を実現するためのImplicit Self-Texture Enhancement-based dual-branch framework (ISTE)を提案する。 ISTEには、まずピクセルの特徴とテクスチャの特徴を学習するテクスチャ学習ブランチと、画素学習ブランチが含まれている。 そして、2段階のテクスチャ強化戦略を設計し、2段階のテクスチャを融合させて超解像結果を得る。 3つの公開データセットに対する大規模な実験によると、ISTEは既存の固定スケールおよび任意のスケールのアルゴリズムを複数の倍率で上回り、下流タスクのパフォーマンスを向上させる。 我々の知る限りでは、病理画像における任意のスケールの超解像を実現するための最初の試みである。 コードは利用可能。

High-quality whole-slide scanners are expensive, complex, and time-consuming, thus limiting the acquisition and utilization of high-resolution pathology whole-slide images in daily clinical work. Deep learning-based single-image super-resolution techniques are an effective way to solve this problem by synthesizing high-resolution images from low-resolution ones. However, the existing super-resolution models applied in pathology images can only work in fixed integer magnifications, significantly decreasing their applicability. Though methods based on implicit neural representation have shown promising results in arbitrary-scale super-resolution of natural images, applying them directly to pathology images is inadequate because they have unique fine-grained image textures different from natural images. Thus, we propose an Implicit Self-Texture Enhancement-based dual-branch framework (ISTE) for arbitrary-scale super-resolution of pathology images to address this challenge. ISTE contains a pixel learning branch and a texture learning branch, which first learn pixel features and texture features, respectively. Then, we design a two-stage texture enhancement strategy to fuse the features from the two branches to obtain the super-resolution results, where the first stage is feature-based texture enhancement, and the second stage is spatial-domain-based texture enhancement. Extensive experiments on three public datasets show that ISTE outperforms existing fixed-scale and arbitrary-scale algorithms at multiple magnifications and helps to improve downstream task performance. To the best of our knowledge, this is the first work to achieve arbitrary-scale super-resolution in pathology images. Codes will be available.
翻訳日:2024-07-09 00:13:02 公開日:2024-07-04
# 量子メトロロジーのための量子計測符号化

Quantum Measurement Encoding for Quantum Metrology ( http://arxiv.org/abs/2401.15622v2 )

ライセンス: Link先を確認
Jing Yang, (参考訳) 環境デコヒーレンスの存在下での関心パラメータの精度を保つことは、散逸性量子センシングにおいて重要な課題である。 本研究では,デコヒーレンス効果が量子計測,ダブド量子計測エンコーディングによって生じる場合の量子距離論について検討する。 この場合、推定パラメータは、デコヒーレンスフリーの場合のユニタリチャネルまたはデコヒーレンスの場合のトレース保存量子チャネルの符号化パラメータとは異なり、量子測定によって量子状態に符号化される。 精度保存計測符号化の条件を同定する。 これらの条件は、量子測定によってあるサブシステムから別のサブシステムへ気象情報を転送するために用いられる。 さらに、ポストセレクトされた非エルミートセンシングは、測定エンコーディングによる量子センシングと見なすこともできる。 非エルミートセンシングにおいて精度保存条件が違反した場合、精度の喪失に関する普遍的な公式を導出する。

Preserving the precision of the parameter of interest in the presence of environmental decoherence is an important yet challenging task in dissipative quantum sensing. In this work, we study quantum metrology when the decoherence effect is unraveled by a set of quantum measurements,dubbed quantum measurement encoding. In our case, the estimation parameter is encoded into a quantum state through a quantum measurement, unlike the parameter encoding through a unitary channel in the decoherence-free case or trace-preserving quantum channels in the case of decoherence. We identify conditions for a precision-preserving measurement encoding. These conditions can be employed to transfer metrological information from one subsystem to another through quantum measurements. Furthermore, postselected non-Hermitian sensing can also be viewed as quantum sensing with measurement encoding. When the precision-preserving conditions are violated in non-Hermitian sensing, we derive a universal formula for the loss of precision.
翻訳日:2024-07-09 00:13:01 公開日:2024-07-04
# 大規模言語モデルにおける条件とモーダル推論

Conditional and Modal Reasoning in Large Language Models ( http://arxiv.org/abs/2401.17169v2 )

ライセンス: Link先を確認
Wesley H. Holliday, Matthew Mandelkern, Cedegao E. Zhang, (参考訳) 大規模言語モデル(LLM)の推論能力は、AIと認知科学における研究の活発化のトピックである。 本稿では,LLMが論理的に正しい推論と論理的に誤った推論を区別できる範囲について検討する。 条件付き推論パターン(例:アンが女王ならボブはジャック)とてんかんのモーダル(例:アンがエースを持っているかもしれない」「ボブは王でなければならない」)に焦点を当てる。 これらの推論は論理学者、哲学者、言語学者にとって特に興味を持ち、遠位の可能性について推論する基本的な人間の能力において中心的な役割を果たしている。 したがって、LLMの推論における評価は、LLMの推論能力が人間の推論とどの程度一致しているかという問題に大きく関係している。 私たちがテストしたLCMの中で、GPT-4モデルファミリ以外は条件付きで基本的なミスを犯すことが多いが、ゼロショットチェーンのプロンプトはミスを減らすのに役立ちます。 さらに、GPT-4ファミリーでさえ、疫学的モーダルを含む推論パターンの論理的に矛盾した判断を示しており、ほぼ全てのモデルは、人間の判断と一致しない文献で広く議論されている複雑な条件推論に対する回答を与える。 これらの結果は、今日のLLMにおける基本的な論理的推論のギャップを浮き彫りにする。

The reasoning abilities of large language models (LLMs) are the topic of a growing body of research in AI and cognitive science. In this paper, we probe the extent to which twenty-five LLMs are able to distinguish logically correct inferences from logically fallacious ones. We focus on inference patterns involving conditionals (e.g., 'If Ann has a queen, then Bob has a jack') and epistemic modals (e.g., 'Ann might have an ace', 'Bob must have a king'). These inferences have been of special interest to logicians, philosophers, and linguists, since they play a central role in the fundamental human ability to reason about distal possibilities. Assessing LLMs on these inferences is thus highly relevant to the question of how much the reasoning abilities of LLMs match those of humans. Among the LLMs we tested, all but the GPT-4 model family often make basic mistakes with conditionals, though zero-shot chain-of-thought prompting helps them make fewer mistakes. Moreover, even the GPT-4 family displays logically inconsistent judgments across inference patterns involving epistemic modals, and almost all models give answers to certain complex conditional inferences widely discussed in the literature that do not match human judgments. These results highlight gaps in basic logical reasoning in today's LLMs.
翻訳日:2024-07-09 00:13:01 公開日:2024-07-04
# 多体量子カオスの制御:Bose-Hubbardシステム

Controlling Many-Body Quantum Chaos: Bose-Hubbard systems ( http://arxiv.org/abs/2401.17744v2 )

ライセンス: Link先を確認
Lukas Beringer, Mathias Steinhuber, Juan Diego Urbina, Klaus Richter, Steven Tomsovic, (参考訳) この研究は、光学格子に閉じ込められた超低温のボゾンガスに対する多体量子カオスの量子制御応用を開発する。 古典的なカオスシステムにおける制御目的の初期条件の変化に対して指数的感度を利用する方法が長年知られている。 ターゲティングとして知られるテクニックでは、制御の障害ではなく、不安定がリソースとなる。 近年、この古典的ターゲティングは、避けられない量子状態の拡散に周期的に対処するか、あるいは制御ハミルトニアンを導入することによって量子系に一般化され、どちらも、様々な所望のターゲット状態に対して、特別なカオス軌道に沿って局所化された状態が導かれるようにしている。 厳密なユニタリ力学のみが関与し、コヒーレントな量子ターゲティングを与える。 本稿では, カオス力学系におけるボース・ハッバード系に対する制御ハミルトニアンの導入について述べる。 適切に選択された不安定な平均場解は、正確な位相関係と占有状態を持つ状態に非常に高速に追従することができる。 本質的に、この方法は、かなり特殊な状態にアクセスできる量子シミュレーション技術を生成する。 このプロトコルは化学ポテンシャルの時間依存的な制御に還元され、光学格子実験に応用される可能性が開ける。 量子多体傷のカスタム状態準備および安定化への明示的な応用は、1次元および2次元格子で示される(同様に3次元の応用も可能である)。

This work develops a quantum control application of many-body quantum chaos for ultracold bosonic gases trapped in optical lattices. It is long known how to harness exponential sensitivity to changes in initial conditions for control purposes in classically chaotic systems. In the technique known as targeting, instead of a hindrance to control, the instability becomes a resource. Recently, this classical targeting has been generalized to quantum systems either by periodically countering the inevitable quantum state spreading or by introducing a control Hamiltonian, where both enable localized states to be guided along special chaotic trajectories toward any of a broad variety of desired target states. Only strictly unitary dynamics are involved; i.e., it gives a coherent quantum targeting. In this paper, the introduction of a control Hamiltonian is applied to Bose-Hubbard systems in chaotic dynamical regimes. Properly selected unstable mean field solutions can be followed quite rapidly to states possessing precise phase relationships and occupancies. In essence, the method generates a quantum simulation technique that can access rather special states. The protocol reduces to a time-dependent control of the chemical potentials, opening up the possibility for application in optical lattice experiments. Explicit applications to custom state preparation and stabilization of quantum many-body scars are presented in one- and two-dimensional lattices (three-dimensional applications are similarly possible).
翻訳日:2024-07-09 00:03:17 公開日:2024-07-04
# KVQuant:KVキャッシュ量子化による1000万コンテキストLLM推論を目指して

KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization ( http://arxiv.org/abs/2401.18079v4 )

ライセンス: Link先を確認
Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Michael W. Mahoney, Yakun Sophia Shao, Kurt Keutzer, Amir Gholami, (参考訳) LLMは、大きなコンテキストウインドウを必要とするドキュメント分析や要約のようなアプリケーションでの利用が増加しており、これらの大きなコンテキストウインドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な原因となっている。 量子化はKVキャッシュのアクティベーションを圧縮するための有望なアプローチであるが、既存のソリューションは、サブ-4ビットのような超低精度でアクティベーションを正確に表現することができない。 本稿では、キャッシュされたKVアクティベーションを定量化する新しい手法を取り入れて、この問題に対処するKVQuantについて述べる。 i) チャネルごとの鍵量子化。ここでは、キーアクティベーションを量子化し、分布をよりよく一致させる寸法を調整する。 二 回転位置埋め込みの前のキーアクティベーションを定量化し、その量子化への影響を緩和する前回転鍵量子化 三 均一なKVキャッシュの量子化で、各層ごとの感度重み付き非均一なデータ型を導出し、その分布をよりよく表す。 (4) ベクトル単位の Dense-and-Sparse Quantization では、各ベクトルに対して別々に外れ値を分離し、量子化範囲のスキューを最小化する。 提案手法をLLaMA,Llama-2,Llama-3,Mistralの各モデルに適用することにより,Wikitext-2とC4の2つの3ビット量子化による<0.1$のパープレキシティ劣化を実現し,既存手法よりも優れた性能を実現した。 提案手法は,A100-80GBのGPUで最大100万,8GPUで最大1000万のコンテキスト長を持つLLaMA-7Bモデルを実現する。

LLMs are seeing growing use for applications such as document analysis and summarization which require large context windows, and with these large context windows KV cache activations surface as the dominant contributor to memory consumption during inference. Quantization is a promising approach for compressing KV cache activations; however, existing solutions fail to represent activations accurately in ultra-low precisions, such as sub-4-bit. In this work, we present KVQuant, which addresses this problem by incorporating novel methods for quantizing cached KV activations, including: (i) Per-Channel Key Quantization, where we adjust the dimension along which we quantize the Key activations to better match the distribution; (ii) Pre-RoPE Key Quantization, where we quantize Key activations before the rotary positional embedding to mitigate its impact on quantization; (iii) Non-Uniform KV Cache Quantization, where we derive per-layer sensitivity-weighted non-uniform datatypes that better represent the distributions; and (iv) Per-Vector Dense-and-Sparse Quantization, where we isolate outliers separately for each vector to minimize skews in quantization ranges. By applying our method to the LLaMA, Llama-2, Llama-3, and Mistral models, we achieve $<0.1$ perplexity degradation with 3-bit quantization on both Wikitext-2 and C4, outperforming existing approaches. Our method enables serving the LLaMA-7B model with a context length of up to 1 million on a single A100-80GB GPU and up to 10 million on an 8-GPU system.
翻訳日:2024-07-09 00:03:17 公開日:2024-07-04
# ボットとは何か?ソーシャルメディアボット検出における大規模言語モデルの可能性とリスク

What Does the Bot Say? Opportunities and Risks of Large Language Models in Social Media Bot Detection ( http://arxiv.org/abs/2402.00371v2 )

ライセンス: Link先を確認
Shangbin Feng, Herun Wan, Ningnan Wang, Zhaoxuan Tan, Minnan Luo, Yulia Tsvetkov, (参考訳) ソーシャルメディアのボット検出は、機械学習ボット検出器の進歩と、検出を避けるための敵対的なボット戦略との武器競争だった。 本研究では、社会ボット検出における最先端の大規模言語モデル(LLM)の機会とリスクを調査することで、武器競争を次のレベルに引き上げる。 そこで本研究では,多種多様なユーザ情報モダリティを分割し,克服するための混成不均質なフレームワークを提案することで,LCMに基づく新しいボット検出器を設計する。 リスクを照らすため,LLM誘導によるユーザテキストと構造化情報の操作による検出回避の可能性を探る。 2つのデータセット上での3つのLLMによる大規模な実験では、1000個の注釈付きサンプルの命令チューニングによって、両方のデータセットで最先端のベースラインを最大9.1%上回る特殊なLLMが生成される一方、LLM誘導の操作戦略は既存のボット検出器の性能を最大29.6%低下させ、ボット検出システムの校正と信頼性を損なう可能性がある。

Social media bot detection has always been an arms race between advancements in machine learning bot detectors and adversarial bot strategies to evade detection. In this work, we bring the arms race to the next level by investigating the opportunities and risks of state-of-the-art large language models (LLMs) in social bot detection. To investigate the opportunities, we design novel LLM-based bot detectors by proposing a mixture-of-heterogeneous-experts framework to divide and conquer diverse user information modalities. To illuminate the risks, we explore the possibility of LLM-guided manipulation of user textual and structured information to evade detection. Extensive experiments with three LLMs on two datasets demonstrate that instruction tuning on merely 1,000 annotated examples produces specialized LLMs that outperform state-of-the-art baselines by up to 9.1% on both datasets, while LLM-guided manipulation strategies could significantly bring down the performance of existing bot detectors by up to 29.6% and harm the calibration and reliability of bot detection systems.
翻訳日:2024-07-09 00:03:17 公開日:2024-07-04
# HL-LHCのためのFPGA上の超高速ジェット分類

Ultrafast jet classification on FPGAs for the HL-LHC ( http://arxiv.org/abs/2402.01876v2 )

ライセンス: Link先を確認
Patrick Odagiu, Zhiqiang Que, Javier Duarte, Johannes Haller, Gregor Kasieczka, Artur Lobanov, Vladimir Loncar, Wayne Luk, Jennifer Ngadiuba, Maurizio Pierini, Philipp Rincke, Arpita Seksaria, Sioni Summers, Andre Sznajder, Alexander Tapper, Thea K. Aarrestad, (参考訳) 3つの機械学習モデルを用いてジェット起源分類を行う。 これらのモデルは、フィールドプログラム可能なゲートアレイデバイスにデプロイするために最適化されている。 この文脈では、アルゴリズムの入力サイズと選択によって、レイテンシとリソース消費がどのようにスケールするかを示す。 さらに、このモデルでは、CERN LHCの高輝度相におけるデータの種類および前向き条件下での動作が計画されている。 特定のフィールドプログラム可能なゲートアレイに対する量子化学習と効率的な合成により、Deep SetsやInteraction Networksのような複雑なアーキテクチャの$O(100)$ ns推論が比較的低い計算資源コストで実現可能であることを示す。

Three machine learning models are used to perform jet origin classification. These models are optimized for deployment on a field-programmable gate array device. In this context, we demonstrate how latency and resource consumption scale with the input size and choice of algorithm. Moreover, the models proposed here are designed to work on the type of data and under the foreseen conditions at the CERN LHC during its high-luminosity phase. Through quantization-aware training and efficient synthetization for a specific field programmable gate array, we show that $O(100)$ ns inference of complex architectures such as Deep Sets and Interaction Networks is feasible at a relatively low computational resource cost.
翻訳日:2024-07-09 00:03:17 公開日:2024-07-04
# EffiBench: 自動生成コードの効率をベンチマークする

EffiBench: Benchmarking the Efficiency of Automatically Generated Code ( http://arxiv.org/abs/2402.02037v4 )

ライセンス: Link先を確認
Dong Huang, Yuhao Qing, Weiyi Shang, Heming Cui, Jie M. Zhang, (参考訳) コード生成モデルは、ソフトウェア開発を支援するためにますます不可欠なものになっています。 現在の研究では、コード生成モデルが生成するコードの正しさを徹底的に調査しているが、グリーンコンピューティングと持続可能性の取り組みにおいて重要な役割を担う重要な側面は無視されていることが多い。 本稿では,コード生成モデルにより生成されたコードの効率を評価するために,1000の効率クリティカルコーディング問題を持つベンチマークであるEffiBenchを提案する。 EffiBenchにはさまざまなLeetCodeコーディング問題が含まれている。 各問題は実行可能な人間記述の標準ソリューションと組み合わせられ、LeetCodeソリューションのリーダーボード上でSOTA効率を得る。 EffiBenchでは42の大規模言語モデル(35のオープンソースと7のクローズソース)の効率的なコード生成能力を実証的に検証した。 評価の結果,LLMが生成するコードの効率は,人間の記述した標準解の効率よりも一般的に悪いことがわかった。 例えば、GPT-4 の生成したコードは、人間の記述した標準解の実行時間の平均 \textbf{3.12} を持つ。 最も極端な場合、GPT-4生成コードの実行時間と総メモリ使用量は、標準解の1倍の \textbf{13.89} と \textbf{43.92} である。 EffiBenchのソースコードはhttps://github.com/huangd 1999/EffiBenchで公開されている。 https://huggingface.co/spaces/EffiBench/effibench- Leaderboard.comでLeaderBoardを提供しています。

Code generation models have increasingly become integral to aiding software development. Although current research has thoroughly examined the correctness of the code produced by code generation models, a vital aspect that plays a pivotal role in green computing and sustainability efforts has often been neglected. This paper presents EffiBench, a benchmark with 1,000 efficiency-critical coding problems to assess the efficiency of code generated by code generation models. EffiBench contains a diverse set of LeetCode coding problems. Each problem is paired with an executable human-written canonical solution, which obtains the SOTA efficiency on the LeetCode solution leaderboard. With EffiBench, we empirically examine the ability of 42 large language models (35 open-source and 7 closed-source) to generate efficient code. Our evaluation results demonstrate that the efficiency of the code generated by LLMs is generally worse than the efficiency of human-written canonical solutions. For example, GPT-4 generated code has an average \textbf{3.12} times execution time that of the human-written canonical solutions. In the most extreme cases, the execution time and total memory usage of GPT-4 generated code are \textbf{13.89} and \textbf{43.92} times that of the canonical solutions. The source code of EffiBench is released on https://github.com/huangd1999/EffiBench. We also provide the LeaderBoard at https://huggingface.co/spaces/EffiBench/effibench-leaderboard.
翻訳日:2024-07-09 00:03:17 公開日:2024-07-04
# 条件拡散のための球面ガウス制約による誘導

Guidance with Spherical Gaussian Constraint for Conditional Diffusion ( http://arxiv.org/abs/2402.03201v4 )

ライセンス: Link先を確認
Lingxiao Yang, Shutong Ding, Yifan Cai, Jingyi Yu, Jingya Wang, Ye Shi, (参考訳) 拡散モデルの最近の進歩は、追加の訓練を必要とせずに、異なる損失関数をガイダンスに利用することで条件付き生成タスクを処理しようとするものである。 これらの手法は一定の成功を収めたが、しばしばサンプルの品質を妥協し、小さなガイダンスのステップサイズを必要とするため、より長いサンプリングプロセスに繋がる。 本稿では, 損失誘導を行う際に, サンプリング過程における多様体偏差の基本的な問題を明らかにする。 損失誘導の推定誤差に対して, 一定の下界を確立することにより, 多様体偏差の存在を理論的に示す。 この問題を軽減するために,高次元ガウス分布における集中現象から着想を得た球状ガウス制約付き拡散(DSG)を提案する。 DSGは、最適化を通じて中間データ多様体内のガイダンスステップを効果的に制限し、より大きなガイダンスステップの使用を可能にする。 さらに、球面ガウスの制約を除いたDSGの閉形式解を提案する。 特にDSGは、既存のトレーニングフリー条件付き拡散メソッドにプラグインモジュールとしてシームレスに統合できる。 DSGを実装するには、余分な計算オーバーヘッドがほとんどない数行の追加コードだけで、パフォーマンスが大幅に向上する。 各種条件生成タスクにおける総合的な実験結果は,サンプル品質と時間効率の両面でDSGの優越性と適応性を検証した。

Recent advances in diffusion models attempt to handle conditional generative tasks by utilizing a differentiable loss function for guidance without the need for additional training. While these methods achieved certain success, they often compromise on sample quality and require small guidance step sizes, leading to longer sampling processes. This paper reveals that the fundamental issue lies in the manifold deviation during the sampling process when loss guidance is employed. We theoretically show the existence of manifold deviation by establishing a certain lower bound for the estimation error of the loss guidance. To mitigate this problem, we propose Diffusion with Spherical Gaussian constraint (DSG), drawing inspiration from the concentration phenomenon in high-dimensional Gaussian distributions. DSG effectively constrains the guidance step within the intermediate data manifold through optimization and enables the use of larger guidance steps. Furthermore, we present a closed-form solution for DSG denoising with the Spherical Gaussian constraint. Notably, DSG can seamlessly integrate as a plugin module within existing training-free conditional diffusion methods. Implementing DSG merely involves a few lines of additional code with almost no extra computational overhead, yet it leads to significant performance improvements. Comprehensive experimental results in various conditional generation tasks validate the superiority and adaptability of DSG in terms of both sample quality and time efficiency.
翻訳日:2024-07-09 00:03:17 公開日:2024-07-04
# ScreenAI: UIとインフォグラフィック理解のための視覚言語モデル

ScreenAI: A Vision-Language Model for UI and Infographics Understanding ( http://arxiv.org/abs/2402.04615v3 )

ライセンス: Link先を確認
Gilles Baechler, Srinivas Sunkara, Maria Wang, Fedir Zubach, Hassan Mansoor, Vincent Etter, Victor Cărbune, Jason Lin, Jindong Chen, Abhanshu Sharma, (参考訳) スクリーンユーザインターフェース(UI)とインフォグラフィック(インフォグラフィック)は、視覚言語と設計原則を共有し、人間のコミュニケーションや人間と機械の相互作用において重要な役割を果たす。 UIとインフォグラフィックの理解を専門とする視覚言語モデルであるScreenAIを紹介する。 pix2struct のフレキシブルパッチ方式で PaLI アーキテクチャを改良し,ユニークなデータセットの混合をトレーニングした。 この混合の核心は、モデルがUI要素のタイプと位置を識別しなければならない新しいスクリーンアノテーションタスクである。 これらのテキストアノテーションを使って画面を大規模言語モデルに記述し、質問応答(QA)、UIナビゲーション、要約トレーニングデータセットを大規模に生成する。 これらの設計選択の影響を実証するために、アブレーション研究を実施しています。 わずか5Bパラメータで、ScreenAIはUIとインフォグラフィックベースのタスク(Multi-page DocVQA, WebSRC, MoTIF, Widget Captioning)に対する新しい最先端と、他のモデル(Chart QA, DocVQA, InfographicVQA)に対する新しい最高のパフォーマンス(Chart QA, DocVQA, InfographicVQA)を達成する。 最後に、スクリーンアノテーションタスクに焦点を当てた3つの新しいデータセットと、質問応答に焦点を当てた2つのデータセットをリリースします。

Screen user interfaces (UIs) and infographics, sharing similar visual language and design principles, play important roles in human communication and human-machine interaction. We introduce ScreenAI, a vision-language model that specializes in UI and infographics understanding. Our model improves upon the PaLI architecture with the flexible patching strategy of pix2struct and is trained on a unique mixture of datasets. At the heart of this mixture is a novel screen annotation task in which the model has to identify the type and location of UI elements. We use these text annotations to describe screens to Large Language Models and automatically generate question-answering (QA), UI navigation, and summarization training datasets at scale. We run ablation studies to demonstrate the impact of these design choices. At only 5B parameters, ScreenAI achieves new state-of-the-artresults on UI- and infographics-based tasks (Multi-page DocVQA, WebSRC, MoTIF and Widget Captioning), and new best-in-class performance on others (Chart QA, DocVQA, and InfographicVQA) compared to models of similar size. Finally, we release three new datasets: one focused on the screen annotation task and two others focused on question answering.
翻訳日:2024-07-09 00:03:17 公開日:2024-07-04
# 階層的木構造知識グラフによる学術的洞察調査

Hierarchical Tree-structured Knowledge Graph For Academic Insight Survey ( http://arxiv.org/abs/2402.04854v5 )

ライセンス: Link先を確認
Jinghong Li, Huy Phan, Wen Gu, Koichi Ota, Shinobu Hasegawa, (参考訳) 調査は、研究トレーニングが不足している初心者研究者にとって、常に課題となっている。 これらの研究者は、研究トピックの方向性や、新しい研究結果の発見を短期間で理解するのに苦労しています。 初心者研究者に直感的な支援を提供する一つの方法は、関連する知識グラフ(KG)を提供し、関連する学術論文を推薦することである。 しかし、既存のナビゲーション知識グラフは主に研究分野のキーワードに依存しており、複数の関連論文の論理的階層をはっきりと示さないことが多い。 さらに、学術論文の推薦システムの多くは、単に高いテキスト類似性に依存しており、研究者は、ある記事が推奨されている理由について混乱させる可能性がある。 また, 「Issue Solution」 と 「Issue Find」 の間に得られる洞察の関連性について, 重要な情報が欠如している可能性がある。 これらの課題に対処するために,本研究では,研究トピックの継承洞察と学術論文の関連洞察を反映した階層的木構造知識グラフを確立することにより,初心者研究者を対象とした研究洞察調査を支援することを目的とする。

Research surveys have always posed a challenge for beginner researchers who lack of research training. These researchers struggle to understand the directions within their research topic, and the discovery of new research findings within a short time. One way to provide intuitive assistance to beginner researchers is by offering relevant knowledge graphs(KG) and recommending related academic papers. However, existing navigation knowledge graphs primarily rely on keywords in the research field and often fail to present the logical hierarchy among multiple related papers clearly. Moreover, most recommendation systems for academic papers simply rely on high text similarity, which can leave researchers confused as to why a particular article is being recommended. They may lack of grasp important information about the insight connection between "Issue resolved" and "Issue finding" that they hope to obtain. To address these issues, this study aims to support research insight surveys for beginner researchers by establishing a hierarchical tree-structured knowledge graph that reflects the inheritance insight of research topics and the relevance insight among the academic papers.
翻訳日:2024-07-09 00:03:17 公開日:2024-07-04
# 深部分類器の温度スケーリングと等角予測について

On Temperature Scaling and Conformal Prediction of Deep Classifiers ( http://arxiv.org/abs/2402.05806v2 )

ライセンス: Link先を確認
Lahav Dabah, Tom Tirer, (参考訳) 多くの分類応用において、ディープニューラルネットワーク(DNN)に基づく分類器の予測には、ある程度の信頼感が伴わなければならない。 その目的のための2つの一般的なアプローチは以下のとおりである。 1)校正:最大値が正当性確率をより正確に見積もるように、分類器のソフトマックス値を変更する。 2) コンフォーマル予測(CP): クラス毎のカバレッジではなく,ユーザ特定確率で真のラベルを含む候補ラベルの予測セットを生成する。 実際には、どちらの種類の表示も望ましいが、今のところ両者の相互作用は研究されていない。 本稿では,広く普及している温度スケーリング(TS)キャリブレーションがCP手法に与える影響を実証的に検討し,適応CP手法のクラス条件カバレッジを改善する一方で,意外なことに予測セットサイズに悪影響を及ぼすことを明らかにした。 その後,TSの校正適用を超えて,適応的なCP手法の予測セットサイズと条件付きカバレッジを効果的に組み合わせつつ,実践者にとって簡単なガイドラインを提供する。 最後に、TSが予測セットサイズに与える影響に関する理論的解析を行い、この非直観的な現象を推論する手法の数学的性質を明らかにした。

In many classification applications, the prediction of a deep neural network (DNN) based classifier needs to be accompanied by some confidence indication. Two popular approaches for that aim are: 1) Calibration: modifies the classifier's softmax values such that the maximal value better estimates the correctness probability; and 2) Conformal Prediction (CP): produces a prediction set of candidate labels that contains the true label with a user-specified probability, guaranteeing marginal coverage, rather than, e.g., per class coverage. In practice, both types of indications are desirable, yet, so far the interplay between them has not been investigated. We start this paper with an extensive empirical study of the effect of the popular Temperature Scaling (TS) calibration on prominent CP methods and reveal that while it improves the class-conditional coverage of adaptive CP methods, surprisingly, it negatively affects their prediction set sizes. Subsequently, we explore the effect of TS beyond its calibration application and offer simple guidelines for practitioners to trade prediction set size and conditional coverage of adaptive CP methods while effectively combining them with calibration. Finally, we present a theoretical analysis of the effect of TS on the prediction set sizes, revealing several mathematical properties of the procedure, according to which we provide reasoning for this unintuitive phenomenon.
翻訳日:2024-07-09 00:03:17 公開日:2024-07-04
# RareBench: LLMはレア病専門医になれるか?

RareBench: Can LLMs Serve as Rare Diseases Specialists? ( http://arxiv.org/abs/2402.06341v2 )

ライセンス: Link先を確認
Xuanzhong Chen, Xiaohao Mao, Qihan Guo, Lun Wang, Shuyang Zhang, Ting Chen, (参考訳) GPT-4のような汎用大規模言語モデル (LLM) は、医学的診断を含む様々な領域で有望であることを示している。 世界中で約3億人に影響を及ぼす希少疾患は、主に経験豊富な医師の欠如と、多くの稀な疾患の差別化の複雑さのために、不満足な臨床診断率を持つことが多い。 この文脈では、「ChatGPTは17人の医師が失敗した後、4歳のまれな疾患を正しく診断した」などの最近のニュースは、LSMsが臨床的に稀な疾患を診断する役割を過小評価している。 この研究ギャップを埋めるために,レアな病気の領域内の4つの重要な次元でLSMの能力を体系的に評価する先駆的なベンチマークであるRareBenchを紹介した。 一方,我々はまれな疾患患者のオープンソースデータセットを収集し,この領域における今後の研究のベンチマークを確立した。 稀な疾患の鑑別診断を容易にするため,複数の知識ベースから合成された包括的稀な疾患知識グラフを活用し,LSMの診断性能を著しく向上する動的数発プロンプト手法を開発した。 また, GPT-4の診断能力について, 専門医との比較検討を行った。 臨床診断にLSMを組み込むことが期待できる可能性について検討した。 これは、この分野における将来の進歩におけるエキサイティングな可能性の道を開くものだ。

Generalist Large Language Models (LLMs), such as GPT-4, have shown considerable promise in various domains, including medical diagnosis. Rare diseases, affecting approximately 300 million people worldwide, often have unsatisfactory clinical diagnosis rates primarily due to a lack of experienced physicians and the complexity of differentiating among many rare diseases. In this context, recent news such as "ChatGPT correctly diagnosed a 4-year-old's rare disease after 17 doctors failed" underscore LLMs' potential, yet underexplored, role in clinically diagnosing rare diseases. To bridge this research gap, we introduce RareBench, a pioneering benchmark designed to systematically evaluate the capabilities of LLMs on 4 critical dimensions within the realm of rare diseases. Meanwhile, we have compiled the largest open-source dataset on rare disease patients, establishing a benchmark for future studies in this domain. To facilitate differential diagnosis of rare diseases, we develop a dynamic few-shot prompt methodology, leveraging a comprehensive rare disease knowledge graph synthesized from multiple knowledge bases, significantly enhancing LLMs' diagnostic performance. Moreover, we present an exhaustive comparative study of GPT-4's diagnostic capabilities against those of specialist physicians. Our experimental findings underscore the promising potential of integrating LLMs into the clinical diagnostic process for rare diseases. This paves the way for exciting possibilities in future advancements in this field.
翻訳日:2024-07-08 23:53:32 公開日:2024-07-04
# 深部畳み込みニューラルネットワークを用いた顕微鏡画像からの活性汚泥沈降特性の評価と伝達学習

Evaluation of Activated Sludge Settling Characteristics from Microscopy Images with Deep Convolutional Neural Networks and Transfer Learning ( http://arxiv.org/abs/2402.09367v3 )

ライセンス: Link先を確認
Sina Borzooei, Leonardo Scabini, Gisele Miranda, Saba Daneshgar, Lukas Deblieck, Piet De Langhe, Odemir Bruno, Bernard De Baets, Ingmar Nopens, Elena Torfs, (参考訳) 微生物群集は生物排水処理プロセスにおいて重要な役割を担っている。 例えば, 活性汚泥沈降特性は, 微生物群集組成の影響を受け, 運転条件の変化と排水処理プラント(WWTP)の流動特性に左右される。 微生物組成の変化のタイムリーな評価と予測は、フィラメントバルキング (FB) のような沈降問題を引き起こし、運用上の課題、処理効率の低下、環境への影響を防止できる。 本研究では, 顕微鏡画像におけるフロックやフィラメントの形態特性に基づいて, 活性汚泥沈降特性を評価するための革新的なコンピュータビジョンに基づくアプローチを提案する。 深層畳み込みニューラルネットワーク(CNN)モデルの伝達学習の実装により,既存の定量的画像解析技術の限界を克服することを目的とした。 オフラインの顕微鏡画像データセットは2年間にわたって収集され、ベルギーのフルスケールのWWTPで毎週サンプリングされた。 CNNモデルの一般化性を高めるために、複数のデータ拡張技術が採用された。 Inception v3, ResNet18, ResNet152, ConvNeXt-nano, ConvNeXt-S などのCNNアーキテクチャを用いて, 汚泥沈降特性の評価を行った。 スラッジ容積指数は最終予測変数として用いられたが、この手法は選択した任意の沈降量を予測するために容易に調整できる。 その結果、提案したCNNベースのアプローチは、労働集約的、客観的、一貫した評価を減らし、トランスファーラーニングはトレーニングフェーズを特に小さくし、その結果、リアルタイムアプリケーションに適用可能な一般化可能なシステムとなった。

Microbial communities play a key role in biological wastewater treatment processes. Activated sludge settling characteristics, for example, are affected by microbial community composition, varying by changes in operating conditions and influent characteristics of wastewater treatment plants (WWTPs). Timely assessment and prediction of changes in microbial composition leading to settling problems, such as filamentous bulking (FB), can prevent operational challenges, reductions in treatment efficiency, and adverse environmental impacts. This study presents an innovative computer vision-based approach to assess activated sludge-settling characteristics based on the morphological properties of flocs and filaments in microscopy images. Implementing the transfer learning of deep convolutional neural network (CNN) models, this approach aims to overcome the limitations of existing quantitative image analysis techniques. The offline microscopy image dataset was collected over two years, with weekly sampling at a full-scale industrial WWTP in Belgium. Multiple data augmentation techniques were employed to enhance the generalizability of the CNN models. Various CNN architectures, including Inception v3, ResNet18, ResNet152, ConvNeXt-nano, and ConvNeXt-S, were tested to evaluate their performance in predicting sludge settling characteristics. The sludge volume index was used as the final prediction variable, but the method can easily be adjusted to predict any other settling metric of choice. The results showed that the suggested CNN-based approach provides less labour-intensive, objective, and consistent assessments, while transfer learning notably minimises the training phase, resulting in a generalizable system that can be employed in real-time applications.
翻訳日:2024-07-08 23:53:32 公開日:2024-07-04
# LoRA+:大規模モデルの効率的な低ランク適応

LoRA+: Efficient Low Rank Adaptation of Large Models ( http://arxiv.org/abs/2402.12354v2 )

ライセンス: Link先を確認
Soufiane Hayou, Nikhil Ghosh, Bin Yu, (参考訳) 本稿では,Hu et al (2021) で最初に導入されたローランク適応 (LoRA) が,大きな幅(埋め込み次元)を持つモデルの最適下微細化につながることを示す。 これは、LoRAのアダプタ行列AとBが同じ学習率で更新されるためである。 広帯域ネットワークのスケーリング引数を用いて、AとBで同じ学習率を使用すると、効率的な特徴学習ができなくなることを実証する。 そこで, このLoRAの準最適性は, 適応行列 A と B の学習率を良好に設定することで, 簡単に補正可能であることを示す。 このアルゴリズムをLoRA$+$と呼ぶ。 我々の大規模な実験では、LoRA$+$はパフォーマンス(1-2$\%$改善)と微調整速度(最大$\sim$2X SpeedUp)を、LoRAと同じ計算コストで改善する。

In this paper, we show that Low Rank Adaptation (LoRA) as originally introduced in Hu et al. (2021) leads to suboptimal finetuning of models with large width (embedding dimension). This is due to the fact that adapter matrices A and B in LoRA are updated with the same learning rate. Using scaling arguments for large width networks, we demonstrate that using the same learning rate for A and B does not allow efficient feature learning. We then show that this suboptimality of LoRA can be corrected simply by setting different learning rates for the LoRA adapter matrices A and B with a well-chosen ratio. We call this proposed algorithm LoRA$+$. In our extensive experiments, LoRA$+$ improves performance (1-2 $\%$ improvements) and finetuning speed (up to $\sim$ 2X SpeedUp), at the same computational cost as LoRA.
翻訳日:2024-07-08 23:53:32 公開日:2024-07-04
# LLM-as-a-Judgeのロバストか? ゼロショットLDM評価におけるユニバーサル・アタックの検討

Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment ( http://arxiv.org/abs/2402.14016v2 )

ライセンス: Link先を確認
Vyas Raina, Adian Liusie, Mark Gales, (参考訳) LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。 これらの重要な応用にもかかわらず、既存の研究は、敵の操作に対する判断-LLMの脆弱性を分析していない。 本研究は,LLMの対角的ロバスト性に関する最初の研究であり,短い普遍的対角的フレーズが,LLMの判断を騙して膨らませたスコアを予測できることを実証する。 敵は、判定LLMを知らない、あるいはアクセスできないため、代理モデルが最初に攻撃される単純な代理攻撃を提案し、学習した攻撃フレーズを未知の判定LLMに転送する。 本研究では,短い普遍的な攻撃句を決定するための実用的なアルゴリズムを提案し,未知のモデルに移動すると,評価されたテキストによらず,最大スコアが予測されるように,スコアを劇的に膨らませることができることを示した。 その結果, 判定-LLMは, 絶対スコアリングにおいて, 比較評価とは対照的に, これらの攻撃に対して有意に感受性が高いことがわかった。 本研究は, LLM-as-a-judge法の信頼性に関する懸念を提起し, 実世界のシナリオに展開する前に, LLMアセスメント手法の脆弱性に対処することの重要性を強調した。

Large Language Models (LLMs) are powerful zero-shot assessors used in real-world situations such as assessing written exams and benchmarking systems. Despite these critical applications, no existing work has analyzed the vulnerability of judge-LLMs to adversarial manipulation. This work presents the first study on the adversarial robustness of assessment LLMs, where we demonstrate that short universal adversarial phrases can be concatenated to deceive judge LLMs to predict inflated scores. Since adversaries may not know or have access to the judge-LLMs, we propose a simple surrogate attack where a surrogate model is first attacked, and the learned attack phrase then transferred to unknown judge-LLMs. We propose a practical algorithm to determine the short universal attack phrases and demonstrate that when transferred to unseen models, scores can be drastically inflated such that irrespective of the assessed text, maximum scores are predicted. It is found that judge-LLMs are significantly more susceptible to these adversarial attacks when used for absolute scoring, as opposed to comparative assessment. Our findings raise concerns on the reliability of LLM-as-a-judge methods, and emphasize the importance of addressing vulnerabilities in LLM assessment methods before deployment in high-stakes real-world scenarios.
翻訳日:2024-07-08 23:53:32 公開日:2024-07-04
# 「私の答えはCだ」:教育言語モデルにおけるテキスト回答に一致しない最初の確率

"My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models ( http://arxiv.org/abs/2402.14499v2 )

ライセンス: Link先を確認
Xinpeng Wang, Bolei Ma, Chengzhi Hu, Leon Weber-Genzel, Paul Röttger, Frauke Kreuter, Dirk Hovy, Barbara Plank, (参考訳) 言語生成のオープンな性質は、自己回帰型大規模言語モデル(LLM)の評価を困難にしている。 1つの一般的な評価手法は、応答空間を制限するためにMulti-choice Question (MCQ) を用いる。 次に、第1トークン予測のログ確率で候補回答をランク付けしてモデルを評価する。 しかし、"Sure"から始まるモデルや応答の拒否など、モデルのさまざまなレスポンススタイルのため、ファーストトークンは最終的なレスポンス出力を一貫して反映しない可能性がある。 その結果,MCQ評価は,ユーザとのインタラクションにおいてモデル動作を示すものではない。 でも、いくらで? 提案手法は, テキストの出力, 最終選択選択, 拒否率, 選択分布, 頑健さを, 即時摂動下でどのように一致させるかを評価する。 以上の結果から,2つのアプローチはすべての次元で大きくミスマッチし,60%以上のミスマッチ率を達成した。 会話データや安全データに微調整されたモデルは、特に影響を受けます。 重要なことに、モデルが不一致を保っているのは、我々がますますプロンプトを制約している時、すなわちオプションレターやサンプルテンプレートから始めるように強制している時です。 私たちの発見 一 テキスト出力の検査の重要性を過小評価し、 二 自己評価のみに頼らないこと。

The open-ended nature of language generation makes the evaluation of autoregressive large language models (LLMs) challenging. One common evaluation approach uses multiple-choice questions (MCQ) to limit the response space. The model is then evaluated by ranking the candidate answers by the log probability of the first token prediction. However, first-tokens may not consistently reflect the final response output, due to model's diverse response styles such as starting with "Sure" or refusing to answer. Consequently, MCQ evaluation is not indicative of model behaviour when interacting with users. But by how much? We evaluate how aligned first-token evaluation is with the text output along several dimensions, namely final option choice, refusal rate, choice distribution and robustness under prompt perturbation. Our results show that the two approaches are severely misaligned on all dimensions, reaching mismatch rates over 60%. Models heavily fine-tuned on conversational or safety data are especially impacted. Crucially, models remain misaligned even when we increasingly constrain prompts, i.e., force them to start with an option letter or example template. Our findings i) underscore the importance of inspecting the text output as well and ii) caution against relying solely on first-token evaluation.
翻訳日:2024-07-08 23:53:32 公開日:2024-07-04
# FAIR: 自動帰納規則のフィルタリング

FAIR: Filtering of Automatically Induced Rules ( http://arxiv.org/abs/2402.15472v2 )

ライセンス: Link先を確認
Divya Jyoti Bajpai, Ayush Maheshwari, Manjesh Kumar Hanawal, Ganesh Ramakrishnan, (参考訳) 大規模なアノテーション付きデータの可用性は、マシンラーニングアルゴリズムのトレーニングを成功させる上で、特にさまざまなドメインに適用する場合において、重要なボトルネックとなる可能性がある。 弱監督は、ドメイン固有のルールを使用してラベル付きトレーニングデータの作成を加速することで、有望な代替手段を提供する。 しかし、ラベル付けされていないデータにラベルを割り当てるためには、様々な高品質なルールを書く必要がある。 自動ルール誘導(ARI)は、小さなラベル付きセット上の機能からルールを自動生成し、それらから最終的なルールセットをフィルタリングすることで、この問題を回避する。 ARIアプローチでは、重要なステップは、自動化されたルールの大きなセットから、高品質な有用なルールのサブセットをフィルタリングすることです。 本稿では,ルール集合の集合的精度,カバレッジ,コンフリクトを考慮に入れた準モジュラー目的関数を用いて,多数のルールからルールをフィルタリングするアルゴリズム(自動帰納規則のフィルタリング)を提案する。 3つのARI手法と5つのテキスト分類データセットを用いて、いくつかの半教師付きラベルアグリゲーション手法に対して、アルゴリズムの優れた性能を検証した。 さらに,既存のルールフィルタリング手法と比較して,統計的に有意な結果が得られることを示す。

The availability of large annotated data can be a critical bottleneck in training machine learning algorithms successfully, especially when applied to diverse domains. Weak supervision offers a promising alternative by accelerating the creation of labeled training data using domain-specific rules. However, it requires users to write a diverse set of high-quality rules to assign labels to the unlabeled data. Automatic Rule Induction (ARI) approaches circumvent this problem by automatically creating rules from features on a small labeled set and filtering a final set of rules from them. In the ARI approach, the crucial step is to filter out a set of a high-quality useful subset of rules from the large set of automatically created rules. In this paper, we propose an algorithm (Filtering of Automatically Induced Rules) to filter rules from a large number of automatically induced rules using submodular objective functions that account for the collective precision, coverage, and conflicts of the rule set. We experiment with three ARI approaches and five text classification datasets to validate the superior performance of our algorithm with respect to several semi-supervised label aggregation approaches. Further, we show that achieves statistically significant results in comparison to existing rule-filtering approaches.
翻訳日:2024-07-08 23:43:31 公開日:2024-07-04
# 2-infinity Singular Subspaceリカバリによる低域帯域化

Low-Rank Bandits via Tight Two-to-Infinity Singular Subspace Recovery ( http://arxiv.org/abs/2402.15739v2 )

ライセンス: Link先を確認
Yassir Jedra, William Réveillard, Stefan Stojanovic, Alexandre Proutiere, (参考訳) 各ラウンドにおいて、(コンテキスト、アーム)ペア$(i,j)\in [m]\times [n]$を選択すると、学習者は未知の低ランク報酬行列の$(i,j)$-thエントリのノイズの多いサンプルを観察する。 逐次的文脈は、i.d.方法でランダムに生成され、学習者に開示される。 そこで我々は, 政策評価, 最良政策識別, 後悔の最小化のための効率的なアルゴリズムを提案する。 政策評価と最良の政策識別のために,我々のアルゴリズムは最小限に最適であることを示す。 例えば、$\varepsilon$-optimal policyを少なくとも1-\delta$の確率で返すために必要なサンプルの数は、通常${r(m+n)\over \varepsilon^2}\log(1/\delta)$としてスケールする。 我々の後悔の最小化アルゴリズムは、通常$r^{7/4}(m+n)^{3/4}\sqrt{T}$としてスケールし、既存のアルゴリズムよりも改善されている。 提案アルゴリズムは、まずスペクトル法を利用して、低ランク報酬行列の左特異部分空間と右特異部分空間を推定する。 これらの推定は、2-infinityノルムにおいて厳密なエラー保証を享受していることが示される。 これにより、約$r(m+n)$で不特定線形バンドイット問題として問題を再定義し、部分空間回復誤差によって制御される不特定化を可能とし、アルゴリズムの第2フェーズを効率的に設計することができる。

We study contextual bandits with low-rank structure where, in each round, if the (context, arm) pair $(i,j)\in [m]\times [n]$ is selected, the learner observes a noisy sample of the $(i,j)$-th entry of an unknown low-rank reward matrix. Successive contexts are generated randomly in an i.i.d. manner and are revealed to the learner. For such bandits, we present efficient algorithms for policy evaluation, best policy identification and regret minimization. For policy evaluation and best policy identification, we show that our algorithms are nearly minimax optimal. For instance, the number of samples required to return an $\varepsilon$-optimal policy with probability at least $1-\delta$ typically scales as ${r(m+n)\over \varepsilon^2}\log(1/\delta)$. Our regret minimization algorithm enjoys minimax guarantees typically scaling as $r^{7/4}(m+n)^{3/4}\sqrt{T}$, which improves over existing algorithms. All the proposed algorithms consist of two phases: they first leverage spectral methods to estimate the left and right singular subspaces of the low-rank reward matrix. We show that these estimates enjoy tight error guarantees in the two-to-infinity norm. This in turn allows us to reformulate our problems as a misspecified linear bandit problem with dimension roughly $r(m+n)$ and misspecification controlled by the subspace recovery error, as well as to design the second phase of our algorithms efficiently.
翻訳日:2024-07-08 23:43:31 公開日:2024-07-04
# SMOTE(Synthetic Minority Oversampling Technique)への量子的アプローチ

A Quantum Approach to Synthetic Minority Oversampling Technique (SMOTE) ( http://arxiv.org/abs/2402.17398v3 )

ライセンス: Link先を確認
Nishikanta Mohanty, Bikash K. Behera, Christopher Ferrie, Pravat Dash, (参考訳) 本稿では,機械学習データセットにおけるクラス不均衡の問題を解くために,量子コンピューティング技術を用いた新しい解法であるQuantum-SMOTE法を提案する。 SMOTE(Synthetic Minority Oversampling Technique)にインスパイアされた量子SMOTEは、スワップテストや量子回転といった量子プロセスを用いて合成データポイントを生成する。 このプロセスは、従来のSMOTEアルゴリズムのK-Nearest Neighbors (KNN) やユークリッド距離(ユークリッド距離)と異なり、近隣に依存せずに、少数クラスのデータポイントから合成インスタンスを生成することができる。 このアルゴリズムは、回転角、マイノリティパーセンテージ、分割係数などのハイパーパラメータを導入し、特定のデータセット要求へのカスタマイズを可能にすることによって、合成データ生成プロセスに対するより深い制御を主張する。 コンパクトスワップテストを使用するため、アルゴリズムは多くの機能に対応できる。 さらに、このアプローチはTelecom Churnの公開データセット上でテストされ、ランダムフォレストとロジスティック回帰という2つの顕著な分類アルゴリズムとともに評価され、その影響と、さまざまな合成データの比率が決定される。

The paper proposes the Quantum-SMOTE method, a novel solution that uses quantum computing techniques to solve the prevalent problem of class imbalance in machine learning datasets. Quantum-SMOTE, inspired by the Synthetic Minority Oversampling Technique (SMOTE), generates synthetic data points using quantum processes such as swap tests and quantum rotation. The process varies from the conventional SMOTE algorithm's usage of K-Nearest Neighbors (KNN) and Euclidean distances, enabling synthetic instances to be generated from minority class data points without relying on neighbor proximity. The algorithm asserts greater control over the synthetic data generation process by introducing hyperparameters such as rotation angle, minority percentage, and splitting factor, which allow for customization to specific dataset requirements. Due to the use of a compact swap test, the algorithm can accommodate a large number of features. Furthermore, the approach is tested on a public dataset of Telecom Churn and evaluated alongside two prominent classification algorithms, Random Forest and Logistic Regression, to determine its impact along with varying proportions of synthetic data.
翻訳日:2024-07-08 23:43:31 公開日:2024-07-04
# 強化インコンテキストブラックボックス最適化

Reinforced In-Context Black-Box Optimization ( http://arxiv.org/abs/2402.17423v2 )

ライセンス: Link先を確認
Lei Song, Chenxiao Gao, Ke Xue, Chenyang Wu, Dong Li, Jianye Hao, Zongzhang Zhang, Chao Qian, (参考訳) Black-Box Optimization (BBO) は、科学と工学の分野で成功している。 近年、BBOアルゴリズムの特定のコンポーネントをメタ学習することで、最適化を高速化し、手作りの面倒なヒューリスティックをなくすことへの関心が高まっている。 拡張として、データからアルゴリズム全体を学習するには、専門家による最小限の労力が必要であり、最も柔軟性を提供することができる。 本稿では,BBOアルゴリズムをオフラインデータからエンドツーエンドに強化する手法であるRIBBOを提案する。 RIBBOは、複数の行動アルゴリズムとタスクによって生成された最適化履歴を学習するために表現的シーケンスモデルを使用し、大規模モデルのコンテキスト内学習能力を活用してタスク情報を抽出し、それに応じて決定を行う。 提案手法の中心となるのは,将来的な履歴に対する累積的後悔に基づくアルゴリズムの性能を表現するために設計された,‘textit{regret-to-go}トークン’による最適化履歴の増大である。 RIBBOは,BBOベンチマーク関数やハイパーパラメータ最適化,ロボット制御問題など,さまざまな問題に対して,ユーザ希望の後悔を満足するクエリポイントのシーケンスを自動的に生成する。

Black-Box Optimization (BBO) has found successful applications in many fields of science and engineering. Recently, there has been a growing interest in meta-learning particular components of BBO algorithms to speed up optimization and get rid of tedious hand-crafted heuristics. As an extension, learning the entire algorithm from data requires the least labor from experts and can provide the most flexibility. In this paper, we propose RIBBO, a method to reinforce-learn a BBO algorithm from offline data in an end-to-end fashion. RIBBO employs expressive sequence models to learn the optimization histories produced by multiple behavior algorithms and tasks, leveraging the in-context learning ability of large models to extract task information and make decisions accordingly. Central to our method is to augment the optimization histories with \textit{regret-to-go} tokens, which are designed to represent the performance of an algorithm based on cumulative regret over the future part of the histories. The integration of regret-to-go tokens enables RIBBO to automatically generate sequences of query points that satisfy the user-desired regret, which is verified by its universally good empirical performance on diverse problems, including BBO benchmark functions, hyper-parameter optimization and robot control problems.
翻訳日:2024-07-08 23:43:31 公開日:2024-07-04
# CSS コード[8,1,3] のフォールトトレランス

Fault-tolerance of the [[8,1,3]] non-CSS code ( http://arxiv.org/abs/2402.19389v3 )

ライセンス: Link先を確認
Pranav Maheshwari, Ankur Raina, (参考訳) フォールトトレラントな[[8, 1, 3]]非CSS量子誤り訂正符号を示し,その論理誤差率について検討する。 我々は、Gottesman氏が提供した安定化コードのための一元的符号化手順を選択し、CSS以外のコードのクラスの設定に適合するように修正する。 本研究の2種類のノイズモデル、すなわち、復号時に得られる論理誤差率を記述するために、ブラウンらによって提示された素アンシラ法を用いて、症候群抽出工程で測定シーケンスを並べ替え、それをアップグレードし、より高い擬似閾値とより低い論理誤差率を求める。

We present a fault-tolerant [[8, 1, 3]] non-CSS quantum error correcting code and study its logical error rates. We choose the unitary encoding procedure for stabilizer codes given by Gottesman and modify it to suit the setting of a class of non- CSS codes. Considering two types of noise models for this study, namely the depolarising noise and anisotropic noise, to depict the logical error rates obtained in decoding, we adopt the procedure of the bare ancilla method presented by Brown et al. to reorder the measurement sequence in the syndrome extraction step and upgrade it to obtain higher pseudo-thresholds and lower leading order terms of logical error rates.
翻訳日:2024-07-08 23:43:31 公開日:2024-07-04
# L+M-24:Language + Molecules @ ACL 2024

L+M-24: Building a Dataset for Language + Molecules @ ACL 2024 ( http://arxiv.org/abs/2403.00791v2 )

ライセンス: Link先を確認
Carl Edwards, Qingyun Wang, Lawrence Zhao, Heng Ji, (参考訳) 言語分子モデルは、分子の発見と理解のエキサイティングな方向として登場した。 しかし、分子言語対のデータセットが不足しているため、これらのモデルのトレーニングは困難である。 現時点では、データセットがリリースされている。 1) 既存のデータベースから小さく、取り除かれたもの。 2 大きくて騒々しく、科学文献にリンクした実体を営むことによる構成、及び 3) プロパティ予測データセットをテンプレートを使って自然言語に変換する。 この文書では、ACL 2024で共有されたLanguage + Molecules Workshopのために作成された$\textit{L+M-24}$データセットについて詳述する。 特に$\textit{L+M-24}$は、分子設計における自然言語の3つの重要な利点(合成性、機能、抽象)に焦点を当てるように設計されている。

Language-molecule models have emerged as an exciting direction for molecular discovery and understanding. However, training these models is challenging due to the scarcity of molecule-language pair datasets. At this point, datasets have been released which are 1) small and scraped from existing databases, 2) large but noisy and constructed by performing entity linking on the scientific literature, and 3) built by converting property prediction datasets to natural language using templates. In this document, we detail the $\textit{L+M-24}$ dataset, which has been created for the Language + Molecules Workshop shared task at ACL 2024. In particular, $\textit{L+M-24}$ is designed to focus on three key benefits of natural language in molecule design: compositionality, functionality, and abstraction.
翻訳日:2024-07-08 23:43:30 公開日:2024-07-04
# LLMを用いた製品属性値の抽出と正規化

Using LLMs for the Extraction and Normalization of Product Attribute Values ( http://arxiv.org/abs/2403.02130v3 )

ライセンス: Link先を確認
Alexander Brinkmann, Nick Baumann, Christian Bizer, (参考訳) eコマースウェブサイトでの製品提供は、しばしば製品タイトルとテキストによる製品記述から構成される。 ファセット商品検索や製品比較表作成などの機能を実現するためには、構造化されていない製品タイトルや記述から構造化された属性値ペアを抽出し、抽出した値を各属性に対して単一の統一スケールに正規化する必要がある。 本稿では, GPT-3.5 や GPT-4 などの大規模言語モデル (LLM) を用いて,製品タイトルや記述から属性値の抽出と正規化を行う可能性について検討する。 属性値ペアの抽出と正規化をLLMに指示するために,異なるゼロショットおよび少数ショットプロンプトテンプレートを用いて実験を行った。 実験のために、Web Data Commons - Product Attribute Value extract (WDC-PAVE)ベンチマークデータセットを紹介します。 WDC-PAVEは、スキーマ.orgアノテーションを提供する59の異なるウェブサイトから提供される製品である。 提供物は5つの異なる製品カテゴリに属し、それぞれに特定の属性のセットがある。 データセットは、手動で検証された属性値のペアを2つの形式で提供する。 (i)直接抽出された値 (ii)正規化属性値。 属性値の正規化には、名前展開、一般化、測定単位の変換、文字列ラングリングといった操作を行うシステムが必要である。 GPT-4は,SU-OpenTag,AVEQA,MAVEQAを10%向上させ,F1スコア91%を達成した。 製品属性値の抽出と正規化のために、GPT-4は、特にストリングラングリングや名前展開において強い一方で、抽出シナリオと同じような性能を達成する。

Product offers on e-commerce websites often consist of a product title and a textual product description. In order to enable features such as faceted product search or to generate product comparison tables, it is necessary to extract structured attribute-value pairs from the unstructured product titles and descriptions and to normalize the extracted values to a single, unified scale for each attribute. This paper explores the potential of using large language models (LLMs), such as GPT-3.5 and GPT-4, to extract and normalize attribute values from product titles and descriptions. We experiment with different zero-shot and few-shot prompt templates for instructing LLMs to extract and normalize attribute-value pairs. We introduce the Web Data Commons - Product Attribute Value Extraction (WDC-PAVE) benchmark dataset for our experiments. WDC-PAVE consists of product offers from 59 different websites which provide schema.org annotations. The offers belong to five different product categories, each with a specific set of attributes. The dataset provides manually verified attribute-value pairs in two forms: (i) directly extracted values and (ii) normalized attribute values. The normalization of the attribute values requires systems to perform the following types of operations: name expansion, generalization, unit of measurement conversion, and string wrangling. Our experiments demonstrate that GPT-4 outperforms the PLM-based extraction methods SU-OpenTag, AVEQA, and MAVEQA by 10%, achieving an F1-score of 91%. For the extraction and normalization of product attribute values, GPT-4 achieves a similar performance to the extraction scenario, while being particularly strong at string wrangling and name expansion.
翻訳日:2024-07-08 23:43:30 公開日:2024-07-04
# VITAMIN:マルチエージェントシステムのモデルチェックのための構成フレームワーク

VITAMIN: A Compositional Framework for Model Checking of Multi-Agent Systems ( http://arxiv.org/abs/2403.02170v2 )

ライセンス: Link先を確認
Angelo Ferrando, Vadim Malvone, (参考訳) マルチエージェントシステム(MAS)の検証は重要な課題である。 この課題に対処するためには様々なアプローチや方法論が存在するが、それらをサポートするツールは必ずしも簡単には利用できない。 このようなツールがアクセス可能であったとしても、ハードコードされる傾向があり、構成性に欠け、学習曲線が急なため使用が困難である。 本稿では,モジュール方式および多目的方式でMASの形式的検証を行う手法と,VITAMINと命名したプロトタイプについて紹介する。 MASの既存の検証手法やフレームワークとは異なり、VITAMINは様々なロジック(検証するプロパティを指定するために)とモデル(検証するプロパティを決定するために)に容易に対応できるように構築されている。

The verification of Multi-Agent Systems (MAS) poses a significant challenge. Various approaches and methodologies exist to address this challenge; however, tools that support them are not always readily available. Even when such tools are accessible, they tend to be hard-coded, lacking in compositionality, and challenging to use due to a steep learning curve. In this paper, we introduce a methodology designed for the formal verification of MAS in a modular and versatile manner, along with an initial prototype, that we named VITAMIN. Unlike existing verification methodologies and frameworks for MAS, VITAMIN is constructed for easy extension to accommodate various logics (for specifying the properties to verify) and models (for determining on what to verify such properties).
翻訳日:2024-07-08 23:43:30 公開日:2024-07-04
# 非摂動キャビティ量子電磁力学 -Jaynes-Cummingsモデルはまだ関係があるのか?

Nonperturbative cavity quantum electrodynamics: is the Jaynes-Cummings model still relevant? ( http://arxiv.org/abs/2403.02402v2 )

ライセンス: Link先を確認
Daniele De Bernardis, Alberto Mercurio, Simone De Liberato, (参考訳) 本稿では,Jaynes-Cummingsモデルが空洞量子力学の研究において果たす役割を,いわゆる超強結合系に焦点をあてて概説する。 まず、そのような単純なモデルを標準的な量子力学から蒸留するために必要な様々な近似を批判的に分析することから始める。 次に、これらの近似のうち何つが可能であるかについて議論し、最近の実験でしばしば破られた。 これらの失敗の結果、より複雑なモデルのためにJaynes-Cummingsモデルを捨てる必要があった。 ここでは、量子ラビモデルが最も顕著な役割を持ち、そのリッチで特異な現象論を迅速に調査する。 非摂動型光物質結合機構においても,Jaynes-Cummingsモデルが重要な役割を担っていることを示す。

In this tutorial review, we briefly discuss the role that the Jaynes-Cummings model occupies in present-day research in cavity quantum electrodynamics with a particular focus on the so-called ultrastrong coupling regime. We start by critically analyzing the various approximations required to distill such a simple model from standard quantum electrodynamics. We then discuss how many of those approximations can, and often have been broken in recent experiments. The consequence of these failures has been the need to abandon the Jaynes-Cummings model for more complex models. In this, the quantum Rabi model has the most prominent role and we will rapidly survey its rich and peculiar phenomenology. We conclude the paper by showing how the Jaynes-Cummings model still plays a crucial role even in non-perturbative light-matter coupling regimes.
翻訳日:2024-07-08 23:43:30 公開日:2024-07-04
# GPT-4によるプログラミング演習のためのフィードバック生成

Feedback-Generation for Programming Exercises With GPT-4 ( http://arxiv.org/abs/2403.04449v2 )

ライセンス: Link先を確認
Imen Azaiz, Natalie Kiesler, Sven Strickroth, (参考訳) LLM(Large Language Models)とその関連アプリケーションが広く普及して以来、教育者支援や高等教育における支援の可能性を調査してきた。 Codex, GPT-3.5, GPT 4 などの LLM は,大規模なプログラミングコースのコンテキストにおいて有望な結果を示している。 本稿では,プログラミングタスク仕様と学生が入力として提出した入力の両方を含むプロンプトに対して,GPT-4 Turboが生成する出力の品質について検討する。 導入プログラミングコースからの2つの課題が選択され、GPT-4は55のランダムに選択された真正な学生プログラミングの応募に対してフィードバックを生成するように求められた。 アウトプットは, 正当性, パーソナライゼーション, フォールトローカライゼーション, その他の特徴について質的に分析した。 GPT-3.5の以前の研究や分析と比較すると、GPT-4ターボは顕著な改善を示した。 例えば、出力はより構造化され、一貫性がある。 GPT-4 Turboは、学生プログラムの出力の不正なケーシングを正確に識別する。 フィードバックには学生プログラムの出力も含まれる場合もある。 同時に、提出が正しいがエラーを修正する必要があるというような矛盾したフィードバックも指摘されている。 本研究は, LLMのポテンシャル, 限界, 電子評価システムへの統合方法, 教育シナリオ, GPT-4 を応用した学生の指導方法の理解を深めるものである。

Ever since Large Language Models (LLMs) and related applications have become broadly available, several studies investigated their potential for assisting educators and supporting students in higher education. LLMs such as Codex, GPT-3.5, and GPT 4 have shown promising results in the context of large programming courses, where students can benefit from feedback and hints if provided timely and at scale. This paper explores the quality of GPT-4 Turbo's generated output for prompts containing both the programming task specification and a student's submission as input. Two assignments from an introductory programming course were selected, and GPT-4 was asked to generate feedback for 55 randomly chosen, authentic student programming submissions. The output was qualitatively analyzed regarding correctness, personalization, fault localization, and other features identified in the material. Compared to prior work and analyses of GPT-3.5, GPT-4 Turbo shows notable improvements. For example, the output is more structured and consistent. GPT-4 Turbo can also accurately identify invalid casing in student programs' output. In some cases, the feedback also includes the output of the student program. At the same time, inconsistent feedback was noted such as stating that the submission is correct but an error needs to be fixed. The present work increases our understanding of LLMs' potential, limitations, and how to integrate them into e-assessment systems, pedagogical scenarios, and instructing students who are using applications based on GPT-4.
翻訳日:2024-07-08 23:43:30 公開日:2024-07-04
# KG-Rank:知識グラフとランキング技術による医療QAのための大規模言語モデルの実現

KG-Rank: Enhancing Large Language Models for Medical QA with Knowledge Graphs and Ranking Techniques ( http://arxiv.org/abs/2403.05881v3 )

ライセンス: Link先を確認
Rui Yang, Haoran Liu, Edison Marrese-Taylor, Qingcheng Zeng, Yu He Ke, Wanxin Li, Lechao Cheng, Qingyu Chen, James Caverlee, Yutaka Matsuo, Irene Li, (参考訳) 大規模言語モデル(LLM)は、医学の革新の可能性を持つ、印象的な生成能力を実証している。 しかし, 実際の臨床環境におけるLCMの応用は, 生成したコンテンツの現実的な一貫性が欠如しているため, 依然として困難である。 本研究では,医学領域における長文質問応答(QA)の現実性を改善するために,医療知識グラフ(KG)とランク付けと再ランク付け技術を活用した拡張LDMフレームワークKG-Rankを開発する。 具体的には、質問を受けると、KG-Rankは、質問内の医療エンティティを自動的に識別し、関連する3つのトリプルを医療KGから検索して、事実情報を収集する。 その後、KG-Rankは、これらのトリプルの順序付けを洗練するために、革新的に複数のランク付け手法を適用し、LLM推論により関連性があり正確な情報を提供する。 我々の知る限りでは、KG-RankはKGと医学QAのランキングモデルを組み合わせた最初の応用であり、特に長い回答を生み出す。 KG-RankがROUGE-Lスコアで18%以上向上したことを示す。 さらに、KG-Rankを、法律、ビジネス、音楽、歴史を含むオープンドメインに拡張し、ROUGE-Lスコアの14%の改善を実現し、KG-Rankの有効性と大きな可能性を示している。

Large language models (LLMs) have demonstrated impressive generative capabilities with the potential to innovate in medicine. However, the application of LLMs in real clinical settings remains challenging due to the lack of factual consistency in the generated content. In this work, we develop an augmented LLM framework, KG-Rank, which leverages a medical knowledge graph (KG) along with ranking and re-ranking techniques, to improve the factuality of long-form question answering (QA) in the medical domain. Specifically, when receiving a question, KG-Rank automatically identifies medical entities within the question and retrieves the related triples from the medical KG to gather factual information. Subsequently, KG-Rank innovatively applies multiple ranking techniques to refine the ordering of these triples, providing more relevant and precise information for LLM inference. To the best of our knowledge, KG-Rank is the first application of KG combined with ranking models in medical QA specifically for generating long answers. Evaluation on four selected medical QA datasets demonstrates that KG-Rank achieves an improvement of over 18% in ROUGE-L score. Additionally, we extend KG-Rank to open domains, including law, business, music, and history, where it realizes a 14% improvement in ROUGE-L score, indicating the effectiveness and great potential of KG-Rank.
翻訳日:2024-07-08 23:33:46 公開日:2024-07-04
# CLIcK:韓国における文化的・言語知能のベンチマークデータセット

CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean ( http://arxiv.org/abs/2403.06412v4 )

ライセンス: Link先を確認
Eunsu Kim, Juyoung Suk, Philhoon Oh, Haneul Yoo, James Thorne, Alice Oh, (参考訳) 韓国語に対する大規模言語モデル(LLM)の急速な発展にもかかわらず、必要な韓国の文化的・言語的知識をテストするためのベンチマークデータセットは明らかに欠如している。 多くの既存の韓国のベンチマークデータセットは、翻訳によって英語から派生しているため、しばしば異なる文化的文脈を見落としている。 韓国の文化知識を収集するデータから得られた数少ないベンチマークデータセットでは、バイアスやヘイトスピーチ検出といった狭いタスクのみが提供されている。 このギャップに対処するため、韓国の文化・言語知能のベンチマーク(CLIcK)を導入し、1,995のQAペアからなるデータセットについて述べる。 CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。 CLIcKの各事例について、その疑問に正しく答えるためには、文化的、言語的知識が必要とされる、きめ細かいアノテーションを提供する。 CLIcKを使用して、13の言語モデルをテストし、パフォーマンスを評価します。 評価の結果から,各カテゴリの業績や,理解に影響を及ぼすさまざまな要因が明らかになった。 CLIcKは韓国の文化と言語におけるLLMの習熟度に関する大規模な韓国中心の分析を初めて提供している。

Despite the rapid development of large language models (LLMs) for the Korean language, there remains an obvious lack of benchmark datasets that test the requisite Korean cultural and linguistic knowledge. Because many existing Korean benchmark datasets are derived from the English counterparts through translation, they often overlook the different cultural contexts. For the few benchmark datasets that are sourced from Korean data capturing cultural knowledge, only narrow tasks such as bias and hate speech detection are offered. To address this gap, we introduce a benchmark of Cultural and Linguistic Intelligence in Korean (CLIcK), a dataset comprising 1,995 QA pairs. CLIcK sources its data from official Korean exams and textbooks, partitioning the questions into eleven categories under the two main categories of language and culture. For each instance in CLIcK, we provide fine-grained annotation of which cultural and linguistic knowledge is required to answer the question correctly. Using CLIcK, we test 13 language models to assess their performance. Our evaluation uncovers insights into their performances across the categories, as well as the diverse factors affecting their comprehension. CLIcK offers the first large-scale comprehensive Korean-centric analysis of LLMs' proficiency in Korean culture and language.
翻訳日:2024-07-08 23:33:46 公開日:2024-07-04
# CT2Rep:3Dメディカルイメージングのための自動放射線診断レポート

CT2Rep: Automated Radiology Report Generation for 3D Medical Imaging ( http://arxiv.org/abs/2403.06801v2 )

ライセンス: Link先を確認
Ibrahim Ethem Hamamci, Sezgin Er, Bjoern Menze, (参考訳) 医用画像は診断において重要な役割を担い、放射線診断報告は重要な文書として機能する。 放射線技師の作業負荷を軽減するために、レポート生成の自動化が重要な必要性として浮上している。 機械学習は2D医療画像のレポート生成を促進する一方で、これを3Dに拡張することは、計算の複雑さとデータの不足のために未解明である。 胸部CTボリュームを対象とする3次元医用画像のラジオグラフィーレポート作成法について紹介する。 比較手法が存在しないことから,医用画像における高度な3次元視覚エンコーダを用いたベースラインを構築し,新しい自己回帰型因果変換器を応用した手法の有効性を実証する。 さらに, 過去の訪問情報を活用する利点を認識し, クロスアテンションベースのマルチモーダルフュージョンモジュールと階層メモリによりCT2Repを増強し, 縦型マルチモーダルデータの取り込みを可能にした。 https://github.com/ibrahimethemhamamci/CT2Repでコードにアクセスします。

Medical imaging plays a crucial role in diagnosis, with radiology reports serving as vital documentation. Automating report generation has emerged as a critical need to alleviate the workload of radiologists. While machine learning has facilitated report generation for 2D medical imaging, extending this to 3D has been unexplored due to computational complexity and data scarcity. We introduce the first method to generate radiology reports for 3D medical imaging, specifically targeting chest CT volumes. Given the absence of comparable methods, we establish a baseline using an advanced 3D vision encoder in medical imaging to demonstrate our method's effectiveness, which leverages a novel auto-regressive causal transformer. Furthermore, recognizing the benefits of leveraging information from previous visits, we augment CT2Rep with a cross-attention-based multi-modal fusion module and hierarchical memory, enabling the incorporation of longitudinal multimodal data. Access our code at https://github.com/ibrahimethemhamamci/CT2Rep
翻訳日:2024-07-08 23:33:46 公開日:2024-07-04
# Ariadne と Theseus: 未知のグラフで2つのモバイルエージェントによる探索とレンデブー

Ariadne and Theseus: Exploration and Rendezvous with Two Mobile Agents in an Unknown Graph ( http://arxiv.org/abs/2403.07748v2 )

ライセンス: Link先を確認
Romain Cosson, (参考訳) モバイルコンピューティングにおける2つの基本的な問題、すなわち探索とランデブーについて、未知のグラフに2つの異なるモバイルエージェントを用いて検討する。 エージェントは、すべてのノードにあるホワイトボードで情報を読み書きすることで通信することができる。 どちらも、各段階ごとに隣接する端に沿って移動する。 探索問題では、エージェントは同じ任意のノードから始まり、すべてのエッジを横切る必要がある。 我々は,グラフのエッジ数として$m$の時間ステップで集合探索を行うアルゴリズムを提案する。 これにより、深さ優先検索の保証が改善される。 ランデブー問題では、エージェントはグラフの異なるノードから始まり、できるだけ早く満たさなければならない。 我々は,少なくとも$\frac{3}{2}m$の時間ステップでランデブーを保証するアルゴリズムを提案する。 このアルゴリズムは、深さ優先の検索をベースとし、200万ドル(約2億2000万円)のタイムステップを必要とする。 重要なことは、我々の保証はすべて、エージェントの速度が常に敵によって制御されるより一般的な非同期設定に由来する。 我々の保証は、すべての辺の長さの和に$m$のエッジの数を置き換えるとき、重み付きグラフに一般化する。 保証は、非同期環境での下位バウンドと一致していることが示されます。

We investigate two fundamental problems in mobile computing: exploration and rendezvous, with two distinct mobile agents in an unknown graph. The agents may communicate by reading and writing information on whiteboards that are located at all nodes. They both move along one adjacent edge at every time-step. In the exploration problem, the agents start from the same arbitrary node and must traverse all the edges. We present an algorithm achieving collective exploration in $m$ time-steps, where $m$ is the number of edges of the graph. This improves over the guarantee of depth-first search, which requires $2m$ time-steps. In the rendezvous problem, the agents start from different nodes of the graph and must meet as fast as possible. We present an algorithm guaranteeing rendezvous in at most $\frac{3}{2}m$ time-steps. This improves over the so-called `wait for Mommy' algorithm which is based on depth-first search and which also requires $2m$ time-steps. Importantly, all our guarantees are derived from a more general asynchronous setting in which the speeds of the agents are controlled by an adversary at all times. Our guarantees generalize to weighted graphs, when replacing the number of edges $m$ with the sum of all edge lengths. We show that our guarantees are met with matching lower-bounds in the asynchronous setting.
翻訳日:2024-07-08 23:33:46 公開日:2024-07-04
# DexCap: Dexterous ManipulationのためのスケーラブルでポータブルなMocapデータ収集システム

DexCap: Scalable and Portable Mocap Data Collection System for Dexterous Manipulation ( http://arxiv.org/abs/2403.07788v2 )

ライセンス: Link先を確認
Chen Wang, Haochen Shi, Weizhuo Wang, Ruohan Zhang, Li Fei-Fei, C. Karen Liu, (参考訳) 人間の手の動きデータからの模倣学習は、現実世界の操作タスクにおいて、人間のような器用さでロボットを倒すための有望な道を示す。 この可能性にもかかわらず、特に既存の手動キャプチャ(モキャップ)システムの移植性や、モキャップデータを効果的なロボットポリシーに変換する複雑さなど、重大な課題が続いている。 これらの課題に対処するために、携帯型手動キャプチャシステムであるDexCapと、人間の手動モカプデータから直接、器用なロボットスキルを訓練するための新しい模倣アルゴリズムであるDexILを紹介する。 DexCapは、SLAMと電磁場に基づく手首と指の動きの精密で閉塞に強い追跡と環境の3D観察を提供する。 このリッチデータセットを利用することで、DexILは逆キネマティクスとポイントクラウドベースの模倣学習を使用して、ロボット手で人間のアクションをシームレスに複製する。 人間の動きから直接学習するだけでなく、DexCapはポリシーのロールアウト中にオプションでヒューマン・イン・ザ・ループの補正メカニズムを提供し、タスクパフォーマンスを洗練し、さらに改善する。 課題6つのデキスタラスな操作タスクに対する広範囲な評価を通じて,本手法は優れた性能を示すだけでなく,既存のモカプデータから効果的に学習し,人間レベルのデキスタリティを追求するための将来的なデータ収集手法の道筋を示す。 詳細はhttps://dex-cap.github.ioで確認できる。

Imitation learning from human hand motion data presents a promising avenue for imbuing robots with human-like dexterity in real-world manipulation tasks. Despite this potential, substantial challenges persist, particularly with the portability of existing hand motion capture (mocap) systems and the complexity of translating mocap data into effective robotic policies. To tackle these issues, we introduce DexCap, a portable hand motion capture system, alongside DexIL, a novel imitation algorithm for training dexterous robot skills directly from human hand mocap data. DexCap offers precise, occlusion-resistant tracking of wrist and finger motions based on SLAM and electromagnetic field together with 3D observations of the environment. Utilizing this rich dataset, DexIL employs inverse kinematics and point cloud-based imitation learning to seamlessly replicate human actions with robot hands. Beyond direct learning from human motion, DexCap also offers an optional human-in-the-loop correction mechanism during policy rollouts to refine and further improve task performance. Through extensive evaluation across six challenging dexterous manipulation tasks, our approach not only demonstrates superior performance but also showcases the system's capability to effectively learn from in-the-wild mocap data, paving the way for future data collection methods in the pursuit of human-level robot dexterity. More details can be found at https://dex-cap.github.io
翻訳日:2024-07-08 23:33:46 公開日:2024-07-04
# SkateFormer:人間の行動認識のための骨格時間変換器

SkateFormer: Skeletal-Temporal Transformer for Human Action Recognition ( http://arxiv.org/abs/2403.09508v2 )

ライセンス: Link先を確認
Jeonghyeok Do, Munchurl Kim, (参考訳) スケルトンに基づく行動認識は関節の座標と骨格データ内の接続性に基づいて人間の行動を分類し、様々なシナリオで広く利用されている。 グラフ畳み込みネットワーク(GCN)は、グラフとして表される骨格データに対して提案されているが、それらは結合接続によって制限される限られた受容領域に悩まされている。 この制限に対処するため、最近の進歩はトランスフォーマーベースの手法を導入している。 しかし、すべてのフレームで全てのジョイント間の相関を捉えるには、かなりのメモリリソースが必要である。 そこで本稿では,骨格・時間的関係(Skate-Type)の異なるタイプの骨格・時間的関係(Skate-MSA)に基づいて関節とフレームを分割し,各分割内で骨格・時間的自己意識(Skate-MSA)を行う,SkateFormer(SkateFormer)と呼ばれる新しいアプローチを提案する。 本研究は,行動認識のための重要な骨格・時間的関係を4つの異なるタイプに分類する。 これらの種類が組み合わさる 一 物理的に隣人及び遠方の関節に基づく二種類の骨格関係の種類及び (ii)隣接するフレームと遠方のフレームに基づく2つの時間的関係型。 この分割特異的アテンション戦略により、SkateFormerはアクション認識に不可欠なキージョイントとフレームを、効率的な計算で選択的にフォーカスすることができる。 さまざまなベンチマークデータセットに対する大規模な実験により、SkateFormerは最近の最先端の手法よりも優れていることが確認された。

Skeleton-based action recognition, which classifies human actions based on the coordinates of joints and their connectivity within skeleton data, is widely utilized in various scenarios. While Graph Convolutional Networks (GCNs) have been proposed for skeleton data represented as graphs, they suffer from limited receptive fields constrained by joint connectivity. To address this limitation, recent advancements have introduced transformer-based methods. However, capturing correlations between all joints in all frames requires substantial memory resources. To alleviate this, we propose a novel approach called Skeletal-Temporal Transformer (SkateFormer) that partitions joints and frames based on different types of skeletal-temporal relation (Skate-Type) and performs skeletal-temporal self-attention (Skate-MSA) within each partition. We categorize the key skeletal-temporal relations for action recognition into a total of four distinct types. These types combine (i) two skeletal relation types based on physically neighboring and distant joints, and (ii) two temporal relation types based on neighboring and distant frames. Through this partition-specific attention strategy, our SkateFormer can selectively focus on key joints and frames crucial for action recognition in an action-adaptive manner with efficient computation. Extensive experiments on various benchmark datasets validate that our SkateFormer outperforms recent state-of-the-art methods.
翻訳日:2024-07-08 23:33:46 公開日:2024-07-04
# ガウススプラッティングによるビュー一貫性3次元編集

View-Consistent 3D Editing with Gaussian Splatting ( http://arxiv.org/abs/2403.11868v6 )

ライセンス: Link先を確認
Yuxuan Wang, Xuanyu Yi, Zike Wu, Na Zhao, Long Chen, Hanwang Zhang, (参考訳) 3D Gaussian Splatting (3DGS)の出現は、3D編集に革命をもたらし、効率よく高忠実なレンダリングを提供し、正確な局所的な操作を可能にした。 現在、拡散ベースの2D編集モデルを用いて、マルチビューレンダリング画像を修正し、3DGSモデルの編集をガイドしている。 しかし、このアプローチは多視点不整合の重要な問題に直面しており、誘導画像はビュー間で大きな相違を示し、モード崩壊と3DGSの視覚的アーティファクトをもたらす。 この目的のために、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークであるView-Consistent Editing (VcEdit)を導入する。 VcEditには、Cross-attention Consistency ModuleとEditing Consistency Moduleという2つの革新的な一貫性モジュールがある。 これらの一貫性モジュールを反復的なパターンに組み込むことで、VcEditは多視点不整合の問題を解決し、様々な場面で高品質な3DGS編集を容易にする。 さらなるコードとビデオの結果は http://yuxuanw.me/vcedit/ で公開されている。

The advent of 3D Gaussian Splatting (3DGS) has revolutionized 3D editing, offering efficient, high-fidelity rendering and enabling precise local manipulations. Currently, diffusion-based 2D editing models are harnessed to modify multi-view rendered images, which then guide the editing of 3DGS models. However, this approach faces a critical issue of multi-view inconsistency, where the guidance images exhibit significant discrepancies across views, leading to mode collapse and visual artifacts of 3DGS. To this end, we introduce View-consistent Editing (VcEdit), a novel framework that seamlessly incorporates 3DGS into image editing processes, ensuring multi-view consistency in edited guidance images and effectively mitigating mode collapse issues. VcEdit employs two innovative consistency modules: the Cross-attention Consistency Module and the Editing Consistency Module, both designed to reduce inconsistencies in edited images. By incorporating these consistency modules into an iterative pattern, VcEdit proficiently resolves the issue of multi-view inconsistency, facilitating high-quality 3DGS editing across a diverse range of scenes. Further code and video results are released at http://yuxuanw.me/vcedit/.
翻訳日:2024-07-08 23:33:46 公開日:2024-07-04
# 統一異常検出のための階層型ガウス混合流れの正規化

Hierarchical Gaussian Mixture Normalizing Flow Modeling for Unified Anomaly Detection ( http://arxiv.org/abs/2403.13349v2 )

ライセンス: Link先を確認
Xincheng Yao, Ruoqi Li, Zefeng Qian, Lu Wang, Chongyang Zhang, (参考訳) 統一異常検出(AD: Unified Anomaly Detection)は、複数のクラスからの正常なサンプルを用いて1つの統一モデルが訓練され、これらのクラスにおける異常を検出することを目的とした、異常検出の最も難しい課題の1つである。 このような課題に対して、一般的な正規化フロー(NF)ベースのAD手法は、「均一なマッピング」問題に陥りうる。 本稿では,HGADと呼ばれる一貫した異常検出を実現するための,階層型ガウス混合正規化フローモデリング手法を提案する。 我々のHGADは,クラス間ガウス混合モデリングとクラス内混合クラスセンター学習の2つの重要な構成要素から構成されている。 従来のNFベースのAD法と比較して、階層的なガウス混合モデリングアプローチは、正規化フローの潜在空間により強力な表現能力をもたらすことができるため、複雑な多クラス分布であっても、潜在空間において適切に表現し、学習することができる。 このようにして、異なるクラス分布を同じ単一のガウス分布にマッピングすることを避け、「均一写像」問題を効果的に回避または緩和することができる。 さらに、より区別可能な異なるクラスセンタが、バイアス問題を避けるためにより導出的であることも示します。 そこで本稿では,潜在特徴空間をよりよく構築するための相互情報最大化損失を提案する。 提案手法を4つの実世界のADベンチマークで評価し,従来のNFベースのAD手法を大幅に改善し,SOTA統合AD手法よりも優れていることを示す。

Unified anomaly detection (AD) is one of the most challenges for anomaly detection, where one unified model is trained with normal samples from multiple classes with the objective to detect anomalies in these classes. For such a challenging task, popular normalizing flow (NF) based AD methods may fall into a "homogeneous mapping" issue,where the NF-based AD models are biased to generate similar latent representations for both normal and abnormal features, and thereby lead to a high missing rate of anomalies. In this paper, we propose a novel Hierarchical Gaussian mixture normalizing flow modeling method for accomplishing unified Anomaly Detection, which we call HGAD. Our HGAD consists of two key components: inter-class Gaussian mixture modeling and intra-class mixed class centers learning. Compared to the previous NF-based AD methods, the hierarchical Gaussian mixture modeling approach can bring stronger representation capability to the latent space of normalizing flows, so that even complex multi-class distribution can be well represented and learned in the latent space. In this way, we can avoid mapping different class distributions into the same single Gaussian prior, thus effectively avoiding or mitigating the "homogeneous mapping" issue. We further indicate that the more distinguishable different class centers, the more conducive to avoiding the bias issue. Thus, we further propose a mutual information maximization loss for better structuring the latent feature space. We evaluate our method on four real-world AD benchmarks, where we can significantly improve the previous NF-based AD methods and also outperform the SOTA unified AD methods.
翻訳日:2024-07-08 23:33:46 公開日:2024-07-04
# Attribute First, then Generate: Locally-Atributable Grounded Text Generation

Attribute First, then Generate: Locally-attributable Grounded Text Generation ( http://arxiv.org/abs/2403.17104v3 )

ライセンス: Link先を確認
Aviv Slobodkin, Eran Hirsch, Arie Cattan, Tal Schuster, Ido Dagan, (参考訳) 近年,Large Language Models (LLMs) における幻覚への取り組みは,生成したテキストに後代事実チェックと修正のための支援源の引用を補足する属性テキスト生成に焦点が当てられている。 しかし、これらの引用は文書や段落全体を指していることが多く、ユーザーを広範囲の検証作業に苦しめている。 本稿では,簡潔な属性を優先する局所帰属型テキスト生成手法を提案する。 Attribute First, then Generate" と名付けられた本手法は,従来のエンドツーエンド生成プロセスを,コンテンツ選択,文計画,逐次文生成という3つの直感的なステップに分解する。 最初は関連するソースセグメント("select first")を識別し、生成プロセス("then generation")を条件付けすることで、これらのセグメントが出力の微細な属性としても機能することを保証する("select"は"attribute")。 提案手法は,複数文書の要約と長文質問回答に基づいて,ベースラインよりも簡潔な引用を得られるだけでなく,生成品質と帰属精度を向上する。 さらに、人間の評価者による事実検証に要する時間を大幅に短縮する。

Recent efforts to address hallucinations in Large Language Models (LLMs) have focused on attributed text generation, which supplements generated texts with citations of supporting sources for post-generation fact-checking and corrections. Yet, these citations often point to entire documents or paragraphs, burdening users with extensive verification work. In this paper, we introduce a locally-attributable text generation approach, prioritizing concise attributions. Our method, named "Attribute First, then Generate", breaks down the conventional end-to-end generation process into three intuitive steps: content selection, sentence planning, and sequential sentence generation. By initially identifying relevant source segments ("select first") and then conditioning the generation process on them ("then generate"), we ensure these segments also act as the output's fine-grained attributions ("select" becomes "attribute"). Tested on Multi-document Summarization and Long-form Question-answering, our method not only yields more concise citations than the baselines but also maintains - and in some cases enhances - both generation quality and attribution accuracy. Furthermore, it significantly reduces the time required for fact verification by human assessors.
翻訳日:2024-07-08 23:24:01 公開日:2024-07-04
# 生成モデル(Gen-RecSys)を用いた現代レコメンダシステムの検討

A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys) ( http://arxiv.org/abs/2404.00579v2 )

ライセンス: Link先を確認
Yashar Deldjoo, Zhankui He, Julian McAuley, Anton Korikov, Scott Sanner, Arnau Ramisa, René Vidal, Maheswaran Sathiamoorthy, Atoosa Kasirzadeh, Silvia Milano, (参考訳) 従来のレコメンデータシステム(RS)は、通常、ユーザイテムのレーティング履歴を主要なデータソースとして使用します。 しかし、深層生成モデルは、ユーザとイテムのインタラクション、テキスト、画像、ビデオなど、複雑なデータ分散をモデル化し、サンプルする機能を備えており、新しいレコメンデーションタスクを可能にしている。 この包括的多分野調査は、ジェネレーティブモデル(Gen-RecSys)を用いたRSの重要な進歩と、インタラクション駆動ジェネレーティブモデル、自然言語レコメンデーションのための大規模言語モデル(LLM)とテキストデータの使用、RSにおける画像/映像の生成と処理のためのマルチモーダルモデルの統合を関連付ける。 我々の研究は、Gen-RecSysの影響と害を評価するために必要なパラダイムを強調し、オープンな課題を特定します。 このサーベイには、ACM KDD'24で提示されたチュートリアルが付属しており、サポート資料は以下の通りである。

Traditional recommender systems (RS) typically use user-item rating histories as their main data source. However, deep generative models now have the capability to model and sample from complex data distributions, including user-item interactions, text, images, and videos, enabling novel recommendation tasks. This comprehensive, multidisciplinary survey connects key advancements in RS using Generative Models (Gen-RecSys), covering: interaction-driven generative models; the use of large language models (LLM) and textual data for natural language recommendation; and the integration of multimodal models for generating and processing images/videos in RS. Our work highlights necessary paradigms for evaluating the impact and harm of Gen-RecSys and identifies open challenges. This survey accompanies a tutorial presented at ACM KDD'24, with supporting materials provided at: https://encr.pw/vDhLq.
翻訳日:2024-07-08 23:24:01 公開日:2024-07-04
# 超高効率の圧電量子望遠鏡

Piecemeal Quantum Telescope with Super Efficiency ( http://arxiv.org/abs/2404.03432v2 )

ライセンス: Link先を確認
Jian Leng, Yi-Xin Shen, Zhou-Kai Cao, Xiang-Bin Wang, (参考訳) 高精度な遠隔物体の検出は、天文学的な観測など、多くの科学的課題において重要な役割を担っている。 既存の量子望遠鏡の精度は、入射単光子の平方根のスケールで改善される。 本稿では,ビット・バイ・ビット・イテレーションによる高効率の量子望遠鏡を提案する。 恒星角の検出において、少数の入射単光子のみを指数関数的に要求する精度を向上させる。 その結果、古典的極限を4~5等級の精度で破るために、数百個の光子しか検出できないことが要求された。 さらに,高分解能の未知数の恒星からなる一般的な天体目標を識別するために,本手法を適用した。

Detecting remote objects with higher precision takes a crucial role in many scientific tasks, such as astronomical observation. The precision of existing quantum telescopes is improved in the scale of square root of incident single-photons. Here we propose the piecemeal quantum telescope with high efficiency through bit-by-bit iteration. It improves precision exponentially requesting only a small number of incident single-photons in detecting the star angle. As a result, it requests to detect only a few hundreds of photons for a precision breaking classical limit by 4 to 5 magnitude orders. Moreover, our method can be applied to distinguish a general astronomical target consisting of unknown number of stars with high resolution.
翻訳日:2024-07-08 23:24:01 公開日:2024-07-04
# PreAfford: 分散オブジェクトと環境のためのユニバーサルアクダクタンスベースのプレグラッピング

PreAfford: Universal Affordance-Based Pre-Grasping for Diverse Objects and Environments ( http://arxiv.org/abs/2404.03634v2 )

ライセンス: Link先を確認
Kairui Ding, Boyuan Chen, Ruihai Wu, Yuyang Li, Zongzheng Zhang, Huan-ang Gao, Siqi Li, Guyue Zhou, Yixin Zhu, Hao Dong, Hao Zhao, (参考訳) 二本指グリップによるロボット操作は、異なる把握可能な特徴を欠いた物体によって困難である。 通常、オブジェクトの再配置やテーブルエッジのような外部のエイズを利用する従来のプレグラス法は、異なるオブジェクトカテゴリや環境にまたがる適応性に制限されている。 このような制約を克服するために,ポイントレベルのアベイランス表現とリレートレーニングアプローチを取り入れた,新しいプレグラッピング計画フレームワークであるPreAffordを導入する。 提案手法は適応性を大幅に向上し,多様な環境やオブジェクトタイプを効果的に操作できる。 ShapeNet-v2データセットで評価すると、PreAffordは成功率を69%向上するだけでなく、実世界の実験の成功を通じてその実用性を実証する。 これらの改善は、様々な環境で複雑な操作タスクのロボット処理の標準を再定義するPreAffordの可能性を強調している。

Robotic manipulation with two-finger grippers is challenged by objects lacking distinct graspable features. Traditional pre-grasping methods, which typically involve repositioning objects or utilizing external aids like table edges, are limited in their adaptability across different object categories and environments. To overcome these limitations, we introduce PreAfford, a novel pre-grasping planning framework that incorporates a point-level affordance representation and a relay training approach. Our method significantly improves adaptability, allowing effective manipulation across a wide range of environments and object types. When evaluated on the ShapeNet-v2 dataset, PreAfford not only enhances grasping success rates by 69% but also demonstrates its practicality through successful real-world experiments. These improvements highlight PreAfford's potential to redefine standards for robotic handling of complex manipulation tasks in diverse settings.
翻訳日:2024-07-08 23:24:01 公開日:2024-07-04
# AIが学習していないもの(そしてなぜ) - ロボットのためのバイオインスパイアされた基礎モデル

What AIs are not Learning (and Why): Bio-Inspired Foundation Models for Robots ( http://arxiv.org/abs/2404.04267v9 )

ライセンス: Link先を確認
Mark Stefik, (参考訳) 便利なロボット(テレロボットを含む)を作ることは困難であり、堅牢で汎用的な自律ロボットを作ることは困難である。 現在のスマートロボットは、手動プログラミング、数学的モデル、計画フレームワーク、強化学習を使って作成されている。 これらの手法は、ディープラーニング、生成AI、基礎モデル(FM)で見られるパフォーマンスと一般性の飛躍に繋がらない。 現代のロボットは、ホームケア、看護助手、家事の仕方など、人よりはマシなことを学ばない。 ロボットサービスアプリケーションの願望に応えるには、その作り方を改善する必要がある。 2足歩行ロボット(ボディ)の高コストは、研究と展開の両方において大きな障害となる。 より深い問題は、主流のFM(「ミンド」)が現実世界の文脈における知覚、行動、学習をサポートしていないことである。 うまくコミュニケーションしたり協力したりするロボットに繋がることはない。 実験をしたり、他人に質問したり、模倣学習を適当に行おうとするロボットに導かれることはない。 それらは、サービスアプリケーションに広くデプロイされるのに十分な知識を持つロボットにつながらない。 本稿では、人間互換サービスロボットが知っておくべきことに焦点を当てる。 ブートストラップのための経験的(別名「ロボティック」)FMの開発を推奨している。

It is hard to make robots (including telerobots) that are useful, and harder to make autonomous robots that are robust and general. Current smart robots are created using manual programming, mathematical models, planning frameworks, and reinforcement learning. These methods do not lead to the leaps in performance and generality seen with deep learning, generative AI, and foundation models (FMs). Today's robots do not learn to provide home care, to be nursing assistants, or to do household chores nearly as well as people do. Addressing the aspirational opportunities of robot service applications requires improving how they are created. The high cost of bipedal multi-sensory robots ("bodies") is a significant obstacle for both research and deployment. A deeper issue is that mainstream FMs ("minds") do not support sensing, acting, and learning in context in the real world. They do not lead to robots that communicate well or collaborate. They do not lead to robots that try to learn by experimenting, by asking others, or by imitation learning as appropriate. They do not lead to robots that know enough to be deployed widely in service applications. This paper focuses on what human-compatible service robots need to know. It recommends developing experiential (aka "robotic") FMs for bootstrapping them.
翻訳日:2024-07-08 23:24:01 公開日:2024-07-04
# CQIL:準独立層の同時計算による推論レイテンシ最適化

CQIL: Inference Latency Optimization with Concurrent Computation of Quasi-Independent Layers ( http://arxiv.org/abs/2404.06709v2 )

ライセンス: Link先を確認
Longwei Zou, Qingyang Wang, Han Zhao, Jiangang Kong, Yi Yang, Yangdong Deng, (参考訳) 急速に成長する大規模言語モデルは、ほぼすべての自然言語処理タスクで前例のないパフォーマンスを実現している。 しかし、大規模言語モデルの有効性は指数関数的に増加するパラメータ数に依存している。 圧倒的な計算複雑性は、ユーザエクスペリエンスに悪影響を及ぼす高い推論遅延を引き起こします。 テンソル並列性や量子化などの推論効率を改善する既存の手法は、層間コンピューティングのレイテンシを低減することを目的としているが、レイヤ数による累積レイテンシを無視する。 しかし、最近のレイヤ削除による累積遅延の低減に関する作業は、大幅なパフォーマンス低下につながっている。 隣接層間の入力の類似性から,推定遅延を著しく低減するために並列に計算できる準非依存層を同定することを提案する。 また,情報損失の影響を緩和するためのバイパス手法も導入する。 LLaMAモデルに対する提案手法の実証実験により、CQIL (Concurrent Computation of Quasi-Independent Layers) はLLaMA-33B上でのレイテンシを最大48.3%削減できるが、性能は高い。

The fast-growing large scale language models are delivering unprecedented performance on almost all natural language processing tasks. However, the effectiveness of large language models are reliant on an exponentially increasing number of parameters. The overwhelming computation complexity incurs a high inference latency that negatively affects user experience. Existing methods to improve inference efficiency, such as tensor parallelism and quantization, target to reduce per-layer computing latency, yet overlook the cumulative latency due to the number of layers. Recent works on reducing the cumulative latency through layer removing, however, lead to significant performance drop. Motivated by the similarity of inputs among adjacent layers, we propose to identify quasi-independent layers, which can be concurrently computed to significantly decrease inference latency. We also introduce a bypassing technique to mitigate the effect of information loss. Empirical experiments of the proposed approach on the LLaMA models confirm that Concurrent Computation of Quasi-Independent Layers (CQIL) can reduce latency by up to 48.3% on LLaMA-33B, while maintaining a close level of performance.
翻訳日:2024-07-08 23:24:01 公開日:2024-07-04
# Base ChatGPTは追加最適化なしで予測に使用できるか?

Can Base ChatGPT be Used for Forecasting without Additional Optimization? ( http://arxiv.org/abs/2404.07396v3 )

ライセンス: Link先を確認
Van Pham, Scott Cunningham, (参考訳) 本研究では,OpenAI の ChatGPT-3.5 と ChatGPT-4 が今後の事象を予測できるかどうかを検討する。 予測の精度を評価するため,2021年9月(2023年9月)に実験中のトレーニングデータが停止した事実を利用して,2022年(2022年)に起こった出来事について質問する。 直接予測と,ChatGPTのトレーニングデータが収集された後,我々は,過去に起こった出来事を再現するキャラクターを用いて,ChatGPTに将来設定された架空の物語を伝えるよう依頼する,未来物語と呼ばれる2つのプロンプト戦略を採用した。 私たちはChatGPTに、特に経済的な文脈において、ストーリーテリングに従事するように促しました。 100の試行を解析した結果,将来の物語はChatGPT-4の予測精度を大幅に向上させることがわかった。 これはアカデミー賞の受賞者や経済トレンドの予測で特に顕著であり、後者は連邦準備制度理事会議長ジェローム・パウエルのような人物をモデルにしたシナリオから推測された。 ファルシフィケーション・エクササイズとして,2024年5月の実験を繰り返すとともに,より最近のトレーニングデータを含むモデルについて検討した。 ChatGPT-4の精度は、トレーニングウィンドウが要求されるイベントを含むと大幅に改善され、多くのインスタンスで100%精度が達成された。 2023年の予測実験では、ChatGPT-4はトレーニングデータのみに基づいて予測を形成していた。 ナラティブプロンプトは、直接プロンプトよりも一貫して優れていた。 これらの結果から,物語のプロンプトは幻覚的物語構築にモデルの能力を活用し,直接的な予測よりも効果的なデータ合成と外挿を促進することが示唆された。 本研究は,LLMの予測能力の新たな側面を明らかにし,解析的文脈における将来的な応用の可能性を提案する。

This study investigates whether OpenAI's ChatGPT-3.5 and ChatGPT-4 can forecast future events. To evaluate the accuracy of the predictions, we take advantage of the fact that the training data at the time of our experiments (mid 2023) stopped at September 2021, and ask about events that happened in 2022. We employed two prompting strategies: direct prediction and what we call future narratives which ask ChatGPT to tell fictional stories set in the future with characters retelling events that happened in the past, but after ChatGPT's training data had been collected. We prompted ChatGPT to engage in storytelling, particularly within economic contexts. After analyzing 100 trials, we find that future narrative prompts significantly enhanced ChatGPT-4's forecasting accuracy. This was especially evident in its predictions of major Academy Award winners as well as economic trends, the latter inferred from scenarios where the model impersonated public figures like the Federal Reserve Chair, Jerome Powell. As a falsification exercise, we repeated our experiments in May 2024 at which time the models included more recent training data. ChatGPT-4's accuracy significantly improved when the training window included the events being prompted for, achieving 100% accuracy in many instances. The poorer accuracy for events outside of the training window suggests that in the 2023 prediction experiments, ChatGPT-4 was forming predictions based solely on its training data. Narrative prompting also consistently outperformed direct prompting. These findings indicate that narrative prompts leverage the models' capacity for hallucinatory narrative construction, facilitating more effective data synthesis and extrapolation than straightforward predictions. Our research reveals new aspects of LLMs' predictive capabilities and suggests potential future applications in analytical contexts.
翻訳日:2024-07-08 23:24:01 公開日:2024-07-04
# Tango 2: 直接参照最適化による拡散に基づくテキスト・ツー・オーディオ生成の調整

Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization ( http://arxiv.org/abs/2404.09956v3 )

ライセンス: Link先を確認
Navonil Majumder, Chia-Yu Hung, Deepanway Ghosal, Wei-Ning Hsu, Rada Mihalcea, Soujanya Poria, (参考訳) 生成的マルチモーダルコンテンツは、アーティストやメディアのスタッフが、アイデアを迅速に生かして、制作前のモックアップを作成できる可能性があるため、コンテンツ制作の領域の多くでますます普及している。 テキストプロンプトからの音声の生成は、音楽や映画産業におけるそのようなプロセスの重要な側面である。 最近の拡散に基づくテキスト・ツー・オーディオモデルの多くは、プロンプト・オーディオペアの大規模なデータセットに基づいて、ますます洗練された拡散モデルのトレーニングに重点を置いている。 これらのモデルは、入力プロンプトに関して、概念やイベントの存在と、出力オーディオにおける時間的順序に明示的に焦点を絞らない。 我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。 そこで本研究では,既存のテキスト音声モデルであるTangoを用いて,各プロンプトが勝者音声出力と敗者音声出力を有して学習する選好データセットを合成する。 敗者出力は、理論上、即時欠落または誤った順序からいくつかの概念を持つ。 そこで我々は,TangoとAudioLDM2における拡散DPOの損失を利用して,公開されているTangoテキスト音声モデルを微調整し,自動評価と手動評価の両方の観点から,TangoとAudioLDM2による音声出力の改善につながることを示す。

Generative multimodal content is increasingly prevalent in much of the content creation arena, as it has the potential to allow artists and media personnel to create pre-production mockups by quickly bringing their ideas to life. The generation of audio from text prompts is an important aspect of such processes in the music and film industry. Many of the recent diffusion-based text-to-audio models focus on training increasingly sophisticated diffusion models on a large set of datasets of prompt-audio pairs. These models do not explicitly focus on the presence of concepts or events and their temporal ordering in the output audio with respect to the input prompt. Our hypothesis is focusing on how these aspects of audio generation could improve audio generation performance in the presence of limited data. As such, in this work, using an existing text-to-audio model Tango, we synthetically create a preference dataset where each prompt has a winner audio output and some loser audio outputs for the diffusion model to learn from. The loser outputs, in theory, have some concepts from the prompt missing or in an incorrect order. We fine-tune the publicly available Tango text-to-audio model using diffusion-DPO (direct preference optimization) loss on our preference dataset and show that it leads to improved audio output over Tango and AudioLDM2, in terms of both automatic- and manual-evaluation metrics.
翻訳日:2024-07-08 23:24:01 公開日:2024-07-04
# 内部とモーメント最適化を用いたインテクスト学習状態ベクトル

In-Context Learning State Vector with Inner and Momentum Optimization ( http://arxiv.org/abs/2404.11225v2 )

ライセンス: Link先を確認
Dongfang Li, Zhenyu Liu, Xinshuo Hu, Zetian Sun, Baotian Hu, Min Zhang, (参考訳) 大規模言語モデル(LLM)は、わずか数例からICL(In-Context Learning)を実行する素晴らしい能力を示した。 近年の研究では、ICLが学習した関数は変換器から得られる圧縮ベクトルで表現できることが示されている。 しかし、これらのベクトルの動作機構と最適化はまだ十分に研究されていない。 本稿では,これらの圧縮ベクトルを包括的に解析し,勾配降下で訓練されたパラメータに並列性を引き出すことにより,このギャップに対処し,状態ベクトルの概念を導入する。 モデルスープと運動量に基づく勾配降下の研究に触発され、テスト時間適応として段階的に状態ベクトルを洗練させる内部および運動量最適化法を提案する。 さらに、多数の例からなる実演が通常のICLには長すぎるような状態ベクトル集約を複数例でシミュレートし、さらにこの課題に対処するための分割・対数アグリゲーション法を提案する。 ゼロショット設定と少数ショット設定の両方において,Llama-2 と GPT-J を用いた広範囲な実験を行った。 実験結果から, 最適化手法は状態ベクトルを効果的に向上し, 多様なタスクにおける最先端性能を実現することが示唆された。 コードはhttps://github.com/HITsz-TMG/ICL-State-Vectorで入手できる。

Large Language Models (LLMs) have exhibited an impressive ability to perform In-Context Learning (ICL) from only a few examples. Recent works have indicated that the functions learned by ICL can be represented through compressed vectors derived from the transformer. However, the working mechanisms and optimization of these vectors are yet to be thoroughly explored. In this paper, we address this gap by presenting a comprehensive analysis of these compressed vectors, drawing parallels to the parameters trained with gradient descent, and introduce the concept of state vector. Inspired by the works on model soup and momentum-based gradient descent, we propose inner and momentum optimization methods that are applied to refine the state vector progressively as test-time adaptation. Moreover, we simulate state vector aggregation in the multiple example setting, where demonstrations comprising numerous examples are usually too lengthy for regular ICL, and further propose a divide-and-conquer aggregation method to address this challenge. We conduct extensive experiments using Llama-2 and GPT-J in both zero-shot setting and few-shot setting. The experimental results show that our optimization method effectively enhances the state vector and achieves the state-of-the-art performance on diverse tasks. Code is available at https://github.com/HITsz-TMG/ICL-State-Vector
翻訳日:2024-07-08 23:14:17 公開日:2024-07-04
# NegotiationToM: ストレステストマシン理論のベンチマーク

NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding ( http://arxiv.org/abs/2404.13627v2 )

ライセンス: Link先を確認
Chunkit Chan, Cheng Jiayang, Yauwai Yim, Zheye Deng, Wei Fan, Haoran Li, Xin Liu, Hongming Zhang, Weiqi Wang, Yangqiu Song, (参考訳) 大言語モデル(LLM)は、心の理論(ToM)能力の潜在的な出現に関して、大きな関心や議論を引き起こしている。 現在、マインド評価の理論は、実世界の人間のインタラクションシナリオにおけるマシンToM能力の評価が欠如しているショートカットや刺激的な相関に傾向のあるマシン生成データやゲーム設定を使用したテストモデルに焦点を当てている。 これは、新しい実世界のシナリオベンチマークの開発を迫られている。 我々は,多次元精神状態(欲求,信念,意図など)を取り巻く実世界の交渉において,ストレステストマシンToMのための新しいベンチマークであるNegotiationToMを紹介する。 我々のベンチマークはBDIエージェントモデリング理論に基づいており、大規模な言語モデルを評価するために必要な経験実験を行っている。 以上の結果から,NegotiationToMは,チェーン・オブ・シント法(CoT法)を用いても,人間よりもはるかに性能が低いため,最先端のLDMでは困難であることが示唆された。

Large Language Models (LLMs) have sparked substantial interest and debate concerning their potential emergence of Theory of Mind (ToM) ability. Theory of mind evaluations currently focuses on testing models using machine-generated data or game settings prone to shortcuts and spurious correlations, which lacks evaluation of machine ToM ability in real-world human interaction scenarios. This poses a pressing demand to develop new real-world scenario benchmarks. We introduce NegotiationToM, a new benchmark designed to stress-test machine ToM in real-world negotiation surrounding covered multi-dimensional mental states (i.e., desires, beliefs, and intentions). Our benchmark builds upon the Belief-Desire-Intention (BDI) agent modeling theory and conducts the necessary empirical experiments to evaluate large language models. Our findings demonstrate that NegotiationToM is challenging for state-of-the-art LLMs, as they consistently perform significantly worse than humans, even when employing the chain-of-thought (CoT) method.
翻訳日:2024-07-08 23:14:17 公開日:2024-07-04
# 深層学習に基づくポイントクラウド登録に関する総合調査と分類

A Comprehensive Survey and Taxonomy on Point Cloud Registration Based on Deep Learning ( http://arxiv.org/abs/2404.13830v2 )

ライセンス: Link先を確認
Yu-Xin Zhang, Jie Gui, Xiaofeng Cong, Xin Gong, Wenbing Tao, (参考訳) ポイントクラウド登録(PCR)は、1つのポイントクラウドを別のポイントクラウドにアライメントする厳格な変換を決定することを伴う。 優れた深層学習(DL)ベースの登録法が提案されているにもかかわらず、DLベースのPCR技術に関する包括的で体系的な研究はいまだに不足している。 本稿では,最近提案されたPCR法に関する包括的調査と分類について述べる。 まず、よく利用されるデータセットと評価指標の分類を行う。 第2に、既存の研究を、教師なしと教師なしの登録の2つの主要なカテゴリに分類し、様々な影響力のあるPCRモデルのコア概念に関する洞察を提供する。 最後に、今後の研究に向けたオープンな課題と潜在的な方向性を強調します。 貴重なリソースのキュレートされたコレクションはhttps://github.com/yxzhang15/PCRで公開されている。

Point cloud registration (PCR) involves determining a rigid transformation that aligns one point cloud to another. Despite the plethora of outstanding deep learning (DL)-based registration methods proposed, comprehensive and systematic studies on DL-based PCR techniques are still lacking. In this paper, we present a comprehensive survey and taxonomy of recently proposed PCR methods. Firstly, we conduct a taxonomy of commonly utilized datasets and evaluation metrics. Secondly, we classify the existing research into two main categories: supervised and unsupervised registration, providing insights into the core concepts of various influential PCR models. Finally, we highlight open challenges and potential directions for future research. A curated collection of valuable resources is made available at https://github.com/yxzhang15/PCR.
翻訳日:2024-07-08 23:14:17 公開日:2024-07-04
# フィルタ直接選好最適化

Filtered Direct Preference Optimization ( http://arxiv.org/abs/2404.13846v3 )

ライセンス: Link先を確認
Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito Ariu, (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、言語モデルと人間の嗜好の整合において重要な役割を果たす。 データセットの品質の重要性は一般的に認識されているが、我々の知る限り、RLHFフレームワークにおけるその影響に関する明確な調査は限られている。 本稿では,DPO(direct preference optimization, direct preference optimization, DPO)に焦点をあて, 嗜好データセットにおけるテキスト品質の問題に対処する。 テキストの品質が報酬モデルに基づくRLHFよりもDPOで最適化されたモデルの性能に大きく影響することを確認する。 この知見に基づいて,フィルタ直接選好最適化(fDPO)と呼ばれるDPOの拡張を提案する。 fDPOはトレーニングされた報酬モデルを使用して、DPOトレーニング中の好みデータセット内のテキストの品質を監視する。 低品質のサンプルは、最適化されたモデルによって生成されたテキストとの比較に基づいて破棄されるため、より正確なデータセットが生成される。 実験結果から,fDPOは最終モデルの性能を向上させることが示された。 私たちのコードはhttps://github.com/CyberAgentAILab/filtered-dpo.comで公開されています。

Reinforcement learning from human feedback (RLHF) plays a crucial role in aligning language models with human preferences. While the significance of dataset quality is generally recognized, explicit investigations into its impact within the RLHF framework, to our knowledge, have been limited. This paper addresses the issue of text quality within the preference dataset by focusing on direct preference optimization (DPO), an increasingly adopted reward-model-free RLHF method. We confirm that text quality significantly influences the performance of models optimized with DPO more than those optimized with reward-model-based RLHF. Building on this new insight, we propose an extension of DPO, termed filtered direct preference optimization (fDPO). fDPO uses a trained reward model to monitor the quality of texts within the preference dataset during DPO training. Samples of lower quality are discarded based on comparisons with texts generated by the model being optimized, resulting in a more accurate dataset. Experimental results demonstrate that fDPO enhances the final model performance. Our code is available at https://github.com/CyberAgentAILab/filtered-dpo.
翻訳日:2024-07-08 23:14:17 公開日:2024-07-04
# マルチコントラルトフォリ量子回路設計のための新しい最適化モデル

A New Optimization Model for Multiple-Control Toffoli Quantum Circuit Design ( http://arxiv.org/abs/2404.14384v2 )

ライセンス: Link先を確認
Jihye Jung, Kevin Dalmeijer, Pascal Van Hentenryck, (参考訳) 量子技術が進歩するにつれて、量子回路の効率的な設計が重要な研究領域となっている。 本稿では,従来の量子コンピューティングの背景を前提とせずに,可逆ブール関数に対するMCT量子回路設計問題を紹介する。 これはよく研究されている問題であるが、真の目的を最小化する最適化モデルは近年研究されているばかりである。 本稿では,制約プログラミングの解法を用いる場合と比較して,解時間を最大2桁改善する新しい最適化モデルと対称性破り制約を提案する。 最大7量子ビットと最大15個の量子ゲートを使った実験は、よく知られたベンチマークのために、どんな方法でも得られるいくつかの新しい最もよく知られた回路をもたらす。 最後に、他のアプローチと比較して、最適化モデルはより多くの時間を必要とするが、最適性を保証する優れた回路を提供することができることを示している。

As quantum technology is advancing, the efficient design of quantum circuits has become an important area of research. This paper provides an introduction to the MCT quantum circuit design problem for reversible Boolean functions without assuming a prior background in quantum computing. While this is a well-studied problem, optimization models that minimize the true objective have only been explored recently. This paper introduces a new optimization model and symmetry-breaking constraints that improve solving time by up to two orders of magnitude compared to earlier work when a Constraint Programming solver is used. Experiments with up to seven qubits and using up to 15 quantum gates result in several new best-known circuits, obtained by any method, for well-known benchmarks. Finally, an extensive comparison with other approaches shows that optimization models may require more time but can provide superior circuits with optimality guarantees.
翻訳日:2024-07-08 23:14:17 公開日:2024-07-04
# ランダム可逆回路からの擬似乱数置換

Pseudorandom Permutations from Random Reversible Circuits ( http://arxiv.org/abs/2404.14648v2 )

ライセンス: Link先を確認
William He, Ryan O'Donnell, (参考訳) 我々は、${0,1\}^n$上の置換の擬似ランダム性特性を、可逆な$$3$-bitゲート($\{0,1\}^3$上の置換)から得られるランダム回路で計算する。 我々の主な結果は深さ$n \cdot \tilde{O}(k^2)$のランダム回路であり、各層は固定された最寄りのアーキテクチャにおいて$\approx n/3$のランダムゲートで構成され、ほぼ$k$の独立な置換が得られることである。 主な技術的構成要素は、$k$-tuples of $n$-bit strings by a single random $3$-bit Near-nebor gate has gap at least $1/n \cdot \tilde{O}(k)$である。 これは、1/\mathrm{poly}(n,k)$が1つのランダムゲート(非隣接入力を持つ)に対して1/\mathrm{poly}(n,k)$のギャップを示していたGowers [Gowers96] の元々の作業を改善し、続く作業 [HMMR05,BH08] では、ギャップを同じ設定で$\Omega(1/n^2k)$に改善した。 暗号の観点では、我々の結果は特に単純で実践的なブロック暗号構造であり、数ラウンドで$k$〜input-outputペアにアクセスする攻撃者に対して、証明可能な統計的セキュリティを提供する。 また、擬似乱数関数からの擬似乱数置換のLuby-Rackoff構成は可逆回路で実装可能であることを示す。 そこで我々は, 最小可逆回路サイズ問題 (MRCSP) の複雑性を推し進め, 一方向関数 (OWF) の存在を前提として, 固定多項式サイズのブロック暗号が任意の多項式時間逆数に対して計算的に安全であることを示す。

We study pseudorandomness properties of permutations on $\{0,1\}^n$ computed by random circuits made from reversible $3$-bit gates (permutations on $\{0,1\}^3$). Our main result is that a random circuit of depth $n \cdot \tilde{O}(k^2)$, with each layer consisting of $\approx n/3$ random gates in a fixed nearest-neighbor architecture, yields almost $k$-wise independent permutations. The main technical component is showing that the Markov chain on $k$-tuples of $n$-bit strings induced by a single random $3$-bit nearest-neighbor gate has spectral gap at least $1/n \cdot \tilde{O}(k)$. This improves on the original work of Gowers [Gowers96], who showed a gap of $1/\mathrm{poly}(n,k)$ for one random gate (with non-neighboring inputs); and, on subsequent work [HMMR05,BH08] improving the gap to $\Omega(1/n^2k)$ in the same setting. From the perspective of cryptography, our result can be seen as a particularly simple/practical block cipher construction that gives provable statistical security against attackers with access to $k$~input-output pairs within few rounds. We also show that the Luby--Rackoff construction of pseudorandom permutations from pseudorandom functions can be implemented with reversible circuits. From this, we make progress on the complexity of the Minimum Reversible Circuit Size Problem (MRCSP), showing that block ciphers of fixed polynomial size are computationally secure against arbitrary polynomial-time adversaries, assuming the existence of one-way functions (OWFs).
翻訳日:2024-07-08 23:14:17 公開日:2024-07-04
# 非線形マルチ環境データからのマイニング不変性:バイナリ分類

Mining Invariance from Nonlinear Multi-Environment Data: Binary Classification ( http://arxiv.org/abs/2404.15245v2 )

ライセンス: Link先を確認
Austin Goddard, Kang Du, Yu Xiang, (参考訳) 複数のトレーニング環境からのデータを元にした、目に見えない環境での予測は、難しい作業です。 我々はこの問題を不変の観点からアプローチし、二項分類に焦点をあて、一般的な非線形データ生成機構に光を当てる。 環境上で不変なモデルをトレーニングできるような、バイナリ設定にのみ存在するユニークな不変性の形式を特定します。 我々は, 環境条件が大きく変化する場合でも, 十分な環境条件を提供し, 頑健であることを示す。 我々の定式化は因果解釈を認めており、様々なフレームワークと比較することができる。 最後に,実データと合成データを用いたヒューリスティックな予測手法を提案し,実験を行った。

Making predictions in an unseen environment given data from multiple training environments is a challenging task. We approach this problem from an invariance perspective, focusing on binary classification to shed light on general nonlinear data generation mechanisms. We identify a unique form of invariance that exists solely in a binary setting that allows us to train models invariant over environments. We provide sufficient conditions for such invariance and show it is robust even when environmental conditions vary greatly. Our formulation admits a causal interpretation, allowing us to compare it with various frameworks. Finally, we propose a heuristic prediction method and conduct experiments using real and synthetic datasets.
翻訳日:2024-07-08 23:14:17 公開日:2024-07-04
# 回帰による登録(RbR) : 解釈可能かつ柔軟なアトラス登録のための枠組み

Registration by Regression (RbR): a framework for interpretable and flexible atlas registration ( http://arxiv.org/abs/2404.16781v2 )

ライセンス: Link先を確認
Karthik Gopinath, Xiaoling Hu, Malte Hoffmann, Oula Puonti, Juan Eugenio Iglesias, (参考訳) 人間の神経画像研究において、アトラス登録はMRIスキャンを共通の座標フレームにマッピングすることを可能にする。 機械学習の登録方法は、優れたスピードと精度を達成したが、テスト時に解釈性や柔軟性が欠けている(変形モデルが固定されているため)。 最近ではこれらの問題に対処するためにキーポイントベースの手法が提案されているが、その精度は、特に非線形変換に適合する場合にはまだ低い。 本稿では、新しいアトラス登録フレームワークであるRegistration by Regression(RbR)を提案する。 RbR は入力スキャンのすべてのボクセルに対する (x, y, z) アトラス座標を予測し(すなわち、すべてのボクセルがキーポイントである)、その後、アフィンや非線形(例えば、Bspline, Demons, invertible diffeomorphic modelなど)を含む様々な可能な変形モデルを用いて変換を迅速に適合させる閉形式式を使用する。 ロバスト性は登録を通知する多数のボクセルによって提供され、RANSACのような堅牢な推定器によってさらに増大させることができる。 独立した公開データセットの実験により、RbRは幅広い変形モデルよりも、競合するキーポイントアプローチよりも正確な登録が得られることが示された。

In human neuroimaging studies, atlas registration enables mapping MRI scans to a common coordinate frame, which is necessary to aggregate data from multiple subjects. Machine learning registration methods have achieved excellent speed and accuracy but lack interpretability and flexibility at test time (since their deformation model is fixed). More recently, keypoint-based methods have been proposed to tackle these issues, but their accuracy is still subpar, particularly when fitting nonlinear transforms. Here we propose Registration by Regression (RbR), a novel atlas registration framework that: is highly robust and flexible; can be trained with cheaply obtained data; and operates on a single channel, such that it can also be used as pretraining for other tasks. RbR predicts the (x, y, z) atlas coordinates for every voxel of the input scan (i.e., every voxel is a keypoint), and then uses closed-form expressions to quickly fit transforms using a wide array of possible deformation models, including affine and nonlinear (e.g., Bspline, Demons, invertible diffeomorphic models, etc.). Robustness is provided by the large number of voxels informing the registration and can be further increased by robust estimators like RANSAC. Experiments on independent public datasets show that RbR yields more accurate registration than competing keypoint approaches, over a wide range of deformation models.
翻訳日:2024-07-08 23:14:17 公開日:2024-07-04
# Alice's Adventures in a Differentiable Wonderland -- Volume I, A Tour of the Land

Alice's Adventures in a Differentiable Wonderland -- Volume I, A Tour of the Land ( http://arxiv.org/abs/2404.17625v2 )

ライセンス: Link先を確認
Simone Scardapane, (参考訳) ニューラルネットワークは、大きな言語モデル、音声書き起こしシステム、分子発見アルゴリズム、ロボット工学など、私たちを取り巻くものです。 ニューラルネットワークは、他の何よりも、微分可能なプリミティブの合成であり、それらを研究することは、これらのモデルとどのように相互作用するかを学ぶことを意味する。 このプライマーは、Alice(アリス)氏のような、この奇妙な異なる不思議の国に足を踏み入れた人のために想像された、この魅力的な分野の紹介だ。 自動微分による関数の最適化の基礎と、シーケンス、グラフ、テキスト、オーディオを扱うための最も一般的な設計の選定について概観する。 その焦点は、畳み込み(convolutional)、注意( attentional)、繰り返し発生するブロック(recurrent block)など、最も重要な設計テクニックへの直感的で自己完結した導入であり、理論とコード(PyTorchとJAX)のギャップを埋めることを望んでおり、読者は、大きな言語モデル(LLM)やマルチモーダルアーキテクチャ(multimodal architectures)といった、現在最も先進的なモデルを理解することができる。

Neural networks surround us, in the form of large language models, speech transcription systems, molecular discovery algorithms, robotics, and much more. Stripped of anything else, neural networks are compositions of differentiable primitives, and studying them means learning how to program and how to interact with these models, a particular example of what is called differentiable programming. This primer is an introduction to this fascinating field imagined for someone, like Alice, who has just ventured into this strange differentiable wonderland. I overview the basics of optimizing a function via automatic differentiation, and a selection of the most common designs for handling sequences, graphs, texts, and audios. The focus is on a intuitive, self-contained introduction to the most important design techniques, including convolutional, attentional, and recurrent blocks, hoping to bridge the gap between theory and code (PyTorch and JAX) and leaving the reader capable of understanding some of the most advanced models out there, such as large language models (LLMs) and multimodal architectures.
翻訳日:2024-07-08 23:14:17 公開日:2024-07-04
# 一般化された群設計: 4-Design-barrierを克服し、任意の次元で新しい2-Designを構築する

Generalized group designs: overcoming the 4-design-barrier and constructing novel unitary 2-designs in arbitrary dimensions ( http://arxiv.org/abs/2405.00919v2 )

ライセンス: Link先を確認
Ágoston Kaposi, Zoltán Kolarovszki, Adrián Solymos, Zoltán Zimborás, (参考訳) ユニタリ設計は、いくつかの量子情報プロトコルにおいて必須のツールである。 他の設計概念と同様に、ユニタリ設計は、主に関連する空間上の平均化を促進するために使用され、この場合、ユニタリ群 $\mathrm{U}(d)$ が成り立つ。 正確な単位の$t$-designsは、任意の次数$t$と次元$d$に対して存在することは知られているが、最も魅力的なタイプのデザイン、グループデザイン(グループを構成する設計要素)は、少なくとも3$-designsを提供することができる。 さらに、グループ2$-設計でさえ、限られた次元にしか存在しない。 本稿では、ユニタリ群とその有限部分群の表現理論に基づいて、ユニタリ群設計の4ドルの設計障壁を克服する、厳密な一般化群設計を作成するための新しい構成法を提案する。 さらに、任意の次元で一般化群 2$-設計を作成するための構成が提示される。

Unitary designs are essential tools in several quantum information protocols. Similarly to other design concepts, unitary designs are mainly used to facilitate averaging over a relevant space, in this case, the unitary group $\mathrm{U}(d)$. While it is known that exact unitary $t$-designs exist for any degree $t$ and dimension $d$, the most appealing type of designs, group designs (in which the elements of the design form a group), can provide at most $3$-designs. Moreover, even group $2$-designs can only exist in limited dimensions. In this paper, we present novel construction methods for creating exact generalized group designs based on the representation theory of the unitary group and its finite subgroups that overcome the $4$-design-barrier of unitary group designs. Furthermore, a construction is presented for creating generalized group $2$-designs in arbitrary dimensions.
翻訳日:2024-07-08 23:04:18 公開日:2024-07-04
# 指数パラレルスピードアップを用いたマルチレベルプロジェクション : スパースオートエンコーダニューラルネットワークへの応用

Multi-level projection with exponential parallel speedup; Application to sparse auto-encoders neural networks ( http://arxiv.org/abs/2405.02086v2 )

ライセンス: Link先を確認
Guillaume Perez, Michel Barlaud, (参考訳) $\ell_{1,\infty}$ノルムは効率的な構造化射影であるが、最良のアルゴリズムの複雑さは、$\mathbb{R}^{n\times m}$の行列に対して$\mathcal{O}\big(n m \log(n m)\big)$である。 本稿では,$\ell_{1,\infty}$ノルムの時間的複雑さが$\mathcal{O}\big(n m \big)$,$\mathbb{R}^{n\times m}$,$\mathcal{O}\big(n + m \big)$の行列に対してのみであることを示す新しい二値射影法を提案する。 本手法をテンソルに一般化し,指数的スピードアップ係数までの線形並列スピードアップを導出するインダクタンス分解を持つ新しい多層射影法を提案する。 両レベルおよび三レベル(行列とテンソル)のためのフレームワークの実装基盤を多種多様に提供し、並列実装も提供します。 実験の結果、我々の予測は、実際の高速ユークリッドアルゴリズムよりも2ドル高速であり、ニューラルネットワークアプリケーションでは、同じ精度とより親密性を提供しています。

The $\ell_{1,\infty}$ norm is an efficient structured projection but the complexity of the best algorithm is unfortunately $\mathcal{O}\big(n m \log(n m)\big)$ for a matrix in $\mathbb{R}^{n\times m}$. In this paper, we propose a new bi-level projection method for which we show that the time complexity for the $\ell_{1,\infty}$ norm is only $\mathcal{O}\big(n m \big)$ for a matrix in $\mathbb{R}^{n\times m}$, and $\mathcal{O}\big(n + m \big)$ with full parallel power. We generalize our method to tensors and we propose a new multi-level projection, having an induced decomposition that yields a linear parallel speedup up to an exponential speedup factor, resulting in a time complexity lower-bounded by the sum of the dimensions, instead of the product of the dimensions. we provide a large base of implementation of our framework for bi-level and tri-level (matrices and tensors) for various norms and provides also the parallel implementation. Experiments show that our projection is $2$ times faster than the actual fastest Euclidean algorithms while providing same accuracy and better sparsity in neural networks applications.
翻訳日:2024-07-08 23:04:18 公開日:2024-07-04
# NeurDB: AIを活用した自律型データシステム

NeurDB: An AI-powered Autonomous Data System ( http://arxiv.org/abs/2405.03924v2 )

ライセンス: Link先を確認
Beng Chin Ooi, Shaofeng Cai, Gang Chen, Yanyan Shen, Kian-Lee Tan, Yuncheng Wu, Xiaokui Xiao, Naili Xing, Cong Yue, Lingze Zeng, Meihui Zhang, Zhanhao Zhao, (参考訳) 人工知能(AI)の急速な進歩を受けて、私たちはデータシステムの変革的な飛躍の瀬戸際に立つ。 AIとDB(AIxDB)の急激な融合により、すべての業界におけるエンドユーザの負担を軽減し、パーソナライズされ、自動化されたデータベース内AIによる分析、システムパフォーマンス向上のための自動運転機能など、AIを強化した機能を備えている。 本稿では,AIとDBの融合の深化に着目し,データシステムの進化を考察する。 我々は、NeurDBを紹介します。NeurDBは、AI設計を各主要システムコンポーネントに完全に取り入れ、データベース内のAI駆動分析を提供するように設計された、AI駆動の自律データシステムです。 我々はNeurDBの概念的およびアーキテクチャ的概要を概説し、その設計選択と重要なコンポーネントについて議論し、その現況と今後の計画について報告する。

In the wake of rapid advancements in artificial intelligence (AI), we stand on the brink of a transformative leap in data systems. The imminent fusion of AI and DB (AIxDB) promises a new generation of data systems, which will relieve the burden on end-users across all industry sectors by featuring AI-enhanced functionalities, such as personalized and automated in-database AI-powered analytics, self-driving capabilities for improved system performance, etc. In this paper, we explore the evolution of data systems with a focus on deepening the fusion of AI and DB. We present NeurDB, an AI-powered autonomous data system designed to fully embrace AI design in each major system component and provide in-database AI-powered analytics. We outline the conceptual and architectural overview of NeurDB, discuss its design choices and key components, and report its current development and future plan.
翻訳日:2024-07-08 23:04:18 公開日:2024-07-04
# 分散Exact Generalized Grover's Algorithm

Distributed Exact Generalized Grover's Algorithm ( http://arxiv.org/abs/2405.06963v2 )

ライセンス: Link先を確認
Xu Zhou, Xusheng Xu, Shenggen Zheng, Le Luo, (参考訳) 分散量子計算は、各計算ノードがより少ない量子ビットと量子ゲートを必要とする、ノイズの多い中間スケール量子(NISQ)時代に大きな注目を集めている。 本稿では,無順序データベース内の複数のターゲットを対象とする汎用検索問題に着目し,これを任意の$t$コンポーネントに分解することで,分散Exact Generalized Grover's Algorithm (DEGGA)を提案する。 具体的には,(1)目標状態が100\%$である確率,(2)目標数が固定された場合,DGGAの回路深度に影響を与えるピボット係数は$n$ではなくパーティショニング戦略であり,(3)補助量子ビットの必要をなくすために合計$n$ qubitsを必要とし,(4)DGGAを適用することによって2つのゴール文字列(000と1111)を組み込んだ特定の汎用検索問題の解法(2ノードと3ノード)を解明する。 提案手法の有効性と有効性は,MindSpore Quantum(量子シミュレーションソフトウェア)上で量子回路を実行することによってさらに実証される。 最終的に、マルチキュービットゲートの分解により、DGGAは量子ゲートの利用を90.7 %$に減らし、回路深さをロングによる修正Groverのアルゴリズムと比較して9.3 %$に減らした。 分散量子アルゴリズムがさらなる実用性を提供するのは、ますます明白である。

Distributed quantum computation has garnered immense attention in the noisy intermediate-scale quantum (NISQ) era, where each computational node necessitates fewer qubits and quantum gates. In this paper, we focus on a generalized search problem involving multiple targets within an unordered database and propose a Distributed Exact Generalized Grover's Algorithm (DEGGA) to address this challenge by decomposing it into arbitrary $t$ components, where $2 \leq t \leq n$. Specifically, (1) our algorithm ensures accuracy, with a theoretical probability of identifying the target states at $100\%$; (2) if the number of targets is fixed, the pivotal factor influencing the circuit depth of DEGGA is the partitioning strategy, rather than the magnitude of $n$; (3) our method requires a total of $n$ qubits, eliminating the need for auxiliary qubits; (4) we elucidate the resolutions (two-node and three-node) of a particular generalized search issue incorporating two goal strings (000000 and 111111) by applying DEGGA. The feasibility and effectiveness of our suggested approach is further demonstrated by executing the quantum circuits on MindSpore Quantum (a quantum simulation software). Eventually, through the decomposition of multi-qubit gates, DEGGA diminishes the utilization of quantum gates by $90.7\%$ and decreases the circuit depth by $91.3\%$ in comparison to the modified Grover's algorithm by Long. It is increasingly evident that distributed quantum algorithms offer augmented practicality.
翻訳日:2024-07-08 23:04:18 公開日:2024-07-04
# Federated Hierarchical Tensor Networks: ヘルスケアのための協調学習量子AI駆動フレームワーク

Federated Hierarchical Tensor Networks: a Collaborative Learning Quantum AI-Driven Framework for Healthcare ( http://arxiv.org/abs/2405.07735v2 )

ライセンス: Link先を確認
Amandeep Singh Bhatia, David E. Bernal Neira, (参考訳) 医療産業は機密データや独自データを扱うことが多く、厳格なプライバシー規制のため、直接データを共有することに消極的であることが多い。 今日の文脈では、フェデレーテッド・ラーニング(FL)は、データプライバシとガバナンスに関する重要な懸念を効果的に管理しながら、分散機械学習の急速な進歩を促進する重要な救済策として際立っている。 連合学習と量子コンピューティングの融合は、医療から金融まで、様々な産業に革命をもたらす大きな可能性を持つ、画期的な学際的アプローチである。 本研究では,多体量子物理学の原理を活用する量子テンソルネットワークに基づく連合学習フレームワークを提案する。 現在、フェデレートされた設定で実装された既知の古典テンソルネットワークは存在しない。 さらに,医療機関間の機密データのセキュリティを確保するために,差分プライバシー分析を行うことにより,提案手法の有効性と妥当性を検討した。 一般的な医用画像データセットを用いた実験により、連合量子テンソルネットワークモデルは、曲線(ROC-AUC)の平均受信特性領域を0.91-0.98の範囲で達成した。 実験により,高度に絡み合ったテンソルネットワーク構造からなる量子フェデレーショングローバルモデルにより,より一般化と堅牢性が向上し,医療機関間の不均衡なデータ分布下でのローカルトレーニングクライアントの性能を上回る高いテスト精度が得られた。

Healthcare industries frequently handle sensitive and proprietary data, and due to strict privacy regulations, they are often reluctant to share data directly. In today's context, Federated Learning (FL) stands out as a crucial remedy, facilitating the rapid advancement of distributed machine learning while effectively managing critical concerns regarding data privacy and governance. The fusion of federated learning and quantum computing represents a groundbreaking interdisciplinary approach with immense potential to revolutionize various industries, from healthcare to finance. In this work, we proposed a federated learning framework based on quantum tensor networks, which leverages the principles of many-body quantum physics. Currently, there are no known classical tensor networks implemented in federated settings. Furthermore, we investigated the effectiveness and feasibility of the proposed framework by conducting a differential privacy analysis to ensure the security of sensitive data across healthcare institutions. Experiments on popular medical image datasets show that the federated quantum tensor network model achieved a mean receiver-operator characteristic area under the curve (ROC-AUC) between 0.91-0.98. Experimental results demonstrate that the quantum federated global model, consisting of highly entangled tensor network structures, showed better generalization and robustness and achieved higher testing accuracy, surpassing the performance of locally trained clients under unbalanced data distributions among healthcare institutions.
翻訳日:2024-07-08 23:04:18 公開日:2024-07-04
# BonnBot-I Plus: 精密雑草管理ロボットプラットフォーム

BonnBot-I Plus: A Bio-diversity Aware Precise Weed Management Robotic Platform ( http://arxiv.org/abs/2405.09118v2 )

ライセンス: Link先を確認
Alireza Ahmadi, Michael Halstead, Claus Smitt, Chris McCool, (参考訳) 本稿では,農場における植物保護の重要課題に焦点をあて,農業における現代的課題に対処し,環境学的考察を \bbot のような精密雑草ロボットの運用戦略に統合する。 本稿では, ボン大学クライン・アルテンドルフ校における雑草管理アルゴリズムの最近の進歩と, 実社会におけるパフォーマンスについて述べる。 本報告では,BonnBot-Is雑草監視部における新たなローリングビュー観測モデルについて述べる。 さらに, 精密雑草ロボットが, 雑草シナリオに挑戦する上で, 生物多様性に配慮した懸念をいかに考慮できるかを, 初めて明らかにした。 我々は、サトウキビ畑における雑草実験を行い、雑草のみと雑草の混交状況の両方を網羅し、精密雑草に対応する新しいデータセットを導入した。 我々の実地実験では、我々の雑草のアプローチは多様な雑草の分布を扱うことができ、介入計画に起因する損失は11.66\%$とビジョンシステムの制限により14.7\%と最小限に抑えられた。

In this article, we focus on the critical tasks of plant protection in arable farms, addressing a modern challenge in agriculture: integrating ecological considerations into the operational strategy of precision weeding robots like \bbot. This article presents the recent advancements in weed management algorithms and the real-world performance of \bbot\ at the University of Bonn's Klein-Altendorf campus. We present a novel Rolling-view observation model for the BonnBot-Is weed monitoring section which leads to an average absolute weeding performance enhancement of $3.4\%$. Furthermore, for the first time, we show how precision weeding robots could consider bio-diversity-aware concerns in challenging weeding scenarios. We carried out comprehensive weeding experiments in sugar-beet fields, covering both weed-only and mixed crop-weed situations, and introduced a new dataset compatible with precision weeding. Our real-field experiments revealed that our weeding approach is capable of handling diverse weed distributions, with a minimal loss of only $11.66\%$ attributable to intervention planning and $14.7\%$ to vision system limitations highlighting required improvements of the vision system.
翻訳日:2024-07-08 23:04:18 公開日:2024-07-04
# マルチクラスボリュームラジオグラフィ画像のコンテントベース画像検索 : ベンチマークによる検討

Content-Based Image Retrieval for Multi-Class Volumetric Radiology Images: A Benchmark Study ( http://arxiv.org/abs/2405.09334v2 )

ライセンス: Link先を確認
Farnaz Khun Jush, Steffen Vogler, Tuan Truong, Matthias Lenga, (参考訳) コンテンツに基づく画像検索(CBIR)は、自然画像検索において広く研究されているが、医用画像への応用は、主に医用画像の3D的な性質のために、現在進行中の課題を提示する。 近年の研究では、放射線画像検索の文脈において、CBIRのための事前訓練された視覚埋め込みの可能性を示唆している。 しかし,3次元医用画像の検索のためのベンチマークは,医用画像におけるCBIR手法の有効性を客観的に評価し,比較する能力を妨げている。 本研究では,これまでの作業を拡張し,TotalSegmentator データセット(TS)を用いた局所的および局所的な多臓器検索のためのベンチマークを構築した。 医用画像の教師なしモデルから得られた埋め込みを,29の粗い画像と104の詳細な解剖学的構造に対して,非教師なしモデルから抽出した埋め込みと比較した。 ボリューム画像の検索には,テキストマッチングにインスパイアされた遅延インタラクションのランク付け手法を採用する。 ボリュームと領域検索のために提案した元の手法と比較し,広範囲の解剖学的領域に対して1.0の検索リコールを実現する。 本稿では,医療画像の文脈におけるCBIRアプローチのさらなる開発と評価のための知見とベンチマークを提供する。

While content-based image retrieval (CBIR) has been extensively studied in natural image retrieval, its application to medical images presents ongoing challenges, primarily due to the 3D nature of medical images. Recent studies have shown the potential use of pre-trained vision embeddings for CBIR in the context of radiology image retrieval. However, a benchmark for the retrieval of 3D volumetric medical images is still lacking, hindering the ability to objectively evaluate and compare the efficiency of proposed CBIR approaches in medical imaging. In this study, we extend previous work and establish a benchmark for region-based and localized multi-organ retrieval using the TotalSegmentator dataset (TS) with detailed multi-organ annotations. We benchmark embeddings derived from pre-trained supervised models on medical images against embeddings derived from pre-trained unsupervised models on non-medical images for 29 coarse and 104 detailed anatomical structures in volume and region levels. For volumetric image retrieval, we adopt a late interaction re-ranking method inspired by text matching. We compare it against the original method proposed for volume and region retrieval and achieve a retrieval recall of 1.0 for diverse anatomical regions with a wide size range. The findings and methodologies presented in this paper provide insights and benchmarks for further development and evaluation of CBIR approaches in the context of medical imaging.
翻訳日:2024-07-08 22:54:33 公開日:2024-07-04
# RoScenes:ロードサイド認識のための大規模マルチビュー3Dデータセット

RoScenes: A Large-scale Multi-view 3D Dataset for Roadside Perception ( http://arxiv.org/abs/2405.09883v4 )

ライセンス: Link先を確認
Xiaosu Zhu, Hualian Sheng, Sijia Cai, Bing Deng, Shaopeng Yang, Qiao Liang, Ken Chen, Lianli Gao, Jingkuan Song, Jieping Ye, (参考訳) 我々は、視覚中心のBird's Eye View(BEV)アプローチの開発に光を当てることを目的として、最も大きなマルチビュー道路側認識データセットであるRoScenesを紹介した。 RoScenesのハイライトは、大きな認識領域、フルシーンカバレッジ、混雑したトラフィックである。 具体的には、我々のデータセットは、驚くべき21.13Mの3Dアノテーションを64,000$m^2$で達成している。 道路側3Dラベリングのコストを低減すべく,大量のデータを効率的に収集する新しいBEV-to-3D共同アノテーションパイプラインを提案する。 その後,RoScenesにおける現行のBEV手法に関する総合的な研究を,有効性と効率の観点から整理した。 テストされた手法は、広い知覚領域と、シーン間のセンサーレイアウトの変化に悩まされ、パフォーマンスレベルが期待を下回る結果となった。 そこで本稿では,効率的な2D-3D特徴割り当てのための特徴誘導位置埋め込みを組み込んだRoBEVを提案する。 その助けにより,本手法は,検証セットに余分な計算オーバーヘッドを伴わずに,最先端の手法よりも大きなマージンで性能を向上する。 私たちのデータセットとdevkitはhttps://github.com/xiaosu-zhu/RoScenes.comで公開されます。

We introduce RoScenes, the largest multi-view roadside perception dataset, which aims to shed light on the development of vision-centric Bird's Eye View (BEV) approaches for more challenging traffic scenes. The highlights of RoScenes include significantly large perception area, full scene coverage and crowded traffic. More specifically, our dataset achieves surprising 21.13M 3D annotations within 64,000 $m^2$. To relieve the expensive costs of roadside 3D labeling, we present a novel BEV-to-3D joint annotation pipeline to efficiently collect such a large volume of data. After that, we organize a comprehensive study for current BEV methods on RoScenes in terms of effectiveness and efficiency. Tested methods suffer from the vast perception area and variation of sensor layout across scenes, resulting in performance levels falling below expectations. To this end, we propose RoBEV that incorporates feature-guided position embedding for effective 2D-3D feature assignment. With its help, our method outperforms state-of-the-art by a large margin without extra computational overhead on validation set. Our dataset and devkit will be made available at https://github.com/xiaosu-zhu/RoScenes.
翻訳日:2024-07-08 22:54:33 公開日:2024-07-04
# ポジションペーパー: macOSでリアルタイム参照ベースのWebサイトフィッシング検出を実現するReactをグローバルにローカルに考える

Position Paper: Think Globally, React Locally -- Bringing Real-time Reference-based Website Phishing Detection on macOS ( http://arxiv.org/abs/2405.18236v2 )

ライセンス: Link先を確認
Ivan Petrukha, Nataliia Stulova, Sergii Kryvoblotskyi, (参考訳) 背景。 最近のフィッシング攻撃の急増は、従来の反フィッシング・ブラックリストのアプローチの有効性を損なうものとなっている。 デバイス上でのフィッシング防止ソリューションは、ローカルで高速なフィッシング検出を提供するため、人気が高まっている。 エイム。 我々は,Webクローラのスキャンが終了するのを待つのではなく,ユーザが遭遇した直後にフィッシングサイトを識別するオンデバイスソリューションにより,データベースにおけるフィッシングキャンペーンの認識と記録の遅延を回避することを目的としている。 さらに,オペレーティングシステム固有のリソースやフレームワークを利用することで,システムパフォーマンスへの影響を最小限に抑え,ユーザのプライバシ保護のためにローカル処理に依存することを目指す。 方法。 コンピュータビジョンとデバイス上の機械学習モデルを組み合わせてウェブサイトをリアルタイムで分析するフィッシング検出ソリューションを提案する。 本手法は,Webページの視覚的内容を分析し,レイアウト解析,クレデンシャル入力領域の検出,ブランドの偽造基準の組み合わせによるフィッシングの試みを同定する。 結果。 ケーススタディでは、単一のCPUコアの16%、Apple M1の84MB未満のRAMを必要とするWebブラウザや、46.6%(ベースラインと比較可能)のブランドロゴ検出精度、98.1%(ベースラインを3.1%改善可能)のクレデンシャルページ検出精度を維持しながら、デバイス上でバックグラウンド処理を継続的に行うことが可能であることを示しています。 結論。 本研究は, デバイス上でのリアルタイムフィッシング検出システムにより, サイバーセキュリティ保護技術を強化し, フィッシング検出範囲を, メールクライアントやメールウィンドウなど, より類似した領域に拡大する可能性を示すものである。

Background. The recent surge in phishing attacks keeps undermining the effectiveness of the traditional anti-phishing blacklist approaches. On-device anti-phishing solutions are gaining popularity as they offer faster phishing detection locally. Aim. We aim to eliminate the delay in recognizing and recording phishing campaigns in databases via on-device solutions that identify phishing sites immediately when encountered by the user rather than waiting for a web crawler's scan to finish. Additionally, utilizing operating system-specific resources and frameworks, we aim to minimize the impact on system performance and depend on local processing to protect user privacy. Method. We propose a phishing detection solution that uses a combination of computer vision and on-device machine learning models to analyze websites in real time. Our reference-based approach analyzes the visual content of webpages, identifying phishing attempts through layout analysis, credential input areas detection, and brand impersonation criteria combination. Results. Our case study shows it's feasible to perform background processing on-device continuously, for the case of the web browser requiring the resource use of 16% of a single CPU core and less than 84MB of RAM on Apple M1 while maintaining the accuracy of brand logo detection at 46.6% (comparable with baselines), and of Credential Requiring Page detection at 98.1% (improving the baseline by 3.1%), within the test dataset. Conclusions. Our results demonstrate the potential of on-device, real-time phishing detection systems to enhance cybersecurity defensive technologies and extend the scope of phishing detection to more similar regions of interest, e.g., email clients and messenger windows.
翻訳日:2024-07-08 22:54:33 公開日:2024-07-04
# 存在か存在か:辞書の未知語使用か?

Presence or Absence: Are Unknown Word Usages in Dictionaries? ( http://arxiv.org/abs/2406.00656v2 )

ライセンス: Link先を確認
Xianghe Ma, Dominik Schlechtweg, Wei Zhao, (参考訳) 意味変化の計算モデルへの関心が高まっている。 先行研究の焦点は、時間とともに得られた単語感覚を検知・解釈することにあるが、獲得した感覚が辞書によってカバーされているかは定かではない。 本研究は,語彙意味変化検出と語彙認識のコミュニティ間を橋渡しするために,検出された単語感覚と辞書感覚の在庫を比較することで,この研究ギャップを埋めることを目的とする。 我々は,フィンランド語,ロシア語,ドイツ語の共用タスクであるAXOLOTL-24のシステム評価を行った。 私たちのシステムは完全に教師なしです。 グラフベースのクラスタリング手法を利用して、未知の単語使用量とSubtask 1の辞書エントリ間のマッピングを予測し、Subtask 2のGPT-4やLLaMA-3のような最先端の大規模言語モデルを通して、それらの新しい単語使用量に対する辞書のような定義を生成する。 Subtask 1では,本システムでは,グラフベースのクラスタリング手法を用いて,一致した単語と未一致の単語を区別することで,マッピング結果の解釈可能性を実現する。 私たちのシステムはフィンランド語とドイツ語で第1位、ロシア語で第2位、Subtask 2テストフェーズのリーダーボードで第2位です。 これらの結果から,辞書項目の管理における本システムの有用性が示唆された。 私たちのコードとデータは公開されています。footnote{\url{https://github.com/xiaohemaikoo/axolotl24-ABDN-NLP}}。

There has been a surge of interest in computational modeling of semantic change. The foci of previous works are on detecting and interpreting word senses gained over time; however, it remains unclear whether the gained senses are covered by dictionaries. In this work, we aim to fill this research gap by comparing detected word senses with dictionary sense inventories in order to bridge between the communities of lexical semantic change detection and lexicography. We evaluate our system in the AXOLOTL-24 shared task for Finnish, Russian and German languages \cite{fedorova-etal-2024-axolotl}. Our system is fully unsupervised. It leverages a graph-based clustering approach to predict mappings between unknown word usages and dictionary entries for Subtask 1, and generates dictionary-like definitions for those novel word usages through the state-of-the-art Large Language Models such as GPT-4 and LLaMA-3 for Subtask 2. In Subtask 1, our system outperforms the baseline system by a large margin, and it offers interpretability for the mapping results by distinguishing between matched and unmatched (novel) word usages through our graph-based clustering approach. Our system ranks first in Finnish and German, and ranks second in Russian on the Subtask 2 test-phase leaderboard. These results show the potential of our system in managing dictionary entries, particularly for updating dictionaries to include novel sense entries. Our code and data are made publicly available\footnote{\url{https://github.com/xiaohemaikoo/axolotl24-ABDN-NLP}}.
翻訳日:2024-07-08 22:54:33 公開日:2024-07-04
# 擬似3次元変換に基づく医用自己監督表現学習のクロス次元化

Cross-Dimensional Medical Self-Supervised Representation Learning Based on a Pseudo-3D Transformation ( http://arxiv.org/abs/2406.00947v2 )

ライセンス: Link先を確認
Fei Gao, Siwen Wang, Fandong Zhang, Hong-Yu Zhou, Yizhou Wang, Churan Wang, Gang Yu, Yizhou Yu, (参考訳) 医用画像解析は、アノテーションの有無にかかわらず、データの不足に悩まされる。 これは、3Dの医療画像に関してさらに顕著になる。 SSL(Self-Supervised Learning)は、ラベルのないデータを使用することで、この状況を部分的に緩和することができる。 しかし、既存のSSLメソッドのほとんどは、単一の次元(例えば2Dや3D)のデータしか利用できず、異なる次元を持つデータを使ってトレーニングデータセットを拡張できない。 本稿では,CDSSL-P3Dをベースとした新しい3次元SSLフレームワークを提案する。 具体的には、2D画像を3Dデータに整合したフォーマットに変換するim2colアルゴリズムに基づく画像変換を提案する。 この変換は2次元および3次元データのシームレスな統合を可能にし、3次元医用画像解析のための相互教師あり学習を容易にする。 我々は,2次元および3次元の分類とセグメンテーションを含む,13の下流タスクについて広範な実験を行った。 その結果,CDSSL-P3Dは優れた性能を示し,他の高度なSSL手法よりも優れていた。

Medical image analysis suffers from a shortage of data, whether annotated or not. This becomes even more pronounced when it comes to 3D medical images. Self-Supervised Learning (SSL) can partially ease this situation by using unlabeled data. However, most existing SSL methods can only make use of data in a single dimensionality (e.g. 2D or 3D), and are incapable of enlarging the training dataset by using data with differing dimensionalities jointly. In this paper, we propose a new cross-dimensional SSL framework based on a pseudo-3D transformation (CDSSL-P3D), that can leverage both 2D and 3D data for joint pre-training. Specifically, we introduce an image transformation based on the im2col algorithm, which converts 2D images into a format consistent with 3D data. This transformation enables seamless integration of 2D and 3D data, and facilitates cross-dimensional self-supervised learning for 3D medical image analysis. We run extensive experiments on 13 downstream tasks, including 2D and 3D classification and segmentation. The results indicate that our CDSSL-P3D achieves superior performance, outperforming other advanced SSL methods.
翻訳日:2024-07-08 22:44:48 公開日:2024-07-04
# 検索再生における効果的なノイズフィルタリングのための情報基盤の展望

An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.01549v2 )

ライセンス: Link先を確認
Kun Zhu, Xiaocheng Feng, Xiyuan Du, Yuxuan Gu, Weijiang Yu, Haotian Wang, Qianglong Chen, Zheng Chu, Jingchang Chen, Bing Qin, (参考訳) Retrieval-augmented Generationは、大規模コーパスから取得した関連情報と、大規模言語モデルの機能を統合しているが、現実のノイズの多いデータに直面すると、課題に遭遇する。 最近の解決策の1つは、関連するコンテンツを見つけるためにフィルタモジュールを訓練するが、最適な雑音圧縮しか達成しないことである。 本稿では,情報ボトルネック理論を検索強化世代に導入することを提案する。 提案手法では,圧縮と地盤出力の相互情報を同時に最大化するとともに,圧縮と回収された通過の相互情報を最小化することにより,雑音のフィルタリングを行う。 さらに,新たな総合評価,教師付き微調整データの選定,強化学習報酬の構築に活用するための情報ボトルネックの定式を導出する。 実験の結果,提案手法は,回答生成の正確性だけでなく,2.5 %$圧縮率の簡潔性においても,様々な質問応答データセットに対して顕著な改善が得られた。

Retrieval-augmented generation integrates the capabilities of large language models with relevant information retrieved from an extensive corpus, yet encounters challenges when confronted with real-world noisy data. One recent solution is to train a filter module to find relevant content but only achieve suboptimal noise compression. In this paper, we propose to introduce the information bottleneck theory into retrieval-augmented generation. Our approach involves the filtration of noise by simultaneously maximizing the mutual information between compression and ground output, while minimizing the mutual information between compression and retrieved passage. In addition, we derive the formula of information bottleneck to facilitate its application in novel comprehensive evaluations, the selection of supervised fine-tuning data, and the construction of reinforcement learning rewards. Experimental results demonstrate that our approach achieves significant improvements across various question answering datasets, not only in terms of the correctness of answer generation but also in the conciseness with $2.5\%$ compression rate.
翻訳日:2024-07-08 22:44:48 公開日:2024-07-04
# PeFAD: 時系列異常検出のためのパラメータ効率の良いフェデレーションフレームワーク

PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection ( http://arxiv.org/abs/2406.02318v2 )

ライセンス: Link先を確認
Ronghui Xu, Hao Miao, Senzhang Wang, Philip S. Yu, Jianxin Wang, (参考訳) モバイルセンシング技術の普及に伴い、様々な領域に膨大な時系列データが生成・蓄積され、多くの実世界の応用が促進される。 この設定では、時系列異常検出が実質的に重要である。 時系列において、通常のサンプル分布から逸脱したサンプルを識別する。 既存のアプローチは通常、すべての時系列が中央の場所で利用可能であると仮定する。 しかし、さまざまなエッジデバイスが配置されているため、時系列の分散収集が目撃されている。 分散時系列データと集中型異常検出アルゴリズムのギャップを埋めるため,PeFADというパラメータ効率の高いフェデレーション異常検出フレームワークを提案する。 PeFADは、クライアントのローカルモデルの本体として、学習済み言語モデル(PLM)を初めて採用し、モダリティ間の知識伝達能力の恩恵を受けることができる。 通信オーバヘッドとローカルモデル適応コストを低減するため,クライアントが小さなパラメータを微調整し,更新のためにサーバに送信するだけでよい,パラメータ効率のよいフェデレーショントレーニングモジュールを提案する。 PeFADは、トレーニング中に無視された異常の影響を軽減するために、新しい異常駆動マスク選択戦略を利用している。 また,全クライアントが共有する合成プライバシ保存データセット上での知識蒸留操作も提案し,クライアント間のデータ不均一性問題に対処する。 我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。

With the proliferation of mobile sensing techniques, huge amounts of time series data are generated and accumulated in various domains, fueling plenty of real-world applications. In this setting, time series anomaly detection is practically important. It endeavors to identify deviant samples from the normal sample distribution in time series. Existing approaches generally assume that all the time series is available at a central location. However, we are witnessing the decentralized collection of time series due to the deployment of various edge devices. To bridge the gap between the decentralized time series data and the centralized anomaly detection algorithms, we propose a Parameter-efficient Federated Anomaly Detection framework named PeFAD with the increasing privacy concerns. PeFAD for the first time employs the pre-trained language model (PLM) as the body of the client's local model, which can benefit from its cross-modality knowledge transfer capability. To reduce the communication overhead and local model adaptation cost, we propose a parameter-efficient federated training module such that clients only need to fine-tune small-scale parameters and transmit them to the server for update. PeFAD utilizes a novel anomaly-driven mask selection strategy to mitigate the impact of neglected anomalies during training. A knowledge distillation operation on a synthetic privacy-preserving dataset that is shared by all the clients is also proposed to address the data heterogeneity issue across clients. We conduct extensive evaluations on four real datasets, where PeFAD outperforms existing state-of-the-art baselines by up to 28.74%.
翻訳日:2024-07-08 22:44:48 公開日:2024-07-04
# 強化学習に基づく量子機械学習のためのアーキテクチャ探索

Reinforcement learning-based architecture search for quantum machine learning ( http://arxiv.org/abs/2406.02717v2 )

ライセンス: Link先を確認
Frederic Rapp, David A. Kreplin, Marco Roth, (参考訳) 量子機械学習モデルは符号化回路を使用して、データを量子ヒルベルト空間にマッピングする。 これらの回路のアーキテクチャが結果モデルのコア特性に大きな影響を与えることはよく知られているが、しばしばヒューリスティックに選択される。 本研究では,量子機械学習モデルの性能向上のために,強化学習技術を用いて問題固有符号化回路を生成する手法を提案する。 モデルに基づく強化学習アルゴリズムを特に利用することにより、探索に必要な回路評価の回数を削減し、サンプル効率のよいフレームワークを提供する。 従来のサーチアルゴリズムとは対照的に,本手法はサーチスペースを大幅に削減する階層回路構造を用いる。 さらに,本手法は,ソリューションの品質,ハードウェアの制約,回路深さなど,複数の目的を考慮に入れることができる。 問題に依存しない回路モデルや古典モデルなど、様々な参照モデルに対して、調整された回路をベンチマークする。 本研究は,QMLモデルの性能向上における問題固有符号化回路の有効性を強調した。

Quantum machine learning models use encoding circuits to map data into a quantum Hilbert space. While it is well known that the architecture of these circuits significantly influences core properties of the resulting model, they are often chosen heuristically. In this work, we present a novel approach using reinforcement learning techniques to generate problem-specific encoding circuits to improve the performance of quantum machine learning models. By specifically using a model-based reinforcement learning algorithm, we reduce the number of necessary circuit evaluations during the search, providing a sample-efficient framework. In contrast to previous search algorithms, our method uses a layered circuit structure that significantly reduces the search space. Additionally, our approach can account for multiple objectives such as solution quality, hardware restrictions and circuit depth. We benchmark our tailored circuits against various reference models, including models with problem-agnostic circuits and classical models. Our results highlight the effectiveness of problem-specific encoding circuits in enhancing QML model performance.
翻訳日:2024-07-08 22:44:48 公開日:2024-07-04
# 革新的・没入的デジタルヘルスにおけるメタバースの可能性

Unlocking the Potential of Metaverse in Innovative and Immersive Digital Health ( http://arxiv.org/abs/2406.07114v2 )

ライセンス: Link先を確認
Fatemeh Ebrahimzadeh, Ramin Safa, (参考訳) メタバースの概念は様々な分野で注目を集めており、その重要な応用の1つは健康と治療である。 メタバースは、患者のケア、医療教育、そして教育/学習と研究の方法を変えることによって、医療を変革する大きな可能性を秘めている。 本研究の目的はメタバースの基本概念と基礎技術を紹介することである。 本稿では、医療の文脈におけるMetaverseの長所と短所について検討し、その可能性を技術とAIの観点から分析する。 本稿では、機械学習アルゴリズムをMetaverse生成データに適用して、医療アプリケーションにおけるより良い洞察を得る方法について説明する。 さらに、ブロックチェーンのような新興技術を調べ、プライバシの懸念にも対処することで、ヘルスデリバリーにおけるMetaverseの将来的なビジョンについて検討する。 本研究は,医療におけるMetaverseの応用と医療サービス提供に革命をもたらす可能性について,より深く理解することに貢献している。

The concept of Metaverse has attracted a lot of attention in various fields and one of its important applications is health and treatment. The Metaverse has enormous potential to transform healthcare by changing patient care, medical education, and the way teaching/learning and research are done. The purpose of this research is to provide an introduction to the basic concepts and fundamental technologies of the Metaverse. This paper examines the pros and cons of the Metaverse in healthcare context and analyzes its potential from the technology and AI perspective. In particular, the role of machine learning methods is discussed; We will explain how machine learning algorithms can be applied to the Metaverse generated data to gain better insights in healthcare applications. Additionally, we examine the future visions of the Metaverse in health delivery, by examining emerging technologies such as blockchain and also addressing privacy concerns. The findings of this study contribute to a deeper understanding of the applications of Metaverse in healthcare and its potential to revolutionize the delivery of medical services.
翻訳日:2024-07-08 22:44:48 公開日:2024-07-04
# 知的医療データのためのプライバシー保護不均一学習

Privacy-Preserving Heterogeneous Federated Learning for Sensitive Healthcare Data ( http://arxiv.org/abs/2406.10563v2 )

ライセンス: Link先を確認
Yukai Xu, Jingfeng Zhang, Yujie Gu, (参考訳) 分散化された施設が一般的である医療の世界では、機械学習はデータとモデルの保護に関する2つの大きな課題に直面している。 データレベルの課題は、機密性の高い個人情報でデータを集中化する際のデータプライバシの漏洩に関するものだ。 モデルレベルの課題は、ローカルモデルの異質性から生じるが、知的財産権の懸念に対処するためには、機密性を確保しながら協調的に訓練する必要がある。 これらの課題に対処するために、データプライバシを同時に保護しつつ、異種ローカルモデルを協調的かつ機密的にトレーニングできる、AAFV(Abstention-Aware Federated Voting)と呼ばれる新しいフレームワークを提案する。 これは、新しい棄権対応投票機構と差分プライバシー機構をローカルモデルの予測に組み込むことによって達成される。 特に,提案手法では,不均一な局所モデルから高信頼度投票を選択するために,しきい値に基づく棄権方式を利用して,学習ユーティリティの向上だけでなく,モデルの機密性を保護している。 さらに,AAFVは糖尿病と院内患者死亡の2つの実用的な予測課題に実装した。 実験では、精度とプライバシー保護の検査におけるAFVの有効性と機密性を実証した。

In the realm of healthcare where decentralized facilities are prevalent, machine learning faces two major challenges concerning the protection of data and models. The data-level challenge concerns the data privacy leakage when centralizing data with sensitive personal information. While the model-level challenge arises from the heterogeneity of local models, which need to be collaboratively trained while ensuring their confidentiality to address intellectual property concerns. To tackle these challenges, we propose a new framework termed Abstention-Aware Federated Voting (AAFV) that can collaboratively and confidentially train heterogeneous local models while simultaneously protecting the data privacy. This is achieved by integrating a novel abstention-aware voting mechanism and a differential privacy mechanism onto local models' predictions. In particular, the proposed abstention-aware voting mechanism exploits a threshold-based abstention method to select high-confidence votes from heterogeneous local models, which not only enhances the learning utility but also protects model confidentiality. Furthermore, we implement AAFV on two practical prediction tasks of diabetes and in-hospital patient mortality. The experiments demonstrate the effectiveness and confidentiality of AAFV in testing accuracy and privacy protection.
翻訳日:2024-07-08 22:44:48 公開日:2024-07-04
# 相補性に基づく相補性

Complementarity-based complementarity ( http://arxiv.org/abs/2406.11395v2 )

ライセンス: Link先を確認
Laura Serino, Giovanni Chesi, Benjamin Brecht, Lorenzo Maccone, Chiara Macchiavello, Christine Silberhorn, (参考訳) 量子系が提示できる相補性の量は、どの相補的性質を考慮しているかによって異なることを示す。 ある最大相補的性質のスペクトル分解に対応する、相互に偏りのない基底(MUB)の集合を考える: 1 の完全な知識、すなわち、システムの状態が基底状態の1つであり、他の全ての状態が完全に未知であること、すなわち、他の性質の測定が、一様確率でその可能な結果のどれかを見つけることを暗示する。 いずれのMUBを選択するかによって、5次元の系は、エントロピーの和の全ての系状態と、3つの選択された観測値に関する測定結果のばらつきの最小値を用いて、異なる相補性の度合いを持つことができることを示す。 この性質は初めて実験的に発見され、実験的な発見が量子情報効果を開示できることを実証した。

We show that the amount of complementarity that a quantum system can exhibit depends on which complementary properties one is considering. Consider a set of mutually unbiased bases (MUBs) which corresponds to the spectral decomposition of some maximally complementary properties: The perfect knowledge of one, i.e. the state of the system is one of the basis states, implies that all the others are completely unknown, namely the measurement of another property will find any of its possible outcomes with uniform probability. We show that, depending on which three of the MUBs we choose, a 5-dimensional system can have different degrees of complementarity, measured using the minimum over all the system states of the sum of the entropies and of the variances of the measurement outcomes related to the three chosen observables. This property was first found experimentally, and demonstrates that an experimental discovery can disclose quantum information effects.
翻訳日:2024-07-08 22:35:04 公開日:2024-07-04
# 高確率ミニマックス下界

High-probability minimax lower bounds ( http://arxiv.org/abs/2406.13447v2 )

ライセンス: Link先を確認
Tianyi Ma, Kabir A. Verchand, Richard J. Samworth, (参考訳) ミニマックスリスクはしばしば、特定の統計手順を比較するための金の標準と見なされる。 しかし、最近、頑丈で重み付けされた推定問題で観測されたように、(ランダム)損失の予想に対する固有の減少は、その尾の振る舞いに関する情報のかなりの損失を伴う可能性がある。 このような損失を避けるため、ミニマックス量子化の概念を導入し、その量子化レベルへの依存を明確にする。 この目的のために、古典的なル・カム法とファノ法の高確率変種を開発するとともに、局所的なミニマックスリスクの下限をミニマックス量子化上の下限に変換する手法を開発する。 フレームワークのパワーを説明するため,本手法をいくつかの例に展開し,ロバスト平均推定および確率凸最適化の最近の結果と,共分散行列推定,疎線形回帰,非パラメトリック密度推定,等調回帰の新たな結果を得た。 我々の全体的なゴールは、ミニマックス量子化は統計問題の難易度をより細かく理解し、より一般に、これらの量に対する低い境界は、ユーザフレンドリーなツールによって得ることができる、と論じることである。

The minimax risk is often considered as a gold standard against which we can compare specific statistical procedures. Nevertheless, as has been observed recently in robust and heavy-tailed estimation problems, the inherent reduction of the (random) loss to its expectation may entail a significant loss of information regarding its tail behaviour. In an attempt to avoid such a loss, we introduce the notion of a minimax quantile, and seek to articulate its dependence on the quantile level. To this end, we develop high-probability variants of the classical Le Cam and Fano methods, as well as a technique to convert local minimax risk lower bounds to lower bounds on minimax quantiles. To illustrate the power of our framework, we deploy our techniques on several examples, recovering recent results in robust mean estimation and stochastic convex optimisation, as well as obtaining several new results in covariance matrix estimation, sparse linear regression, nonparametric density estimation and isotonic regression. Our overall goal is to argue that minimax quantiles can provide a finer-grained understanding of the difficulty of statistical problems, and that, in wide generality, lower bounds on these quantities can be obtained via user-friendly tools.
翻訳日:2024-07-08 22:35:04 公開日:2024-07-04
# 4K4DGen:4K解像度でパノラマ4D生成

4K4DGen: Panoramic 4D Generation at 4K Resolution ( http://arxiv.org/abs/2406.13527v2 )

ライセンス: Link先を確認
Renjie Li, Panwang Pan, Bangbang Yang, Dejia Xu, Shijie Zhou, Xuanyang Zhang, Zeming Li, Achuta Kadambi, Zhangyang Wang, Zhiwen Fan, (参考訳) 仮想現実と拡張現実(VR/AR)技術の興隆により、高品質で没入的でダイナミックな環境の構築に対する需要が高まっている。 しかし、既存の生成技術は、動的オブジェクトのみにフォーカスするか、単一の視点の画像からアウトパインティングを行うかのいずれかであり、VR/ARアプリケーションのニーズを満たしていない。 本研究では,単一パノラマを没入型4D体験に高めるという課題に取り組む。 初めて、4K解像度で360度視野を持つ全方位動的シーンを生成する能力を示し、没入感のあるユーザエクスペリエンスを提供する。 提案手法では,実時間探索のための効率的なスプレイティング手法を用いて,自然シーンのアニメーションを容易にし,4次元ガウスの集合を最適化するパイプラインを提案する。 シーンスケールのアノテートされた4Dデータやモデル,特にパノラマ形式でのパノラマデノイザの欠如を克服するために,360度画像に一貫したアニメーション化に先立って汎用的な2D拡散を適用するパノラマデノイザを提案する。 その後,空間的・時間的整合性を維持しつつ,パノラマ映像を4次元没入環境に高める。 パノラマ領域の2次元モデルからパノラマ領域への事前知識の伝達と空間的外観と幾何正則化による4次元リフトによる4次元リフトの実現により,パノラマから4次元への高品質な生成を初めて達成した(4096$\times$2048)。 プロジェクトのWebサイトはhttps://4k4dgen.github.ioにある。

The blooming of virtual reality and augmented reality (VR/AR) technologies has driven an increasing demand for the creation of high-quality, immersive, and dynamic environments. However, existing generative techniques either focus solely on dynamic objects or perform outpainting from a single perspective image, failing to meet the needs of VR/AR applications. In this work, we tackle the challenging task of elevating a single panorama to an immersive 4D experience. For the first time, we demonstrate the capability to generate omnidirectional dynamic scenes with 360-degree views at 4K resolution, thereby providing an immersive user experience. Our method introduces a pipeline that facilitates natural scene animations and optimizes a set of 4D Gaussians using efficient splatting techniques for real-time exploration. To overcome the lack of scene-scale annotated 4D data and models, especially in panoramic formats, we propose a novel Panoramic Denoiser that adapts generic 2D diffusion priors to animate consistently in 360-degree images, transforming them into panoramic videos with dynamic scenes at targeted regions. Subsequently, we elevate the panoramic video into a 4D immersive environment while preserving spatial and temporal consistency. By transferring prior knowledge from 2D models in the perspective domain to the panoramic domain and the 4D lifting with spatial appearance and geometry regularization, we achieve high-quality Panorama-to-4D generation at a resolution of (4096 $\times$ 2048) for the first time. See the project website at https://4k4dgen.github.io.
翻訳日:2024-07-08 22:35:04 公開日:2024-07-04
# 自然言語処理における科学文献探索システムNLP-KG

NLP-KG: A System for Exploratory Search of Scientific Literature in Natural Language Processing ( http://arxiv.org/abs/2406.15294v2 )

ライセンス: Link先を確認
Tim Schopf, Florian Matthes, (参考訳) 科学文献の検索はしばしば探索的であり、ユーザーは特定の分野や概念に慣れていないが、それについてもっと学ぶことに興味がある。 しかし、科学文献検索のための既存のシステムは、通常キーワードベースのルックアップ検索に適合し、探索の可能性を制限する。 本研究では,NLP分野の研究文献の探索を支援する機能豊富なシステムであるNLP-KGを提案する。 セマンティック検索に加えて、NLP-KGは興味のある分野への簡単な紹介を提供する調査論文を簡単に見つけることができる。 さらに、フィールド・オブ・スタディ(Fields of Study)階層グラフにより、ユーザーはフィールドとその関連領域に慣れることができる。 最後に、チャットインタフェースにより、NLPにおける馴染みのない概念や特定の記事について質問し、科学的出版物から検索した知識に基づく回答を得ることができる。 本システムは,ユーザに対して,さまざまな分野間の関係の調査,NLPにおける馴染みのない概念の理解,研究文献の検索など,包括的な探索可能性を提供する。 デモ、ビデオ、コードは、https://github.com/NLP-Knowledge-Graph/NLP-KG-WebAppで入手できる。

Scientific literature searches are often exploratory, whereby users are not yet familiar with a particular field or concept but are interested in learning more about it. However, existing systems for scientific literature search are typically tailored to keyword-based lookup searches, limiting the possibilities for exploration. We propose NLP-KG, a feature-rich system designed to support the exploration of research literature in unfamiliar natural language processing (NLP) fields. In addition to a semantic search, NLP-KG allows users to easily find survey papers that provide a quick introduction to a field of interest. Further, a Fields of Study hierarchy graph enables users to familiarize themselves with a field and its related areas. Finally, a chat interface allows users to ask questions about unfamiliar concepts or specific articles in NLP and obtain answers grounded in knowledge retrieved from scientific publications. Our system provides users with comprehensive exploration possibilities, supporting them in investigating the relationships between different fields, understanding unfamiliar concepts in NLP, and finding relevant research literature. Demo, video, and code are available at: https://github.com/NLP-Knowledge-Graph/NLP-KG-WebApp.
翻訳日:2024-07-08 22:35:04 公開日:2024-07-04
# クロスドメインレコメンデーションシステムにおける双曲的知識伝達

Hyperbolic Knowledge Transfer in Cross-Domain Recommendation System ( http://arxiv.org/abs/2406.17289v2 )

ライセンス: Link先を確認
Xin Yang, Heng Chang, Zhijian Lai, Jinze Yang, Xingrun Li, Yu Lu, Shuaiqiang Wang, Dawei Yin, Erxue Min, (参考訳) クロスドメイン・レコメンデーション(CDR)は、ターゲットレコメンデーションドメインにおけるデータの分散性の問題を軽減するために、異なるドメインからの知識を活用することを目的としており、近年注目を集めている。 この領域には顕著な進歩があったが、現在の方法のほとんどはユークリッド空間のユーザやアイテムを表しており、レコメンデーションシステムにおける長いテールの分散データを扱うには理想的ではない。 さらに、他のドメインからのデータを追加することで、データセット全体のロングテール特性が悪化し、CDRモデルを効果的にトレーニングすることが難しくなる。 近年の研究では, ハイパーボリックな手法が長期分布のモデル化に特に適していることが示されており, CDRシナリオにおけるユーザや項目に対するハイパーボリックな表現の探索に繋がった。 しかし、異なる領域の異なる特徴のため、CDRタスクに双曲表現学習を適用することは極めて困難である。 本稿では,ハイパーボリック・コントラスト学習(HCTS)と呼ばれる新しいフレームワークを提案する。 ユーザとアイテムをそれぞれのドメインから個別に埋め込み、それらを調整可能な曲率を持つ異なる双曲多様体にマッピングして予測する。 対象領域におけるユーザや項目の表現を改善するために,知識伝達のための双曲型コントラスト学習モジュールを開発した。 実世界のデータセットに対する大規模な実験は、双曲多様体がCDRタスクに対するユークリッド空間の有望な代替であることを示した。

Cross-Domain Recommendation (CDR) seeks to utilize knowledge from different domains to alleviate the problem of data sparsity in the target recommendation domain, and it has been gaining more attention in recent years. Although there have been notable advancements in this area, most current methods represent users and items in Euclidean space, which is not ideal for handling long-tail distributed data in recommendation systems. Additionally, adding data from other domains can worsen the long-tail characteristics of the entire dataset, making it harder to train CDR models effectively. Recent studies have shown that hyperbolic methods are particularly suitable for modeling long-tail distributions, which has led us to explore hyperbolic representations for users and items in CDR scenarios. However, due to the distinct characteristics of the different domains, applying hyperbolic representation learning to CDR tasks is quite challenging. In this paper, we introduce a new framework called Hyperbolic Contrastive Learning (HCTS), designed to capture the unique features of each domain while enabling efficient knowledge transfer between domains. We achieve this by embedding users and items from each domain separately and mapping them onto distinct hyperbolic manifolds with adjustable curvatures for prediction. To improve the representations of users and items in the target domain, we develop a hyperbolic contrastive learning module for knowledge transfer. Extensive experiments on real-world datasets demonstrate that hyperbolic manifolds are a promising alternative to Euclidean space for CDR tasks.
翻訳日:2024-07-08 22:35:04 公開日:2024-07-04
# 電子商取引検索におけるCTR予測のための軽量エンドツーエンドグラフ関心ネットワーク

Light-weight End-to-End Graph Interest Network for CTR Prediction in E-commerce Search ( http://arxiv.org/abs/2406.17745v3 )

ライセンス: Link先を確認
Pipi Peng, Yunqing Jia, Ziqiang Zhou, murmurhash, Zichong Xiao, (参考訳) クリックスルーレート(CTR)予測は,eコマース検索におけるユーザエクスペリエンスと収益の改善に重要な影響を与える。 深層学習の発展に伴い,ユーザ行動やその他の情報から抽出されたグラフ構造を利用して,学習の埋め込みを支援するグラフベースの手法がよく利用される。 しかし、従来のグラフベースの手法のほとんどは主にレコメンデーションシナリオに重点を置いているため、そのグラフ構造は、クエリのシーケンシャル信号やクエリ-イム相関を無視して、ユーザの行動からアイテムのシーケンシャル情報に大きく依存する。 本稿では,ユーザの検索関心を効果的にマイニングし,過去の課題に取り組むために,ライトウェイト・エンド・エンド・エンド・グラフ・インテンシブ・ネットワーク(EGIN)という新しいアプローチを提案する。 (i)EGINは,検索システムからのクエリと項目の相関とシーケンシャル情報を利用して,eコマース検索におけるCTR予測を改善するヘテロジニアスグラフを構築する。 (II)EGINのグラフ埋め込み学習は、同じトレーニング入力を共有し、CTR予測と共同でトレーニングされており、エンドツーエンドのフレームワークが大規模検索システムにデプロイされるのを困難にしている。 提案するEGINは,問合せ項目のヘテロジニアスグラフ,軽量グラフサンプリング,多目的ネットワークという3つの部分から構成される。 提案した軽量グラフサンプリングにより,クエリと項目の相関とシーケンシャル情報を効率的に取得する。 この多目的ネットワークは、グラフ埋め込みを利用して、クエリとアイテム間の様々な類似性関係をキャプチャし、最終的なCTR予測を強化するように設計されている。 提案したEGINの有効性を実証するため,公立および工業用両方のデータセットについて広範な実験を行った。 同時に、グラフ学習のトレーニングコストは、メインのCTR予測タスクと比較して比較的低く、実用的な応用における効率性を確保することができる。

Click-through-rate (CTR) prediction has an essential impact on improving user experience and revenue in e-commerce search. With the development of deep learning, graph-based methods are well exploited to utilize graph structure extracted from user behaviors and other information to help embedding learning. However, most of the previous graph-based methods mainly focus on recommendation scenarios, and therefore their graph structures highly depend on item's sequential information from user behaviors, ignoring query's sequential signal and query-item correlation. In this paper, we propose a new approach named Light-weight End-to-End Graph Interest Network (EGIN) to effectively mine users' search interests and tackle previous challenges. (i) EGIN utilizes query and item's correlation and sequential information from the search system to build a heterogeneous graph for better CTR prediction in e-commerce search. (ii) EGIN's graph embedding learning shares the same training input and is jointly trained with CTR prediction, making the end-to-end framework effortless to deploy in large-scale search systems. The proposed EGIN is composed of three parts: query-item heterogeneous graph, light-weight graph sampling, and multi-interest network. The query-item heterogeneous graph captures correlation and sequential information of query and item efficiently by the proposed light-weight graph sampling. The multi-interest network is well designed to utilize graph embedding to capture various similarity relationships between query and item to enhance the final CTR prediction. We conduct extensive experiments on both public and industrial datasets to demonstrate the effectiveness of the proposed EGIN. At the same time, the training cost of graph learning is relatively low compared with the main CTR prediction task, ensuring efficiency in practical applications.
翻訳日:2024-07-08 22:35:04 公開日:2024-07-04
# 不完全な情報カードゲームにおける解説戦略の強化--広東語解説における大規模言語モデルの検討

Enhancing Commentary Strategies for Imperfect Information Card Games: A Study of Large Language Models in Guandan Commentary ( http://arxiv.org/abs/2406.17807v2 )

ライセンス: Link先を確認
Meiling Tao, Xuechen Liang, Yiling Tao, Tianyu Shi, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、高品質なゲーム解説を生成する可能性を解き放っている。 しかし、不完全な情報を持つ複雑なゲームに対して、洞察に富み、活発なコメントを生み出すことは、依然として大きな課題である。 本稿では,中国のカードゲームである『textit{Guandan}』に特化して,強化学習(RL)とLLMを組み合わせた新たな解説手法を提案する。 本システムでは,RLを利用して複雑なカード再生シナリオを生成し,LDMを用いて対応する注釈文を生成し,プロの解説者の戦略的分析と物語の技を効果的にエミュレートする。 このフレームワークは、ステートコメンタリーガイド、心の理論(ToM)ベースのストラテジーアナライザ、および中国語環境における詳細で文脈に関連のあるゲームコメンタリーをシームレスにコラボレーションするスタイル検索モジュールを含む。 ToM 能力で LLM を強化し,検索機構と情報フィルタリング機構を改良する。 これにより、パーソナライズされたコメントコンテンツの生成が容易になる。 提案手法をオープンソース LLM に適用することにより,複数の評価指標にまたがって GPT-4 の性能を上回る性能向上を実現した。

Recent advancements in large language models (LLMs) have unlocked the potential for generating high-quality game commentary. However, producing insightful and engaging commentary for complex games with incomplete information remains a significant challenge. In this paper, we introduce a novel commentary method that combine Reinforcement Learning (RL) and LLMs, tailored specifically for the Chinese card game \textit{Guandan}. Our system leverages RL to generate intricate card-playing scenarios and employs LLMs to generate corresponding commentary text, effectively emulating the strategic analysis and narrative prowess of professional commentators. The framework comprises a state commentary guide, a Theory of Mind (ToM)-based strategy analyzer, and a style retrieval module, which seamlessly collaborate to deliver detailed and context-relevant game commentary in the Chinese language environment. We empower LLMs with ToM capabilities and refine both retrieval and information filtering mechanisms. This facilitates the generation of personalized commentary content. Our experimental results showcase the substantial enhancement in performance achieved by the proposed commentary framework when applied to open-source LLMs, surpassing the performance of GPT-4 across multiple evaluation metrics.
翻訳日:2024-07-08 22:35:04 公開日:2024-07-04
# 位相量子ウォークによる定時間探索アルゴリズム

Constant search time algorithm via topological quantum walks ( http://arxiv.org/abs/2406.18768v2 )

ライセンス: Link先を確認
D. O. Oriekhov, Guliuxin Jin, Eliska Greplova, (参考訳) グロバーのような量子アルゴリズムが、構造化されていない探索問題に対して4次高速化を提供できることはよく知られている。 探索問題に位相構造を加えることで、古典的な探索よりも探索確率を一定に改善した定時探索量子アルゴリズムを実現することができることを示す。 具体的には、位相的に非自明な位相を実現する2次元分割型量子ランダムウォークによって実現された空間探索アルゴリズムについて検討し、漸近探索挙動がシステムサイズの増加とともに一定であることを示す。 解析的および数値計算を用いて、量子ウォーカーのパラメータ空間における効率的な探索領域を決定する。 これらの領域は格子欠陥の近くで形成された一対の閉じ込められた状態に対応する。 離散時間進化演算子のスペクトル特性を研究することにより、これらの捕捉状態が初期状態と大きく重なることを示す。 この対応は、境界状態の構成的干渉による局所化に類似しており、最高の探索時間漸近状態に到達し、量子ランダムウォークにおいて障害に保護された高速探索を生成することができる。

It is well-known that quantum algorithms such as Grover's can provide a quadradic speed-up for unstructured search problems. By adding topological structure to a search problem, we show that it is possible to achieve a constant search-time quantum algorithm with a constant improvement of the search probability over classical search. Specifically, we study the spatial search algorithm implemented by a two-dimensional split-step quantum random walks that realize topologically nontrivial phases and show the asymptotic search behavior is constant with growing system size. Using analytical and numerical calculations, we determine the efficient search regions in the parameter space of the quantum walker. These regions correspond to pairs of trapped states formed near a lattice defect. By studying the spectral properties of the discrete time-evolution-operators, we show that these trapped states have large overlap with the initial state. This correspondence, which is analogous to localization by constructive interference of bound states, makes it possible to reach the best possible search-time asymptotic and produce a disorder-protected fast search in quantum random walks.
翻訳日:2024-07-08 22:24:52 公開日:2024-07-04
# 深部強化学習による新しい閉鎖5棒アクティブサスペンションの自律制御

Autonomous Control of a Novel Closed Chain Five Bar Active Suspension via Deep Reinforcement Learning ( http://arxiv.org/abs/2406.18899v3 )

ライセンス: Link先を確認
Nishesh Singh, Sidharth Ramesh, Abhishek Shankar, Jyotishka Duttagupta, Leander Stephen D'Souza, Sanjay Singh, (参考訳) 惑星探査には、荒れ果てた地形のある環境での移動が必要である。 加えて、火星探査機や他の惑星探査ロボットは、機械的な損傷から守らなければならない、敏感な科学実験や部品を搭載できることが多い。 本稿では、シャシー安定化に着目したアクティブサスペンションシステムと、避けられない障害物に遭遇しながら効率的なトラバース法について述べる。 SAC(Soft Actor-Critic)とPID(Proportional Integral Derivative)制御を併用してシャシーを安定化し、低速で大きな障害物を横切る。 モデルは、周囲の障害物からの距離、障害物の高さ、シャシーの向きを利用して、サスペンションの制御リンクを正確に作動させる。 ガゼボ環境でのシミュレーションは,提案したアクティブシステムを検証するために用いられている。

Planetary exploration requires traversal in environments with rugged terrains. In addition, Mars rovers and other planetary exploration robots often carry sensitive scientific experiments and components onboard, which must be protected from mechanical harm. This paper deals with an active suspension system focused on chassis stabilisation and an efficient traversal method while encountering unavoidable obstacles. Soft Actor-Critic (SAC) was applied along with Proportional Integral Derivative (PID) control to stabilise the chassis and traverse large obstacles at low speeds. The model uses the rover's distance from surrounding obstacles, the height of the obstacle, and the chassis' orientation to actuate the control links of the suspension accurately. Simulations carried out in the Gazebo environment are used to validate the proposed active system.
翻訳日:2024-07-08 22:24:52 公開日:2024-07-04
# ヒューマン・アウェア・ビジョン・アンド・ランゲージ・ナビゲーション:動的ヒューマンインタラクションによる現実感へのブリッジングシミュレーション

Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions ( http://arxiv.org/abs/2406.19236v2 )

ライセンス: Link先を確認
Minghan Li, Heng Li, Zhi-Qi Cheng, Yifei Dong, Yuxuan Zhou, Jun-Yan He, Qi Dai, Teruko Mitamura, Alexander G. Hauptmann, (参考訳) Vision-and-Language Navigation (VLN)は、人間の指示に基づいてナビゲートするエンボディエージェントを開発することを目的としている。 しかしながら、現在のVLNフレームワークは静的環境と最適な専門家監督に依存しており、実際の適用性を制限する。 そこで本研究では,ヒューマン・アウェア・ビジョン・アンド・ランゲージ・ナビゲーション(Human-Aware Vision-and-Language Navigation,HA-VLN)を導入する。 本稿では,動的人間活動とMatterport3Dデータセットを組み合わせたHuman-Aware 3D (HA3D)シミュレータとHuman-Aware Room-to-Room (HA-R2R)データセットを提案する。 HA-VLNの課題に対処するために、動的人間環境における効果的なナビゲーションのためのクロスモーダル融合と多様なトレーニング戦略を利用して、エキスパート・スーパーモーダル(VLN-CM)と非エキスパート・スーパーモーダル・ディシジョン・トランスフォーマー(VLN-DT)のエージェントを提示する。 人的活動を考慮した指標やHA-VLNのユニークな課題の体系的な分析を含む包括的な評価は、HA-VLNエージェントの現実世界の堅牢性と適応性を高めるためのさらなる研究の必要性を浮き彫りにしている。 最終的に、この研究は、人工AIとSim2Real転送に関する将来の研究のためのベンチマークと洞察を提供し、人間の人口の多い環境でより現実的で適用可能なVLNシステムを実現する。

Vision-and-Language Navigation (VLN) aims to develop embodied agents that navigate based on human instructions. However, current VLN frameworks often rely on static environments and optimal expert supervision, limiting their real-world applicability. To address this, we introduce Human-Aware Vision-and-Language Navigation (HA-VLN), extending traditional VLN by incorporating dynamic human activities and relaxing key assumptions. We propose the Human-Aware 3D (HA3D) simulator, which combines dynamic human activities with the Matterport3D dataset, and the Human-Aware Room-to-Room (HA-R2R) dataset, extending R2R with human activity descriptions. To tackle HA-VLN challenges, we present the Expert-Supervised Cross-Modal (VLN-CM) and Non-Expert-Supervised Decision Transformer (VLN-DT) agents, utilizing cross-modal fusion and diverse training strategies for effective navigation in dynamic human environments. A comprehensive evaluation, including metrics considering human activities, and systematic analysis of HA-VLN's unique challenges, underscores the need for further research to enhance HA-VLN agents' real-world robustness and adaptability. Ultimately, this work provides benchmarks and insights for future research on embodied AI and Sim2Real transfer, paving the way for more realistic and applicable VLN systems in human-populated environments.
翻訳日:2024-07-08 22:24:52 公開日:2024-07-04
# 完全テスト時間適応のためのビジュアルコンディショニングの学習

Learning Visual Conditioning Tokens to Correct Domain Shift for Fully Test-time Adaptation ( http://arxiv.org/abs/2406.19341v2 )

ライセンス: Link先を確認
Yushun Tang, Shuoshuo Chen, Zhehan Kan, Yi Zhang, Qinghai Guo, Zhihai He, (参考訳) 完全なテスト時間適応は、深層ニューラルネットワークのクロスドメイン性能劣化問題に対処するために、推論段階での入力サンプルのシーケンシャル分析に基づいてネットワークモデルを適用することを目的としている。 変換器に基づく画像分類では、第1変圧器エンコーダ層のクラストークンを学習して、テスト時間適応時のターゲットサンプルのドメイン固有の特性をキャプチャすることができる。 この学習トークンは、入力画像パッチ埋め込みと組み合わせることで、トランスフォーマー符号化プロセス中に入力サンプルの特徴表現から徐々にドメイン固有の情報を除去し、異なるドメインにわたるソースモデルのテスト時間適応性能を大幅に向上させることができる。 このクラストークンをビジュアルコンディショニングトークン(VCT)と呼ぶ。 VCTの学習に成功するために,2段階の学習手法を提案する。 ベンチマークデータセットを用いた実験結果から,提案手法はテスト時間適応性能を最大1.9%向上させることができることがわかった。

Fully test-time adaptation aims to adapt the network model based on sequential analysis of input samples during the inference stage to address the cross-domain performance degradation problem of deep neural networks. This work is based on the following interesting finding: in transformer-based image classification, the class token at the first transformer encoder layer can be learned to capture the domain-specific characteristics of target samples during test-time adaptation. This learned token, when combined with input image patch embeddings, is able to gradually remove the domain-specific information from the feature representations of input samples during the transformer encoding process, thereby significantly improving the test-time adaptation performance of the source model across different domains. We refer to this class token as visual conditioning token (VCT). To successfully learn the VCT, we propose a bi-level learning approach to capture the long-term variations of domain-specific characteristics while accommodating local variations of instance-specific characteristics. Experimental results on the benchmark datasets demonstrate that our proposed bi-level visual conditioning token learning method is able to achieve significantly improved test-time adaptation performance by up to 1.9%.
翻訳日:2024-07-08 22:24:52 公開日:2024-07-04
# 大規模言語モデルによる映像コンテンツ分析支援 : 抑うつ映像の探索的研究

Using Large Language Models to Assist Video Content Analysis: An Exploratory Study of Short Videos on Depression ( http://arxiv.org/abs/2406.19528v2 )

ライセンス: Link先を確認
Jiaying Liu, Yunlong Wang, Yao Lyu, Yiheng Su, Shuo Niu, Xuhai Orson Xu, Yan Zhang, (参考訳) コンテンツ分析にLLM(Large Language Models)を活用することへの関心が高まっているが、近年の研究は主にテキストベースのコンテンツに焦点を当てている。 本研究は,LLMを用いたマルチモーダルコンテンツ分析の新たなワークフローに続く事例研究を行い,映像コンテンツ分析を支援するLLMの可能性を探るものである。 このワークフローには、コードブックの設計、プロンプトエンジニアリング、LLM処理、人的評価が含まれる。 我々は,LLMアノテーションを構造化した形で作成し,LLM推論と透明性をよりよく理解するために,LLM記述を生成するための説明プロンプトを戦略的に構築した。 LLMのビデオアノテーション機能をテストするために,25本のYouTubeショートビデオから抽出した203個のキーフレームを分析した。 LLMアノテーションを2人の人間コーダのアノテーションと比較したところ、LLMアノテーションは感情やジャンルのアノテーションよりもオブジェクトやアクティビティのアノテーションの方が精度が高いことがわかった。 さらに,ビデオアノテートにおけるLDMの機能の可能性と限界を明らかにした。 この結果に基づき、今後の研究の機会と課題、ワークフローの改善について検討する。 また,LLM支援映像解析に基づく今後の研究に関する倫理的懸念についても論じる。

Despite the growing interest in leveraging Large Language Models (LLMs) for content analysis, current studies have primarily focused on text-based content. In the present work, we explored the potential of LLMs in assisting video content analysis by conducting a case study that followed a new workflow of LLM-assisted multimodal content analysis. The workflow encompasses codebook design, prompt engineering, LLM processing, and human evaluation. We strategically crafted annotation prompts to get LLM Annotations in structured form and explanation prompts to generate LLM Explanations for a better understanding of LLM reasoning and transparency. To test LLM's video annotation capabilities, we analyzed 203 keyframes extracted from 25 YouTube short videos about depression. We compared the LLM Annotations with those of two human coders and found that LLM has higher accuracy in object and activity Annotations than emotion and genre Annotations. Moreover, we identified the potential and limitations of LLM's capabilities in annotating videos. Based on the findings, we explore opportunities and challenges for future research and improvements to the workflow. We also discuss ethical concerns surrounding future studies based on LLM-assisted video analysis.
翻訳日:2024-07-08 22:24:52 公開日:2024-07-04
# 細菌バイオフィルムの高密度3次元顕微鏡映像における細胞追跡のための深部時間配列分類と数学的モデリング

Deep Temporal Sequence Classification and Mathematical Modeling for Cell Tracking in Dense 3D Microscopy Videos of Bacterial Biofilms ( http://arxiv.org/abs/2406.19574v2 )

ライセンス: Link先を確認
Tanjin Taher Toma, Yibo Wang, Andreas Gahlmann, Scott T. Acton, (参考訳) 密集した環境での自動細胞追跡は、不正確な対応と親子関係の誤同定に悩まされている。 本稿では,DenseTrackという新しいセル追跡アルゴリズムを提案する。これはディープラーニングと数学的モデルに基づく戦略を統合し,連続するフレーム間の対応を効果的に確立し,混雑したシナリオにおけるセル分割イベントを検出する。 深層学習に基づく時間系列分類タスクとしてセルトラッキング問題を定式化し、次いで分類器の信頼性スコアを利用した制約付き1対1のマッチング最適化問題を解く。 さらに, 細胞形状の知識を活かした固有分解に基づく細胞分裂検出戦略を提案する。 提案手法の性能評価は,細菌バイオフィルム開発における3次元タイムラプス画像シーケンスで高密度に充填された細胞を追跡することによって行われている。 シミュレーションおよび実験的な蛍光画像系列に関する実験結果から,提案手法は最近の最先端の細胞追跡手法と比較して,定性的,定量的評価の両面で優れた性能を発揮することが示唆された。

Automatic cell tracking in dense environments is plagued by inaccurate correspondences and misidentification of parent-offspring relationships. In this paper, we introduce a novel cell tracking algorithm named DenseTrack, which integrates deep learning with mathematical model-based strategies to effectively establish correspondences between consecutive frames and detect cell division events in crowded scenarios. We formulate the cell tracking problem as a deep learning-based temporal sequence classification task followed by solving a constrained one-to-one matching optimization problem exploiting the classifier's confidence scores. Additionally, we present an eigendecomposition-based cell division detection strategy that leverages knowledge of cellular geometry. The performance of the proposed approach has been evaluated by tracking densely packed cells in 3D time-lapse image sequences of bacterial biofilm development. The experimental results on simulated as well as experimental fluorescence image sequences suggest that the proposed tracking method achieves superior performance in terms of both qualitative and quantitative evaluation measures compared to recent state-of-the-art cell tracking approaches.
翻訳日:2024-07-08 22:24:52 公開日:2024-07-04
# MetaDesigner: AI駆動、ユーザ中心、多言語WordArt合成によるアーティスティックタイポグラフィの向上

MetaDesigner: Advancing Artistic Typography through AI-Driven, User-Centric, and Multilingual WordArt Synthesis ( http://arxiv.org/abs/2406.19859v2 )

ライセンス: Link先を確認
Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Jingdong Sun, Qi He, Wangmeng Xiang, Hanyuan Chen, Jin-Peng Lan, Xianhui Lin, Kang Zhu, Bin Luo, Yifeng Geng, Xuansong Xie, Alexander G. Hauptmann, (参考訳) MetaDesignerは、Large Language Models(LLM)の強みを活用して、ユーザエンゲージメントを中心としたデザインパラダイムを駆動することによって、芸術的なタイポグラフィ合成に革命をもたらす。 このフレームワークのコアにはPipeline、Glyph、Textureエージェントで構成されるマルチエージェントシステムがあり、セマンティックな拡張から複雑なテクスチャの付与に至るまで、カスタマイズされたWordArtの作成を可能にする。 MetaDesignerには、マルチモーダルモデルからの洞察とユーザ評価を活用して、設計プロセスを反復的に洗練・拡張する、包括的なフィードバックメカニズムが組み込まれている。 このフィードバックループを通じて、システムはハイパーパラメータを順応的に調整し、ユーザ定義のスタイルとテーマの好みに合わせる。 実証的な検証は、MetaDesignerが様々なWordArtアプリケーションに効果的に機能し、審美的に魅力的でコンテキストに敏感な結果を生み出す能力を強調している。

MetaDesigner revolutionizes artistic typography synthesis by leveraging the strengths of Large Language Models (LLMs) to drive a design paradigm centered around user engagement. At the core of this framework lies a multi-agent system comprising the Pipeline, Glyph, and Texture agents, which collectively enable the creation of customized WordArt, ranging from semantic enhancements to the imposition of complex textures. MetaDesigner incorporates a comprehensive feedback mechanism that harnesses insights from multimodal models and user evaluations to refine and enhance the design process iteratively. Through this feedback loop, the system adeptly tunes hyperparameters to align with user-defined stylistic and thematic preferences, generating WordArt that not only meets but exceeds user expectations of visual appeal and contextual relevance. Empirical validations highlight MetaDesigner's capability to effectively serve diverse WordArt applications, consistently producing aesthetically appealing and context-sensitive results.
翻訳日:2024-07-08 22:15:07 公開日:2024-07-04
# 2023年世界人工知能技術革新コンペティショントラック1号の第一位ソリューション

First Place Solution of 2023 Global Artificial Intelligence Technology Innovation Competition Track 1 ( http://arxiv.org/abs/2407.01271v2 )

ライセンス: Link先を確認
Xiangyu Wu, Hailiang Zhang, Yang Yang, Jianfeng Lu, (参考訳) 本稿では,グローバル人工知能技術革新コンペティショントラック1:メディカルイメージング診断レポート生成のためのチャンピオンソリューションを提案する。 我々はテキスト生成タスクのベースモデルとしてCPT-BASEを選択する。 事前学習の段階では、CPT-BASEのマスク言語モデリングタスクを削除し、代わりに語彙を再構築し、スパンマスク戦略を採用し、徐々にマスキング比率を増やして、自動エンコーダ事前訓練タスクを実行する。 微調整の段階では、反復的な検索拡張とノイズ認識類似性バケットのプロンプトを設計する。 検索増強は、ミニ知識ベースを構成し、モデルの入力情報を強化し、類似性バケットは、ミニ知識ベース内のノイズ情報を更に知覚し、類似性プロンプトに基づいて高品質な診断レポートを生成する。 驚いたことに、我々のシングルモデルはリーダーボードAで2.321点を獲得し、複数のモデル融合スコアはそれぞれAとBのリーダーボードで2.362点と2.320点を獲得し、ランキングで1位を確保した。

In this paper, we present our champion solution to the Global Artificial Intelligence Technology Innovation Competition Track 1: Medical Imaging Diagnosis Report Generation. We select CPT-BASE as our base model for the text generation task. During the pre-training stage, we delete the mask language modeling task of CPT-BASE and instead reconstruct the vocabulary, adopting a span mask strategy and gradually increasing the number of masking ratios to perform the denoising auto-encoder pre-training task. In the fine-tuning stage, we design iterative retrieval augmentation and noise-aware similarity bucket prompt strategies. The retrieval augmentation constructs a mini-knowledge base, enriching the input information of the model, while the similarity bucket further perceives the noise information within the mini-knowledge base, guiding the model to generate higher-quality diagnostic reports based on the similarity prompts. Surprisingly, our single model has achieved a score of 2.321 on leaderboard A, and the multiple model fusion scores are 2.362 and 2.320 on the A and B leaderboards respectively, securing first place in the rankings.
翻訳日:2024-07-08 22:15:07 公開日:2024-07-04
# 拡散強制: フルシーケンス拡散を伴う次世代予測

Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion ( http://arxiv.org/abs/2407.01392v3 )

ライセンス: Link先を確認
Boyuan Chen, Diego Marti Monso, Yilun Du, Max Simchowitz, Russ Tedrake, Vincent Sitzmann, (参考訳) 本稿では,拡散モデルを用いて一組のトークンに独立したノイズレベルを付与する新たな訓練パラダイムである拡散強制(Diffusion Forcing)を提案する。 因果的次トーケン予測モデルを訓練して、過去のトークンを完全に拡散させることなく、1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。 提案手法は,変数長生成などの次トーケン予測モデルの長所と,サンプリングを望ましい軌道に誘導する機能などのフルシーケンス拡散モデルの長所を組み合わせる。 提案手法は,(1)ビデオなどの連続トークンのロールアウトシーケンス,(2)ベースラインのばらつき,(2)Diffusion Forcingの可変水平および因果アーキテクチャから一意に利益を得る新しいサンプリングとガイドスキーム,などの追加機能を提供し,意思決定や計画作業において顕著なパフォーマンス向上をもたらす。 実験的な成功に加えて,本手法は,真の関節分布から引き出された全てのトークン列の確率に基づいて,変動的な下界を最適化することが証明された。 プロジェクトウェブサイト: https://boyuan.space/diffusion-forcing

This paper presents Diffusion Forcing, a new training paradigm where a diffusion model is trained to denoise a set of tokens with independent per-token noise levels. We apply Diffusion Forcing to sequence generative modeling by training a causal next-token prediction model to generate one or several future tokens without fully diffusing past ones. Our approach is shown to combine the strengths of next-token prediction models, such as variable-length generation, with the strengths of full-sequence diffusion models, such as the ability to guide sampling to desirable trajectories. Our method offers a range of additional capabilities, such as (1) rolling-out sequences of continuous tokens, such as video, with lengths past the training horizon, where baselines diverge and (2) new sampling and guiding schemes that uniquely profit from Diffusion Forcing's variable-horizon and causal architecture, and which lead to marked performance gains in decision-making and planning tasks. In addition to its empirical success, our method is proven to optimize a variational lower bound on the likelihoods of all subsequences of tokens drawn from the true joint distribution. Project website: https://boyuan.space/diffusion-forcing
翻訳日:2024-07-08 22:15:07 公開日:2024-07-04
# LOGIC-LM++:シンボリックな定式化のためのマルチステップリファインメント

LOGIC-LM++: Multi-Step Refinement for Symbolic Formulations ( http://arxiv.org/abs/2407.02514v2 )

ライセンス: Link先を確認
Shashank Kirtania, Priyanshu Gupta, Arjun Radhakirshna, (参考訳) 本稿では,複雑な推論タスクに対するLarge Language Models(LLM)の限界について検討する。 最近の研究は、推論タスクの中間表現として形式言語を使い始めたが、それらの形式仕様を正確に生成し、修正して正確性を保証するという課題に直面していることが多い。 そこで本研究では,Logic-LM++の改良であるLogic-LM++を提案する。 LLMの機能をペアで比較し、LLMが提案する改善点の評価を可能にする。 この論文は、Logic-LM++が3つのデータセット(FOLIO、ProofWriter、AR-LSAT)で自然言語推論タスクにまたがってLogic-LMや他の現代の技術よりも優れており、標準のプロンプトでは平均18.5%、思考の連鎖では12.3%、Logic-LMでは5%であることを示した。

In this paper we examine the limitations of Large Language Models (LLMs) for complex reasoning tasks. Although recent works have started to employ formal languages as an intermediate representation for reasoning tasks, they often face challenges in accurately generating and refining these formal specifications to ensure correctness. To address these issues, this paper proposes Logic-LM++, an improvement on Logic-LM . It uses the ability of LLMs to do pairwise comparisons, allowing the evaluation of the refinements suggested by the LLM. The paper demonstrates that Logic-LM++ outperforms Logic-LM and other contemporary techniques across natural language reasoning tasks on three datasets, FOLIO, ProofWriter and AR-LSAT, with an average improvement of 18.5% on standard prompting, 12.3% on chain of thought prompting and 5% on Logic-LM.
翻訳日:2024-07-08 22:15:07 公開日:2024-07-04
# スパイクニューラルネットワークにおける軽量連続学習のための圧縮潜時リプレイ

Compressed Latent Replays for Lightweight Continual Learning on Spiking Neural Networks ( http://arxiv.org/abs/2407.03111v2 )

ライセンス: Link先を確認
Alberto Dequino, Alessio Carpegna, Davide Nadalini, Alessandro Savino, Luca Benini, Stefano Di Carlo, Francesco Conti, (参考訳) リハーサルベース連続学習(CL)は,Deep Neural Networks (DNN) において盛んに研究されている。 しかし、スパイキングニューラルネットワーク(SNN)におけるその応用は、まだ深く研究されていない。 本稿では、リソース制約のあるデバイスとシームレスに統合するように設計されたSNNのためのLatent Replay(LR)ベースのCLの最初のメモリ効率実装について紹介する。 LRは、新しいサンプルと以前に学習したデータの潜在表現を組み合わせることで、忘れを緩和する。 サンプルタスクとクラスインクリメンタルタスクによるハイデルベルクSHDデータセットの実験は、それぞれ92.5%と92%のTop-1精度に達した。 さらに、LRの要求を、時間領域圧縮を適用して最小化し、2桁のメモリ要求を減らし、簡単なリハーサル設定をし、最大精度を4%低下させることにより、LRの要求を最小化する。 マルチクラスインクリメンタルタスクでは、SNNは10の初期セットから10の新しいクラスを学習し、Top-1の精度は78.4%に達した。

Rehearsal-based Continual Learning (CL) has been intensely investigated in Deep Neural Networks (DNNs). However, its application in Spiking Neural Networks (SNNs) has not been explored in depth. In this paper we introduce the first memory-efficient implementation of Latent Replay (LR)-based CL for SNNs, designed to seamlessly integrate with resource-constrained devices. LRs combine new samples with latent representations of previously learned data, to mitigate forgetting. Experiments on the Heidelberg SHD dataset with Sample and Class-Incremental tasks reach a Top-1 accuracy of 92.5% and 92%, respectively, without forgetting the previously learned information. Furthermore, we minimize the LRs' requirements by applying a time-domain compression, reducing by two orders of magnitude their memory requirement, with respect to a naive rehearsal setup, with a maximum accuracy drop of 4%. On a Multi-Class-Incremental task, our SNN learns 10 new classes from an initial set of 10, reaching a Top-1 accuracy of 78.4% on the full test set.
翻訳日:2024-07-08 22:15:07 公開日:2024-07-04
# 姿勢:人体部分分割のための教師なしドメイン適応法

POSTURE: Pose Guided Unsupervised Domain Adaptation for Human Body Part Segmentation ( http://arxiv.org/abs/2407.03549v1 )

ライセンス: Link先を確認
Arindam Dutta, Rohit Lal, Yash Garg, Calvin-Khang Ta, Dripta S. Raychaudhuri, Hannah Dela Cruz, Amit K. Roy-Chowdhury, (参考訳) 人体部分分割のための既存のアルゴリズムは、主にエンドツーエンドの監視に依存する、挑戦的なデータセットに対して有望な結果を示している。 しかし、これらのアルゴリズムはドメインシフトに直面して厳しい性能低下を示し、不正確なセグメンテーションマスクをもたらす。 この問題を解決するために、POSTURE: \underline{Po}se Guided Un\underline{s}upervised Domain Adap\underline{t}ation for H\underline{u}man Body Pa\underline{r}t S\underline{e}gmentation - ラベルのないターゲットデータのセグメンテーション性能を改善するために設計された革新的な擬似ラベリングアプローチを紹介する。 一般的な意味的セグメンテーションのための従来のドメイン適応手法とは違い、POSTUREは人体の基盤構造を考慮し、ポーズキーポイントからの解剖学的ガイダンスを用いて適応プロセスを推進している。 従来の最先端のドメイン適応セマンティックセマンティックセグメンテーションメソッドを平均8倍の精度で3つのベンチマークデータセットで比較した。 さらに,提案手法のフレキシビリティにより,ソースフリー設定(SF-POSTURE)へのシームレスな拡張が容易になり,潜在的なプライバシや計算上の懸念を軽減し,性能の低下を回避できる。

Existing algorithms for human body part segmentation have shown promising results on challenging datasets, primarily relying on end-to-end supervision. However, these algorithms exhibit severe performance drops in the face of domain shifts, leading to inaccurate segmentation masks. To tackle this issue, we introduce POSTURE: \underline{Po}se Guided Un\underline{s}upervised Domain Adap\underline{t}ation for H\underline{u}man Body Pa\underline{r}t S\underline{e}gmentation - an innovative pseudo-labelling approach designed to improve segmentation performance on the unlabeled target data. Distinct from conventional domain adaptive methods for general semantic segmentation, POSTURE stands out by considering the underlying structure of the human body and uses anatomical guidance from pose keypoints to drive the adaptation process. This strong inductive prior translates to impressive performance improvements, averaging 8\% over existing state-of-the-art domain adaptive semantic segmentation methods across three benchmark datasets. Furthermore, the inherent flexibility of our proposed approach facilitates seamless extension to source-free settings (SF-POSTURE), effectively mitigating potential privacy and computational concerns, with negligible drop in performance.
翻訳日:2024-07-08 19:41:16 公開日:2024-07-04
# CoMix: マルチタスク・コミック理解のための総合ベンチマーク

CoMix: A Comprehensive Benchmark for Multi-Task Comic Understanding ( http://arxiv.org/abs/2407.03550v1 )

ライセンス: Link先を確認
Emanuele Vivoli, Marco Bertini, Dimosthenis Karatzas, (参考訳) 漫画領域は、単ページ分析と合成モデルの開発により急速に進歩している。 しかし、評価指標とデータセットは遅れており、しばしば小規模または単一スタイルのテストセットに限られる。 我々は,コミック分析におけるモデルのマルチタスク能力を評価するために,新しいベンチマークであるCoMixを導入する。 オブジェクト検出やテキスト認識などの独立したタスクにフォーカスする既存のベンチマークとは異なり、CoMixはオブジェクト検出、話者識別、文字の再識別、読み出し順序、文字の命名や対話生成といったマルチモーダルな推論タスクを含む幅広いタスクに対処する。 我々のベンチマークは、マルチタスク評価をサポートするアノテーションを拡張した3つの既存のデータセットで構成されている。 マンガスタイルのデータの過剰表現を緩和するため、慎重に選択されたアメリカの漫画スタイルの書籍のデータセットを新たに導入し、漫画スタイルの多様性を高めた。 CoMixは、訓練済みのモデルをゼロショットと限定的な微調整設定で評価し、異なるコミックスタイルやタスク間で転送能力を示すように設計されている。 ベンチマークの検証スプリットを研究目的で公開し、ホールドアウトテストスプリットの評価サーバも提供する。 人間のパフォーマンスと最先端のモデルを比較すると、大きなパフォーマンスのギャップが示され、漫画理解の進歩のかなりの機会が浮かび上がっている。 データセット、ベースラインモデル、コードはリポジトリリンクからアクセス可能である。 このイニシアチブは、包括的コミック分析の新しい標準を設定し、大規模で多様なセットの評価のための共通ベンチマークを提供する。

The comic domain is rapidly advancing with the development of single-page analysis and synthesis models. However, evaluation metrics and datasets lag behind, often limited to small-scale or single-style test sets. We introduce a novel benchmark, CoMix, designed to evaluate the multi-task capabilities of models in comic analysis. Unlike existing benchmarks that focus on isolated tasks such as object detection or text recognition, CoMix addresses a broader range of tasks including object detection, speaker identification, character re-identification, reading order, and multi-modal reasoning tasks like character naming and dialogue generation. Our benchmark comprises three existing datasets with expanded annotations to support multi-task evaluation. To mitigate the over-representation of manga-style data, we have incorporated a new dataset of carefully selected American comic-style books, thereby enriching the diversity of comic styles. CoMix is designed to assess pre-trained models in zero-shot and limited fine-tuning settings, probing their transfer capabilities across different comic styles and tasks. The validation split of the benchmark is publicly available for research purposes, and an evaluation server for the held-out test split is also provided. Comparative results between human performance and state-of-the-art models reveal a significant performance gap, highlighting substantial opportunities for advancements in comic understanding. The dataset, baseline models, and code are accessible at the repository link. This initiative sets a new standard for comprehensive comic analysis, providing the community with a common benchmark for evaluation on a large and varied set.
翻訳日:2024-07-08 19:41:16 公開日:2024-07-04
# 身体に関する感情:食生活と健康フォーラムに対する感情 : 性的なステレオタイプと身体イメージに関する考察

Feelings about Bodies: Emotions on Diet and Fitness Forums Reveal Gendered Stereotypes and Body Image Concerns ( http://arxiv.org/abs/2407.03551v1 )

ライセンス: Link先を確認
Cinthia Sánchez, Minh Duc Chu, Zihao He, Rebecca Dorn, Stuart Murray, Kristina Lerman, (参考訳) 理想の身体型に対する性的な期待は、身体像の懸念、不満、極端な場合、性差をまたいだ障害食やその他の精神病理につながる可能性がある。 研究は「薄い理想」を称賛する親食主義のオンラインコミュニティに焦点が当てられているが、より広範囲にわたる身体像の懸念や、オンライン議論における筋ジスフィア("bigorexia")のような新興の障害にはあまり関心が向けられていない。 これらのギャップに対処するため、ダイエット、フィットネス、関連するメンタルヘルス問題に関連する46のRedditディスカッションフォーラムを分析した。 メンバーシップ構造解析とトランスフォーマーに基づく言語モデルを用いて、これらのコミュニティをジェンダーとボディーイデアルの軸に沿って投影し、ジェンダーとボディーイデアル、感情表現の複雑な相互作用を明らかにする。 以上の結果から,女性指向のコミュニティは,特に薄めプロモーティングフォーラムにおいて,より否定的な感情を表わすのが一般的である。 逆に、筋の理想に焦点をあてるコミュニティは、性指向に関係なく、否定性が低い。 また、心的健康問題に関する感情指標の性別パターンを明らかにするとともに、女性中心のコミュニティとより緊密に連携する深刻な問題について議論した。 オンラインコミュニティのジェンダー的感情のダイナミクスを明らかにすることで、潜在的に有害なコンテンツへの露出を最小限に抑えつつ、支援的相互作用を促進するより効果的なコンテンツモデレーションアプローチの開発を示唆することができる。

The gendered expectations about ideal body types can lead to body image concerns, dissatisfaction, and in extreme cases, disordered eating and other psychopathologies across the gender spectrum. While research has focused on pro-anorexia online communities that glorify the 'thin ideal', less attention has been given to the broader spectrum of body image concerns or how emerging disorders like muscle dysmorphia ('bigorexia') present in online discussions. To address these gaps, we analyze 46 Reddit discussion forums related to diet, fitness, and associated mental health challenges. Using membership structure analysis and transformer-based language models, we project these communities along gender and body ideal axes, revealing complex interactions between gender, body ideals, and emotional expression. Our findings show that feminine-oriented communities generally express more negative emotions, particularly in thinness-promoting forums. Conversely, communities focused on the muscular ideal exhibit less negativity, regardless of gender orientation. We also uncover a gendered pattern in emotional indicators of mental health challenges, with communities discussing serious issues aligning more closely with thinness-oriented, predominantly feminine-leaning communities. By revealing the gendered emotional dynamics of online communities, our findings can inform the development of more effective content moderation approaches that facilitate supportive interactions, while minimizing exposure to potentially harmful content.
翻訳日:2024-07-08 19:41:16 公開日:2024-07-04
# 乳房超音波画像の分類のための視覚マンバ

Vision Mamba for Classification of Breast Ultrasound Images ( http://arxiv.org/abs/2407.03552v1 )

ライセンス: Link先を確認
Ali Nasiri-Sarvi, Mahdi S. Hosseini, Hassan Rivaz, (参考訳) MambaベースのモデルであるVMambaとVimは、最近のビジョンエンコーダのファミリーであり、多くのコンピュータビジョンタスクで有望なパフォーマンス改善を提供する。 本稿では,マンバをベースとしたモデルと従来の畳み込みニューラルネットワーク(CNN)と乳房超音波BUSIとBデータセットを用いた視覚変換器(ViT)を比較した。 複数の実験と統計的意義分析を含む評価結果から,マンバをベースとしたアーキテクチャは,統計学的に有意な結果のCNNやViTモデルよりも優れていることが示された。 これらのMambaベースのモデルは、帰納バイアスを維持しながら、長距離依存を効果的にキャプチャし、限られたデータを持つアプリケーションに適している。

Mamba-based models, VMamba and Vim, are a recent family of vision encoders that offer promising performance improvements in many computer vision tasks. This paper compares Mamba-based models with traditional Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) using the breast ultrasound BUSI and B datasets. Our evaluation, which includes multiple runs of experiments and statistical significance analysis, demonstrates that Mamba-based architectures frequently outperform CNN and ViT models with statistically significant results. These Mamba-based models effectively capture long-range dependencies while maintaining inductive biases, making them suitable for applications with limited data.
翻訳日:2024-07-08 19:41:16 公開日:2024-07-04
# ワーストケース分布シフトの意思決定による評価

Decision-Focused Evaluation of Worst-Case Distribution Shift ( http://arxiv.org/abs/2407.03557v1 )

ライセンス: Link先を確認
Kevin Ren, Yewon Byun, Bryan Wilder, (参考訳) 分散シフトは、実際には予測モデルにとって重要な課題であり、デプロイメントに先立って潜在的に有害なシフトを特定する必要がある。 既存の作業は通常、これらの最悪のケースシフトを、モデルの個々のレベルの精度を最も低下させるものとして定義する。 しかし、少ないリソースの割り当てのような下流の人口レベルの決定にモデルが使用される場合、個々のレベルの精度は、そのタスクにおけるパフォーマンスの指標として不十分である可能性がある。 本稿では、階層的なモデル構造を用いて、決定問題のインスタンス内およびインスタンス間のシフトをキャプチャすることで、予測資源割り当て設定における最悪のケース分散シフトを識別する新しいフレームワークを提案する。 このタスクは、割り当てタスクにおける個人の共同存在に依存した、組合せ相互作用による標準的な分散シフト設定よりも難しい。 本稿では,この問題を部分モジュラー最適化問題として再定義し,最悪の場合の損失を効率的に近似できることを示す。 実データに私たちのフレームワークを適用すると、あるメトリクスによって識別される最悪のケースシフトが、他のメトリクスによって識別される最悪のケース分布と著しく異なるという経験的な証拠が得られます。

Distribution shift is a key challenge for predictive models in practice, creating the need to identify potentially harmful shifts in advance of deployment. Existing work typically defines these worst-case shifts as ones that most degrade the individual-level accuracy of the model. However, when models are used to make a downstream population-level decision like the allocation of a scarce resource, individual-level accuracy may be a poor proxy for performance on the task at hand. We introduce a novel framework that employs a hierarchical model structure to identify worst-case distribution shifts in predictive resource allocation settings by capturing shifts both within and across instances of the decision problem. This task is more difficult than in standard distribution shift settings due to combinatorial interactions, where decisions depend on the joint presence of individuals in the allocation task. We show that the problem can be reformulated as a submodular optimization problem, enabling efficient approximations of worst-case loss. Applying our framework to real data, we find empirical evidence that worst-case shifts identified by one metric often significantly diverge from worst-case distributions identified by other metrics.
翻訳日:2024-07-08 19:41:16 公開日:2024-07-04
# ロバスト音声認識のためのクロスモーダルアテンションを用いたビデオ時間ダイナミクスの学習

Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition ( http://arxiv.org/abs/2407.03563v1 )

ライセンス: Link先を確認
Sungnyun Kim, Kangwook Jang, Sangmin Bae, Hoirin Kim, Se-Young Yun, (参考訳) 音声-視覚音声認識(AVSR)は、音声とビデオの両方のモダリティを用いて人間の音声を転写することを目的としている。 音声がノイズを発生させる現実的な環境では,映像情報の役割が重要となる。 しかし、以前の研究は主にAVSRにおける音声機能の向上に焦点を当てており、ビデオ機能の重要性を見越している。 本研究では,映像データ中の3つの時間的ダイナミクス(文脈順,再生方向,映像フレームの速度)を学習することにより,映像の特徴を強化する。 ビデオの時間的ダイナミクスのトレーニングにおいて、音声の可変性を考慮に入れられるように、音声情報で映像特徴を豊かにするクロスモーダルアテンションモジュールが導入された。 提案手法により,ノイズ優先設定のためのRS2およびRS3 AVSRベンチマークの最先端性能を実現する。 提案手法は特にバブルと音声雑音のシナリオにおいて優れており,ビデオモダリティにおける唇の動きと認識すべき音声信号の識別能力を示している。 本稿では,時間的ダイナミクス損失に対するアブレーション実験と,モーダル・アテンション・アーキテクチャの設計を提供することで,方法論の有効性を実証する。

Audio-visual speech recognition (AVSR) aims to transcribe human speech using both audio and video modalities. In practical environments with noise-corrupted audio, the role of video information becomes crucial. However, prior works have primarily focused on enhancing audio features in AVSR, overlooking the importance of video features. In this study, we strengthen the video features by learning three temporal dynamics in video data: context order, playback direction, and the speed of video frames. Cross-modal attention modules are introduced to enrich video features with audio information so that speech variability can be taken into account when training on the video temporal dynamics. Based on our approach, we achieve the state-of-the-art performance on the LRS2 and LRS3 AVSR benchmarks for the noise-dominant settings. Our approach excels in scenarios especially for babble and speech noise, indicating the ability to distinguish the speech signal that should be recognized from lip movements in the video modality. We support the validity of our methodology by offering the ablation experiments for the temporal dynamics losses and the cross-modal attention architecture design.
翻訳日:2024-07-08 19:41:16 公開日:2024-07-04
# 最適反復複素数をもつ凸凹最小値問題に対する完全パラメータフリー2次アルゴリズム

A Fully Parameter-Free Second-Order Algorithm for Convex-Concave Minimax Problems with Optimal Iteration Complexity ( http://arxiv.org/abs/2407.03571v1 )

ライセンス: Link先を確認
Junlin Wang, Junnan Yang, Zi Xu, (参考訳) 本稿では,近年,機械学習など多くの分野において注目されている凸凹ミニマックス問題の2次アルゴリズムについて検討する。 リプシッツ定数を知らずに凸凹極小最適化問題を解くために,Lipschitz-free Cubal regularization (LF-CR)アルゴリズムを提案する。 制限された原始-双対ギャップに対する$\epsilon$-最適解を得るLF-CRアルゴリズムの反復複雑性は、$\mathcal{O}(\frac {\rho\|z^0-z^*\|^3}{\epsilon})^{\frac{2}{3}}$, ここで$z^0=(x^0,y^0)$は初期点の対であり、$z^*=(x^*,y^*)$は最適解の対であり、$\rho$はリプシッツ定数である。 さらに、リプシッツ定数や初期点から最適解までの距離の上界を含む問題のパラメータを必要としない完全パラメータフリーな立方正則化(FF-CR)アルゴリズムを提案する。 また、勾配ノルムに対する$\epsilon$-optimal Solutionを得るためのFF-CRアルゴリズムの反復複雑性は、$\mathcal{O}(\frac{\rho\|z^0-z^*\|^2}{\epsilon})^{\frac{2}{3}}$で上界であることが証明される。 数値実験は、両方のアルゴリズムの効率を示す。 我々の知る限り、FF-CRアルゴリズムは、凸凹極小最適化問題を解くための最初の完全にパラメータフリーな2次アルゴリズムであり、その反復複雑性は、凸凹極小最適化問題を解くためのパラメータを持つ既存の2次アルゴリズムの下限の最適反復複雑性と一致している。

In this paper, we study second-order algorithms for the convex-concave minimax problem, which has attracted much attention in many fields such as machine learning in recent years. We propose a Lipschitz-free cubic regularization (LF-CR) algorithm for solving the convex-concave minimax optimization problem without knowing the Lipschitz constant. It can be shown that the iteration complexity of the LF-CR algorithm to obtain an $\epsilon$-optimal solution with respect to the restricted primal-dual gap is upper bounded by $\mathcal{O}(\frac{\rho\|z^0-z^*\|^3}{\epsilon})^{\frac{2}{3}}$, where $z^0=(x^0,y^0)$ is a pair of initial points, $z^*=(x^*,y^*)$ is a pair of optimal solutions, and $\rho$ is the Lipschitz constant. We further propose a fully parameter-free cubic regularization (FF-CR) algorithm that does not require any parameters of the problem, including the Lipschitz constant and the upper bound of the distance from the initial point to the optimal solution. We also prove that the iteration complexity of the FF-CR algorithm to obtain an $\epsilon$-optimal solution with respect to the gradient norm is upper bounded by $\mathcal{O}(\frac{\rho\|z^0-z^*\|^2}{\epsilon})^{\frac{2}{3}}$. Numerical experiments show the efficiency of both algorithms. To the best of our knowledge, the proposed FF-CR algorithm is the first completely parameter-free second-order algorithm for solving convex-concave minimax optimization problems, and its iteration complexity is consistent with the optimal iteration complexity lower bound of existing second-order algorithms with parameters for solving convex-concave minimax problems.
翻訳日:2024-07-08 19:31:32 公開日:2024-07-04
# Informative Sub-Claim Identification を用いたロバストFactual Precision Scoring

Core: Robust Factual Precision Scoring with Informative Sub-Claim Identification ( http://arxiv.org/abs/2407.03572v1 )

ライセンス: Link先を確認
Zhengping Jiang, Jingyu Zhang, Nathaniel Weir, Seth Ebner, Miriam Wanner, Kate Sanders, Daniel Khashabi, Anqi Liu, Benjamin Van Durme, (参考訳) 幻覚 -- 偽のクレームの生成 -- は、大規模言語モデル(LLM)の適用に挑戦する。 FActScore [2] のような Decompose-Then-Verify フレームワークを用いた一般的なメトリクスは,明らかあるいは反復的なクレームを人工的なインフレーションに付加することにより操作できる。 FActScoreデータセットを拡張して、事実の精度メトリクスを設計、分析し、モデルが既存のメトリクスの下で高いスコアを達成できるようにトレーニングできることを、私たちが特定した問題を利用して示します。 これは、Coreと呼ばれる新しいカスタマイズ可能なプラグイン・アンド・プレイのサブステート選択コンポーネントを動機付けます。 Coreによって強化されたメトリクスは、頭と頭の比較で示されるように、かなり堅牢である。 我々は、Coreのモジュラー利用と様々な分解戦略をサポートする評価フレームワーク(https://github.com/zipJiang/Core)をリリースし、LLMコミュニティによる採用を提案する。 [1] Hong et al , "The Hallucinations Leaderboard -- An Open Effort to Measure Hallucinations in Large Language Models", arXiv:2404.05904v2 [cs.CL]. [2] Min et al , "FActScore: Fine-fine Atomic Evaluation of Factual Precision in Long Form Text Generation", arXiv:2305.14251v2 [cs.CL].

Hallucinations -- the generation of untrue claims -- pose a challenge to the application of large language models (LLMs) [1] thereby motivating the development of metrics to evaluate factual precision. We observe that popular metrics using the Decompose-Then-Verify framework, such as FActScore [2], can be manipulated by adding obvious or repetitive claims to artificially inflate scores. We expand the FActScore dataset to design and analyze factual precision metrics, demonstrating that models can be trained to achieve high scores under existing metrics through exploiting the issues we identify. This motivates our new customizable plug-and-play subclaim selection component called Core, which filters down individual subclaims according to their uniqueness and informativeness. Metrics augmented by Core are substantially more robust as shown in head-to-head comparisons. We release an evaluation framework supporting the modular use of Core (https://github.com/zipJiang/Core) and various decomposition strategies, and we suggest its adoption by the LLM community. [1] Hong et al., "The Hallucinations Leaderboard -- An Open Effort to Measure Hallucinations in Large Language Models", arXiv:2404.05904v2 [cs.CL]. [2] Min et al., "FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation", arXiv:2305.14251v2 [cs.CL].
翻訳日:2024-07-08 19:31:32 公開日:2024-07-04
# 階層的クラスタリングの公理的定義

An Axiomatic Definition of Hierarchical Clustering ( http://arxiv.org/abs/2407.03574v1 )

ライセンス: Link先を確認
Ery Arias-Castro, Elizabeth Coda, (参考訳) 本稿では,集団階層的クラスタリングを断片的に一定密度で定義するための公理的アプローチと,ルベーグ積分と同様の方法で,この定義をより一般的な密度に拡張する。 密度がいくつかの穏やかな条件を満たすとき、例えば、接続されたサポートを持つとき、連続であり、無限大でのみ消えるとき、あるいは、密度の連結成分がこれらの条件を満たすとき、我々の公理的定義はハーディガンのクラスタツリーの定義をもたらす。

In this paper, we take an axiomatic approach to defining a population hierarchical clustering for piecewise constant densities, and in a similar manner to Lebesgue integration, extend this definition to more general densities. When the density satisfies some mild conditions, e.g., when it has connected support, is continuous, and vanishes only at infinity, or when the connected components of the density satisfy these conditions, our axiomatic definition results in Hartigan's definition of cluster tree.
翻訳日:2024-07-08 19:31:32 公開日:2024-07-04
# DGR-MIL:全スライド画像分類のための複数インスタンス学習における多元的グローバル表現の探索

DGR-MIL: Exploring Diverse Global Representation in Multiple Instance Learning for Whole Slide Image Classification ( http://arxiv.org/abs/2407.03575v1 )

ライセンス: Link先を確認
Wenhui Zhu, Xiwen Chen, Peijie Qiu, Aristeidis Sotiras, Abolfazl Razi, Yalin Wang, (参考訳) マルチプル・インスタンス・ラーニング (MIL) は弱い教師付き学習において強力なアプローチであり, 腫瘍病変を検出するための組織学的全スライド画像分類 (WSI) に定期的に用いられている。 しかし、既存のメインストリームのMILメソッドは、インスタンス間の固有多様性を見越しながら、インスタンス間の相関をモデル化することに焦点を当てている。 しかし、MIL法は、性能が劣るが計算コストが高く、多様性モデリングを目的とするものはほとんどない。 このギャップを埋めるために, 多様なグローバル表現(DGR-MIL)に基づく新しいMILアグリゲーション手法を提案する。 まず、インスタンス相関を、クロスアテンション機構を通じて、インスタンス埋め込みと予め定義された大域ベクトルの類似性に変換する。 これは、類似のインスタンス埋め込みが典型的にある大域ベクトルと高い相関関係をもたらすという事実に起因している。 第2に,グローバルベクトル間の多様性をバッグ全体を説明するための2つのメカニズムを提案する。 i) 正のインスタンスアライメントと (二)新奇で効率的で理論上保証された多様化学習パラダイム。 具体的には、正のインスタンスアライメントモジュールは、大域的なベクトルが正のインスタンス(例えばWSI内の腫瘍を含むインスタンス)の中心と整合するように促す。 グローバルな表現をさらに多様化させるため,決定点プロセスを活用する新しい多様化学習パラダイムを提案する。 提案モデルは,CAMELYON-16とTCGA肺がんデータセットにおいて,最先端のMIL集約モデルよりもかなり優れている。 コードは \url{https://github.com/ChongQingNoSubway/DGR-MIL} で公開されている。

Multiple instance learning (MIL) stands as a powerful approach in weakly supervised learning, regularly employed in histological whole slide image (WSI) classification for detecting tumorous lesions. However, existing mainstream MIL methods focus on modeling correlation between instances while overlooking the inherent diversity among instances. However, few MIL methods have aimed at diversity modeling, which empirically show inferior performance but with a high computational cost. To bridge this gap, we propose a novel MIL aggregation method based on diverse global representation (DGR-MIL), by modeling diversity among instances through a set of global vectors that serve as a summary of all instances. First, we turn the instance correlation into the similarity between instance embeddings and the predefined global vectors through a cross-attention mechanism. This stems from the fact that similar instance embeddings typically would result in a higher correlation with a certain global vector. Second, we propose two mechanisms to enforce the diversity among the global vectors to be more descriptive of the entire bag: (i) positive instance alignment and (ii) a novel, efficient, and theoretically guaranteed diversification learning paradigm. Specifically, the positive instance alignment module encourages the global vectors to align with the center of positive instances (e.g., instances containing tumors in WSI). To further diversify the global representations, we propose a novel diversification learning paradigm leveraging the determinantal point process. The proposed model outperforms the state-of-the-art MIL aggregation models by a substantial margin on the CAMELYON-16 and the TCGA-lung cancer datasets. The code is available at \url{https://github.com/ChongQingNoSubway/DGR-MIL}.
翻訳日:2024-07-08 19:31:32 公開日:2024-07-04
# 周期駆動時のドル系量子力学へのマグナス展開の応用と回転波近似の評価

Application of Magnus expansion for the quantum dynamics of $Λ$-systems under periodic driving and assessment of the rotating wave approximation ( http://arxiv.org/abs/2407.03576v1 )

ライセンス: Link先を確認
Taner M. Ture, Changbong Hyeon, Seogjoo J. Jang, (参考訳) マグナス展開(ME)に基づく微分時間進化作用素の6次式を用いて、2つの正弦波時間依存場によって駆動される$\Lambda$-systemの量子力学計算を行った。 閉系力学について、ヒルベルト空間とリウヴィル空間における力学の同値性を数値的に確認した。 また,光浴の効果がリンドブラッド作用素によって表される場合に,リウヴィル空間の非エルミート力学にMEを一般化することにより,オープンシステム量子力学計算を行った。 どちらの場合も、回転波近似(RWA)の精度が評価された。 電磁誘導透過性やコヒーレント集団トラップが観察できる代表例について, 初期の動力学的段階におけるRWAの有意な誤差について検討した。 開系量子力学のための浴場の存在は、RWAの誤差を減少させるが、密度演算子の対角線外要素の重大な誤差は依然として見ることができる。 また、正確な力学の定常状態限界へのアプローチは、RWAのそれよりも遅いことが判明した。 これらの結果は、時間依存ハミルトニアンに対する閉かつオープンな量子力学の汎用的で信頼性の高いツールとしてのMEの有用性を示し、RWAのみに基づく結論の描画の可能性を明らかにする。

Employing a sixth order expression for the differential time evolution operator based on the Magnus expansion (ME), we conducted quantum dynamics calculations of a $\Lambda$-system driven by two sinusoidal time dependent fields. For a closed system dynamics, we confirmed the equivalence of the dynamics in the Hilbert space and the Liouville space numerically. We also conducted open system quantum dynamics calculation by generalizing the ME to the non-Hermitian dynamics in the Liouville space for the case where the effects of photonic bath are represented by Lindblad operators. In both cases, the accuracy of the rotating wave approximation (RWA) was assessed. We found significant errors of RWA during initial stages of the dynamics for representative cases where electromagnetically induced transparency or coherent population trapping can be observed. The presence of bath for open system quantum dynamics reduces the errors of RWA, but significant errors for off-diagonal elements of the density operator can still be seen. We also found that approaches to steady state limits of exact dynamics are slower than those for RWA. These results demonstrate the utility of the ME as a general and reliable tool for closed and open system quantum dynamics for time dependent Hamiltonians, and expose potential issues of drawing conclusions based solely on RWA.
翻訳日:2024-07-08 19:31:32 公開日:2024-07-04
# 大規模言語モデルにおけるランダム性の統合:臨床関連コンテンツ生成のための線形連続生成手法

Integrating Randomness in Large Language Models: A Linear Congruential Generator Approach for Generating Clinically Relevant Content ( http://arxiv.org/abs/2407.03582v1 )

ライセンス: Link先を確認
Andrew Bouras, (参考訳) 言語モデルから多種多様な高品質なアウトプットを生成することは、教育やコンテンツ制作の応用において不可欠である。 真のランダム性を獲得し、繰り返しを避けることは、依然として重要な課題である。 本研究は,AIによるコンテンツ生成と組み合わせて,系統的な事実選択に線形コングルシデント生成法を用いる。 消化管生理学と病理学の独自の組み合わせを複数回にわたって確保し,これらの事実をGPT-4oに組み込んで臨床的に有意なビグネットスタイルのアウトプットを創出した。 14ラウンド以上で98のユニークなアウトプットが生成され、LCGが多種多様な高品質なコンテンツの制作に有効であることを証明した。 本手法はランダム性と反復性の重要な問題に対処し,様々なアプリケーションにおける言語モデル生成コンテンツの質と効率を向上させる。

Generating diverse, high-quality outputs from language models is crucial for applications in education and content creation. Achieving true randomness and avoiding repetition remains a significant challenge. This study uses the Linear Congruential Generator method for systematic fact selection, combined with AI-powered content generation. We ensured unique combinations of gastrointestinal physiology and pathology facts across multiple rounds, integrating these facts into prompts for GPT-4o to create clinically relevant, vignette-style outputs. Over 14 rounds, 98 unique outputs were generated, demonstrating LCG's effectiveness in producing diverse and high-quality content. This method addresses key issues of randomness and repetition, enhancing the quality and efficiency of language model-generated content for various applications.
翻訳日:2024-07-08 19:31:32 公開日:2024-07-04
# スピンスピンモデルにおけるパラメータの蓄積における初期システム-環境相関の役割

The role of initial system-environment correlations in the accuracies of parameters within spin-spin model ( http://arxiv.org/abs/2407.03584v1 )

ライセンス: Link先を確認
Ali Raza Mirza, Jim Al-Khalili, (参考訳) 本研究では,環境パラメータの推定を改善するために,初期システム環境相関の効果について検討する。 興味のある様々な物理的状況を用いて,環境温度とシステム環境結合強度について検討した。 スピンスピンモデルを考えると、プローブ(小さな制御可能な量子系)が量子スピンの浴と相互作用し、熱平衡状態に達する。 次に、初期状態を準備して一元的に進化させるように射影測定を行う。 環境特性はプローブの力学に印字される。 プローブ状態の還元密度行列は、修正されたデコヒーレンス係数と消散を含む。 この追加因子は、量子フィッシャー情報(QFI)によって定量化されるように、環境パラメータの推定を改善するために機能する。 温度推定の場合, 初期相関の影響を取り入れることで, 推定精度を桁違いに向上できるので, 結果が期待できる。 近接する隣人の相互作用を考慮に入れた場合でも、強い結合状態の精度は増大する。 結合強度の場合, 相関の場合と非相関の場合において, 連続的に精度が上昇していることが明らかとなった。 さらに重要なのは、特に低温では、精度の向上に相関関係が顕著な役割を担っていることだ。

We investigate the effect of initial system-environment correlations to improve the estimation of environment parameters. By employing various physical situations of interest, we present results for the environment temperature and system-environment coupling strength. We consider the spin-spin model whereby a probe (a small controllable quantum system) interacts with a bath of quantum spins and attains a thermal equilibrium state. A projective measurement is then performed to prepare the initial state and allow it to evolve unitarily. The properties of the environment are imprinted upon the dynamics of the probe. The reduced density matrix of the probe state contains a modified decoherence factor and dissipation. This additional factor acts in such a way to improve the estimation of the environment parameters, as quantified by the quantum Fisher information (QFI). In the temperature estimation case, our results are promising as one can improve the precision of the estimates by orders of magnitude by incorporating the effect of initial correlations. The precision increases in the strong coupling regime even if the nearest neighbours' interaction is taken into account. In the case of coupling strength, interestingly the accuracy was found to be continuously increasing in both with and without correlations cases. More importantly, one can see the noticeable role of correlations in improving precision, especially at low temperatures.
翻訳日:2024-07-08 19:31:32 公開日:2024-07-04
# LLMによるゼロショット型説得型チャットボットと情報検索

Zero-shot Persuasive Chatbots with LLM-Generated Strategies and Information Retrieval ( http://arxiv.org/abs/2407.03585v1 )

ライセンス: Link先を確認
Kazuaki Furumai, Roberto Legaspi, Julio Vizcarra, Yudai Yamazaki, Yasutaka Nishimura, Sina J. Semnani, Kazushi Ikeda, Weiyan Shi, Monica S. Lam, (参考訳) 説得は、健康介入から社会的善の促進まで幅広い応用において重要な役割を担っている。 説得型チャットボットは、そのようなアプリケーションにおける説得のポジティブな効果を加速することができる。 既存の方法では、タスク固有のトレーニングデータを備えた微調整型説得型チャットボットが使われています。 そこで本研究では,大規模言語モデル(LLM)の一般化可能性と本質的な説得能力を利用して,任意のドメインに対してゼロショットで効果的かつ真に説得可能なチャットボットを作成する手法を提案する。 事前定義された説得戦略を用いた従来の研究とは異なり、本手法はまずLSMを用いて応答を生成し、その後、フライで使用する戦略を抽出し、その戦略をサポートする検索事実に置き換える。 われわれはチャットボットPersuaBotを、寄付の勧誘、レコメンデーション、健康介入という3つの異なる説得スキルを必要とする3つの領域に適用した。 シミュレーションおよび人的会話実験により、ゼロショットアプローチは従来の作業よりも説得力があり、最先端の知識指向チャットボットを超越した事実的精度を実現していることが示された。 本研究は,社会改善に責任を負うような説得型チャットボットを採用すると,肯定的な個人的・社会的変化の実現が期待できることを示した。

Persuasion plays a pivotal role in a wide range of applications from health intervention to the promotion of social good. Persuasive chatbots can accelerate the positive effects of persuasion in such applications. Existing methods rely on fine-tuning persuasive chatbots with task-specific training data which is costly, if not infeasible, to collect. To address this issue, we propose a method to leverage the generalizability and inherent persuasive abilities of large language models (LLMs) in creating effective and truthful persuasive chatbot for any given domain in a zero-shot manner. Unlike previous studies which used pre-defined persuasion strategies, our method first uses an LLM to generate responses, then extracts the strategies used on the fly, and replaces any unsubstantiated claims in the response with retrieved facts supporting the strategies. We applied our chatbot, PersuaBot, to three significantly different domains needing persuasion skills: donation solicitation, recommendations, and health intervention. Our experiments on simulated and human conversations show that our zero-shot approach is more persuasive than prior work, while achieving factual accuracy surpassing state-of-the-art knowledge-oriented chatbots. Our study demonstrated that when persuasive chatbots are employed responsibly for social good, it is an enabler of positive individual and social change.
翻訳日:2024-07-08 19:31:32 公開日:2024-07-04
# 領域一般化のための多元条件拡散モデルを用いたフィードバック誘導ドメイン合成

Feedback-guided Domain Synthesis with Multi-Source Conditional Diffusion Models for Domain Generalization ( http://arxiv.org/abs/2407.03588v1 )

ライセンス: Link先を確認
Mehrdad Noori, Milad Cheraghalikhani, Ali Bahri, Gustavo Adolfo Vargas Hakim, David Osowiechi, Moslem Yazdanpanah, Ismail Ben Ayed, Christian Desrosiers, (参考訳) 畳み込みニューラルネットワークやビジョントランスフォーマーのような標準的なディープラーニングアーキテクチャは、ソースデータとターゲットデータの両方が独立で同一に分布する(すなわち、d.d.)集団から引き出されるという暗黙の仮定のために、これまで見られなかった領域に一般化できないことが多い。 これに対し、ドメイン一般化手法は、訓練中の新しいデータ分布をシミュレートすることで、モデルロバスト性を高めることを目的としている。 しかし、これらの手法は、生成した画像の多様性の限定的な制御と、これらの画像が異なる分布にまたがる保証の欠如にしばしば悩まされる。 これらの課題に対処するために、FDSを提案する。FDSは、拡散モデルを用いて、ソース分布サンプルのトレーニングとドメイン混合の実行により、新しいドメインからのサンプルを合成する新しい戦略である。 元のサンプルでトレーニングされたモデルに分類課題を呈する画像と、元のデータセットを併用することにより、幅広い分布スペクトルにまたがるトレーニングセットの生成を確実にする。 包括的評価により、この手法は、様々な挑戦的なデータセットにまたがって、ドメインの一般化性能の新たなベンチマークを設定し、多様なタイプのドメインシフトを効果的に管理できることが示されている。 実装は以下の通りである。 \url{https://github.com/Mehrdad-Noori/FDS.git}。

Standard deep learning architectures such as convolutional neural networks and vision transformers often fail to generalize to previously unseen domains due to the implicit assumption that both source and target data are drawn from independent and identically distributed (i.i.d.) populations. In response, Domain Generalization techniques aim to enhance model robustness by simulating novel data distributions during training, typically through various augmentation or stylization strategies. However, these methods frequently suffer from limited control over the diversity of generated images and lack assurance that these images span distinct distributions. To address these challenges, we propose FDS, a novel strategy that employs diffusion models to synthesize samples from new domains by training on source distribution samples and performing domain mixing. By incorporating images that pose classification challenges to models trained on original samples, alongside the original dataset, we ensure the generation of a training set that spans a broad distribution spectrum. Our comprehensive evaluations demonstrate that this methodology sets new benchmarks in domain generalization performance across a range of challenging datasets, effectively managing diverse types of domain shifts. The implementation is available at: \url{https://github.com/Mehrdad-Noori/FDS.git}.
翻訳日:2024-07-08 19:31:32 公開日:2024-07-04
# グリーンマルチグリッドネットワーク

Green Multigrid Network ( http://arxiv.org/abs/2407.03593v1 )

ライセンス: Link先を確認
Ye Lin, Young Ju Lee, Jiwei Jia, (参考訳) グリーンラーニングネットワーク(GL)は、物理空間におけるグリーン関数を直接学習し、偏微分方程式(PDE)の未知解作用素を捉えるための解釈可能なモデルとなる。 多くのPDEに対して、対応するグリーン関数は漸近的滑らかさを示す。 本稿では,グリーン関数の漸近的スムーズなクラスのために設計された演算子学習アルゴリズムであるGreen Multigrid Network (GreenMGNet)を提案する。 先駆的なGLと比較すると、新しいフレームワークは精度と効率が向上し、大幅な改善を実現している。 GreenMGNetは2つの技術ノベルティで構成されている。 第一に、グリーン関数は超平面のいくつかの部分における特異な振る舞いを考慮に入れた断片的関数としてモデル化される。 このような関数は、拡張出力(AugNN)を持つニューラルネットワークによって近似され、特異点を正確に捉えることができる。 第二に、グリーン関数の漸近滑らか性は、学習段階と推論段階の両方にマルチレベル・マルチ・インテグレーション(MLMI)アルゴリズムを活用するために用いられる。 提案手法の精度と有効性を示すために,演算子学習のいくつかの試験事例を提示する。 平均して、GreenMGNetは$3.8\%から$39.15\%の精度向上を達成した。 GLの精度レベルに合わせるために、GreenMGNetは全グリッドデータの約10\%しか必要とせず、結果として1次元テスト問題に対するトレーニング時間とGPUメモリコストの削減が5,5.9\%と92.5\%、二次元テスト問題に対する37.7\%と62.5\%の削減が要求される。

GreenLearning networks (GL) directly learn Green's function in physical space, making them an interpretable model for capturing unknown solution operators of partial differential equations (PDEs). For many PDEs, the corresponding Green's function exhibits asymptotic smoothness. In this paper, we propose a framework named Green Multigrid networks (GreenMGNet), an operator learning algorithm designed for a class of asymptotically smooth Green's functions. Compared with the pioneering GL, the new framework presents itself with better accuracy and efficiency, thereby achieving a significant improvement. GreenMGNet is composed of two technical novelties. First, Green's function is modeled as a piecewise function to take into account its singular behavior in some parts of the hyperplane. Such piecewise function is then approximated by a neural network with augmented output(AugNN) so that it can capture singularity accurately. Second, the asymptotic smoothness property of Green's function is used to leverage the Multi-Level Multi-Integration (MLMI) algorithm for both the training and inference stages. Several test cases of operator learning are presented to demonstrate the accuracy and effectiveness of the proposed method. On average, GreenMGNet achieves $3.8\%$ to $39.15\%$ accuracy improvement. To match the accuracy level of GL, GreenMGNet requires only about $10\%$ of the full grid data, resulting in a $55.9\%$ and $92.5\%$ reduction in training time and GPU memory cost for one-dimensional test problems, and a $37.7\%$ and $62.5\%$ reduction for two-dimensional test problems.
翻訳日:2024-07-08 19:31:32 公開日:2024-07-04
# UniPlane:モノクロビデオからの統一された平面検出と再構成

UniPlane: Unified Plane Detection and Reconstruction from Posed Monocular Videos ( http://arxiv.org/abs/2407.03594v1 )

ライセンス: Link先を確認
Yuzhong Huang, Chen Liu, Ji Hou, Ke Huo, Shiyu Dong, Fred Morstatter, (参考訳) 単眼ビデオから平面検出と再構成を統一する新手法UniPlaneを提案する。 局所的な観測から平面を検出する既存の手法とは異なり、UniPlaneは1つのネットワークにおける検出タスクと再構成タスクの両方を統一し、最終的な再構成品質を直接最適化し、時間情報を完全に活用する。 具体的には、トランスフォーマーベースのディープニューラルネットワークを構築し、環境のための3次元特徴ボリュームを共同構築し、平面ごとの埋め込みをクエリとして推定する。 UniPlaneは、ボクセルの埋め込みと平面の埋め込みの間にドット積を取り、その後二分しきい値が続くことによって、直接3D平面を再構築する。 実世界のデータセットに関する大規模な実験により、UniPlaneは平面検出と再構成の両方において最先端の手法より優れており、幾何学におけるFスコアの+4.6と他の幾何学とセグメンテーションのメトリクスの一貫性が向上していることが示された。

We present UniPlane, a novel method that unifies plane detection and reconstruction from posed monocular videos. Unlike existing methods that detect planes from local observations and associate them across the video for the final reconstruction, UniPlane unifies both the detection and the reconstruction tasks in a single network, which allows us to directly optimize final reconstruction quality and fully leverage temporal information. Specifically, we build a Transformers-based deep neural network that jointly constructs a 3D feature volume for the environment and estimates a set of per-plane embeddings as queries. UniPlane directly reconstructs the 3D planes by taking dot products between voxel embeddings and the plane embeddings followed by binary thresholding. Extensive experiments on real-world datasets demonstrate that UniPlane outperforms state-of-the-art methods in both plane detection and reconstruction tasks, achieving +4.6 in F-score in geometry as well as consistent improvements in other geometry and segmentation metrics.
翻訳日:2024-07-08 19:31:32 公開日:2024-07-04
# 経済予測のための機械学習:中国のGDP成長への応用

Machine Learning for Economic Forecasting: An Application to China's GDP Growth ( http://arxiv.org/abs/2407.03595v1 )

ライセンス: Link先を確認
Yanqing Yang, Xingcheng Xu, Jinfeng Ge, Yan Xu, (参考訳) 本稿では,中国のマクロ経済変数の予測における機械学習の適用について検討する。 具体的には、さまざまな機械学習モデルを使用して、中国における四半期毎のGDP成長を予測し、これらのモデルのパフォーマンスの違いに寄与する要因を分析する。 これらの結果から,機械学習モデルの平均予測誤差は,特に経済安定期において,従来の計量モデルや専門家予測よりも低いことが示唆された。 しかしながら、ある摂動点において、機械学習モデルは依然として伝統的な計量モデルより優れているが、専門家がマクロ経済環境とリアルタイム経済変数をより包括的に理解しているため、専門家の予測はより正確である可能性がある。 本稿では、マクロ経済予測に加えて、マクロ経済変動への寄与の理解と評価を高めることを目的として、異なる機械学習モデルから重要な帰属変数を特定するための解釈可能な機械学習手法を用いる。

This paper aims to explore the application of machine learning in forecasting Chinese macroeconomic variables. Specifically, it employs various machine learning models to predict the quarterly real GDP growth of China, and analyzes the factors contributing to the performance differences among these models. Our findings indicate that the average forecast errors of machine learning models are generally lower than those of traditional econometric models or expert forecasts, particularly in periods of economic stability. However, during certain inflection points, although machine learning models still outperform traditional econometric models, expert forecasts may exhibit greater accuracy in some instances due to experts' more comprehensive understanding of the macroeconomic environment and real-time economic variables. In addition to macroeconomic forecasting, this paper employs interpretable machine learning methods to identify the key attributive variables from different machine learning models, aiming to enhance the understanding and evaluation of their contributions to macroeconomic fluctuations.
翻訳日:2024-07-08 19:31:32 公開日:2024-07-04
# 半教師付き画像分類のための自己適応閾値擬似ラベルと信頼できないサンプルコントラスト損失

Self Adaptive Threshold Pseudo-labeling and Unreliable Sample Contrastive Loss for Semi-supervised Image Classification ( http://arxiv.org/abs/2407.03596v1 )

ライセンス: Link先を確認
Xuerong Zhang, Li Huang, Jing Lv, Ming Yang, (参考訳) ラベルのないデータを組み合わせることに成功し、セミ教師付き学習が注目を集めている。 しかし、擬似ラベルに基づく半教師付きアプローチは、画像分類において2つの問題に悩まされる:(1)既存の手法では、事前定義された固定閾値またはアドホック閾値調整スキームを使用することで、性能が低下し、収束が遅くなるため、適切な閾値を適用できない可能性がある。 2) 閾値以下でラベルのないデータを識別すると, 識別情報が失われる。 これらの問題を解決するために,ラベルのないデータを十分に活用するための効果的な手法を開発した。 具体的には、各クラスの閾値を動的に調整し、信頼性の高いサンプル数を増やす自己適応型閾値擬似ラベル戦略を設計する。 一方、閾値以下の信頼度でラベル付きデータを効果的に活用するために、サンプル特徴間の類似点と相違点を学習することにより、低信頼度サンプルの識別情報をマイニングする信頼性の低いサンプルの可逆的損失を提案する。 本手法は,いくつかの分類ベンチマークで部分的にラベル付けされた設定で評価し,他の手法よりも優れていることを示す。

Semi-supervised learning is attracting blooming attention, due to its success in combining unlabeled data. However, pseudo-labeling-based semi-supervised approaches suffer from two problems in image classification: (1) Existing methods might fail to adopt suitable thresholds since they either use a pre-defined/fixed threshold or an ad-hoc threshold adjusting scheme, resulting in inferior performance and slow convergence. (2) Discarding unlabeled data with confidence below the thresholds results in the loss of discriminating information. To solve these issues, we develop an effective method to make sufficient use of unlabeled data. Specifically, we design a self adaptive threshold pseudo-labeling strategy, which thresholds for each class can be dynamically adjusted to increase the number of reliable samples. Meanwhile, in order to effectively utilise unlabeled data with confidence below the thresholds, we propose an unreliable sample contrastive loss to mine the discriminative information in low-confidence samples by learning the similarities and differences between sample features. We evaluate our method on several classification benchmarks under partially labeled settings and demonstrate its superiority over the other approaches.
翻訳日:2024-07-08 19:31:32 公開日:2024-07-04
# ASTEISR:高効率ステレオ画像超解像のための単一画像超解像事前学習モデル

ASteISR: Adapting Single Image Super-resolution Pre-trained Model for Efficient Stereo Image Super-resolution ( http://arxiv.org/abs/2407.03598v1 )

ライセンス: Link先を確認
Yuanbo Zhou, Yuyang Xue, Wei Deng, Xinlin Zhang, Qinquan Gao, Tong Tong, (参考訳) 低レベルのビジョンタスクにおいて、事前トレーニングと微調整というパラダイムの進歩にもかかわらず、特にメモリ使用量やトレーニング時間といった事前トレーニングされたモデルのサイズが大きくなることについては、大きな課題が続いている。 もう一つの懸念は、訓練済みのシングルイメージモデルをマルチイメージドメインに直接適用する際に得られる満足できない結果である。 本稿では,SteISR(SteISR)の領域に事前学習した単一像超解像変換回路(SISR)をパラメータ効率のよい微細チューニング(PEFT)手法で転送する効率的な手法を提案する。 具体的には、事前訓練されたSISRトランスネットワークに組み込まれたステレオアダプタと空間アダプタの概念を紹介する。 その後、事前訓練されたSISRモデルが凍結され、ステレオデータセットを使用してアダプタを微調整できる。 このトレーニング手法を用いることで、Flickr1024データセット上のステレオ画像を正確に0.79dBの精度で推測するSISRモデルの能力を向上する。 本手法により,従来のモデルパラメータの4.8%しか訓練できず,一般的な4つのSteISRベンチマーク上での最先端性能を実現することができる。 より複雑なフルチューニング手法と比較して、トレーニング時間とメモリ消費をそれぞれ57%、15%削減する。

Despite advances in the paradigm of pre-training then fine-tuning in low-level vision tasks, significant challenges persist particularly regarding the increased size of pre-trained models such as memory usage and training time. Another concern often encountered is the unsatisfying results yielded when directly applying pre-trained single-image models to multi-image domain. In this paper, we propose a efficient method for transferring a pre-trained single-image super-resolution (SISR) transformer network to the domain of stereo image super-resolution (SteISR) through a parameter-efficient fine-tuning (PEFT) method. Specifically, we introduce the concept of stereo adapters and spatial adapters which are incorporated into the pre-trained SISR transformer network. Subsequently, the pre-trained SISR model is frozen, enabling us to fine-tune the adapters using stereo datasets along. By adopting this training method, we enhance the ability of the SISR model to accurately infer stereo images by 0.79dB on the Flickr1024 dataset. This method allows us to train only 4.8% of the original model parameters, achieving state-of-the-art performance on four commonly used SteISR benchmarks. Compared to the more complicated full fine-tuning approach, our method reduces training time and memory consumption by 57% and 15%, respectively.
翻訳日:2024-07-08 19:31:32 公開日:2024-07-04
# コントラシティブ・チェーン・オブ・サート・プロンプティング

Contrastive Chain-of-Thought Prompting ( http://arxiv.org/abs/2407.03600v1 )

ライセンス: Link先を確認
Grant Kruttschnitt, Jay Shim, Alyssa Ma, Daniel Kim, Benjamin Chek, Athul Anand, Kevin Zhu, Sean O'Brien, (参考訳) モデルスケールの急激な増加と、チェーン・オブ・ソート・プロンプトのようなステアリング手法が組み合わさって、言語モデル推論の大幅な改善につながった。 同時に、モデルは構成的一般化に苦しむが、多くの推論ベースのベンチマークでは人間のパフォーマンスには程遠い。 チェーン・オブ・シークレット・プロンプトの成功を生かし、文脈認識デコード(CAD)からインスピレーションを得て、インプットベースのコントラスト手法を探求し、チェーン・オブ・シークレット・プロンプトによって引き起こされる推論のタイプをさらに促進する。 データセットやモデル間でこれらの結果を安定化する作業は継続するが、文脈を考慮した推論のための入力ベースのステアリング手法に関するさらなる調査が保証されている。

Rapidly increasing model scales coupled with steering methods such as chain-of-thought prompting have led to drastic improvements in language model reasoning. At the same time, models struggle with compositional generalization and are far from human performance on many reasoning-based benchmarks. Leveraging the success of chain-of-thought prompting, and also taking inspiration from context-aware decoding (CAD), we explore input-based contrasting methods to further encourage the type of reasoning induced by chain-of-thought prompting. While work remains to stabilize these results across datasets and models, the improvements we find warrant further investigation into input-based steering methods for context-aware reasoning.
翻訳日:2024-07-08 19:31:32 公開日:2024-07-04
# Online Non-Stationary Stochastic Quasar-Convex Optimization

Online Non-Stationary Stochastic Quasar-Convex Optimization ( http://arxiv.org/abs/2407.03601v1 )

ライセンス: Link先を確認
Yuen-Man Pun, Iman Shames, (参考訳) 近年の研究では、線形力学系の同定や一般化線形モデルなどの応用において、準凸性が見られることが示されている。 このような観測により、クエーサーの凸性を利用する設計と分析アルゴリズムのエキサイティングな発展が加速された。 本研究では,動的環境におけるオンライン確率的準凸最適化問題について検討する。 擬似凸性および強い擬似凸性を満たす損失に対する累積経路変動および累積勾配変動の観点から、オンライン勾配勾配の残差を定めている。 次に,基本パラメータが時間変化している場合の一般化線形モデル (GLM) に適用する。 流出したReLUアクティベーション関数,ロジスティックアクティベーション関数,およびReLUアクティベーション関数を有するGLMに適用した場合,オンライン勾配降下の致命的限界を確立する。 以上の知見を裏付ける数値的な結果が得られた。

Recent research has shown that quasar-convexity can be found in applications such as identification of linear dynamical systems and generalized linear models. Such observations have in turn spurred exciting developments in design and analysis algorithms that exploit quasar-convexity. In this work, we study the online stochastic quasar-convex optimization problems in a dynamic environment. We establish regret bounds of online gradient descent in terms of cumulative path variation and cumulative gradient variance for losses satisfying quasar-convexity and strong quasar-convexity. We then apply the results to generalized linear models (GLM) when the underlying parameter is time-varying. We establish regret bounds of online gradient descent when applying to GLMs with leaky ReLU activation function, logistic activation function, and ReLU activation function. Numerical results are presented to corroborate our findings.
翻訳日:2024-07-08 19:21:33 公開日:2024-07-04
# W状態の決定論的絡み換え

Deterministic entanglement swapping of W states ( http://arxiv.org/abs/2407.03603v1 )

ライセンス: Link先を確認
Sajede Harraz, Yueyan Wang, Shuang Cong, (参考訳) 本稿では、2つのリモートパーティ間での共有3ビットW状態を生成するための決定論的絡み合わせプロトコルを提案する。 提案手法は,様々な量子情報処理タスクにおいて重要なW状態絡み換えのための既存の確率的プロトコルに代わる信頼性の高い代替手段を提供する。 本稿では,Qiskitシミュレータを用いて実装した量子回路の設計について述べる。 さらに,不完全な操作とノイズのある通信チャネルが結果の共有W状態の忠実度に及ぼす影響を解析した。 これらの課題に対処するために,振幅減衰の存在下での忠実度を高める,弱い測定に基づく浄化法を導入する。 実世界の量子通信シナリオにおける高忠実度W状態生成のための実用的なソリューションを提供する。

In this paper, we propose a deterministic entanglement swapping protocol for generating a shared three-qubit W state between two remote parties. Our method offers a reliable alternative to existing probabilistic protocols for W state entanglement swapping, which is crucial for various quantum information processing tasks. We present a detailed quantum circuit design, implemented using the Qiskit simulator, that outlines the preparation of W states and the execution of joint measurements required for the entanglement swapping process. Furthermore, we analyze the effects of imperfect operations and noisy communication channels on the fidelity of the resulting shared W state. To address these challenges, we introduce a weak measurement-based purification method that enhances fidelity in the presence of amplitude damping. Through mathematical analysis and Qiskit simulations, we demonstrate the effectiveness of our proposed protocol, offering a practical solution for high-fidelity W state generation in real-world quantum communication scenarios.
翻訳日:2024-07-08 19:21:33 公開日:2024-07-04
# Lateralization LoRA:Modality-Specialized Adaptationを用いたインターリーブインストラクションチューニング

Lateralization LoRA: Interleaved Instruction Tuning with Modality-Specialized Adaptations ( http://arxiv.org/abs/2407.03604v1 )

ライセンス: Link先を確認
Zhiyang Xu, Minqian Liu, Ying Shen, Joy Rimchala, Jiaxin Zhang, Qifan Wang, Yu Cheng, Lifu Huang, (参考訳) 近年のVLM(Vision-Language Models)の進歩により、VLG(Vision-Language Generalists)が開発され、インターリーブ画像やテキストの理解と生成が可能になった。 これらの進歩にもかかわらず、VLGはインターリーブされたテキストと画像生成のためのユーザー指示に従うのに苦戦している。 この問題に対処するために、LeafInstructを紹介します。LeafInstructは、10以上のドメインで30,000以上の高品質なインスタンスを持つ、最初のオープンソースインターリーブ型インストラクションチューニングデータです。 既存のVLGの規模が大きいため,パラメータ効率の調整が可能である。 しかしながら、標準のLoRAで調整されたVLGは、通常、インターリーブされたテキスト画像生成において劣る性能を示す。 この問題は、モダリティ干渉と、モダリティ特化適応設計の欠如に起因している。 そこで我々は,脳の側方化の概念に触発された新しいモダリティ特化適応法である横方向化LoRAを提案する。 線形LoRAと畳み込みLoRAを組み合わせてテキストと画像を生成することで、モダリティ固有の構造とパラメータセットを利用して高品質なテキストと画像を生成する。 本稿では,LeafInstruct データセット上で,Larialization LoRA を用いて VLG (EMU2) の命令チューニングを行う。 大規模な実験により、EMU2とラテラライズLORAは、複雑なインターリーブタスクにおけるベースラインモデルを大幅に超え、最先端のパフォーマンスを達成することが示された。

Recent advancements in Vision-Language Models (VLMs) have led to the development of Vision-Language Generalists (VLGs) capable of understanding and generating interleaved images and text. Despite these advances, VLGs still struggle to follow user instructions for interleaved text and image generation. To address this issue, we introduce LeafInstruct, the first open-sourced interleaved instruction tuning data with over 30,000 high-quality instances across more than 10 domains. Due to the extensive size of existing VLGs, we opt for parameter-efficient tuning. However, we observe that VLGs tuned with a standard LoRA typically exhibit inferior performance in interleaved text-image generation. We attribute this problem to modality interference and the lack of modality-specialized adaptation design. Hence, we propose Lateralization LoRA, a novel modality-specialized adaptation method inspired by the concept of brain lateralization. Lateralization LoRA employs a hybrid approach, combining the traditional linear LoRA and a Convolutional LoRA for generating text and images, enabling the generation of high-quality text and images by leveraging modality-specific structures and parameter sets. We perform instruction tuning of the VLG (i.e., EMU2) using Lateralization LoRA on the LeafInstruct dataset. Extensive experiments demonstrate that EMU2 tuned with Lateralization LoRA achieve state-of-the-art performance, significantly surpassing baseline models in complex interleaved tasks.
翻訳日:2024-07-08 19:21:33 公開日:2024-07-04
# テンソル$\ell_{2,p}$正則化による直交制約最小化

Orthogonal Constrained Minimization with Tensor $\ell_{2,p}$ Regularization for HSI Denoising and Destriping ( http://arxiv.org/abs/2407.03605v1 )

ライセンス: Link先を確認
Xiaoxia Liu, Shijie Yu, Jian Lu, Xiaojun Chen, (参考訳) ハイパースペクトル画像(HSI)は、ガウスノイズ、デッドライン、ストライプなどの混合ノイズによって汚染されることが多い。 本論文では,直交制約最小化モデルと収束保証付き反復アルゴリズムからなるHSIデノベートおよびデトリップのための新しい手法NLTL2pを提案する。 提案したNLTL2pアプローチのモデルは、新しいスパシティ強化された非局所低ランクテンソル正規化と、$p\in(0,1)$を持つテンソル$\ell_{2,p}$ノルムに基づいて構築される。 低ランク化のための低ランク制約は、HSIの空間的非局所的な自己相似性とスペクトル相関を利用しており、より低ランク化を促すために、そのコアテンソルに間隔の増大を伴う独立な高階特異値分解に基づいて定式化されている。 HSIデストリップのテンソル $\ell_{2,p}$ノルムは行列 $\ell_{2,p}$ノルムから拡張される。 直交制約による非凸非平滑化を最小化するため,NLTL2p法において近似ブロック座標降下アルゴリズムを提案する。 提案アルゴリズムにより生成された列の任意の累積点が一階定常点に収束し、直交制約に対する準定常性、対称性、実現可能性の3つの等式を用いて定義される。 数値実験では,提案手法をディープラーニングに基づく手法を含む最先端の手法と比較し,シミュレーションおよび実HSIデータセットを用いて実験を行った。 提案したNLTL2p法は,平均ピーク信号-雑音比や視覚的品質といった指標を用いて,性能を実証する。

Hyperspectral images (HSIs) are often contaminated by a mixture of noises such as Gaussian noise, dead lines, stripes, and so on. In this paper, we propose a novel approach for HSI denoising and destriping, called NLTL2p, which consists of an orthogonal constrained minimization model and an iterative algorithm with convergence guarantees. The model of the proposed NLTL2p approach is built based on a new sparsity-enhanced Nonlocal Low-rank Tensor regularization and a tensor $\ell_{2,p}$ norm with $p\in(0,1)$. The low-rank constraints for HSI denoising utilize the spatial nonlocal self-similarity and spectral correlation of HSIs and are formulated based on independent higher-order singular value decomposition with sparsity enhancement on its core tensor to prompt more low-rankness. The tensor $\ell_{2,p}$ norm for HSI destriping is extended from the matrix $\ell_{2,p}$ norm. A proximal block coordinate descent algorithm is proposed in the NLTL2p approach to solve the resulting nonconvex nonsmooth minimization with orthogonal constraints. We show any accumulation point of the sequence generated by the proposed algorithm converges to a first-order stationary point, which is defined using three equalities of substationarity, symmetry, and feasibility for orthogonal constraints. In the numerical experiments, we compare the proposed method with state-of-the-art methods including a deep learning based method, and test the methods on both simulated and real HSI datasets. Our proposed NLTL2p method demonstrates outperformance in terms of metrics such as mean peak signal-to-noise ratio as well as visual quality.
翻訳日:2024-07-08 19:21:33 公開日:2024-07-04
# コヒーレント攻撃に対する連続可変量子デジタル署名

Continuous-variable quantum digital signatures against coherent attacks ( http://arxiv.org/abs/2407.03609v1 )

ライセンス: Link先を確認
Yi-Fan Zhang, Wen-Bo Liu, Bing-Hong Li, Hua-Lei Yin, Zeng-Bing Chen, (参考訳) 量子デジタルシグネチャ(QDS)は、送信者と受信者の関連ビット文字列を利用して、量子法則に基づく古典的メッセージの真正性、完全性、非再考を保証する。 ヘテロダインとホモダインの測定を併用した連続可変(CV)量子プロトコルは、低コストの実装と波長分割多重化の利点を明らかに持っている。 しかし、過去の研究におけるセキュリティ分析は、有限サイズのシナリオにおける集団攻撃に対する証明に限られていた。 さらに、既存のマルチビットCV QDSスキームは、セキュリティ証明の簡易化のためにシングルビットプロトコルの適応に重点を置いており、しばしば署名効率を犠牲にしている。 本稿では,最先端の忠実度テスト関数を用いて汎用的コヒーレント攻撃に耐えるように設計されたCV QDSプロトコルを提案する。 我々のプロトコルは、量子チャネルにおける有限サイズ効果と余剰ノイズに対して堅牢であることが証明された。 シミュレーションでは,既存のCVQDSプロトコルと比較して,メガビットメッセージ署名タスクの署名長が6桁以上減少し,メッセージサイズが大きくなるにつれてその利点が拡大することを示した。 私たちの研究は、セキュリティと効率を向上したソリューションを提供し、将来の量子ネットワークにおけるCV QDSの大規模展開を可能にします。

Quantum digital signatures (QDS), which utilize correlated bit strings among sender and recipients, guarantee the authenticity, integrity and non-repudiation of classical messages based on quantum laws. Continuous-variable (CV) quantum protocol with heterodyne and homodyne measurement has obvious advantages of low-cost implementation and easy wavelength division multiplexing. However, security analyses in previous researches are limited to the proof against collective attacks in finite-size scenarios. Moreover, existing multi-bit CV QDS schemes have primarily focused on adapting single-bit protocols for simplicity of security proof, often sacrificing signature efficiency. Here, we introduce a CV QDS protocol designed to withstand general coherent attacks through the use of a cutting-edge fidelity test function, while achieving high signature efficiency by employing a refined one-time universal hashing signing technique. Our protocol is proved to be robust against finite-size effects and excess noise in quantum channels. In simulation, results demonstrate a significant reduction of over 6 orders of magnitude in signature length for a megabit message signing task compared to existing CV QDS protocols and this advantage expands as the message size grows. Our work offers a solution with enhanced security and efficiency, paving the way for large-scale deployment of CV QDS in future quantum networks.
翻訳日:2024-07-08 19:21:33 公開日:2024-07-04
# VDMA:動的に生成するマルチエージェントによるビデオ質問応答

VDMA: Video Question Answering with Dynamically Generated Multi-Agents ( http://arxiv.org/abs/2407.03610v1 )

ライセンス: Link先を確認
Noriyuki Kugo, Tatsuya Ishibashi, Kosuke Ono, Yuji Sato, (参考訳) この技術レポートは、EgoSchema Challenge 2024への我々のアプローチを詳細に説明している。 EgoSchema Challengeは、ビデオクリップに関する質問に対する最も適切な応答を特定することを目的としている。 本稿では,動的に生成するマルチエージェント(VDMA)を用いたビデオ質問応答を提案する。 本手法は,動的に生成するエキスパートエージェントを持つマルチエージェントシステムを用いて,既存の応答生成システムに対する補完的なアプローチである。 この方法は、最も正確で、文脈的に適切な応答を提供することを目的としている。 本報告では, アプローチの段階, 採用ツール, 実験結果について詳述する。

This technical report provides a detailed description of our approach to the EgoSchema Challenge 2024. The EgoSchema Challenge aims to identify the most appropriate responses to questions regarding a given video clip. In this paper, we propose Video Question Answering with Dynamically Generated Multi-Agents (VDMA). This method is a complementary approach to existing response generation systems by employing a multi-agent system with dynamically generated expert agents. This method aims to provide the most accurate and contextually appropriate responses. This report details the stages of our approach, the tools employed, and the results of our experiments.
翻訳日:2024-07-08 19:21:33 公開日:2024-07-04
# コードセマンティックス理解における大規模言語モデルの能力に関する実証的研究

An Empirical Study on Capability of Large Language Models in Understanding Code Semantics ( http://arxiv.org/abs/2407.03611v1 )

ライセンス: Link先を確認
Thu-Trang Nguyen, Thanh Trong Vu, Hieu Dinh Vo, Son Nguyen, (参考訳) コードのための大規模言語モデル(コードLLM)は、様々なソフトウェアエンジニアリング(SE)タスクにまたがって顕著な性能を示し、ソフトウェア開発におけるコードLLMの適用を増加させている。 コードLLMの成功にもかかわらず、これらのモデルの実際の能力と信頼性について、"これらのモデルが実際にトレーニングデータからコードのセマンティクスを学び、SEタスクを実行するために学習した知識を活用するかどうか"という重要な懸念が残っている。 本稿では,コード意味論の理解において,コードLLMの能力を体系的かつ実証的に評価するために設計された包括的フレームワークであるEMPICAを紹介する。 具体的には、EMPICAは、制御された修正/変換を入力コードに体系的に導入し、モデルの応答を調べる。 一般的に、LLMは意味論的に等価なコード入力に対して堅牢でなければならない。 特に、すべてのSEタスクにおいて、入力コードスニペットcとその意味的等価変種が与えられた場合、LLMは、cとその意味的非等価変種に対して異なる出力を生成すると期待されている間に、一貫性/等価な出力を強固に生成しなければならない。 コード要約、メソッド名予測、出力予測を含む3つの代表的なコード理解タスクに関する実験結果から、現状のコードLLMのコード変換に対する堅牢性と感度がタスクや変換演算子によって大きく異なることが明らかとなった。 加えて、LLMは意味保存変換に対する感度よりも意味保存変換に対する堅牢性が高い。 これらの結果は、コードセマンティクス、特に感度特性を理解するモデルの能力を強化する必要性を浮き彫りにしている。

Large Language Models for Code (code LLMs) have demonstrated remarkable performance across various software engineering (SE) tasks, increasing the application of code LLMs in software development. Despite the success of code LLMs, there remain significant concerns about the actual capabilities and reliability of these models, "whether these models really learn the semantics of code from the training data and leverage the learned knowledge to perform the SE tasks". In this paper, we introduce EMPICA, a comprehensive framework designed to systematically and empirically evaluate the capabilities of code LLMs in understanding code semantics. Specifically, EMPICA systematically introduces controlled modifications/transformations into the input code and examines the models' responses. Generally, code LLMs must be robust to semantically equivalent code inputs and be sensitive to non-equivalent ones for all SE tasks. Specifically, for every SE task, given an input code snippet c and its semantic equivalent variants, code LLMs must robustly produce consistent/equivalent outputs while they are expected to generate different outputs for c and its semantic non-equivalent variants. Our experimental results on three representative code understanding tasks, including code summarization, method name prediction, and output prediction, reveal that the robustness and sensitivity of the state-of-the-art code LLMs to code transformations vary significantly across tasks and transformation operators. In addition, the code LLMs exhibit better robustness to the semantic preserving transformations than their sensitivity to the semantic non-preserving transformations. These results highlight a need to enhance the model's capabilities of understanding code semantics, especially the sensitivity property.
翻訳日:2024-07-08 19:21:33 公開日:2024-07-04
# 次アネレスト近傍ホッピングを持つ量子ラビ正方形における量子相転移

Quantum phase transition in a quantum Rabi square with next-nearest-neighbor hopping ( http://arxiv.org/abs/2407.03612v1 )

ライセンス: Link先を確認
Yilun Xu, Feng-Xao Sun, Qiongyi He, Han Pu, Wei Zhang, (参考訳) 正方形の頂点に位置する4つの量子ラビ系のうち、最も近い隣り合う光子ホッピングと次の隣り合う光子ホッピングの両方が許容される量子ラビ正方形モデルを提案する。 反強磁性超ラジアント相とフラストレーションされた超ラジアント相の間の一階相転移と、通常相と超ラジアント相の間の二階相転移を実現する。 このような相の出現を理解するため, 次世代ホッピングによる効果が人工ゲージ相と等価であることを示す。 量子シミュレーションや量子材料への応用における量子制御を実現するためのゲージ位相の代替として,次のアレスト近傍ホッピングが有効であることが示唆され,我々のモデルは,平方格子上の量子スピンモデルに対するフラストレーション (J_1$-$J_2$) の基本構成ブロックを表現している。

We propose a quantum Rabi square model where both the nearest-neighbor and the next-nearest-neighbor photon hopping are allowed among four quantum Rabi systems located at the vertices of a square. By tuning the next-nearest hopping strength, we realize a first-order phase transition between the antiferromagnetic superradiant phase and the frustrated superradiant phase, as well as a second-order phase transition between the normal and the superradiant phases. To understand the emergence of such phases, we show analytically that the effect induced by next-nearest hopping is equivalent to that of an artificial gauge phase. Our findings suggest that the next-nearest-neighbor hopping can serve as an alternative for the gauge phase to realize quantum control in applications of quantum simulation and quantum materials, and that our model represents a basic building block for the frustrated $J_1$-$J_2$ quantum spin model on square lattices.
翻訳日:2024-07-08 19:21:33 公開日:2024-07-04
# 対話の可視化:大規模言語モデルを用いた対話理解による画像選択の促進

Visualizing Dialogues: Enhancing Image Selection through Dialogue Understanding with Large Language Models ( http://arxiv.org/abs/2407.03615v1 )

ライセンス: Link先を確認
Chang-Sheng Kao, Yun-Nung Chen, (参考訳) 近年の対話システムの進歩は、テキストベースのインタラクションにのみ依存するのではなく、多様なモダリティを通じてアイデアを伝達できるマルチモーダル応答の統合の重要性を強調している。 この豊かさは、全体的なコミュニケーション効果を向上するだけでなく、会話体験の質を高める。 しかし、複雑な対話を正確に解釈する上で、事前学習された視覚言語モデル(VLM)の制約により、既存の対話画像検索手法は制限に直面している。 そこで本稿では,大規模言語モデル(LLM)の頑健な推論機能を活用して,正確な対話関連視覚記述子を生成する手法を提案する。 ベンチマークデータを用いて行った大規模な実験は、簡潔で正確な視覚記述子の抽出における提案手法の有効性を検証し、対話と画像の検索性能を大幅に向上させる結果となった。 さらに,本手法は,様々な視覚的手がかり,多様なLCM,異なるデータセットにまたがる一般化可能性を示し,実世界の応用におけるその実用性と潜在的影響を明らかにした。

Recent advancements in dialogue systems have highlighted the significance of integrating multimodal responses, which enable conveying ideas through diverse modalities rather than solely relying on text-based interactions. This enrichment not only improves overall communicative efficacy but also enhances the quality of conversational experiences. However, existing methods for dialogue-to-image retrieval face limitations due to the constraints of pre-trained vision language models (VLMs) in comprehending complex dialogues accurately. To address this, we present a novel approach leveraging the robust reasoning capabilities of large language models (LLMs) to generate precise dialogue-associated visual descriptors, facilitating seamless connection with images. Extensive experiments conducted on benchmark data validate the effectiveness of our proposed approach in deriving concise and accurate visual descriptors, leading to significant enhancements in dialogue-to-image retrieval performance. Furthermore, our findings demonstrate the method's generalizability across diverse visual cues, various LLMs, and different datasets, underscoring its practicality and potential impact in real-world applications.
翻訳日:2024-07-08 19:21:33 公開日:2024-07-04
# 弱い潜伏因子はいつ統計的に推測できるのか?

When can weak latent factors be statistically inferred? ( http://arxiv.org/abs/2407.03616v1 )

ライセンス: Link先を確認
Jianqing Fan, Yuling Yan, Yuheng Zheng, (参考訳) 本稿では,主成分分析(PCA)の新しい包括的・包括的推定理論を,雑音レベルや信号対雑音比に対する因子強度を最小限に抑え,断面積依存の慣性成分を許容する弱因子モデルの下で確立する。 我々の理論は断面次元$N$と時間次元$T$の相対的な成長速度によらず適用可能である。 このより現実的な仮定と顕著な結果は、完全に新しい技術装置を必要とする。 例えば、$N\asymp T$ の場合、PCA ベースの推定器の漸近正規性は、信号-雑音比 (SNR) が$\log N$ の多項式速度よりも早く増加する限り、保たれることを示す。 この発見は、多項式レートが$N$を必要とした以前の作業を大幅に上回る。 我々の理論は完全に非漸近的であり、推測誤差と統計的推論の不確実性の両方に有限サンプルの特性を与える。 特筆すべき技術的革新は、PCAベースの推定器のクローズドフォームの1次近似であり、様々な統計的テストの道を開くものである。 さらに,提案理論を適用して,未知の潜伏因子の線形スパンに該当する要因の検証,各ユニットの因子負荷における構造的欠陥の検証,2つのユニットが同一のリスク露光を有するかどうかの検証,系統的リスクに対する信頼区間の構築を行う。 私たちの実証研究は、テスト結果と経済サイクルの洞察に富んだ相関関係を明らかにしました。

This article establishes a new and comprehensive estimation and inference theory for principal component analysis (PCA) under the weak factor model that allow for cross-sectional dependent idiosyncratic components under nearly minimal the factor strength relative to the noise level or signal-to-noise ratio. Our theory is applicable regardless of the relative growth rate between the cross-sectional dimension $N$ and temporal dimension $T$. This more realistic assumption and noticeable result requires completely new technical device, as the commonly-used leave-one-out trick is no longer applicable to the case with cross-sectional dependence. Another notable advancement of our theory is on PCA inference $ - $ for example, under the regime where $N\asymp T$, we show that the asymptotic normality for the PCA-based estimator holds as long as the signal-to-noise ratio (SNR) grows faster than a polynomial rate of $\log N$. This finding significantly surpasses prior work that required a polynomial rate of $N$. Our theory is entirely non-asymptotic, offering finite-sample characterizations for both the estimation error and the uncertainty level of statistical inference. A notable technical innovation is our closed-form first-order approximation of PCA-based estimator, which paves the way for various statistical tests. Furthermore, we apply our theories to design easy-to-implement statistics for validating whether given factors fall in the linear spans of unknown latent factors, testing structural breaks in the factor loadings for an individual unit, checking whether two units have the same risk exposures, and constructing confidence intervals for systematic risks. Our empirical studies uncover insightful correlations between our test results and economic cycles.
翻訳日:2024-07-08 19:21:33 公開日:2024-07-04
# BM25S:熱狂的スパーススコアによる語彙探索の桁数

BM25S: Orders of magnitude faster lexical search via eager sparse scoring ( http://arxiv.org/abs/2407.03618v1 )

ライセンス: Link先を確認
Xing Han Lù, (参考訳) BM25Sは,NumpyとScipyにのみ依存する,効率的なPythonベースのBM25の実装である。 BM25Sは、インデックス作成中にBM25スコアを熱心に計算し、それらをスパース行列に格納することで、最も人気のあるPythonベースのフレームワークと比較して最大500倍のスピードアップを達成する。 また、人気のある商用製品で使われている高度に最適化されたJavaベースの実装と比較して、かなりのスピードアップを実現している。 最後に、BM25Sは、Kamphuis et al (2020) に基づく5つのBM25変種(英語版)の正確な実装を、新しいスコアシフト法を用いて非スパース変種に拡張することによって再現する。 コードはhttps://github.com/xhluca/bm25sで確認できる。

We introduce BM25S, an efficient Python-based implementation of BM25 that only depends on Numpy and Scipy. BM25S achieves up to a 500x speedup compared to the most popular Python-based framework by eagerly computing BM25 scores during indexing and storing them into sparse matrices. It also achieves considerable speedups compared to highly optimized Java-based implementations, which are used by popular commercial products. Finally, BM25S reproduces the exact implementation of five BM25 variants based on Kamphuis et al. (2020) by extending eager scoring to non-sparse variants using a novel score shifting method. The code can be found at https://github.com/xhluca/bm25s
翻訳日:2024-07-08 19:21:33 公開日:2024-07-04
# ニューロン1512の謎:メタのLlama 2モデルの内部特性を解明するインジェクタブル・アライメント・アーキテクチャー

The Mysterious Case of Neuron 1512: Injectable Realignment Architectures Reveal Internal Characteristics of Meta's Llama 2 Model ( http://arxiv.org/abs/2407.03621v1 )

ライセンス: Link先を確認
Brenden Smith, Dallin Baker, Clayton Chase, Myles Barney, Kaden Parker, Makenna Allred, Peter Hu, Alex Evans, Nancy Fulda, (参考訳) 大規模言語モデル(LLM)は、それらを生成するテキストに反映することにより、その出力を様々な人間の好みに"適応"する、未熟で価値の低い能力を持っている。 しかし、そのようなモデルの内部特性はほとんど不透明である。 本稿では、言語モデルの解釈可能性と説明可能性に対する新しいアプローチとして、IRM(Injectable Realignment Model)を提案する。 ニューラルプログラミングインタフェースに関する初期の研究に触発され、7BパラメータLLMアーキテクチャ内で感情に基づくアライメントを誘導するために、小さなネットワーク(IRM)を構築し、訓練します。 IRM出力は、LCMの前方通過中に様々な点において層状付加により注入され、元のモデルの重みを変えることなくその挙動を調節する。 これにより、変換器モデルの複雑なメカニズムからアライメントの挙動を分離する。 訓練されたIRMの出力の分析では、興味深いパターンが明らかになっている。 24以上のトレーニング実行と複数のアライメントデータセットを通じて、IRMアクティベーションのパターンは、レイヤ自体に関連づけられるのではなく、各トランスフォーマー層内のニューロンのインデックスに関連付けられたストレートに整合する。 さらに、単一のニューロンインデックス(1512)は、全ての試験されたアライメントと強く相関している。 この結果は当初は直感的ではなかったが、ほとんどすべての市販のトランスフォーマーアーキテクチャに存在する設計上の選択に直接起因しており、Metaの事前訓練されたLlama 2モデルの潜在的な弱点を浮き彫りにしている。 また、言語モデル分析と解釈可能性のためのIRMアーキテクチャの価値も示している。 私たちのコードとデータセットはhttps://github.com/DRAGNLabs/injectable-alignment-modelで公開されています。

Large Language Models (LLMs) have an unrivaled and invaluable ability to "align" their output to a diverse range of human preferences, by mirroring them in the text they generate. The internal characteristics of such models, however, remain largely opaque. This work presents the Injectable Realignment Model (IRM) as a novel approach to language model interpretability and explainability. Inspired by earlier work on Neural Programming Interfaces, we construct and train a small network -- the IRM -- to induce emotion-based alignments within a 7B parameter LLM architecture. The IRM outputs are injected via layerwise addition at various points during the LLM's forward pass, thus modulating its behavior without changing the weights of the original model. This isolates the alignment behavior from the complex mechanisms of the transformer model. Analysis of the trained IRM's outputs reveals a curious pattern. Across more than 24 training runs and multiple alignment datasets, patterns of IRM activations align themselves in striations associated with a neuron's index within each transformer layer, rather than being associated with the layers themselves. Further, a single neuron index (1512) is strongly correlated with all tested alignments. This result, although initially counterintuitive, is directly attributable to design choices present within almost all commercially available transformer architectures, and highlights a potential weak point in Meta's pretrained Llama 2 models. It also demonstrates the value of the IRM architecture for language model analysis and interpretability. Our code and datasets are available at https://github.com/DRAGNLabs/injectable-alignment-model
翻訳日:2024-07-08 19:21:33 公開日:2024-07-04
# MSfusion:大規模モデルの協調学習のための資源制約マシンの動的モデル分割アプローチ

MSfusion: A Dynamic Model Splitting Approach for Resource-Constrained Machines to Collaboratively Train Larger Models ( http://arxiv.org/abs/2407.03622v1 )

ライセンス: Link先を確認
Jin Xie, Songze Li, (参考訳) 大きなモデルのトレーニングには大量のデータと豊富な計算リソースが必要です。 コラボレーティブラーニング(フェデレートラーニングなど)は、多くの参加者からの集合データを活用するための有望なパラダイムを提供する一方で、モバイルデバイスのような限られたリソースを持つ参加者にとって、大規模なモデルのトレーニングは依然として大きな課題である。 モデル分割による資源制約マシン上での大規模モデルのトレーニングに適した,効率的かつ効率的な協調学習フレームワークであるMSfusionを紹介する。 具体的には、各トレーニングラウンドにおいて、各参加者は、局所データをトレーニングするためにモデルのパラメータのサブセットを割り当て、共通のパラメータ上の他のピアのサブモデルと集約するように、ダブルシフトモデル分割スキームを設計する。 モデル分割は個々の参加者の計算と通信コストを大幅に削減するが、適応モデルオーバーラップと対照的な損失関数に関する新たな設計は、MSfusionが参加者間のモデルシフトに対してトレーニング効率を維持するのに役立つ。 画像およびNLPタスクの広範囲にわたる実験は、大規模モデルのトレーニングにおけるMSfusionの性能と効率の顕著な利点を示し、その強力なスケーラビリティを示す: 参加者の計算コストは、参加者の数が増えるにつれて大幅に減少する。

Training large models requires a large amount of data, as well as abundant computation resources. While collaborative learning (e.g., federated learning) provides a promising paradigm to harness collective data from many participants, training large models remains a major challenge for participants with limited resources like mobile devices. We introduce MSfusion, an effective and efficient collaborative learning framework, tailored for training larger models on resourceconstraint machines through model splitting. Specifically, a double shifting model splitting scheme is designed such that in each training round, each participant is assigned a subset of model parameters to train over local data, and aggregates with sub-models of other peers on common parameters. While model splitting significantly reduces the computation and communication costs of individual participants, additional novel designs on adaptive model overlapping and contrastive loss functions help MSfusion to maintain training effectiveness, against model shift across participants. Extensive experiments on image and NLP tasks illustrate significant advantages of MSfusion in performance and efficiency for training large models, and its strong scalability: computation cost of each participant reduces significantly as the number of participants increases.
翻訳日:2024-07-08 19:21:33 公開日:2024-07-04
# 再サンプリングされたデータセットは不十分。単一属性を超える社会的なバイアスを緩和する

Resampled Datasets Are Not Enough: Mitigating Societal Bias Beyond Single Attributes ( http://arxiv.org/abs/2407.03623v1 )

ライセンス: Link先を確認
Yusuke Hirota, Jerone T. A. Andrew, Dora Zhao, Orestis Papakyriakopoulos, Apostolos Modas, Yuta Nakashima, Alice Xiang, (参考訳) 我々は、保護されたグループと画像属性の急激な相関を取り除き、画像テキストデータセットの社会的バイアスに取り組む。 従来の手法はラベル付属性のみを対象としており、ラベル付属性のバイアスを無視している。 テキスト誘導インペイントモデルを用いることで、すべての属性から保護されたグループ独立を保証し、データフィルタリングによるインペイントバイアスを軽減する。 マルチラベル画像分類と画像キャプションタスクの評価は,様々なモデルにまたがる性能を損なうことなく,効果的にバイアスを低減できることを示す。

We tackle societal bias in image-text datasets by removing spurious correlations between protected groups and image attributes. Traditional methods only target labeled attributes, ignoring biases from unlabeled ones. Using text-guided inpainting models, our approach ensures protected group independence from all attributes and mitigates inpainting biases through data filtering. Evaluations on multi-label image classification and image captioning tasks show our method effectively reduces bias without compromising performance across various models.
翻訳日:2024-07-08 19:21:33 公開日:2024-07-04
# 推論タスクにおけるLLM性能向上のための質問分析プロンプト

Question-Analysis Prompting Improves LLM Performance in Reasoning Tasks ( http://arxiv.org/abs/2407.03624v1 )

ライセンス: Link先を確認
Dharunish Yugeswardeenoo, Kevin Zhu, Sean O'Brien, (参考訳) LLMは、多くの分野を変換する可能性があるが、それでも推論タスクにおいて人間を過小評価している。 既存の手法は、ステップバイステップの計算をモデルに誘導するが、本研究では、問題を探究する。 本稿では,QAP(Qarguage Analysis Prompting)と呼ばれる新しいプロンプト戦略を提案する。 n$の値は、モデルによって生成されたレスポンスの長さに影響を与える。 算術データセット GSM8K, AQuA, SAT および常識データセット StrategyQA を用いて, GPT 3.5 Turbo と GPT 4 Turbo でQAPを評価した。 QAPは、Chain-of-Thought(CoT)、Plan and Solve Prompting(PS+)、Take A Deep Breath(TADB)といった最先端のプロンプトと比較される。 QAPは、GPT3.5とGPT4の両方でAQuAとSATのデータセットの最先端のプロンプトをすべて上回っている。 QAPは、テストの75%で、常にトップ2のプロンプトにランクインしている。 QAPのパフォーマンスの重要な要因は応答長であり、より難しい質問に答えるときに詳細な応答が有用であるが、簡単な質問に悪影響を及ぼす可能性がある。

Although LLMs have the potential to transform many fields, they still underperform humans in reasoning tasks. Existing methods induce the model to produce step-by-step calculations, but this research explores the question: Does making the LLM analyze the question improve its performance? We propose a novel prompting strategy called Question Analysis Prompting (QAP), in which the model is prompted to explain the question in $n$ words before solving. The value of $n$ influences the length of response generated by the model. QAP is evaluated on GPT 3.5 Turbo and GPT 4 Turbo on arithmetic datasets GSM8K, AQuA, and SAT and commonsense dataset StrategyQA. QAP is compared with other state-of-the-art prompts including Chain-of-Thought (CoT), Plan and Solve Prompting (PS+) and Take A Deep Breath (TADB). QAP outperforms all state-of-the-art prompts on AQuA and SAT datasets on both GPT3.5 and GPT4. QAP consistently ranks among the top-2 prompts on 75\% of the tests. A key factor of QAP performance can be attributed to response length, where detailed responses are beneficial when answering harder questions, but can negatively affect easy questions.
翻訳日:2024-07-08 19:21:33 公開日:2024-07-04
# 静的コレクターとニューラルリランカによる閉塞性検査症例の修復を目的としたLLMの増強

Augmenting LLMs to Repair Obsolete Test Cases with Static Collector and Neural Reranker ( http://arxiv.org/abs/2407.03625v1 )

ライセンス: Link先を確認
Jun Liu, Jiwei Yan, Yuanyuan Xie, Jun Yan, Jian Zhang, (参考訳) ソフトウェア進化の過程では、テストコードは本番コードと共進化するべきだと提唱されている。 実際の開発シナリオでは、テストの更新が本番コードの変更に遅れる可能性があるため、プロジェクトがコンパイルに失敗したり、他の問題を引き起こしたりする可能性がある。 既存のトレーニング済み言語モデルに基づくテクニックは、このような非同期コード変更、特に構文関連テストによる古いテストの修復に採用することができる。 しかし、ターゲット指向のコンテキスト情報の欠如は、大規模プロジェクトの修復精度に影響を及ぼす。 古くなったテストから始めて、重要な課題は、限定されたトークンサイズでリポジトリ全体からTest-Repair-Oriented Context(TROCtx)を正確に識別し、構築することである。 本稿では,SynBCIATR(Syntactic-Breaking-Change-induced Automated Test repair)を提案する。 タスクの開発者のプログラミングプラクティスに触発されて、クラスコンテキスト、使用コンテキスト、環境コンテキストの3つのタイプのTROCtxを設計しました。 TROCtxのすべてのタイプについて、SynBCIATRは静的解析技術を通じて変更トーケン関連のコード情報を自動的に収集する。 次に、最も関連性の高いTROCtxを識別するために、リグレードクエリを生成し、修理要求キーコンテキストとして取り込まれ、最終テストの修正のためにLarge Language Modelに入力される。 SynBCIATRの有効性を評価するために,多様な構文的破壊変化を含むベンチマークデータセットを構築した。 実験の結果,SynBCIATRはテキストマッチングとインテントマッチングの両方でベースラインアプローチよりも優れていた。 SynBCIATRによるTROCtxの増強により、幻覚は57.1%減少する。

During software evolution, it is advocated that test code should co-evolve with production code. In real development scenarios, test updating may lag behind production code changing, which may cause the project to fail to compile or bring other troubles. Existing techniques based on pre-trained language models can be adopted to repair obsolete tests caused by such unsynchronized code changes, especially syntactic-related ones. However, the lack of target-oriented contextual information affects repair accuracy on large-scale projects. Starting from an obsoleted test, the key challenging task is precisely identifying and constructing Test-Repair-Oriented Contexts (TROCtx) from the whole repository within a limited token size. In this paper, we propose SynBCIATR (Syntactic-Breaking-Change-Induced Automated Test Repair), a novel approach to automatically repair obsolete test cases via precise and concise TROCtx construction. Inspired by developers' programming practices of the task, we design three types of TROCtx: class contexts, usage contexts, and environment contexts. For every type of TROCtx, SynBCIATR automatically collects the changed-token-related code information through static analysis techniques. Then it generates reranking queries to identify the most relevant TROCtxs, which will be taken as the repair-required key context and be input to the Large Language Model for the final test repair. To evaluate the effectiveness of SynBCIATR, we construct a benchmark dataset that contains diverse syntactic breaking changes. The experimental results show that SynBCIATR outperforms baseline approaches both on textual- and intent-matching metrics. With the augmentation of TROCtx constructed by SynBCIATR, hallucinations are reduced by 57.1%.
翻訳日:2024-07-08 19:11:48 公開日:2024-07-04
# DSLR:文レベル再分類による文書のリファインメントと検索機能強化のための再構築

DSLR: Document Refinement with Sentence-Level Re-ranking and Reconstruction to Enhance Retrieval-Augmented Generation ( http://arxiv.org/abs/2407.03627v1 )

ライセンス: Link先を確認
Taeho Hwang, Soyeong Jeong, Sukmin Cho, SeungYoon Han, Jong C. Park, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な自然言語処理(NLP)タスクにおいて、その性能を大幅に改善している。 しかし、LCMはパラメトリックメモリの制限のため、非実効応答の生成に苦慮している。 Retrieval-Augmented Generation (RAG) システムは、外部知識を検索モジュールに組み込むことでこの問題に対処する。 しかし、その成功にもかかわらず、現在のRAGシステムは、検索に失敗し、LLMが無関係な情報をフィルタリングする能力に制限があるという問題に直面している。 そこで本研究では,検索した文書を文に分解し,無関係な文をフィルタリングし,それらをコヒーレントな文に再構成する,教師なしのフレームワークである, \textbf{S}entence-\textbf{L}evel \textbf{R}evel \textbf{R}e rank and Reconstructionを提案する。 我々は,複数のオープンドメインQAデータセット上での \textit{DSLR} の有効性を実験的に検証した。 さらに,我々の \textit{DSLR} は,追加のトレーニングを必要とせずに,特定のシナリオにおけるパフォーマンスを向上させる。

Recent advancements in Large Language Models (LLMs) have significantly improved their performance across various Natural Language Processing (NLP) tasks. However, LLMs still struggle with generating non-factual responses due to limitations in their parametric memory. Retrieval-Augmented Generation (RAG) systems address this issue by incorporating external knowledge with a retrieval module. Despite their successes, however, current RAG systems face challenges with retrieval failures and the limited ability of LLMs to filter out irrelevant information. Therefore, in this work, we propose \textit{\textbf{DSLR}} (\textbf{D}ocument Refinement with \textbf{S}entence-\textbf{L}evel \textbf{R}e-ranking and Reconstruction), an unsupervised framework that decomposes retrieved documents into sentences, filters out irrelevant sentences, and reconstructs them again into coherent passages. We experimentally validate \textit{DSLR} on multiple open-domain QA datasets and the results demonstrate that \textit{DSLR} significantly enhances the RAG performance over conventional fixed-size passage. Furthermore, our \textit{DSLR} enhances performance in specific, yet realistic scenarios without the need for additional training, providing an effective and efficient solution for refining retrieved documents in RAG systems.
翻訳日:2024-07-08 19:11:48 公開日:2024-07-04
# 構造的・条件的統計的特徴を用いた木材表面検査

Wood Surface Inspection Using Structural and Conditional Statistical Features ( http://arxiv.org/abs/2407.03630v1 )

ライセンス: Link先を確認
Cem Ünsalan, (参考訳) 表面品質は、市場での木材製品にとって非常に重要な問題である。 品質検査は、製造中に人間の専門家が行うことができるが、この操作は間違いをしがちである。 可能な解決策の1つは、標準的な機械ビジョン技術を使用して、木材表面の欠陥を自動的に検出することかもしれない。 木材表面のランダムなテクスチャのため、この溶液はほとんどの場合不可能である。 そのため、木材表面の自動検査には、より先進的で斬新な機械ビジョン技術が必要である。 本研究では,木表面画像のガウス応答の勾配等級とラプラシアンから支持領域を抽出する手法を提案する。 これらのサポート領域を用いた新しい構造的・条件的統計特徴を導入する。 そして, 木材表面の欠陥の種類を, 新たな特徴を用いて分類する。 木材表面の自動検査システムを大規模データセット上でテストし,有望な結果を得た。

Surface quality is an extremely important issue for wood products in the market. Although quality inspection can be made by a human expert while manufacturing, this operation is prone to errors. One possible solution may be using standard machine vision techniques to automatically detect defects on wood surfaces. Due to the random texture on wood surfaces, this solution is also not possible most of the times. Therefore, more advanced and novel machine vision techniques are needed to automatically inspect wood surfaces. In this study, we propose such a solution based on support region extraction from the gradient magnitude and the Laplacian of Gaussian response of the wood surface image. We introduce novel structural and conditional statistical features using these support regions. Then, we classify different defect types on wood surfaces using our novel features. We tested our automated wood surface inspection system on a large data set and obtained very promising results.
翻訳日:2024-07-08 19:11:48 公開日:2024-07-04
# 各種津波シナリオデータベースにおける連続ベイズ更新の性能について

On the performance of sequential Bayesian update for database of diverse tsunami scenarios ( http://arxiv.org/abs/2407.03631v1 )

ライセンス: Link先を確認
Reika Nomura, Louise A. Hirao Vermare, Saneiki Fujita, Donsub Rim, Shuji Moriguchi, Randall J. LeVeque, Kenjiro Terada, (参考訳) 本研究では, 津波シナリオ検出フレームワークの検証を行ったが, 現実的な観点からはいくつかの課題が解決される。 本研究では, 複雑な断層破断パターンと不均一なすべり分布からなる多種多様なデータベースを用いて, 過去の津波シナリオ検出フレームワークの性能を評価することを目的とする。 具体的には,シナリオ重畳の有効性を,従来最も可能性の高いシナリオ検出手法と比較する。 さらに,観測時間窓の長さが両手法の精度に与える影響を解析した。 我々は,カスカディア沈み込み帯の断層崩壊の結果,合成波高記録と浸水分布を含む1771年の津波シナリオを対象とする既存のデータベースを利用する。 データベースで使われるスリップの不均一パターンはシナリオの多様性を高め、シナリオの重ね合わせのパフォーマンスを評価するのに適切なデータベースとなる。 性能を評価するため、15分未満の観測時間ウィンドウを考慮し、データベースを5つのテストと学習セットに分割する。 最大沖合波, 浸水深度, 分布の評価精度を解析し, シナリオ重ね合わせ法の利点について検討した。 動的時間ゆらぎ (DTW) 法を追加ベンチマークとして導入し, ベイズシナリオ検出法との比較を行った。

Although the sequential tsunami scenario detection framework was validated in our previous work, several tasks remain to be resolved from a practical point of view. This study aims to evaluate the performance of the previous tsunami scenario detection framework using a diverse database consisting of complex fault rupture patterns with heterogeneous slip distributions. Specifically, we compare the effectiveness of scenario superposition to that of the previous most likely scenario detection method. Additionally, how the length of the observation time window influences the accuracy of both methods is analyzed. We utilize an existing database comprising 1771 tsunami scenarios targeting the city Westport (WA, U.S.), which includes synthetic wave height records and inundation distributions as the result of fault rupture in the Cascadia subduction zone. The heterogeneous patterns of slips used in the database increase the diversity of the scenarios and thus make it a proper database for evaluating the performance of scenario superposition. To assess the performance, we consider various observation time windows shorter than 15 minutes and divide the database into five testing and learning sets. The evaluation accuracy of the maximum offshore wave, inundation depth, and its distribution is analyzed to examine the advantages of the scenario superposition method over the previous method. We introduce the dynamic time warping (DTW) method as an additional benchmark and compare its results to that of the Bayesian scenario detection method.
翻訳日:2024-07-08 19:11:48 公開日:2024-07-04
# CLASH: 歩行認識のためのニューラルネットワークによる補完学習

CLASH: Complementary Learning with Neural Architecture Search for Gait Recognition ( http://arxiv.org/abs/2407.03632v1 )

ライセンス: Link先を確認
Huanzhang Dou, Pengyi Zhang, Yuhan Zhao, Lu Jin, Xi Li, (参考訳) 歩行パターンによって個人を識別することを目的とした歩行認識はシルエットに基づいて大きな成功を収めた。 バイナリシルエットシーケンスは、スパース境界表現内のウォーキングパターンを符号化する。 したがって、シルエットのほとんどの画素は、密集したテクスチャで表すのに適した密集した時空間情報を欠いているため、ウォーキングパターンに過敏である。 認識の堅牢性を維持しながら歩行パターンに対する感度を高めるために,我々は,高密度時空間場 (DSTF) と呼ばれる歩行パターンに敏感な歩行記述子と,ニューラルアーキテクチャ検索に基づく補完学習 (NCL) からなる,ニューラルアーキテクチャサーチによる補完学習(CLASH)フレームワークを提案する。 具体的には、DSTFはスパース境界の表現を、ピクセルレベルでの歩行パターンに敏感な、密度の高い距離ベーステクスチャに変換する。 さらに、NCLは、DSTFの感度とシルエットの堅牢性を相互に補完し、効果的に歩行パターンを表すタスク固有探索空間を提示する。 広範に実験を行った結果,提案手法の有効性が示された。 CASIA-Bでは、ランク1の精度は98.8%、96.5%、89.3%である。 OU-MVLPでは、ランク1の精度は91.9%である。 最新のIn-theldデータセットでは、それぞれGait3DとGREWで、最新のシルエットベースのメソッドを16.3%、19.7%上回りました。

Gait recognition, which aims at identifying individuals by their walking patterns, has achieved great success based on silhouette. The binary silhouette sequence encodes the walking pattern within the sparse boundary representation. Therefore, most pixels in the silhouette are under-sensitive to the walking pattern since the sparse boundary lacks dense spatial-temporal information, which is suitable to be represented with dense texture. To enhance the sensitivity to the walking pattern while maintaining the robustness of recognition, we present a Complementary Learning with neural Architecture Search (CLASH) framework, consisting of walking pattern sensitive gait descriptor named dense spatial-temporal field (DSTF) and neural architecture search based complementary learning (NCL). Specifically, DSTF transforms the representation from the sparse binary boundary into the dense distance-based texture, which is sensitive to the walking pattern at the pixel level. Further, NCL presents a task-specific search space for complementary learning, which mutually complements the sensitivity of DSTF and the robustness of the silhouette to represent the walking pattern effectively. Extensive experiments demonstrate the effectiveness of the proposed methods under both in-the-lab and in-the-wild scenarios. On CASIA-B, we achieve rank-1 accuracy of 98.8%, 96.5%, and 89.3% under three conditions. On OU-MVLP, we achieve rank-1 accuracy of 91.9%. Under the latest in-the-wild datasets, we outperform the latest silhouette-based methods by 16.3% and 19.7% on Gait3D and GREW, respectively.
翻訳日:2024-07-08 19:11:48 公開日:2024-07-04
# SOWA:より優れた異常検出のための視覚言語モデルへの階層型凍結窓自己注意の適用

SOWA: Adapting Hierarchical Frozen Window Self-Attention to Visual-Language Models for Better Anomaly Detection ( http://arxiv.org/abs/2407.03634v1 )

ライセンス: Link先を確認
Zongxiang Hu, Zhaosheng Zhang, (参考訳) 視覚異常検出は工業生産において重要であるが、従来の手法は拡張性を制限するため、広範囲の通常のデータセットやカスタムモデルに依存していることが多い。 大規模視覚言語モデルの最近の進歩は、ゼロ/ファウショット異常検出を大幅に改善した。 しかし、これらのアプローチは階層的な特徴を完全に活用していないかもしれない。 我々は,CLIPモデルに基づくウィンドウ自己注意機構を導入し,Soldier-Offier Window Self-Attention (SOWA) フレームワーク内の複数レベルの特徴を学習可能なプロンプトと組み合わせた。 提案手法は5つのベンチマークデータセットで検証され,従来の最先端技術と比較して,20項目中18項目で優れた性能を示した。

Visual anomaly detection is critical in industrial manufacturing, but traditional methods often rely on extensive normal datasets and custom models, limiting scalability. Recent advancements in large-scale visual-language models have significantly improved zero/few-shot anomaly detection. However, these approaches may not fully utilize hierarchical features, potentially missing nuanced details. We introduce a window self-attention mechanism based on the CLIP model, combined with learnable prompts to process multi-level features within a Soldier-Offier Window self-Attention (SOWA) framework. Our method has been tested on five benchmark datasets, demonstrating superior performance by leading in 18 out of 20 metrics compared to existing state-of-the-art techniques.
翻訳日:2024-07-08 19:11:48 公開日:2024-07-04
# MRIR:拡散に基づくリアル画像復元のためのマルチモーダルインサイトの統合

MRIR: Integrating Multimodal Insights for Diffusion-based Realistic Image Restoration ( http://arxiv.org/abs/2407.03635v1 )

ライセンス: Link先を確認
Yuhong Zhang, Hengsheng Zhang, Xinning Chai, Rong Xie, Li Song, Wenjun Zhang, (参考訳) 現実的な画像復元はコンピュータビジョンにおいて重要な課題であり、拡散モデルを用いた画像復元は現実的な結果を生み出す能力から大きな注目を集めている。 しかし, 画像劣化の重大さや拡散モデルの制御不能さから, 生成画像の品質は依然として重要な課題である。 本研究では,画像復元に事前訓練した安定拡散を利用する可能性を探り,マルチモーダルな洞察を持つ拡散に基づく復元法であるMRIRを提案する。 具体的には,テキストレベルと視覚レベルという2つの観点から問題を考察する。 テキストレベルでは、訓練済みのマルチモーダル大言語モデルのパワーを利用して、低品質の画像から意味のある意味情報を推測する。 さらに,CLIP画像エンコーダと設計したRefine Layerを用いて,画像の詳細をサプリメントとしてキャプチャする。 視覚レベルでは、主にピクセルレベルの制御に焦点を当てる。 そこで我々は,Pixelレベルのプロセッサと制御ネットを用いて空間構造を制御する。 最後に、上記制御情報をマルチレベルアテンション機構を用いてデノイングU-Netに統合し、マルチモーダルインサイトによる制御可能な画像復元を実現する。 定性的かつ定量的な結果は,本手法が合成および実世界のデータセットにおいて,他の最先端手法よりも優れていることを示す。

Realistic image restoration is a crucial task in computer vision, and the use of diffusion-based models for image restoration has garnered significant attention due to their ability to produce realistic results. However, the quality of the generated images is still a significant challenge due to the severity of image degradation and the uncontrollability of the diffusion model. In this work, we delve into the potential of utilizing pre-trained stable diffusion for image restoration and propose MRIR, a diffusion-based restoration method with multimodal insights. Specifically, we explore the problem from two perspectives: textual level and visual level. For the textual level, we harness the power of the pre-trained multimodal large language model to infer meaningful semantic information from low-quality images. Furthermore, we employ the CLIP image encoder with a designed Refine Layer to capture image details as a supplement. For the visual level, we mainly focus on the pixel level control. Thus, we utilize a Pixel-level Processor and ControlNet to control spatial structures. Finally, we integrate the aforementioned control information into the denoising U-Net using multi-level attention mechanisms and realize controllable image restoration with multimodal insights. The qualitative and quantitative results demonstrate our method's superiority over other state-of-the-art methods on both synthetic and real-world datasets.
翻訳日:2024-07-08 19:11:48 公開日:2024-07-04
# Diff-Restorer:拡散に基づくユニバーサルイメージ復元のためのビジュアルプロンプトの公開

Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration ( http://arxiv.org/abs/2407.03636v1 )

ライセンス: Link先を確認
Yuhong Zhang, Hengsheng Zhang, Xinning Chai, Zhengxue Cheng, Rong Xie, Li Song, Wenjun Zhang, (参考訳) 画像復元は, ぼやけ, 騒音, 雨, 風など, さまざまな劣化を伴って, 画質の低い画像から高品質な画像を復元することを目的とした, 古典的な低レベルの問題である。 しかし、実世界の画像の複雑さや劣化の非特異性から、単一タスクのための訓練モデルが現実の復元問題を効果的に扱うことは困難である。 さらに、既存の手法は、回復した結果において過度に平滑化とリアリズムの欠如に悩まされることが多い。 これらの問題に対処するために,拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。 具体的には、事前学習された視覚言語モデルを用いて、意味や劣化の埋め込みを含む劣化した画像から視覚的プロンプトを抽出する。 セマンティック埋め込みは、生成のための拡散モデルを導くためのコンテンツプロンプトとして機能する。 対照的に、劣化埋め込みは画像誘導制御モジュールを変調し、拡散過程の空間構造を制御し、元の画像への忠実性を確保する空間先行を生成する。 さらに,デグレーション対応デコーダを設計し,構造的補正を行い,潜時符号を画素領域に変換する。 異なる劣化を伴う修復作業の総合的質的・定量的分析を行い,本手法の有効性と優位性を実証した。

Image restoration is a classic low-level problem aimed at recovering high-quality images from low-quality images with various degradations such as blur, noise, rain, haze, etc. However, due to the inherent complexity and non-uniqueness of degradation in real-world images, it is challenging for a model trained for single tasks to handle real-world restoration problems effectively. Moreover, existing methods often suffer from over-smoothing and lack of realism in the restored results. To address these issues, we propose Diff-Restorer, a universal image restoration method based on the diffusion model, aiming to leverage the prior knowledge of Stable Diffusion to remove degradation while generating high perceptual quality restoration results. Specifically, we utilize the pre-trained visual language model to extract visual prompts from degraded images, including semantic and degradation embeddings. The semantic embeddings serve as content prompts to guide the diffusion model for generation. In contrast, the degradation embeddings modulate the Image-guided Control Module to generate spatial priors for controlling the spatial structure of the diffusion process, ensuring faithfulness to the original image. Additionally, we design a Degradation-aware Decoder to perform structural correction and convert the latent code to the pixel domain. We conducted comprehensive qualitative and quantitative analysis on restoration tasks with different degradations, demonstrating the effectiveness and superiority of our approach.
翻訳日:2024-07-08 19:11:48 公開日:2024-07-04
# HERA: 要素置換による高効率マトリックス圧縮

HERA: High-efficiency Matrix Compression via Element Replacement ( http://arxiv.org/abs/2407.03637v1 )

ライセンス: Link先を確認
Yanshu Wang, Wang Li, Tong Yang, (参考訳) 大規模言語モデル(LLM)は、機械翻訳、テキスト生成、感情分析など、かなり高度な自然言語処理タスクを持つ。 しかし、その大きなサイズは、数十億のパラメータで構成されており、特にモバイルデバイスやエッジコンピューティングプラットフォームのようなリソース制約のある環境では、ストレージ、計算、デプロイメントに課題を生じさせる。 さらに、クエリ処理を高速化するために使われるキー値(k-v)キャッシュは、かなりのメモリとストレージを必要とするため、これらの課題が悪化する。 ベクトルデータベースは、LLMが生成する高次元ベクトルを効率的に管理し、取得するための重要な技術として登場し、高速なデータアクセスと計算要求の低減を可能にしている。 効率的な圧縮と量子化技術は、性能を著しく損なうことなくメモリフットプリントと計算要求を減らし、これらの課題に対処するために不可欠である。 圧縮空間にパラメータを均一にマッピングする伝統的な手法は、パラメータの不均一な分布を考慮せず、かなりの精度の損失をもたらす。 したがって, モデル性能を維持しつつ, 圧縮率の向上を図るためには, 革新的な手法が必要である。 本研究では,行列の圧縮にヒューリスティックな要素置換を用いた新しいアルゴリズムHERAを提案する。 HERAは、モデルの構造を単純化し、その後の圧縮をより効果的にするヒューリスティック手法を用いて、モデル内の要素を体系的に置き換える。 行列データセットを階層的に分割し,圧縮し,再編成することにより,同じ圧縮比で元の12.3%の量子化誤差を効果的に低減することができる。

Large Language Models (LLMs) have significantly advanced natural language processing tasks such as machine translation, text generation, and sentiment analysis. However, their large size, often consisting of billions of parameters, poses challenges for storage, computation, and deployment, particularly in resource-constrained environments like mobile devices and edge computing platforms. Additionally, the key-value (k-v) cache used to speed up query processing requires substantial memory and storage, exacerbating these challenges. Vector databases have emerged as a crucial technology to efficiently manage and retrieve the high-dimensional vectors produced by LLMs, facilitating faster data access and reducing computational demands. Effective compression and quantization techniques are essential to address these challenges, as they reduce the memory footprint and computational requirements without significantly compromising performance. Traditional methods that uniformly map parameters to compressed spaces often fail to account for the uneven distribution of parameters, leading to considerable accuracy loss. Therefore, innovative approaches are needed to achieve better compression ratios while preserving model performance. In this work, we propose HERA, a novel algorithm that employs heuristic Element Replacement for compressing matrix. HERA systematically replaces elements within the model using heuristic methods, which simplifies the structure of the model and makes subsequent compression more effective. By hierarchically segmenting, compressing, and reorganizing the matrix dataset, our method can effectively reduce the quantization error to 12.3% of the original at the same compression ratio.
翻訳日:2024-07-08 19:11:48 公開日:2024-07-04
# 人間の感情認識のための生成技術:スコープレビュー

Generative Technology for Human Emotion Recognition: A Scope Review ( http://arxiv.org/abs/2407.03640v1 )

ライセンス: Link先を確認
Fei Ma, Yucheng Yuan, Yifan Xie, Hongwei Ren, Ivan Liu, Ying He, Fuji Ren, Fei Richard Yu, Shiguang Ni, (参考訳) Affective Computingは人工知能(AI)の最前線に立っており、人間の感情を理解して反応する能力を持つ機械を開発しようとしている。 この分野の中心は感情認識であり、音声、顔画像、テキスト、生理的信号など、異なるモードから人間の感情状態を特定し、解釈する試みである。 近年,Autoencoder,Generative Adversarial Network,Diffusion Model,Large Language Modelなど,生成モデルにおいて重要な進展が見られた。 これらのモデルは、強力なデータ生成能力を持ち、感情認識の進歩において重要なツールとして登場します。 しかし、現在に至るまで、感情認識のための生成技術を見直すための体系的な努力が残されている。 本調査は,2024年6月までに320以上の研究論文を総合的に分析し,既存の文献のギャップを埋めることを目的としている。 具体的には、まず、異なる生成モデルと一般的に使用されるデータセットの数学的原理を紹介する。 その後、分類学を通じて、データ強化、特徴抽出、半教師付き学習、クロスドメインなど、様々な側面において、様々なモーダル性に基づいて生成技術がどのように感情認識に対処するかを詳細に分析する。 最後に、このレビューは将来の研究の方向性を概説し、生成モデルの可能性を強調し、感情認識の分野を前進させ、AIシステムの感情知性を高める。

Affective computing stands at the forefront of artificial intelligence (AI), seeking to imbue machines with the ability to comprehend and respond to human emotions. Central to this field is emotion recognition, which endeavors to identify and interpret human emotional states from different modalities, such as speech, facial images, text, and physiological signals. In recent years, important progress has been made in generative models, including Autoencoder, Generative Adversarial Network, Diffusion Model, and Large Language Model. These models, with their powerful data generation capabilities, emerge as pivotal tools in advancing emotion recognition. However, up to now, there remains a paucity of systematic efforts that review generative technology for emotion recognition. This survey aims to bridge the gaps in the existing literature by conducting a comprehensive analysis of over 320 research papers until June 2024. Specifically, this survey will firstly introduce the mathematical principles of different generative models and the commonly used datasets. Subsequently, through a taxonomy, it will provide an in-depth analysis of how generative techniques address emotion recognition based on different modalities in several aspects, including data augmentation, feature extraction, semi-supervised learning, cross-domain, etc. Finally, the review will outline future research directions, emphasizing the potential of generative models to advance the field of emotion recognition and enhance the emotional intelligence of AI systems.
翻訳日:2024-07-08 19:11:48 公開日:2024-07-04
# 単一GPU上でのスケーラブルな学習モデルセットアップ - 効率的なサブスペーストレーニング戦略

Scalable Learned Model Soup on a Single GPU: An Efficient Subspace Training Strategy ( http://arxiv.org/abs/2407.03641v1 )

ライセンス: Link先を確認
Tao Li, Weisen Jiang, Fanghui Liu, Xiaolin Huang, James T. Kwok, (参考訳) プレトレーニングと微調整が実践者の間で広く採用されている。 モデルスープ"~"\cite{wortsman2022model} によって、様々なハイパーパラメータ構成を探索することで、パフォーマンスを向上させることができる。 一 すべての細調整されたモデルを同時にロードしなければならないこと、 (ii)すべての微調整されたモデルを含む大きな計算グラフ。 本稿では,過平面最適化問題として学習スープを定式化し,混合係数を学習するためにブロック座標勾配勾配を導入することで,メモリ効率の高い過平面学習スープ(MEHL-Soup)を提案する。 各イテレーションにおいて、MEHL-Soupは、いくつかの微調整されたモデルをロードし、1つの組み合わせモデルで計算グラフを構築するだけでよい。 我々はさらにMEHL-SoupをMEHL-Soup+に階層的に拡張する。 様々なViTモデルとデータセットの実験結果から、MEHL-Soup(+)はテスト精度でLearred-Soup(+)より優れており、メモリ使用量は13ドル以上削減されている。 さらに、MEHL-Soup(+)は単一のGPU上で動作可能で、Learned-Soupと比較してスープ構成で9\times$のスピードアップを実現している。 コードはhttps://github.com/nblt/MEHL-Soup.comで公開されている。

Pre-training followed by fine-tuning is widely adopted among practitioners. The performance can be improved by "model soups"~\cite{wortsman2022model} via exploring various hyperparameter configurations.The Learned-Soup, a variant of model soups, significantly improves the performance but suffers from substantial memory and time costs due to the requirements of (i) having to load all fine-tuned models simultaneously, and (ii) a large computational graph encompassing all fine-tuned models. In this paper, we propose Memory Efficient Hyperplane Learned Soup (MEHL-Soup) to tackle this issue by formulating the learned soup as a hyperplane optimization problem and introducing block coordinate gradient descent to learn the mixing coefficients. At each iteration, MEHL-Soup only needs to load a few fine-tuned models and build a computational graph with one combined model. We further extend MEHL-Soup to MEHL-Soup+ in a layer-wise manner. Experimental results on various ViT models and data sets show that MEHL-Soup(+) outperforms Learned-Soup(+) in terms of test accuracy, and also reduces memory usage by more than $13\times$. Moreover, MEHL-Soup(+) can be run on a single GPU and achieves $9\times$ speed up in soup construction compared with the Learned-Soup. The code is released at https://github.com/nblt/MEHL-Soup.
翻訳日:2024-07-08 19:11:48 公開日:2024-07-04
# 多言語ASRシステムの自己回帰デコーダの連続学習最適化

Continual Learning Optimizations for Auto-regressive Decoder of Multilingual ASR systems ( http://arxiv.org/abs/2407.03645v1 )

ライセンス: Link先を確認
Chin Yuen Kwok, Jia Qi Yip, Eng Siong Chng, (参考訳) 継続学習(CL)は、事前学習されたデータの性能を維持しながら、新しいデータで訓練済みモデルを微調整する。 これは多言語ASR(MASR)の機能拡張に特に関係している。 しかし、コンピュータビジョンと強化学習タスクを主目的とする既存のCL手法では、MASRに直接適用した場合、しばしば準最適結果が得られる。 これはMASRモデルにおける自己回帰デコーダのCLが難しいためである。 これを検証するために,デコーダに4つの最適化を提案する。 その中には、デコーダ層勾配手術、未使用のトークン埋め込みの凍結、新たに追加されたトークンの出力の抑制、学習率の再スケーリングが含まれる。 Common VoiceデータセットからWhisperを10の未確認言語に適用する実験により、これらの最適化により、新しい言語のAWERを妥協することなく、事前訓練された言語の平均単語誤り率(AWER)が14.2%から12.4%に低下することを示した。

Continual Learning (CL) involves fine-tuning pre-trained models with new data while maintaining the performance on the pre-trained data. This is particularly relevant for expanding multilingual ASR (MASR) capabilities. However, existing CL methods, mainly designed for computer vision and reinforcement learning tasks, often yield sub-optimal results when directly applied to MASR. We hypothesise that this is because CL of the auto-regressive decoder in the MASR model is difficult. To verify this, we propose four optimizations on the decoder. They include decoder-layer gradient surgery, freezing unused token embeddings, suppressing output of newly added tokens, and learning rate re-scaling. Our experiments on adapting Whisper to 10 unseen languages from the Common Voice dataset demonstrate that these optimizations reduce the Average Word Error Rate (AWER) of pretrained languages from 14.2% to 12.4% compared with Experience Replay, without compromising the AWER of new languages.
翻訳日:2024-07-08 19:11:48 公開日:2024-07-04
# オンライン計算ツールから自動抽出される言語的特徴を用いた人書きテキストとAI生成テキストの識別

Differentiating between human-written and AI-generated texts using linguistic features automatically extracted from an online computational tool ( http://arxiv.org/abs/2407.03646v1 )

ライセンス: Link先を確認
Georgios P. Georgiou, (参考訳) 近年ではChatGPTに焦点が当てられているが、人間の書き起こし言語と人工知能(AI)生成言語の間の言語的特徴を体系的に定量化し比較する研究はほとんどない。 本研究の目的は,AIが人間の文章をエミュレートする能力を評価することにある。 人によるエッセイをベンチマークとして使用し、ChatGPTに同等の長さのエッセイを生成するように促しました。 これらのテキストは、オンライン計算ツールであるOpen Brain AIを用いて分析され、音韻学、形態学、構文学、語彙構成成分の尺度を抽出した。 その結果, 人間の発話を模倣したAI生成テキストが現れるにもかかわらず, 子音, 単語ストレス, 名詞, 動詞, 代名詞, 直接目的語, 前置詞修飾語, 難解語の使用など, 複数の言語的特徴に有意な差異が認められた。 これらの知見は、効率的な言語評価、データ分析における時間と労力の削減のための自動化ツールの統合の重要性を浮き彫りにしている。 さらに、より人間的なテキストを生成するために、AIの能力を向上させるためのトレーニング方法論を強化する必要性を強調している。

While extensive research has focused on ChatGPT in recent years, very few studies have systematically quantified and compared linguistic features between human-written and Artificial Intelligence (AI)-generated language. This study aims to investigate how various linguistic components are represented in both types of texts, assessing the ability of AI to emulate human writing. Using human-authored essays as a benchmark, we prompted ChatGPT to generate essays of equivalent length. These texts were analyzed using Open Brain AI, an online computational tool, to extract measures of phonological, morphological, syntactic, and lexical constituents. Despite AI-generated texts appearing to mimic human speech, the results revealed significant differences across multiple linguistic features such as consonants, word stress, nouns, verbs, pronouns, direct objects, prepositional modifiers, and use of difficult words among others. These findings underscore the importance of integrating automated tools for efficient language assessment, reducing time and effort in data analysis. Moreover, they emphasize the necessity for enhanced training methodologies to improve the capacity of AI for producing more human-like text.
翻訳日:2024-07-08 19:11:48 公開日:2024-07-04
# WANCO:制約付き最適化問題に対する弱競合ネットワーク

WANCO: Weak Adversarial Networks for Constrained Optimization problems ( http://arxiv.org/abs/2407.03647v1 )

ライセンス: Link先を確認
Gang Bao, Dong Wang, Boyi Zou, (参考訳) 本稿では,制約付き最適化問題に対するフレームワークアルゴリズムを開発するために,制約付き最適化問題にネットワークと敵の訓練を統合することに焦点を当てる。 このような問題に対して、我々はまず拡張ラグランジアン法を用いてミニマックス問題に変換し、それぞれ原始変数と双対変数を表すために2つの(または複数の)ディープニューラルネットワーク(DNN)を使用する。 ニューラルネットワークのパラメータは、敵のプロセスによって訓練される。 提案アーキテクチャは,ペナルティに基づくディープラーニング手法と比較して,異なる制約値のスケールに対して比較的敏感である。 この種の訓練を通じて、制約はラグランジアン乗数によってより良く課せられる。 また,スカラー制約,非線形制約,偏微分方程式制約,不等式制約といった最適化問題に対して,ギンズブルグ-ランダウエネルギー最小化問題,分割問題,流体-固相トポロジー最適化,障害物問題など,多岐にわたる適用例について検討した。

This paper focuses on integrating the networks and adversarial training into constrained optimization problems to develop a framework algorithm for constrained optimization problems. For such problems, we first transform them into minimax problems using the augmented Lagrangian method and then use two (or several) deep neural networks(DNNs) to represent the primal and dual variables respectively. The parameters in the neural networks are then trained by an adversarial process. The proposed architecture is relatively insensitive to the scale of values of different constraints when compared to penalty based deep learning methods. Through this type of training, the constraints are imposed better based on the augmented Lagrangian multipliers. Extensive examples for optimization problems with scalar constraints, nonlinear constraints, partial differential equation constraints, and inequality constraints are considered to show the capability and robustness of the proposed method, with applications ranging from Ginzburg--Landau energy minimization problems, partition problems, fluid-solid topology optimization, to obstacle problems.
翻訳日:2024-07-08 19:11:48 公開日:2024-07-04
# 教育的没入感と拡張現実感(XR)体験のレビュアー:このレビューを誰が作成しているのか、なぜなのか?

Reviewers of Educational Immersive and Extended Reality (XR) experiences: Who is creating these reviews and why? ( http://arxiv.org/abs/2407.03650v1 )

ライセンス: Link先を確認
Sophie McKenzie, Shaun Bangay, Maria Nicholas, Adam Cardilini, Majeet Singh, (参考訳) 本稿では,教育用没入型・拡張型現実(eduXR の経験と理由)を誰がレビューしているかを検討するために,スコーピングによる文献のレビューを行う。 EduXR体験は、手動トレーニングのサポート、学習者の保護への関与、社会的つながりの機会の提供など、拡張現実、仮想、複合現実における多くの形態を取り入れている。 eduXRのユーザにとって、経験のレビューは、学習ニーズを満たすかどうかを判断するための情報を提供することができる。 レビューのソース、すなわち、彼らが何者で、なぜレビューを行ったかは、ユーザーがレビューの品質と妥当性を判断するのを助けるために重要である。 現在、eduXRのレビューシステムは確立されていないが、真剣なゲームレビューのためのフレームワークがいくつかあるが、すべてではない。 一部の著者は、eduXRの詳細なレビュー構造の作成に取り組んできたが、eduXRのユーザがレビュアの詳細を知るための明確でシンプルな方法、例えば、誰が、なぜ、ユーザーが関連するレビューを識別し、eduXRの経験について有益な洞察を得るのに役立つか、などが必要である。 この問題に対処するために、私たちは、EduXRレビューを作成するのは誰なのか、なぜなのか、という質問に対して、スクーピングレビューを実施しました。 我々は,eduXRレビューのレビュープロセスに関する学術的評価を示す16の論文を同定した。 16の論文は、テーマ分析を用いて、どのテーマとなぜ2つの異なるサイクルにまたがるのかをコーディングして分析された。 分析では、誰がレビューを提供しているか、なぜ、eduXRコミュニティがどのようにして、彼らが関わったeduXR体験に関する情報的選択を行うかについて、何が可能であるか、何が抑制されているのか、まだ不明なのかを理解するのに役立ちます。

This paper presents a scoping review of literature to examine who is reviewing educational immersive or extended reality - eduXR experiences and why. EduXR experiences in augmented, virtual or mixed reality take many forms, from supporting manual training, engaging learners in conservation, to provide opportunities for social connection. For users of eduXR, reviews of an experience can provide information that helps them determine whether it will meet their learning needs or not. The source of the review, that is, who they are and why they have conducted the review, is critical in helping the user judge the reviews quality and relevance. At present, there is no settled review system in place for eduXR, though relevant frameworks exist for serious games review with relevance and overlap for some, but not all, eduXR experiences. While some authors have engaged in preparing a detailed review structure for eduXR, there remains a need for a clear and simple way for users of eduXR to know details about reviewers, e.g., who and why, to help make it easier for users to identify relevant reviews and gain useful insight about eduXR experiences. To help address this issue, we conducted a scoping review asking the question; Who is creating eduXR reviews, and why? We identified 16 papers that present an academic evaluation on the review process of eduXR reviews. The 16 papers were analysed, coding for who themes and why themes over two separate cycles, using thematic analysis. An analysis looked to examine what we know regarding who is providing the reviews, and why, to help us to understand what enables, inhibits and what is yet unknown about how the eduXR community goes about making informed choices regarding the eduXR experiences they engage with.
翻訳日:2024-07-08 19:11:48 公開日:2024-07-04
# 言語モデルコンテキストの評価 Windows:「作業記憶」テストと推論時間補正

Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction ( http://arxiv.org/abs/2407.03651v1 )

ライセンス: Link先を確認
Amanda Dsouza, Christopher Glaze, Changho Shin, Frederic Sala, (参考訳) 大規模な言語モデルは現実世界のアプリケーションで顕著に使われ、しばしば大量の文書を推論する。 この分野のエキサイティングな展開は、拡張コンテキスト機能を備えたモデルで、中には200万以上のトークンを収容するものもある。 このような長期のコンテキストモデル機能は、実運用システムでは不確実なままであり、実世界のユースケースでパフォーマンスをベンチマークする必要性を動機付けている。 我々は,標準テストの限界に対処する評価フレームワークであるSWiMを提案することで,この問題に対処する。 8つの長いコンテキストモデル上でフレームワークをテストすると、GPT-4やClaude 3 Opusのような強力なモデルでさえ、コンテキストウィンドウの中央に情報が存在する場合のパフォーマンスが低下する(ロスト・イン・ザ・ミドル効果)。 次に,提案するメドイド投票(メドイド投票)は,文書をランダムに変更する度に数回応答を生成し,メドイドの回答を選択することで,この効果を緩和する,シンプルで効果的なトレーニング不要な手法である。 単一文書QAタスクにおけるメドイド投票を24%の精度で評価した。

Large language models are prominently used in real-world applications, often tasked with reasoning over large volumes of documents. An exciting development in this space is models boasting extended context capabilities, with some accommodating over 2 million tokens. Such long context model capabilities remain uncertain in production systems, motivating the need to benchmark their performance on real world use cases. We address this challenge by proposing SWiM, an evaluation framework that addresses the limitations of standard tests. Testing the framework on eight long context models, we find that even strong models such as GPT-4 and Claude 3 Opus degrade in performance when information is present in the middle of the context window (lost-in-the-middle effect). Next, in addition to our benchmark, we propose medoid voting, a simple, but effective training-free approach that helps alleviate this effect, by generating responses a few times, each time randomly permuting documents in the context, and selecting the medoid answer. We evaluate medoid voting on single document QA tasks, achieving up to a 24% lift in accuracy.
翻訳日:2024-07-08 19:02:03 公開日:2024-07-04
# カオスの最先端? 人工知能の障害としての複雑さ

Over the Edge of Chaos? Excess Complexity as a Roadblock to Artificial General Intelligence ( http://arxiv.org/abs/2407.03652v1 )

ライセンス: Link先を確認
Teo Susnjak, Timothy R. McIntosh, Andre L. C. Barczak, Napoleon H. Reyes, Tong Liu, Paul Watters, Malka N. Halgamuge, (参考訳) 本研究では,複雑性理論のレンズによる人工知能(AI)システムの進行軌道について検討した。 我々は、トランスフォーマーベースのアーキテクチャを基盤とするAI(AI General Intelligence, AGI)に対する従来の線形・指数予測に挑戦し、複雑なシステムの相転移に類似した臨界点の存在を仮定した。 我々はエージェント・ベース・モデリング(ABM)を用いて、特定の仮定の下でAIシステムの進化の仮説的なシナリオをシミュレートし、ベンチマーク性能を能力と複雑さのプロキシとして利用した。 我々のシミュレーションは、AIシステムの複雑さの増加が、より高い臨界閾値を超え、予測不可能なパフォーマンス行動を引き起こすことを実証した。 さらに,これらの臨界しきい値を検出するための実用的な手法をシミュレーションデータと確率勾配降下法を用いて開発した。 この研究は、AIの潜在能力を外挿し、より堅牢で包括的なAIパフォーマンスベンチマークを開発することの重要性を強調した、大規模言語モデル(LLM)に特に関連性のある、AIの進歩に関する新たな視点を提供する。

In this study, we explored the progression trajectories of artificial intelligence (AI) systems through the lens of complexity theory. We challenged the conventional linear and exponential projections of AI advancement toward Artificial General Intelligence (AGI) underpinned by transformer-based architectures, and posited the existence of critical points, akin to phase transitions in complex systems, where AI performance might plateau or regress into instability upon exceeding a critical complexity threshold. We employed agent-based modelling (ABM) to simulate hypothetical scenarios of AI systems' evolution under specific assumptions, using benchmark performance as a proxy for capability and complexity. Our simulations demonstrated how increasing the complexity of the AI system could exceed an upper criticality threshold, leading to unpredictable performance behaviours. Additionally, we developed a practical methodology for detecting these critical thresholds using simulation data and stochastic gradient descent to fine-tune detection thresholds. This research offers a novel perspective on AI advancement that has a particular relevance to Large Language Models (LLMs), emphasising the need for a tempered approach to extrapolating AI's growth potential and underscoring the importance of developing more robust and comprehensive AI performance benchmarks.
翻訳日:2024-07-08 19:02:03 公開日:2024-07-04
# reBEN:Refined BigEarthNet Dataset for Remote Sensing Image Analysis

reBEN: Refined BigEarthNet Dataset for Remote Sensing Image Analysis ( http://arxiv.org/abs/2407.03653v1 )

ライセンス: Link先を確認
Kai Norman Clasen, Leonard Hackel, Tom Burgert, Gencer Sumbul, Begüm Demir, Volker Markl, (参考訳) 本稿では,リモートセンシング画像解析のための深層学習(DL)研究を支援するために構築された大規模マルチモーダルリモートセンシングデータセットであるBigEarthNet(reBEN)を提案する。 reBENデータセットは、Sentinel-1とSentinel-2の画像パッチの549,488対で構成されている。 reBENを構築するには、まずSentinel-1とSentinel-2のタイルを使ってBigEarthNetデータセットを構築し、1200 m x 1200 mのパッチに分割する。 我々は,Sentinel-2パッチに対して,最新のSentinelツールを用いて大気補正を行い,その結果,BigEarthNetよりも高品質なパッチが得られた。 各パッチはピクセルレベルの参照マップとシーンレベルのマルチラベルに関連付けられている。 これにより、reBENはピクセルベースおよびシーンベースの学習タスクに適している。 ラベルは、BigEarthNetのような19クラスの命名法を利用して、2018年の最新のCORINE Land Cover (CLC)マップに由来する。 最新のCLCマップを使用することで、BigEarthNetにあるラベルノイズを克服することができる。 さらに, 列車間の空間的相関, 検証, テストセットを, BigEarthNet に存在するものに対して著しく低減する新しい地理的分割割当アルゴリズムを提案する。 これにより、DLモデルの評価の信頼性が向上する。 DLモデルのトレーニング時間を最小化するために,reBENデータセットをDL最適化データフォーマットに変換するソフトウェアツールを導入する。 本研究では,複数の最先端DLモデルを考慮したマルチモーダル多ラベル画像分類問題に対するreBENの可能性を示す。 トレーニング済みのモデルウェイト、関連コード、完全なデータセットはhttps://bigearth.net.comで入手できる。

This paper presents refined BigEarthNet (reBEN) that is a large-scale, multi-modal remote sensing dataset constructed to support deep learning (DL) studies for remote sensing image analysis. The reBEN dataset consists of 549,488 pairs of Sentinel-1 and Sentinel-2 image patches. To construct reBEN, we initially consider the Sentinel-1 and Sentinel-2 tiles used to construct the BigEarthNet dataset and then divide them into patches of size 1200 m x 1200 m. We apply atmospheric correction to the Sentinel-2 patches using the latest version of the sen2cor tool, resulting in higher-quality patches compared to those present in BigEarthNet. Each patch is then associated with a pixel-level reference map and scene-level multi-labels. This makes reBEN suitable for pixel- and scene-based learning tasks. The labels are derived from the most recent CORINE Land Cover (CLC) map of 2018 by utilizing the 19-class nomenclature as in BigEarthNet. The use of the most recent CLC map results in overcoming the label noise present in BigEarthNet. Furthermore, we introduce a new geographical-based split assignment algorithm that significantly reduces the spatial correlation among the train, validation, and test sets with respect to those present in BigEarthNet. This increases the reliability of the evaluation of DL models. To minimize the DL model training time, we introduce software tools that convert the reBEN dataset into a DL-optimized data format. In our experiments, we show the potential of reBEN for multi-modal multi-label image classification problems by considering several state-of-the-art DL models. The pre-trained model weights, associated code, and complete dataset are available at https://bigearth.net.
翻訳日:2024-07-08 19:02:03 公開日:2024-07-04
# 病的セマンティックス-H&E-IHC仮想染色のための保存学習

Pathological Semantics-Preserving Learning for H&E-to-IHC Virtual Staining ( http://arxiv.org/abs/2407.03655v1 )

ライセンス: Link先を確認
Fuqiang Chen, Ranran Zhang, Boyun Zheng, Yiwen Sun, Jiahui He, Wenjian Qin, (参考訳) 従来のヘマトキシリン・エオシン(H&E)染色は細胞の形態や分布を明らかにするのに限られるが、免疫組織化学的(IHC)染色は分子レベルでのタンパク質の活性化を正確にかつ特異的に可視化する。 仮想染色技術は高効率IHC検査のソリューションとして登場し、H&E画像を直接IHC画像に変換する。 しかし, 仮想染色は, 病的意味論のマイニングが不十分で, 病的意味論の空間的ミスアライメントが不十分なため, 課題となっている。 これらの課題に対処するために,分子レベルでのセマンティック情報を直接組み込んで,空間的不整合に拘わらずセマンティックス相互作用を促進できるPPStain(Pathological Semantics-Preserving Learning Method for Virtual Staining)を提案する。 具体的には、PSPStainは2つの新しい学習戦略から構成される。 1)Focal Optical Density(FOD)マップを用いたPALS(Protein-Aware Learning Strategy)は,分子レベルの意味情報を表すタンパク質発現レベルのコヒーレンスを維持している。 2) プロトタイプ・一貫性学習戦略 (PCLS) は, 原型一貫性学習による画像間のセマンティックな相互作用を促進する。 臨床的に関連のある3つの指標と画像品質のための2つの指標を用いて,PSPStainを2つの公開データセットで評価した。 広範囲にわたる実験の結果,PSPStainは現状のH&E-to-IHC仮想染色法より優れており,実際の染色と仮想染色のステージングとの間には高い病理学的相関が示されている。

Conventional hematoxylin-eosin (H&E) staining is limited to revealing cell morphology and distribution, whereas immunohistochemical (IHC) staining provides precise and specific visualization of protein activation at the molecular level. Virtual staining technology has emerged as a solution for highly efficient IHC examination, which directly transforms H&E-stained images to IHC-stained images. However, virtual staining is challenged by the insufficient mining of pathological semantics and the spatial misalignment of pathological semantics. To address these issues, we propose the Pathological Semantics-Preserving Learning method for Virtual Staining (PSPStain), which directly incorporates the molecular-level semantic information and enhances semantics interaction despite any spatial inconsistency. Specifically, PSPStain comprises two novel learning strategies: 1) Protein-Aware Learning Strategy (PALS) with Focal Optical Density (FOD) map maintains the coherence of protein expression level, which represents molecular-level semantic information; 2) Prototype-Consistent Learning Strategy (PCLS), which enhances cross-image semantic interaction by prototypical consistency learning. We evaluate PSPStain on two public datasets using five metrics: three clinically relevant metrics and two for image quality. Extensive experiments indicate that PSPStain outperforms current state-of-the-art H&E-to-IHC virtual staining methods and demonstrates a high pathological correlation between the staging of real and virtual stains.
翻訳日:2024-07-08 19:02:03 公開日:2024-07-04
# GPT-4 vs. 人間翻訳者:言語、ドメイン、エキスパートレベルにわたる翻訳品質の総合評価

GPT-4 vs. Human Translators: A Comprehensive Evaluation of Translation Quality Across Languages, Domains, and Expertise Levels ( http://arxiv.org/abs/2407.03658v1 )

ライセンス: Link先を確認
Jianhao Yan, Pingchuan Yan, Yulong Chen, Judy Li, Xianchao Zhu, Yue Zhang, (参考訳) 本研究では,大規模言語モデル(LLM)の翻訳品質,特にGPT-4を,複数の言語ペアとドメインにまたがる様々な専門知識の翻訳者に対して包括的に評価する。 慎重に設計されたアノテーションラウンドにより、GPT-4は中間翻訳者や上級翻訳者よりも遅れが小さいため、中間翻訳者に対して同等に機能することがわかった。 また,GPT-4の翻訳能力は資源豊かから資源粗末な方向へと徐々に低下し,言語やドメイン間の不均衡な性能も観察する。 さらに, GPT-4とヒト翻訳者による翻訳を質的に研究し, GPT-4翻訳者がリテラル翻訳に苦しむことを発見した。 本研究は,人間の翻訳者に対してLLMを評価し,その出力の系統的差異を解析し,LLMに基づく翻訳の現状とその潜在的な限界について貴重な知見を提供する。

This study comprehensively evaluates the translation quality of Large Language Models (LLMs), specifically GPT-4, against human translators of varying expertise levels across multiple language pairs and domains. Through carefully designed annotation rounds, we find that GPT-4 performs comparably to junior translators in terms of total errors made but lags behind medium and senior translators. We also observe the imbalanced performance across different languages and domains, with GPT-4's translation capability gradually weakening from resource-rich to resource-poor directions. In addition, we qualitatively study the translation given by GPT-4 and human translators, and find that GPT-4 translator suffers from literal translations, but human translators sometimes overthink the background information. To our knowledge, this study is the first to evaluate LLMs against human translators and analyze the systematic differences between their outputs, providing valuable insights into the current state of LLM-based translation and its potential limitations.
翻訳日:2024-07-08 19:02:03 公開日:2024-07-04
# 高品質自己教師型ニューラル表現を用いた光音響画像再構成

Limited-View Photoacoustic Imaging Reconstruction Via High-quality Self-supervised Neural Representation ( http://arxiv.org/abs/2407.03663v1 )

ライセンス: Link先を確認
Youshen xiao, Yuting Shen, Bowei Yao, Xiran Cai, Yuyao Zhang, Fei Gao, (参考訳) 人体内での実践的な応用では、しばしば標的の組織や臓器を完全に包含することが困難であり、限られたビューアレイを使用する必要があるため、重要な情報が失われる可能性がある。 限られた視野検出空間における光音響センサ信号の再構成は、現在研究の焦点となっている。 本研究では、光音響画像の逆問題に対処し、限られた視点で取得したセンサデータから高品質な光音響画像を再構成する、HIgh-quality Self-supervised Neural representation (HIS)と呼ばれる自己教師ネットワークを提案する。 所望の再構成光音響像を2次元画像空間における暗黙的連続関数とみなし、画像の画素をスパースな離散サンプルとみなす。 HISの目的は、フル接続ニューラルネットワークとフーリエ特徴位置符号化を組み合わせて、限られた観測から連続関数を学習することである。 ネットワークの予測センサデータと実際のセンサデータとの誤差を最小化することで、HISは観測された連続モデルを表現するように訓練される。 その結果,提案したHISモデルは,光音響画像再構成によく用いられる3つの手法と比較して,画質が優れていることがわかった。

In practical applications within the human body, it is often challenging to fully encompass the target tissue or organ, necessitating the use of limited-view arrays, which can lead to the loss of crucial information. Addressing the reconstruction of photoacoustic sensor signals in limited-view detection spaces has become a focal point of current research. In this study, we introduce a self-supervised network termed HIgh-quality Self-supervised neural representation (HIS), which tackles the inverse problem of photoacoustic imaging to reconstruct high-quality photoacoustic images from sensor data acquired under limited viewpoints. We regard the desired reconstructed photoacoustic image as an implicit continuous function in 2D image space, viewing the pixels of the image as sparse discrete samples. The HIS's objective is to learn the continuous function from limited observations by utilizing a fully connected neural network combined with Fourier feature position encoding. By simply minimizing the error between the network's predicted sensor data and the actual sensor data, HIS is trained to represent the observed continuous model. The results indicate that the proposed HIS model offers superior image reconstruction quality compared to three commonly used methods for photoacoustic image reconstruction.
翻訳日:2024-07-08 19:02:03 公開日:2024-07-04
# 勧告システムのための不均一ハイパーグラフ埋め込み

Heterogeneous Hypergraph Embedding for Recommendation Systems ( http://arxiv.org/abs/2407.03665v1 )

ライセンス: Link先を確認
Darnbi Sakong, Viet Hung Vu, Thanh Trung Huynh, Phi Le Nguyen, Hongzhi Yin, Quoc Viet Hung Nguyen, Thanh Tam Nguyen, (参考訳) 近年のリコメンデータシステムの進歩は、知識グラフ(KG)の統合に焦点が当てられている。 KGエンハンスドレコメンダの中核となる考え方は、より正確なレコメンデーションにリッチなセマンティック情報を統合することである。 しかし、主な課題は2つある。 i)KGベースのユーザ・テムネットワークにおける複雑な高次相互作用を無視し、潜在的に準最適レコメンデーションにつながること。 二 入力源の不均質な二分グラフ及びKGなどのノイズや不正確性をもたらす可能性のある不均一性に対処すること。 これらの問題に対処するために,我々は,知識に富んだヘテロジニアスハイパーグラフレコメンダシステム(KHGRec)を提案する。 KHGRecは、相互作用ネットワークとKGの両方のグループワイド特性を捉え、KGの複雑な接続をモデル化する。 共同知識ヘテロジニアスハイパーグラフ(CKHG)を用いて、2つのハイパーグラフエンコーダを用いてグループ間の相互依存性をモデル化し、説明可能性を保証する。 さらに、入力グラフからの信号を、クロスビューな自己教師付き学習とアテンションメカニズムで融合する。 4つの実世界のデータセットに対する大規模な実験は、我々のモデルが様々な最先端のベースラインよりも優れていることを示しており、平均5.18\%の相対的な改善がある。 ノイズレジリエンス、欠落データ、コールドスタート問題に関する追加テストは、我々のKHGRecフレームワークの堅牢性を示している。 我々のモデルと評価データセットは \url{https://github.com/viethungvu1998/KHGRec} で公開されている。

Recent advancements in recommender systems have focused on integrating knowledge graphs (KGs) to leverage their auxiliary information. The core idea of KG-enhanced recommenders is to incorporate rich semantic information for more accurate recommendations. However, two main challenges persist: i) Neglecting complex higher-order interactions in the KG-based user-item network, potentially leading to sub-optimal recommendations, and ii) Dealing with the heterogeneous modalities of input sources, such as user-item bipartite graphs and KGs, which may introduce noise and inaccuracies. To address these issues, we present a novel Knowledge-enhanced Heterogeneous Hypergraph Recommender System (KHGRec). KHGRec captures group-wise characteristics of both the interaction network and the KG, modeling complex connections in the KG. Using a collaborative knowledge heterogeneous hypergraph (CKHG), it employs two hypergraph encoders to model group-wise interdependencies and ensure explainability. Additionally, it fuses signals from the input graphs with cross-view self-supervised learning and attention mechanisms. Extensive experiments on four real-world datasets show our model's superiority over various state-of-the-art baselines, with an average 5.18\% relative improvement. Additional tests on noise resilience, missing data, and cold-start problems demonstrate the robustness of our KHGRec framework. Our model and evaluation datasets are publicly available at \url{https://github.com/viethungvu1998/KHGRec}.
翻訳日:2024-07-08 19:02:03 公開日:2024-07-04
# ビームフォーミング最適化を用いた半有限QCQPの信頼性予測に基づく教師なし学習

Reliable Projection Based Unsupervised Learning for Semi-Definite QCQP with Application of Beamforming Optimization ( http://arxiv.org/abs/2407.03668v1 )

ライセンス: Link先を確認
Xiucheng Wang, Qi Qiu, Nan Cheng, (参考訳) 本稿では,半定値制約を持つ2次制約付き二次計画法(QCQP)の特殊クラスについて検討する。 伝統的に、そのような問題は非凸かつNハードであるため、ニューラルネットワーク(NN)はハイパフォーマンスな解を得るための有望な方法とみなされる。 しかし、固有の予測誤差のため、NNが出力する全てのソリューションが確実に実現可能であることを保証することは困難である。 既存の手法ではいくつかの単純な方法を提案するが、全ての解が確実に保証されるわけではないような制約違反の確率の低減にのみ焦点を絞っている。 この課題に対処するため,本論文では,NNが出力する全ての解が確実に実現可能な,効率的で信頼性の高いプロジェクションを提案する。 さらに、教師なし学習が用いられており、NNをラベルなしで効果的かつ効率的に訓練することができる。 理論的には、プロジェクション後のNNの解は実現可能であることが証明され、プロジェクション手法がNNの収束性能と速度を向上させることも証明できる。 提案手法を評価するために,QoS(Quality of Service)を含むビームフォーミングシナリオについて検討し,提案手法のシミュレーション結果から,低域と競合する高性能を実現することができることを示した。

In this paper, we investigate a special class of quadratic-constrained quadratic programming (QCQP) with semi-definite constraints. Traditionally, since such a problem is non-convex and N-hard, the neural network (NN) is regarded as a promising method to obtain a high-performing solution. However, due to the inherent prediction error, it is challenging to ensure all solution output by the NN is feasible. Although some existing methods propose some naive methods, they only focus on reducing the constraint violation probability, where not all solutions are feasibly guaranteed. To deal with the above challenge, in this paper a computing efficient and reliable projection is proposed, where all solution output by the NN are ensured to be feasible. Moreover, unsupervised learning is used, so the NN can be trained effectively and efficiently without labels. Theoretically, the solution of the NN after projection is proven to be feasible, and we also prove the projection method can enhance the convergence performance and speed of the NN. To evaluate our proposed method, the quality of service (QoS)-contained beamforming scenario is studied, where the simulation results show the proposed method can achieve high-performance which is competitive with the lower bound.
翻訳日:2024-07-08 19:02:03 公開日:2024-07-04
# データ合成手法に関する調査研究

A Survey of Data Synthesis Approaches ( http://arxiv.org/abs/2407.03672v1 )

ライセンス: Link先を確認
Hsin-Yu Chang, Pei-Yu Chen, Tun-Hsiang Chou, Chang-Sheng Kao, Hsuan-Yun Yu, Yen-Ting Lin, Yun-Nung Chen, (参考訳) 本稿では,合成データ技術に関する詳細な調査を行う。 まず,データ拡張における合成データの利用の期待目標について述べる。 1)多様性の向上。 2)データバランシング 3)ドメインシフトの対応,及び 4)エッジケースの解決。 合成データは、当時の一般的な機械学習技術と密接に関連しているため、合成データ技術の領域を4つのカテゴリにまとめる。 1)専門家の知識 2)直接訓練。 3)プレトレイン、ファインチューン、及び 4)微調整のない基礎モデル。 次に、合成データフィルタリングの目的を4つのタイプに分類する。 1)基本品質 2)ラベルの一貫性,及び 3)データ配信。 第5節では、合成データの今後の方向性と、私たちが重要と考える3つの方向性についても論じる。 1) 品質にもっと注目すること。 2【合成データの評価】 3)マルチモデルデータ拡張。

This paper provides a detailed survey of synthetic data techniques. We first discuss the expected goals of using synthetic data in data augmentation, which can be divided into four parts: 1) Improving Diversity, 2) Data Balancing, 3) Addressing Domain Shift, and 4) Resolving Edge Cases. Synthesizing data are closely related to the prevailing machine learning techniques at the time, therefore, we summarize the domain of synthetic data techniques into four categories: 1) Expert-knowledge, 2) Direct Training, 3) Pre-train then Fine-tune, and 4) Foundation Models without Fine-tuning. Next, we categorize the goals of synthetic data filtering into four types for discussion: 1) Basic Quality, 2) Label Consistency, and 3) Data Distribution. In section 5 of this paper, we also discuss the future directions of synthetic data and state three direction that we believe is important: 1) focus more on quality, 2) the evaluation of synthetic data, and 3) multi-model data augmentation.
翻訳日:2024-07-08 19:02:03 公開日:2024-07-04
# 文字列ダイアグラムを用いたハイブリッド量子古典機械学習

Hybrid Quantum-Classical Machine Learning with String Diagrams ( http://arxiv.org/abs/2407.03673v1 )

ライセンス: Link先を確認
Alexander Koziell-Pipe, Aleks Kissinger, (参考訳) 短期量子機械学習の中心は、ハイブリッド量子古典アルゴリズムの利用である。 本稿では,これらのアルゴリズムを文字列ダイアグラムの観点から記述するための公式なフレームワークを開発する。 弦図の特筆すべき特徴は、量子古典的インタフェースに対応する関手ボックスの使用である。 使用される関手は古典的な量子系に量子系を埋め込んだラックスモノイダル関手であり、ラックスモノイダル性は測定によって古典的なデータを抽出する際に弦図に制限を課す。 このようにして、我々のフレームワークは、量子-古典的相互作用の重要な特徴を捉えるハイブリッド量子機械学習アルゴリズムのための意味論的意味論への最初のステップを提供する。

Central to near-term quantum machine learning is the use of hybrid quantum-classical algorithms. This paper develops a formal framework for describing these algorithms in terms of string diagrams: a key step towards integrating these hybrid algorithms into existing work using string diagrams for machine learning and differentiable programming. A notable feature of our string diagrams is the use of functor boxes, which correspond to a quantum-classical interfaces. The functor used is a lax monoidal functor embedding the quantum systems into classical, and the lax monoidality imposes restrictions on the string diagrams when extracting classical data from quantum systems via measurement. In this way, our framework provides initial steps toward a denotational semantics for hybrid quantum machine learning algorithms that captures important features of quantum-classical interactions.
翻訳日:2024-07-08 19:02:03 公開日:2024-07-04
# 新しい行動による短期政策評価

Short-Long Policy Evaluation with Novel Actions ( http://arxiv.org/abs/2407.03674v1 )

ライセンス: Link先を確認
Hyunji Alex Nam, Yash Chandak, Emma Brunskill, (参考訳) 教育におけるLSMの導入、新薬の特定、電池の充電方法の改善など、イノベーターは学生、患者、消費者にとってより良い長期的な結果を探すための新しい戦略を常に試みている。 このイノベーションサイクルにおける大きなボトルネックの1つは、新たな介入を取り入れた意思決定ポリシーの下流効果を観察するのに要する時間である。 鍵となる課題は、長期的な観察を行わずに、新たな意思決定方針の長期的な成果を迅速に評価できるかどうかである。 組織は、しばしば過去の意思決定方針とその成果に関する事前データにアクセスでき、関心の全体にわたって評価されます。 そこで我々は,シーケンシャルな意思決定タスクに対する短期的な政策評価のための新しい設定を導入する。 提案手法は,HIV治療,腎臓透析,バッテリ充電のシミュレーターにおいて,従来よりも有意に優れていた。 また、新しい意思決定ポリシーが過去のポリシーよりも大幅にパフォーマンスが低下する可能性があることを素早く特定することで、AI安全性のアプリケーションに有効な方法を示す。

From incorporating LLMs in education, to identifying new drugs and improving ways to charge batteries, innovators constantly try new strategies in search of better long-term outcomes for students, patients and consumers. One major bottleneck in this innovation cycle is the amount of time it takes to observe the downstream effects of a decision policy that incorporates new interventions. The key question is whether we can quickly evaluate long-term outcomes of a new decision policy without making long-term observations. Organizations often have access to prior data about past decision policies and their outcomes, evaluated over the full horizon of interest. Motivated by this, we introduce a new setting for short-long policy evaluation for sequential decision making tasks. Our proposed methods significantly outperform prior results on simulators of HIV treatment, kidney dialysis and battery charging. We also demonstrate that our methods can be useful for applications in AI safety by quickly identifying when a new decision policy is likely to have substantially lower performance than past policies.
翻訳日:2024-07-08 19:02:03 公開日:2024-07-04
# 確率的トークン化によるLCMの自己整合性向上

Improving Self Consistency in LLMs through Probabilistic Tokenization ( http://arxiv.org/abs/2407.03678v1 )

ライセンス: Link先を確認
Ashutosh Sathe, Divyanshu Aggarwal, Sunayana Sitaram, (参考訳) 従来の研究では、言語モデルのトレーニングフェーズにおいて、同じ入力文字列の複数のトークン化を使用するアプローチである確率的トークン化(probabilistic tokenizations)を用いることで、顕著なパフォーマンス向上が示されている。 これらの有望な発見にもかかわらず、現代の大規模言語モデル(LLM)はまだ確率的トークン化を用いて訓練されていない。 興味深いことに、これらの現代のLLMのトークン化器は複数のトークン化を生成する能力を持っているが、この性質は未利用のままである。 本研究では,LLMの自己整合性を高めることを目的とした,現代的なLLMトークン化器のマルチトークン化機能を活用する新しい手法を提案する。 確率的トークン化を利用する場合、LLMは論理的に多様な推論経路を生成し、単に表面レベルの言語的多様性を超えて、確率的トークン化を慎重に研究し、5つのLLMファミリーと4つの推論ベンチマークに関する広範な実験によって得られる自己整合性の改善を説明する洞察を提供する。

Prior research has demonstrated noticeable performance gains through the use of probabilistic tokenizations, an approach that involves employing multiple tokenizations of the same input string during the training phase of a language model. Despite these promising findings, modern large language models (LLMs) have yet to be trained using probabilistic tokenizations. Interestingly, while the tokenizers of these contemporary LLMs have the capability to generate multiple tokenizations, this property remains underutilized. In this work, we propose a novel method to leverage the multiple tokenization capabilities of modern LLM tokenizers, aiming to enhance the self-consistency of LLMs in reasoning tasks. Our experiments indicate that when utilizing probabilistic tokenizations, LLMs generate logically diverse reasoning paths, moving beyond mere surface-level linguistic diversity.We carefully study probabilistic tokenization and offer insights to explain the self consistency improvements it brings through extensive experimentation on 5 LLM families and 4 reasoning benchmarks.
翻訳日:2024-07-08 19:02:03 公開日:2024-07-04
# HyperSpace: 間隔適応型イメージセグメンテーションのためのHypernetworks

HyperSpace: Hypernetworks for spacing-adaptive image segmentation ( http://arxiv.org/abs/2407.03681v1 )

ライセンス: Link先を確認
Samuel Joutard, Maximilian Pietsch, Raphael Prevost, (参考訳) 医療画像はしばしば異なる設定で取得され、アルゴリズムの動作点に適応するために調和が必要である。 特に、不均一な推論設定における画像ボクセルの物理的間隔を標準化するために、画像は通常、ディープラーニングモデルによって処理される前に再サンプリングされる。 しかし、ダウンサンプリングは情報の損失をもたらすが、アップサンプリングは冗長な情報を導入し、非効率な資源利用につながる。 これらの問題を克服するために,ハイパーネットを用いたボクセル間隔のセグメンテーションモデルを提案する。 当社のアプローチでは,画像のネイティブ解像度や,ハードウェアや時間制約に調整された解像度で,推論時に画像の処理が可能である。 複数のデータセットにまたがる実験では、エンドユーザーに対してより柔軟な柔軟性を提供しながら、解像度固有のモデルと比較して、我々のアプローチが競争性能を達成することを示した。 これにより、モデル開発、デプロイメント、メンテナンスが簡単になる。 私たちのコードはhttps://github.com/ImFusionGmbH/HyperSpaceで利用可能です。

Medical images are often acquired in different settings, requiring harmonization to adapt to the operating point of algorithms. Specifically, to standardize the physical spacing of imaging voxels in heterogeneous inference settings, images are typically resampled before being processed by deep learning models. However, down-sampling results in loss of information, whereas upsampling introduces redundant information leading to inefficient resource utilization. To overcome these issues, we propose to condition segmentation models on the voxel spacing using hypernetworks. Our approach allows processing images at their native resolutions or at resolutions adjusted to the hardware and time constraints at inference time. Our experiments across multiple datasets demonstrate that our approach achieves competitive performance compared to resolution-specific models, while offering greater flexibility for the end user. This also simplifies model development, deployment and maintenance. Our code is available at https://github.com/ImFusionGmbH/HyperSpace.
翻訳日:2024-07-08 19:02:03 公開日:2024-07-04
# STOC-TOT:マルチホップ質問応答における複雑な推論のための制約付きデコード付き確率木

STOC-TOT: Stochastic Tree-of-Thought with Constrained Decoding for Complex Reasoning in Multi-Hop Question Answering ( http://arxiv.org/abs/2407.03687v1 )

ライセンス: Link先を確認
Zhenyu Bi, Daniel Hajialigol, Zhongkai Sun, Jie Hao, Xuan Wang, (参考訳) マルチホップ質問応答(MHQA)は、複雑な質問に答えるために複数の通路から情報を検索し統合するモデルを必要とする。 近年のシステムは、MHQAタスクの推論プロンプト(例えば、連鎖推論)とエビデンス検索を統合している。 しかし、疑問型(ブリッジ対比較問題)と推論型(シークエンシャル対並列推論)の複雑さは、ゼロショット設定下でのMHQAの性能を高めるために、より斬新できめ細かいプロンプト法を必要とする。 本稿では,MHQAの制約付き復号化手法であるSTOC-TOTを提案する。 具体的には、木のような推論構造を構築し、モデルが元の質問を小さなサブクエストに分解して異なる推論経路を形成するように促す。 さらに,各推論ステップにおいて,各推論パスに対して確率推定を行うように促す。 回答時にはモデル上で制約付き復号を行い,より基礎的な回答を生成し,幻覚を減少させる。 STOC-TOTを2つのMHQAデータセットと5つの大きな言語モデルと比較した実験により、我々のフレームワークは、他の推論プロンプトよりも大きなマージンで優れていることが示された。

Multi-hop question answering (MHQA) requires a model to retrieve and integrate information from multiple passages to answer a complex question. Recent systems leverage the power of large language models and integrate evidence retrieval with reasoning prompts (e.g., chain-of-thought reasoning) for the MHQA task. However, the complexities in the question types (bridge v.s. comparison questions) and the reasoning types (sequential v.s. parallel reasonings) require more novel and fine-grained prompting methods to enhance the performance of MHQA under the zero-shot setting. In this paper, we propose STOC-TOT, a stochastic tree-of-thought reasoning prompting method with constrained decoding for MHQA and conduct a detailed comparison with other reasoning prompts on different question types and reasoning types. Specifically, we construct a tree-like reasoning structure by prompting the model to break down the original question into smaller sub-questions to form different reasoning paths. In addition, we prompt the model to provide a probability estimation for each reasoning path at each reasoning step. At answer time, we conduct constrained decoding on the model to generate more grounded answers and reduce hallucination. Experiments comparing STOC-TOT with two MHQA datasets and five large language models showed that our framework outperforms other reasoning prompts by a significant margin.
翻訳日:2024-07-08 19:02:03 公開日:2024-07-04
# Text2TimeSeries: 大規模言語モデルによるイベント駆動インサイトによる時系列予測更新による財務予測の強化

Text2TimeSeries: Enhancing Financial Forecasting through Time Series Prediction Updates with Event-Driven Insights from Large Language Models ( http://arxiv.org/abs/2407.03689v1 )

ライセンス: Link先を確認
Litton Jose Kurisinkel, Pruthwik Mishra, Yue Zhang, (参考訳) 時系列モデルは、典型的には数値データに基づいて訓練され、将来の値を予測するように設計されている。 これらのモデルは、時間間隔で平均的な重み付け技術に依存することが多い。 しかし、実世界の時系列データは滅多に孤立せず、非数値要因の影響を受けないことが多い。 例えば、株価の変動は、より広い世界の毎日のランダムなイベントに影響され、各イベントは価格シグナルに固有の影響を与える。 従来、金融市場の予測は2つの主要な方法でアプローチされてきた。 感情分析タスクは、ニュースイベントが株価に肯定的または否定的な影響を及ぼすかどうかを判断することを目的としており、しばしばそれらを個別のラベルに分類する。 時系列予測を正確にモデル化するための、より包括的なアプローチの必要性を認識し、関連する事象に関するテキスト情報を組み込んだ協調モデリングフレームワークを提案する。 具体的には、将来の変更に関する大規模言語モデルの直感を利用して、実数時系列予測を更新する。 我々は、金融市場データに対するアプローチの有効性を評価した。

Time series models, typically trained on numerical data, are designed to forecast future values. These models often rely on weighted averaging techniques over time intervals. However, real-world time series data is seldom isolated and is frequently influenced by non-numeric factors. For instance, stock price fluctuations are impacted by daily random events in the broader world, with each event exerting a unique influence on price signals. Previously, forecasts in financial markets have been approached in two main ways: either as time-series problems over price sequence or sentiment analysis tasks. The sentiment analysis tasks aim to determine whether news events will have a positive or negative impact on stock prices, often categorizing them into discrete labels. Recognizing the need for a more comprehensive approach to accurately model time series prediction, we propose a collaborative modeling framework that incorporates textual information about relevant events for predictions. Specifically, we leverage the intuition of large language models about future changes to update real number time series predictions. We evaluated the effectiveness of our approach on financial market data.
翻訳日:2024-07-08 19:02:03 公開日:2024-07-04
# 新規アンサンブル法によるロバストCATE推定

Robust CATE Estimation Using Novel Ensemble Methods ( http://arxiv.org/abs/2407.03690v1 )

ライセンス: Link先を確認
Oshri Machluf, Tzviel Frostig, Gal Shoham, Elad Berkman, Raviv Pryluk, (参考訳) 臨床治験における条件平均治療効果(CATE)の評価は治療効果の不均一性の理解に不可欠である。 本研究では,各手法が1つ以上のテストシナリオでフェールすることを示す多種多様なシナリオにまたがって,因果林やメタラーナーなどの共通手法の性能を評価する。 実生活シナリオにおけるデータ生成プロセスの本質的な不確実性を考えると、CATE推定器の様々なシナリオに対する堅牢性はその信頼性にとって重要である。 既存手法のこの制限に対処するため、予測安定性と性能を向上させるために複数の推定器を統合する2つの新しいアンサンブル手法を提案する。 これらのモデルは, 癌治療におけるPD-L1阻害経路の生物学的モデルを含む, 複雑さ, サンプルサイズ, 基礎機構の構造など, 幅広いシナリオにおいて良好な性能を示すことを示す。

The estimation of Conditional Average Treatment Effects (CATE) is crucial for understanding the heterogeneity of treatment effects in clinical trials. We evaluate the performance of common methods, including causal forests and various meta-learners, across a diverse set of scenarios revealing that each of the methods fails in one or more of the tested scenarios. Given the inherent uncertainty of the data-generating process in real-life scenarios, the robustness of a CATE estimator to various scenarios is critical for its reliability. To address this limitation of existing methods, we propose two new ensemble methods that integrate multiple estimators to enhance prediction stability and performance - Stacked X-Learner which uses the X-Learner with model stacking for estimating the nuisance functions, and Consensus Based Averaging (CBA), which averages only the models with highest internal agreement. We show that these models achieve good performance across a wide range of scenarios varying in complexity, sample size and structure of the underlying-mechanism, including a biologically driven model for PD-L1 inhibition pathway for cancer treatment.
翻訳日:2024-07-08 18:52:18 公開日:2024-07-04
# M^3:Manipulation Mask Manufacturer for Arbitrary-Scale Super-Resolution Mask

M^3:Manipulation Mask Manufacturer for Arbitrary-Scale Super-Resolution Mask ( http://arxiv.org/abs/2407.03695v1 )

ライセンス: Link先を確認
Xinyu Yang, Xiaochen Ma, Xuekang Zhu, Bo Du, Lei Su, Bingkui Tong, Zeyu Lei, Jizhe Zhou, (参考訳) 画像操作ローカライゼーション(IML)の分野では、既存のデータセットの少量と品質が常に大きな問題となっている。 さまざまな種類の操作を含むデータセットは、IMLモデルの精度を大幅に向上させる。 インターネット上の画像(Baidu TiebaのPS Barなど)はさまざまな技術を使って操作され、これらの画像からデータセットを作成することで、データ内の操作のタイプを著しく強化します。 しかし、インターネット上の画像は解像度や明快な問題に悩まされており、操作された画像を原画像から単純に取り除いたマスクには様々なノイズが含まれている。 これらのノイズは除去が難しく、IMLモデルではマスクが使用できない。 変化検出の分野に触発されて、原画像と操作された画像は、同じ画像の時間的変化として扱うとともに、データ生成タスクを変化検出タスクとして見る。 しかし、画像間の明瞭性の問題により、従来の変化検出モデルは性能が良くない。 そこで我々は,超解像モジュールを導入し,マニピュレーションマスク製造者(MMM)フレームワークを提案した。 これにより、原画像と改ざん画像の解像度が向上し、画像の細部が向上し、比較性が向上する。 同時に、このフレームワークはオリジナルの画像と改ざんされた画像を特徴埋め込みに変換し、それらを結合させ、コンテキストを効果的にモデル化する。 さらに、幅広い操作技術をカバーするデータセットであるManipulation Mask Manufacturer Dataset(MMMD)を作成しました。 我々は,MMMとMMMDによるより現実的な操作データを提供することで,画像の法医学と操作検出の分野に貢献することを目指している。 MMMDとダウンロードリンクの詳細は、以下の通りである。

In the field of image manipulation localization (IML), the small quantity and poor quality of existing datasets have always been major issues. A dataset containing various types of manipulations will greatly help improve the accuracy of IML models. Images on the internet (such as those on Baidu Tieba's PS Bar) are manipulated using various techniques, and creating a dataset from these images will significantly enrich the types of manipulations in our data. However, images on the internet suffer from resolution and clarity issues, and the masks obtained by simply subtracting the manipulated image from the original contain various noises. These noises are difficult to remove, rendering the masks unusable for IML models. Inspired by the field of change detection, we treat the original and manipulated images as changes over time for the same image and view the data generation task as a change detection task. However, due to clarity issues between images, conventional change detection models perform poorly. Therefore, we introduced a super-resolution module and proposed the Manipulation Mask Manufacturer (MMM) framework. It enhances the resolution of both the original and tampered images, thereby improving image details for better comparison. Simultaneously, the framework converts the original and tampered images into feature embeddings and concatenates them, effectively modeling the context. Additionally, we created the Manipulation Mask Manufacturer Dataset (MMMD), a dataset that covers a wide range of manipulation techniques. We aim to contribute to the fields of image forensics and manipulation detection by providing more realistic manipulation data through MMM and MMMD. Detailed information about MMMD and the download link can be found at: the code and datasets will be made available.
翻訳日:2024-07-08 18:52:18 公開日:2024-07-04
# 一般ロバスト・ファンドス・フォトグラフィーによる高近視の視力損失推定

Generalized Robust Fundus Photography-based Vision Loss Estimation for High Myopia ( http://arxiv.org/abs/2407.03699v1 )

ライセンス: Link先を確認
Zipei Yan, Zhile Liang, Zhengji Liu, Shuai Wang, Rachel Ka-Man Chun, Jizhou Li, Chea-su Kee, Dong Liang, (参考訳) 高近視は、不可逆的な視力喪失のリスクを著しく増大させる。 従来のペリメトリベースの視野評価(VF)は、視覚的損失の体系的な定量化を提供するが、主観的かつ時間を要する。 結果として、VFを推定するための基礎写真を利用した機械学習モデルが、有望な代替手段として登場した。 しかし、変動性が高く、VFデータの可用性が限られているため、既存のVF推定モデルは、特に様々なセンターや人口にまたがるアウト・オブ・ディストリビューションデータに直面すると、うまく一般化することができない。 この課題に対処するため,本研究では,VF推定の分散ロバスト性を高めるための,新しいパラメータ効率フレームワークを提案する。 具体的には、高エントロピー特徴表現を学習し、ドメインギャップを効果的かつ効率的に緩和することを目的として、事前訓練された視覚モデルから特徴改善と適応のためのRefinement-by-Denoising (RED)モジュールを設計する。 本手法は, RMSE, MAE, および相関係数において, 内部および外部両方の検証において, 従来の手法よりも優れていた。 提案手法は, 内外気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道内気道外気道内気道内気道内気道内気道内気道内気道内気道内気

High myopia significantly increases the risk of irreversible vision loss. Traditional perimetry-based visual field (VF) assessment provides systematic quantification of visual loss but it is subjective and time-consuming. Consequently, machine learning models utilizing fundus photographs to estimate VF have emerged as promising alternatives. However, due to the high variability and the limited availability of VF data, existing VF estimation models fail to generalize well, particularly when facing out-of-distribution data across diverse centers and populations. To tackle this challenge, we propose a novel, parameter-efficient framework to enhance the generalized robustness of VF estimation on both in- and out-of-distribution data. Specifically, we design a Refinement-by-Denoising (RED) module for feature refinement and adaptation from pretrained vision models, aiming to learn high-entropy feature representations and to mitigate the domain gap effectively and efficiently. Through independent validation on two distinct real-world datasets from separate centers, our method significantly outperforms existing approaches in RMSE, MAE and correlation coefficient for both internal and external validation. Our proposed framework benefits both in- and out-of-distribution VF estimation, offering significant clinical implications and potential utility in real-world ophthalmic practices.
翻訳日:2024-07-08 18:52:18 公開日:2024-07-04
# 非線形力学系におけるデータ駆動損傷検出のためのディープラーニングアーキテクチャ

Deep learning architectures for data-driven damage detection in nonlinear dynamic systems ( http://arxiv.org/abs/2407.03700v1 )

ライセンス: Link先を確認
Harrish Joseph, Giuseppe Quaranta, Biagio Carboni, Walter Lacarbonara, (参考訳) 構造的健康モニタリングの第一の目的は、臨界レベルに達する前に、開始時に損傷を検出することである。 本研究は, 非線形力学系におけるデータ駆動型損傷検出に応用した深層学習について検討した。 特に,1次元畳み込みニューラルネットワークを利用したオートエンコーダ(AE)とGAN(Generative Adversarial Network)が実装されている。 測定された非線形力学系における損傷の開始は, システムや励起の事前知識や教師なしの方法で, 様々な強度の励起ランダム振動によって検出される。 非線形挙動の異なる力学系について包括的数値解析を行った。 磁気弾性非線形系に関する実験的応用も示し、結論を裏付ける。

The primary goal of structural health monitoring is to detect damage at its onset before it reaches a critical level. The in-depth investigation in the present work addresses deep learning applied to data-driven damage detection in nonlinear dynamic systems. In particular, autoencoders (AEs) and generative adversarial networks (GANs) are implemented leveraging on 1D convolutional neural networks. The onset of damage is detected in the investigated nonlinear dynamic systems by exciting random vibrations of varying intensity, without prior knowledge of the system or the excitation and in unsupervised manner. The comprehensive numerical study is conducted on dynamic systems exhibiting different types of nonlinear behavior. An experimental application related to a magneto-elastic nonlinear system is also presented to corroborate the conclusions.
翻訳日:2024-07-08 18:52:18 公開日:2024-07-04
# 知識グラフ推論のためのニューラル確率論理学習

Neural Probabilistic Logic Learning for Knowledge Graph Reasoning ( http://arxiv.org/abs/2407.03704v1 )

ライセンス: Link先を確認
Fengsong Sun, Jinyu Wang, Zhiqing Wei, Xianchao Zhang, (参考訳) 知識グラフ推論(KG reasoning)は、未知の事実を既知の事実サンプルに基づいて予測することを目的としたタスクである。 推論方法は、ルールベースの方法とKG埋め込みベースの方法の2つのカテゴリに分けられる。 前者は正確な推論能力を持っているが、大規模知識グラフよりも効率的に推論することは困難である。 大規模知識グラフを推論する能力を得る一方で、後者は推論精度を犠牲にする。 本稿では,知識グラフの正確な推論を実現するNPLL(Neural Probabilistic Logic Learning)という推論フレームワークを設計することを目的とする。 提案手法では,組込みネットワークの表現力を効果的に向上するスコアリングモジュールを導入し,モデルの単純さと推論能力のバランスを崩す。 我々は,変分推論に基づくマルコフ論理ネットワークを組み込むことにより,モデルの解釈可能性を向上させる。 本研究では,いくつかのベンチマークデータセットに対するアプローチを実験的に評価し,提案手法が推論結果の精度と品質を大幅に向上させることを示す。

Knowledge graph (KG) reasoning is a task that aims to predict unknown facts based on known factual samples. Reasoning methods can be divided into two categories: rule-based methods and KG-embedding based methods. The former possesses precise reasoning capabilities but finds it challenging to reason efficiently over large-scale knowledge graphs. While gaining the ability to reason over large-scale knowledge graphs, the latter sacrifices reasoning accuracy. This paper aims to design a reasoning framework called Neural Probabilistic Logic Learning(NPLL) that achieves accurate reasoning on knowledge graphs. Our approach introduces a scoring module that effectively enhances the expressive power of embedding networks, striking a balance between model simplicity and reasoning capabilities. We improve the interpretability of the model by incorporating a Markov Logic Network based on variational inference. We empirically evaluate our approach on several benchmark datasets, and the experimental results validate that our method substantially enhances the accuracy and quality of the reasoning results.
翻訳日:2024-07-08 18:52:18 公開日:2024-07-04
# マルチコンバータ:多重畳み込みカーネルによる拡張コンバータ

Multi-Convformer: Extending Conformer with Multiple Convolution Kernels ( http://arxiv.org/abs/2407.03718v1 )

ライセンス: Link先を確認
Darshan Prabhu, Yifan Peng, Preethi Jyothi, Shinji Watanabe, (参考訳) 畳み込みは、局所文脈の効率的なモデリングにより、最先端のエンドツーエンド自動音声認識(ASR)システムにおいて欠かせないものとなっている。 特に、コンフォーマーでの使用は、バニラトランスフォーマーベースのASRシステムよりも性能が優れている。 Conformerの畳み込みモジュール以外のコンポーネントは再検討されているが、畳み込みモジュール自体の変更は、はるかに少ない。 そこで我々は,マルチコンバータを導入し,複数のコンバータカーネルをゲーティングと合わせてコンバータの畳み込みモジュール内で利用する。 これにより、さまざまな粒度のローカル依存関係のモデリングが改善される。 我々のモデルは、よりパラメータ効率の良いCgMLPやE-Branchformerといった既存のConformerと性能的に競合する。 我々は4つの異なるデータセットと3つの異なるモデリングパラダイムにまたがって、我々のアプローチとConformerとその変種を実証的に比較し、最大8%の相対的な単語エラー率~(WER)の改善を示す。

Convolutions have become essential in state-of-the-art end-to-end Automatic Speech Recognition~(ASR) systems due to their efficient modelling of local context. Notably, its use in Conformers has led to superior performance compared to vanilla Transformer-based ASR systems. While components other than the convolution module in the Conformer have been reexamined, altering the convolution module itself has been far less explored. Towards this, we introduce Multi-Convformer that uses multiple convolution kernels within the convolution module of the Conformer in conjunction with gating. This helps in improved modeling of local dependencies at varying granularities. Our model rivals existing Conformer variants such as CgMLP and E-Branchformer in performance, while being more parameter efficient. We empirically compare our approach with Conformer and its variants across four different datasets and three different modelling paradigms and show up to 8% relative word error rate~(WER) improvements.
翻訳日:2024-07-08 18:52:18 公開日:2024-07-04
# セマンティックセグメンテーションにおける相対難蒸留法

Relative Difficulty Distillation for Semantic Segmentation ( http://arxiv.org/abs/2407.03719v1 )

ライセンス: Link先を確認
Dong Liang, Yue Sun, Yun Du, Songcan Chen, Sheng-Jun Huang, (参考訳) 現在の知識蒸留(KD)法は主に、教師ネットワークの出力を模倣するよう学生ネットワークに促すために、様々な構造化された知識を伝達し、対応する最適化目標を設計することに焦点を当てている。 しかし、過度に多くの最適化目標を導入すると、勾配衝突のような不安定なトレーニングにつながる可能性がある。 さらに,これらの手法は,教師と学生のネットワーク間の相対的学習困難に関するガイドラインを無視した。 人間の認知科学にインスパイアされたこの論文では、学生と教師のネットワークにおけるサンプルの相対的難易度という新たな視点から知識を再定義し、Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。 本稿では,TFE-RDD(Teacher-Full Evaluated RDD)とTSE-RDD(Teacher-Student Evaluated RDD)という2段階のRDDフレームワークを提案する。 RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点の効果的なガイダンスを提供することができ、複数の損失に対して学習重みを調整することを避けることができる。 Cityscapes, CamVid, Pascal VOC, ADE20kなどの人気データセットに対する一般蒸留損失関数を用いた大規模実験により, RDDの最先端KD法に対する効果が示された。 さらに本研究では,RDDが既存のKDメソッドと統合して,上位性能バウンダリを向上できることを示す。

Current knowledge distillation (KD) methods primarily focus on transferring various structured knowledge and designing corresponding optimization goals to encourage the student network to imitate the output of the teacher network. However, introducing too many additional optimization objectives may lead to unstable training, such as gradient conflicts. Moreover, these methods ignored the guidelines of relative learning difficulty between the teacher and student networks. Inspired by human cognitive science, in this paper, we redefine knowledge from a new perspective -- the student and teacher networks' relative difficulty of samples, and propose a pixel-level KD paradigm for semantic segmentation named Relative Difficulty Distillation (RDD). We propose a two-stage RDD framework: Teacher-Full Evaluated RDD (TFE-RDD) and Teacher-Student Evaluated RDD (TSE-RDD). RDD allows the teacher network to provide effective guidance on learning focus without additional optimization goals, thus avoiding adjusting learning weights for multiple losses. Extensive experimental evaluations using a general distillation loss function on popular datasets such as Cityscapes, CamVid, Pascal VOC, and ADE20k demonstrate the effectiveness of RDD against state-of-the-art KD methods. Additionally, our research showcases that RDD can integrate with existing KD methods to improve their upper performance bound.
翻訳日:2024-07-08 18:52:18 公開日:2024-07-04
# セッション検索のためのクエリ指向データ拡張

Query-oriented Data Augmentation for Session Search ( http://arxiv.org/abs/2407.03720v1 )

ライセンス: Link先を確認
Haonan Chen, Zhicheng Dou, Yutao Zhu, Ji-Rong Wen, (参考訳) 検索セッションにおけるコンテキスト情報のモデリングは、複雑なユーザ意図を理解する際に、ますます注目を集めている。 最近の手法はすべてデータ駆動であり、検索コンテキストと候補文書の関連性を特定するために、大規模な検索ログデータ上で異なるモデルを訓練している。 一般的なトレーニングパラダイムは、検索コンテキストを異なる候補文書と組み合わせて、クリックされていないドキュメントよりも高いランク付けを行うようにモデルをトレーニングすることである。 しかし、このパラダイムはセッションコンテキストとドキュメントの関係性の対称性を無視している。 本研究では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。 我々は、検索コンテキストの最も重要な部分、すなわち現在のクエリを変更して補足的なトレーニングペアを生成し、生成したシーケンスを元のシーケンスと共にランク付けするようにモデルを訓練する。 このアプローチにより、セッションコンテキストが変化するにつれて、ドキュメントの関連性が異なる可能性があることを学び、ユーザの検索パターンをよりよく理解することが可能になる。 我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。 2つの大規模な公開検索ログの実験を通じて,本モデルの有効性を実証した。

Modeling contextual information in a search session has drawn more and more attention when understanding complex user intents. Recent methods are all data-driven, i.e., they train different models on large-scale search log data to identify the relevance between search contexts and candidate documents. The common training paradigm is to pair the search context with different candidate documents and train the model to rank the clicked documents higher than the unclicked ones. However, this paradigm neglects the symmetric nature of the relevance between the session context and document, i.e., the clicked documents can also be paired with different search contexts when training. In this work, we propose query-oriented data augmentation to enrich search logs and empower the modeling. We generate supplemental training pairs by altering the most important part of a search context, i.e., the current query, and train our model to rank the generated sequence along with the original sequence. This approach enables models to learn that the relevance of a document may vary as the session context changes, leading to a better understanding of users' search patterns. We develop several strategies to alter the current query, resulting in new training data with varying degrees of difficulty. Through experimentation on two extensive public search logs, we have successfully demonstrated the effectiveness of our model.
翻訳日:2024-07-08 18:52:18 公開日:2024-07-04
# 生成モデルの表現における直交性の測定

Measuring Orthogonality in Representations of Generative Models ( http://arxiv.org/abs/2407.03728v1 )

ライセンス: Link先を確認
Robin C. Geyer, Alessandro Torcinovich, João B. Carvalho, Alexander Meyer, Joachim M. Buhmann, (参考訳) 教師なしの表現学習では、モデルは高次元データから帰納バイアスによって導かれる低次元の学習表現に本質的な特徴を蒸留することを目的としている。 よい表現をする特徴を理解することは、現在進行中の研究のトピックである。 独立した生成過程の切り離しは、長い間、高品質な表現を生み出してきた。 しかし、ほとんどの非絡み合いの指標の厳密な要求に従う表現にのみ焦点を合わせると、様々な下流のタスクに適した多くの高品質な表現を見落としてしまう可能性がある。 これらの測度は、しばしば生成因子を表現空間の標準基底と整合した独立した単一の次元で符号化することを要求する。 これらの観測を動機として,IWO(Importance-Weighted Orthogonality)とIWR(Importance-Weighted Rank)の2つの新しい指標を提案する。 これらの指標は、生成因子部分空間の相互直交性とランクを評価する。 共通のダウンストリームタスクに関する広範な実験を通じて、いくつかのベンチマークデータセットとモデルを通じて、IWOとIWRは、従来型のアンタングルメントメトリクスよりも、ダウンストリームタスクパフォーマンスとの強い相関関係を一貫して示している。 その結果,表現の質は,非教師なし学習モデルの評価と改善のための新たな方向性として,独立生成過程の直交性と密接に関連していることが示唆された。

In unsupervised representation learning, models aim to distill essential features from high-dimensional data into lower-dimensional learned representations, guided by inductive biases. Understanding the characteristics that make a good representation remains a topic of ongoing research. Disentanglement of independent generative processes has long been credited with producing high-quality representations. However, focusing solely on representations that adhere to the stringent requirements of most disentanglement metrics, may result in overlooking many high-quality representations, well suited for various downstream tasks. These metrics often demand that generative factors be encoded in distinct, single dimensions aligned with the canonical basis of the representation space. Motivated by these observations, we propose two novel metrics: Importance-Weighted Orthogonality (IWO) and Importance-Weighted Rank (IWR). These metrics evaluate the mutual orthogonality and rank of generative factor subspaces. Throughout extensive experiments on common downstream tasks, over several benchmark datasets and models, IWO and IWR consistently show stronger correlations with downstream task performance than traditional disentanglement metrics. Our findings suggest that representation quality is closer related to the orthogonality of independent generative processes rather than their disentanglement, offering a new direction for evaluating and improving unsupervised learning models.
翻訳日:2024-07-08 18:52:18 公開日:2024-07-04
# 電気自動車充電ステーションにおける高度なサイバー脅威に対抗するための階層的逆境フレームワークCharging Ahead

Charging Ahead: A Hierarchical Adversarial Framework for Counteracting Advanced Cyber Threats in EV Charging Stations ( http://arxiv.org/abs/2407.03729v1 )

ライセンス: Link先を確認
Mohammed Al-Mehdhar, Abdullatif Albaseer, Mohamed Abdallah, Ala Al-Fuqaha, (参考訳) 電気自動車(EV)の普及は、高度なサイバー脅威に対する堅牢な防御を必要としている。 EVが意図的に偽情報を提供して、より高い充電優先度を得ると、グリッドの不安定が生じる可能性がある。 既存の文献ではこの問題に対処するために様々なアプローチが提案されているが、攻撃者は深層強化学習(DRL)や他の複雑な深層学習手法を用いて攻撃を行う可能性を見落としていることが多い。 これに対して本稿では,EV充電ステーションにおける盗難サイバー攻撃,特に充電拒否を効果的に検出するDRL(HADRL)を用いた階層的敵対的枠組みを提案する。 我々のアプローチは、DRLを利用して基本的な侵入検知システム(IDS)をバイパスできる高度な、ステルス的な攻撃方法を開発するという2つのアプローチを含む。 第二に、EV充電ステーションにおけるIDS内にDRLベースのスキームを実装し、これらの高度な攻撃を検出し、対処することを目的としている。 このスキームは、最初のスキームから生成されたデータセットで訓練され、堅牢で効率的なIDSとなる。 我々は,近年の文献的アプローチに対して,我々のフレームワークの有効性を評価した。その結果,トレーニングデータセットに表示されていない攻撃に直面する場合であっても,IDSは偽アラーム率の低い偽のEVを正確に検出できることがわかった。

The increasing popularity of electric vehicles (EVs) necessitates robust defenses against sophisticated cyber threats. A significant challenge arises when EVs intentionally provide false information to gain higher charging priority, potentially causing grid instability. While various approaches have been proposed in existing literature to address this issue, they often overlook the possibility of attackers using advanced techniques like deep reinforcement learning (DRL) or other complex deep learning methods to achieve such attacks. In response to this, this paper introduces a hierarchical adversarial framework using DRL (HADRL), which effectively detects stealthy cyberattacks on EV charging stations, especially those leading to denial of charging. Our approach includes a dual approach, where the first scheme leverages DRL to develop advanced and stealthy attack methods that can bypass basic intrusion detection systems (IDS). Second, we implement a DRL-based scheme within the IDS at EV charging stations, aiming to detect and counter these sophisticated attacks. This scheme is trained with datasets created from the first scheme, resulting in a robust and efficient IDS. We evaluated the effectiveness of our framework against the recent literature approaches, and the results show that our IDS can accurately detect deceptive EVs with a low false alarm rate, even when confronted with attacks not represented in the training dataset.
翻訳日:2024-07-08 18:52:18 公開日:2024-07-04
# 企業・行政におけるモビリティデータの収集・利用・プライバシ

Collection, usage and privacy of mobility data in the enterprise and public administrations ( http://arxiv.org/abs/2407.03732v1 )

ライセンス: Link先を確認
Alexandra Kapp, (参考訳) 人間移動データは都市移動管理にとって重要な資源であるが、個人的参照なしでは得られない。 したがって、個人のプライバシーを保護するためには、匿名化などのセキュリティ対策の実施が必要である。 このような技術がデータの有用性を減らし、使用を制限する可能性があるため、しばしばトレードオフが発生する。 匿名化技術に関する多くの研究は存在するが、実践者による実際の実装についてはほとんど情報がない。 本研究では,現場における実践の洞察を得るために,専門家によるインタビューを行った。 目的、データソース、分析、モデリングタスクを分類し、そのようなデータが使われる状況について深い理解を提供する。 我々は、一般的には最先端の差分プライバシー基準に準拠しない、使用中のプライバシー強化手法を調査した。 本稿では,実践者のプライバシニーズを特定し,今後のプライバシ向上手法の標準化評価のために,関連するモビリティ特性を抽出することによって,実践指向研究のさらなる研究の基盤を提供する。

Human mobility data is a crucial resource for urban mobility management, but it does not come without personal reference. The implementation of security measures such as anonymization is thus needed to protect individuals' privacy. Often, a trade-off arises as such techniques potentially decrease the utility of the data and limit its use. While much research on anonymization techniques exists, there is little information on the actual implementations by practitioners, especially outside the big tech context. Within our study, we conducted expert interviews to gain insights into practices in the field. We categorize purposes, data sources, analysis, and modeling tasks to provide a profound understanding of the context such data is used in. We survey privacy-enhancing methods in use, which generally do not comply with state-of-the-art standards of differential privacy. We provide groundwork for further research on practice-oriented research by identifying privacy needs of practitioners and extracting relevant mobility characteristics for future standardized evaluations of privacy-enhancing methods.
翻訳日:2024-07-08 18:52:18 公開日:2024-07-04
# アクセント特化コードブックによる自己指導型事前学習の改善

Improving Self-supervised Pre-training using Accent-Specific Codebooks ( http://arxiv.org/abs/2407.03734v1 )

ライセンス: Link先を確認
Darshan Prabhu, Abhishek Gupta, Omkar Nitsure, Preethi Jyothi, Sriram Ganapathy, (参考訳) 音声アクセントは、最先端のエンドツーエンド音声認識(ASR)システムの性能に深刻な課題をもたらす。 自己教師付き学習やASRモデルの事前学習でさえ、アクセント不変性はほとんど得られない。 本研究では,自己教師型学習のためのアクセント対応適応手法を提案する。 これらの学習可能なコードブックは、事前トレーニング中にアクセント特定情報をキャプチャし、ASRの微調整中にさらに洗練される。 Mozilla Common Voiceデータセットでは、我々の提案手法は、他のアクセント適応アプローチよりも、他のアクセント適応アプローチよりも優れており、最大9%の単語誤り率(WER)が低下している。

Speech accents present a serious challenge to the performance of state-of-the-art end-to-end Automatic Speech Recognition (ASR) systems. Even with self-supervised learning and pre-training of ASR models, accent invariance is seldom achieved. In this work, we propose an accent-aware adaptation technique for self-supervised learning that introduces a trainable set of accent-specific codebooks to the self-supervised architecture. These learnable codebooks enable the model to capture accent specific information during pre-training, that is further refined during ASR finetuning. On the Mozilla Common Voice dataset, our proposed approach outperforms all other accent-adaptation approaches on both seen and unseen English accents, with up to 9% relative reduction in word error rate (WER).
翻訳日:2024-07-08 18:52:18 公開日:2024-07-04
# 音源分離のためのセマンティックグルーピングネットワーク

Semantic Grouping Network for Audio Source Separation ( http://arxiv.org/abs/2407.03736v1 )

ライセンス: Link先を確認
Shentong Mo, Yapeng Tian, (参考訳) 近年,2つのモード間の自然な同期を利用して音源分離性能を向上している。 彼らは視覚入力から高レベルな意味論を抽出し、個々の音源の音響表現を歪めるためのガイダンスとした。 個々の意味を音そのものから切り離すことを直接学べるか? ジレンマは、複数の音源が元の空間で混在しているということである。 そこで本稿では,SGNと呼ばれる新しいセマンティックグルーピングネットワークを提案する。 具体的には、SGNは学習可能な音のクラストークンを通じてカテゴリワイズソースの特徴を集約する。 そして、アグリゲートされたセマンティックな特徴を利用して、対応するオーディオソースをミックスから分離することができる。 MUSIC, FUSS, MUSDB18, VGG-Sound という,音楽のみと普遍的な音分離ベンチマークについて広範な実験を行った。 その結果,SGNは付加的な視覚的手がかりを生かさず,従来の音声のみの手法や視覚モデルよりも優れていた。

Recently, audio-visual separation approaches have taken advantage of the natural synchronization between the two modalities to boost audio source separation performance. They extracted high-level semantics from visual inputs as the guidance to help disentangle sound representation for individual sources. Can we directly learn to disentangle the individual semantics from the sound itself? The dilemma is that multiple sound sources are mixed together in the original space. To tackle the difficulty, in this paper, we present a novel Semantic Grouping Network, termed as SGN, that can directly disentangle sound representations and extract high-level semantic information for each source from input audio mixture. Specifically, SGN aggregates category-wise source features through learnable class tokens of sounds. Then, the aggregated semantic features can be used as the guidance to separate the corresponding audio sources from the mixture. We conducted extensive experiments on music-only and universal sound separation benchmarks: MUSIC, FUSS, MUSDB18, and VGG-Sound. The results demonstrate that our SGN significantly outperforms previous audio-only methods and audio-visual models without utilizing additional visual cues.
翻訳日:2024-07-08 18:52:18 公開日:2024-07-04
# アト秒X線吸収分光法による位相相転移

Topological phase transitions via attosecond x-ray absorption spectroscopy ( http://arxiv.org/abs/2407.03737v1 )

ライセンス: Link先を確認
Juan F. P. Mosquera, Giovanni Cistaro, Mikhail Malakhov, Emilio Pisanty, Alexandre Dauphin, Luis Plaja, Alexis Chacón, Maciej Lewenstein, Antonio Picón, (参考訳) 我々は,X線吸収分光法を用いて位相相転移を捉える可能性を示す数値実験を行った。 位相位相を二階ホッピングで調整したチャーン絶縁体を考える。 我々は、現実的なアト秒分光法をモデル化できる平衡外レーザー駆動電子運動の時間力学シミュレーションを行う。 特に、円偏極IRポンプパルスとアト秒X線プローブパルスを用いた超高速スキームを用いる。 レーザー誘起二色性スペクトルは、位相相転移の明確な兆候を示す。 これらのシグネチャをシステムのベリー構造と接続することができます。 この研究は、非自明な位相相を示す系へのアト秒吸収分光の応用を拡張した。

We present a numerical experiment that demonstrates the possibility to capture topological phase transitions via an x-ray absorption spectroscopy scheme. We consider a Chern insulator whose topological phase is tuned via a second-order hopping. We perform time-dynamics simulations of the out-of-equilibrium laser-driven electron motion that enables us to model a realistic attosecond spectroscopy scheme. In particular, we use an ultrafast scheme with a circularly polarized IR pump pulse and an attosecond x-ray probe pulse. A laser-induced dichroism-type spectrum shows a clear signature of the topological phase transition. We are able to connect these signatures with the Berry structure of the system. This work extend the applications of attosecond absorption spectroscopy to systems presenting a non-trivial topological phase.
翻訳日:2024-07-08 18:52:18 公開日:2024-07-04
# BasisN: ディープニューラルネットワークのためのBasisコンビネーションによるRRAMベースのインメモリ計算

BasisN: Reprogramming-Free RRAM-Based In-Memory-Computing by Basis Combination for Deep Neural Networks ( http://arxiv.org/abs/2407.03738v1 )

ライセンス: Link先を確認
Amro Eldebiky, Grace Li Zhang, Xunzhao Yin, Cheng Zhuo, Ing-Chao Lin, Ulf Schlichtmann, Bing Li, (参考訳) ディープニューラルネットワーク(DNN)は、画像認識や言語処理など、さまざまな分野でブレークスルーを遂げている。 DNNは数億の乗算および累積(MAC)処理を実行する。 このような計算を効率的に高速化するために、アナログメモリ計算プラットフォームは抵抗RAM(RRAM)のような新しいデバイスを活用するようになった。 しかし、これらの加速器は、DNNの全重量を保持するのに十分なチップのクロスバーを持つ必要があるというハードルに直面している。 さもなくば、クロスバーのRRAMセルは、さらなるレイヤを処理するために再プログラムする必要があるため、非常に遅い書き込みとRRAMセルの検証のために、大きな時間/エネルギーオーバーヘッドを引き起こす。 結果として、そのようなアクセラレーターを産業で大規模DNNを処理するために展開することは依然として不可能である。 この問題に対処するため,再プログラミングせずに利用可能なクロスバーのDNNを高速化するBasisNフレームワークを提案する。 BasisNは、すべての層間で共有される大域基底ベクトルと量子化係数の組合せとして、DNN層におけるカーネルの斬新な表現を導入している。 これらの基底ベクトルは、クロスバーに1回だけ書き込まれ、ハードウェアを極端に修正した全ての層の計算に使用される。 BasisNはまた、グローバル基底ベクトルによる計算並列化を強化し、カーネルを構築するための係数を最適化するための新しいトレーニングアプローチも提供する。 実験の結果,DenseNetやResNetなどの大規模DNNをImageNetやCIFAR100のデータセットで処理する際,クロスバーに再プログラミングを適用する場合と比較して,推論とエネルギ遅延製品あたりのサイクルが1%以下に削減され,トレーニングとハードウェアコストは無視できることがわかった。

Deep neural networks (DNNs) have made breakthroughs in various fields including image recognition and language processing. DNNs execute hundreds of millions of multiply-and-accumulate (MAC) operations. To efficiently accelerate such computations, analog in-memory-computing platforms have emerged leveraging emerging devices such as resistive RAM (RRAM). However, such accelerators face the hurdle of being required to have sufficient on-chip crossbars to hold all the weights of a DNN. Otherwise, RRAM cells in the crossbars need to be reprogramed to process further layers, which causes huge time/energy overhead due to the extremely slow writing and verification of the RRAM cells. As a result, it is still not possible to deploy such accelerators to process large-scale DNNs in industry. To address this problem, we propose the BasisN framework to accelerate DNNs on any number of available crossbars without reprogramming. BasisN introduces a novel representation of the kernels in DNN layers as combinations of global basis vectors shared between all layers with quantized coefficients. These basis vectors are written to crossbars only once and used for the computations of all layers with marginal hardware modification. BasisN also provides a novel training approach to enhance computation parallelization with the global basis vectors and optimize the coefficients to construct the kernels. Experimental results demonstrate that cycles per inference and energy-delay product were reduced to below 1% compared with applying reprogramming on crossbars in processing large-scale DNNs such as DenseNet and ResNet on ImageNet and CIFAR100 datasets, while the training and hardware costs are negligible.
翻訳日:2024-07-08 18:52:18 公開日:2024-07-04
# SRAS:マルチパーティコラボレーションのための自己管理型リモートテストスキーム

SRAS: Self-governed Remote Attestation Scheme for Multi-party Collaboration ( http://arxiv.org/abs/2407.03745v1 )

ライセンス: Link先を確認
Linan Tian, Yunke Shen, Zhiqiang Li, (参考訳) Intel Software Guard Extensions (SGX) のようなTrusted Execution Environments (TEE) は、クラウドコンピューティングリソースを使用する際のユーザアプリケーションの機密性と整合性を保証する。 しかし、マルチパーティのクラウドコンピューティングシナリオでは、各パーティのTEEを検証するためにRelying Partyを選択する方法や、機密データを相互にリークすることを避ける方法は、未解決の問題である。 本稿では,TEEとコンピュータ資産の信頼性を検証し,マルチパーティクラウドユーザを対象とした分散型統合信頼型検証・検証プラットフォームを実現するための,オープンな自己管理型遠隔検定システムSRASを提案する。 SRASでは,他人に機密データを漏らすことなく,他の参加者に代わって局所的な検証が可能な仮想検証ネットワークを構築可能なリライジングパーティエンクレーブを設計する。 我々はSRASのオープンソースプロトタイプ実装を提供し、クラウドユーザや開発者によるこの技術の採用を容易にします。

Trusted Execution Environments (TEEs), such as Intel Software Guard Extensions (SGX), ensure the confidentiality and integrity of user applications when using cloud computing resources. However, in the multi-party cloud computing scenario, how to select a Relying Party to verify the TEE of each party and avoid leaking sensitive data to each other remains an open question. In this paper, we propose SRAS, an open self-governed remote attestation scheme with attestation and verification functions for verifying the trustworthiness of TEEs and computing assets, achieving decentralized unified trusted attestation and verification platform for multi-party cloud users. In SRAS, we design a Relying Party enclave, which can form a virtual verifiable network, capable of local verification on behalf of other participants relying parties without leaking sensitive data to others. We provide an open-source prototype implementation of SRAS to facilitate the adoption of this technology by cloud users or developers.
翻訳日:2024-07-08 18:42:12 公開日:2024-07-04
# データスカース設定におけるargument Mining: 言語間移動とFew-shot技術

Argument Mining in Data Scarce Settings: Cross-lingual Transfer and Few-shot Techniques ( http://arxiv.org/abs/2407.03748v1 )

ライセンス: Link先を確認
Anar Yeginbergen, Maite Oronoz, Rodrigo Agerri, (参考訳) シークエンスラベリングに関する最近の研究は、世界のほとんどの言語において手動で注釈付きデータの欠如を緩和するための様々な戦略を模索している。 中でも最も成功したアプローチは (i)多言語事前学習言語モデル(モデル-トランスファー)の言語間伝達機能 二 データ翻訳及びラベル投影(データ転送)及び (iii) 事前訓練された言語モデル(フェーショット)の少数ショット機能を利用するためにマスク目的を再利用した即時学習(フェーショット)。 従来の研究では、モデルトランスファーはデータトランスファー法より優れており、プロンプトに基づく少数ショット技術は微調整によりモデルの重みを更新するよりも優れていると結論付けられていた。 本稿では、Argument Miningにおいて、長く複雑な談話構造の検出を必要とするシーケンスラベリングタスクについて、従来の言語間移動や少数ショット学習に関する洞察が適用されないことを実証的に示す。 従来の研究とは対照的に、Argument Miningデータ転送はモデル転送よりも優れた結果を得ることができ、微調整は数ショット法より優れていることを示す。 前者については、データ転送に使用されるデータセットのドメインが決定要因であるように思われるが、数秒間、タスクの種類(シーケンスの長さと複雑さ)とサンプリングメソッドが重要であることが証明されている。

Recent research on sequence labelling has been exploring different strategies to mitigate the lack of manually annotated data for the large majority of the world languages. Among others, the most successful approaches have been based on (i) the cross-lingual transfer capabilities of multilingual pre-trained language models (model-transfer), (ii) data translation and label projection (data-transfer) and (iii), prompt-based learning by reusing the mask objective to exploit the few-shot capabilities of pre-trained language models (few-shot). Previous work seems to conclude that model-transfer outperforms data-transfer methods and that few-shot techniques based on prompting are superior to updating the model's weights via fine-tuning. In this paper, we empirically demonstrate that, for Argument Mining, a sequence labelling task which requires the detection of long and complex discourse structures, previous insights on cross-lingual transfer or few-shot learning do not apply. Contrary to previous work, we show that for Argument Mining data transfer obtains better results than model-transfer and that fine-tuning outperforms few-shot methods. Regarding the former, the domain of the dataset used for data-transfer seems to be a deciding factor, while, for few-shot, the type of task (length and complexity of the sequence spans) and sampling method prove to be crucial.
翻訳日:2024-07-08 18:42:12 公開日:2024-07-04
# 局所海状態推定のためのコンピュータビジョンアプローチ

A Computer Vision Approach to Estimate the Localized Sea State ( http://arxiv.org/abs/2407.03755v1 )

ライセンス: Link先を確認
Aleksandar Vorkapic, Miran Pobar, Marina Ivasic-Kos, (参考訳) 本研究は,国際海洋機関の炭素削減目標を満たすための重要な要因である,船舶の運転安全性とエネルギー効率の向上に寄与することを目的とした,コンピュータビジョン(CV)と深層学習のリアルタイム海面認識への応用について述べる。 特に,本研究は,Beaufortスケールに基づく海面自動推定のための深層学習アルゴリズムを訓練するために,船橋に設置した1台の静止カメラで捉えた運用封筒内の海面画像の活用に焦点を当てた。 海の状態を認識するために,Resnet-101,NASNet,MobileNet_v2,Transformer Vit-b32という,さまざまなコンピュータビジョンタスクで有用な特徴を持つ4つの最先端ニューラルネットワークを使用した。 さらに、機械学習のために準備された海洋航行船から広範囲の海域で収集された、ユニークな大規模データセットを定義した。 データセット上のモデルを微調整するために、転送学習アプローチを使用しました。 以上の結果から,従来手法を補完する手法として,特にインサイト計測が不可能であったり,補間された気象ブイデータが不十分であったりする可能性が示唆された。 本研究は、海洋研究における認識されたギャップに対処し、より安全で効率的な海洋活動を可能にするために、機械学習に基づく海状態分類モデルをさらに発展させるための基盤となる。

This research presents a novel application of computer vision (CV) and deep learning methods for real-time sea state recognition aiming to contribute to improving the operational safety and energy efficiency of seagoing vessels, key factors in meeting the International Maritime Organization's carbon reduction targets. In particular, our work focuses on utilizing sea images in operational envelope captured by a single stationary camera mounted on the ship bridge, which are used to train deep learning algorithms for automatic sea state estimation based on the Beaufort scale. To recognize the sea state, we used 4 state-of-the-art neural networks with different characteristics that proved useful in various computer vision tasks: Resnet-101, NASNet, MobileNet_v2 and Transformer Vit-b32. Furthermore, we have defined a unique large-scale dataset, collected over a broad range of sea conditions from an ocean-going vessel prepared for machine learning. We used transfer learning approach to fine-tune the models on our dataset. The obtained results suggest promising potential for this approach to complement traditional methods, particularly where in-situ measurements are unfeasible or interpolated weather buoy data is insufficiently accurate. This study sets the groundwork for further development of machine learning-based sea state classification models to address recognized gaps in maritime research and enable safer and more efficient maritime operations.
翻訳日:2024-07-08 18:42:12 公開日:2024-07-04
# DiffRetouch: 専門家の肩に手を加えるために拡散を使う

DiffRetouch: Using Diffusion to Retouch on the Shoulder of Experts ( http://arxiv.org/abs/2407.03757v1 )

ライセンス: Link先を確認
Zheng-Peng Duan, Jiawei zhang, Zheng Lin, Xin Jin, Dongqing Zou, Chunle Guo, Chongyi Li, (参考訳) 画像のリタッチは、写真の視覚的品質を高めることを目的としている。 ユーザによる審美的嗜好の相違を考慮すると、リタッチの対象は主観的である。 しかし、現在のリタッチ手法は、主に決定論的モデルを採用しており、専門家が修正した結果のスタイルの多様性を無視し、トレーニング中に平均的なスタイルを学ぶ傾向があるだけでなく、推論中にサンプルの多様性も欠いている。 本稿ではDiffRetouchという拡散法を提案する。 拡散の優れた分布モデリング能力により、トレーニングデータ中の様々な視覚的散布スタイルをカバーする複雑な微調整分布を捉えることができる。 さらに、4つの画像属性を調整可能とし、ユーザフレンドリな編集機構を提供する。 これらの属性を特定の範囲で調整することで、ユーザーは学習した微調整されたディストリビューション内で好みのスタイルをカスタマイズできる。 また,アフィン二方向格子とコントラスト学習方式を導入し,テクスチャ歪みと制御不感度の問題をそれぞれ処理する。 広汎な実験により,本手法の視覚的魅力とサンプルの多様性に対する優れた性能が実証された。 コードはコミュニティで利用可能になる。

Image retouching aims to enhance the visual quality of photos. Considering the different aesthetic preferences of users, the target of retouching is subjective. However, current retouching methods mostly adopt deterministic models, which not only neglects the style diversity in the expert-retouched results and tends to learn an average style during training, but also lacks sample diversity during inference. In this paper, we propose a diffusion-based method, named DiffRetouch. Thanks to the excellent distribution modeling ability of diffusion, our method can capture the complex fine-retouched distribution covering various visual-pleasing styles in the training data. Moreover, four image attributes are made adjustable to provide a user-friendly editing mechanism. By adjusting these attributes in specified ranges, users are allowed to customize preferred styles within the learned fine-retouched distribution. Additionally, the affine bilateral grid and contrastive learning scheme are introduced to handle the problem of texture distortion and control insensitivity respectively. Extensive experiments have demonstrated the superior performance of our method on visually appealing and sample diversity. The code will be made available to the community.
翻訳日:2024-07-08 18:42:12 公開日:2024-07-04
# エッジデプロイ可能なセルラーネットワークテストにおけるソフトウェアログ分類のための畳み込み対大言語モデル

Convolutional vs Large Language Models for Software Log Classification in Edge-Deployable Cellular Network Testing ( http://arxiv.org/abs/2407.03759v1 )

ライセンス: Link先を確認
Achintha Ihalage, Sayed M. Taheri, Faris Muhammad, Hamed Al-Raweshidy, (参考訳) VIAVI TM500のような通信業界の高度なネットワークエミュレータが生成するソフトウェアログは非常に複雑で、自然言語にはほとんど似ていない数万行のテキストからなることが多い。 専門のエキスパートエンジニアだけがこのようなログを解読し、テスト実行時の欠陥をトラブルシュートすることができる。 AIは欠陥トリアージを自動化するための有望なソリューションを提供するが、企業にとって大きな収益削減につながる可能性がある。 これには制約付きコンテキストウィンドウ、自然言語以外のテキストの適用性に制限があること、推論コストが高いことなどが含まれる。 これらの制約に対処するために,20万文字までのコンテキストウインドウを提供する小型畳み込みニューラルネットワーク (CNN) アーキテクチャを提案し,通信プロトコルスタックの様々な層にマルチインターフェースソフトウェアログを分類する際に,96%以上の精度 (F1>0.9) を達成する。 具体的には、提案されたモデルは、テスト実行中の欠陥を特定し、それらを関連する部門(以前は専門家の知識を必要とする手動のエンジニアリングプロセス)にトリアージする。 LLaMA2-7B, Mixtral 8x7B, Flan-T5, BERT, BigBird のいくつかのLCMを評価し, 特殊用途における問題点を実験的に実証した。 軽量ながら、当社のCNNは、生産コストを最小化しつつ、通信ログ分類におけるLCMベースのアプローチを著しく上回っている。 私たちの欠陥トリアージAIモデルは、専用のハードウェアを使わずにエッジデバイスにデプロイ可能で、さまざまな業界のソフトウェアログに広く適用できます。

Software logs generated by sophisticated network emulators in the telecommunications industry, such as VIAVI TM500, are extremely complex, often comprising tens of thousands of text lines with minimal resemblance to natural language. Only specialised expert engineers can decipher such logs and troubleshoot defects in test runs. While AI offers a promising solution for automating defect triage, potentially leading to massive revenue savings for companies, state-of-the-art large language models (LLMs) suffer from significant drawbacks in this specialised domain. These include a constrained context window, limited applicability to text beyond natural language, and high inference costs. To address these limitations, we propose a compact convolutional neural network (CNN) architecture that offers a context window spanning up to 200,000 characters and achieves over 96% accuracy (F1>0.9) in classifying multifaceted software logs into various layers in the telecommunications protocol stack. Specifically, the proposed model is capable of identifying defects in test runs and triaging them to the relevant department, formerly a manual engineering process that required expert knowledge. We evaluate several LLMs; LLaMA2-7B, Mixtral 8x7B, Flan-T5, BERT and BigBird, and experimentally demonstrate their shortcomings in our specialized application. Despite being lightweight, our CNN significantly outperforms LLM-based approaches in telecommunications log classification while minimizing the cost of production. Our defect triaging AI model is deployable on edge devices without dedicated hardware and widely applicable across software logs in various industries.
翻訳日:2024-07-08 18:42:12 公開日:2024-07-04
# GraphCNNpred: グラフベースのディープラーニングシステムを用いた株式市場の予測指標

GraphCNNpred: A stock market indices prediction using a Graph based deep learning system ( http://arxiv.org/abs/2407.03760v1 )

ライセンス: Link先を確認
Yuhui Jin, (参考訳) 株式市場価格を予測するためのディープラーニング技術は、データサイエンスの分野で人気のあるトピックである。 カスタマイズされた機能エンジニアリングは、さまざまな株式市場データセットの事前処理ツールとして現れます。 本稿では,グラフニューラルネットワークをベースとした畳み込みニューラルネットワーク(CNN)モデルを提案する。これはさまざまなデータソースに適用可能であり,NASDAQ, DJI, NYSE, RUSSELのインデックスの傾向を予測するための特徴を抽出する。

Deep learning techniques for predicting stock market prices is an popular topic in the field of data science. Customized feature engineering arises as pre-processing tools of different stock market dataset. In this paper, we give a graph neural network based convolutional neural network (CNN) model, that can be applied on diverse source of data, in the attempt to extract features to predict the trends of indices of \text{S}\&\text{P} 500, NASDAQ, DJI, NYSE, and RUSSEL.
翻訳日:2024-07-08 18:42:12 公開日:2024-07-04
# HYBRINFOX at CheckThat! 2024 - Task 2: Enriching BERT Models with the Expert System VAGO for Subjectivity Detection (英語)

HYBRINFOX at CheckThat! 2024 -- Task 2: Enriching BERT Models with the Expert System VAGO for Subjectivity Detection ( http://arxiv.org/abs/2407.03770v1 )

ライセンス: Link先を確認
Morgane Casanova, Julien Chanson, Benjamin Icard, Géraud Faye, Guillaume Gadek, Guillaume Gravier, Paul Égré, (参考訳) 本稿では,CLEF 2024 CheckThat!コンペティションの主観性検出タスク2の解法としてHYBRINFOX法を提案する。 本手法の具体性は、RoBERTaモデル、主観性検出のための微調整、セマンティクスをキャプチャするための凍結文BERT(sBERT)モデル、およびこのタスクから独立して開発された専門家システムVAGOの英語版で計算されたいくつかのスコアを組み合わせて、語彙に基づくテキストの曖昧さと主観性を測定することである。 英語ではHYBRINFOX法がマクロF1スコア0.7442で1位にランクされた。 他の言語では、この手法は英語への翻訳のステップを使い、より混合した結果を生み出した(イタリア語では第1位、イタリア語では第2位、ブルガリア語では第2位、ドイツ語では第2位、アラビア語では第2位)。 本稿では,我々のハイブリッドアプローチの原理を説明し,その手法を英語以外の言語にも適用する方法を概説する。

This paper presents the HYBRINFOX method used to solve Task 2 of Subjectivity detection of the CLEF 2024 CheckThat! competition. The specificity of the method is to use a hybrid system, combining a RoBERTa model, fine-tuned for subjectivity detection, a frozen sentence-BERT (sBERT) model to capture semantics, and several scores calculated by the English version of the expert system VAGO, developed independently of this task to measure vagueness and subjectivity in texts based on the lexicon. In English, the HYBRINFOX method ranked 1st with a macro F1 score of 0.7442 on the evaluation data. For the other languages, the method used a translation step into English, producing more mixed results (ranking 1st in Multilingual and 2nd in Italian over the baseline, but under the baseline in Bulgarian, German, and Arabic). We explain the principles of our hybrid approach, and outline ways in which the method could be improved for other languages besides English.
翻訳日:2024-07-08 18:42:12 公開日:2024-07-04
# SpikeGS:素早く動くバイオインスパイアされたセンサーで3Dシーンを再構築

SpikeGS: Reconstruct 3D scene via fast-moving bio-inspired sensors ( http://arxiv.org/abs/2407.03771v1 )

ライセンス: Link先を確認
Yijia Guo, Liwen Hu, Lei Ma, Tiejun Huang, (参考訳) 3次元ガウススプラッティング(3DGS)は3次元シーン再構成において非並列的に優れた性能を示す。 しかし、3DGSはシャープな画像に大きく依存している。 この要件を満たすことは、特にカメラが速く動いた場合、現実のシナリオでは困難であり、3DGSの適用を著しく制限する。 これらの課題に対処するため、我々は、スパイクストリームを3DGSパイプラインに統合し、素早く動くバイオインスパイアされたカメラで3Dシーンを再構築する最初のフレームワークであるSpike Gausian Splatting (SpikeGS)を提案した。 蓄積ラスタ化、間隔の監督、特別に設計されたパイプラインにより、SpikeGSは高時間分解能から詳細な幾何学とテクスチャを抽出するが、スパイクストリームを欠いたテクスチャを抽出し、1秒で撮影された3Dシーンを再構成する。 複数の合成および実世界のデータセットに対する大規模な実験は、既存のスパイクベースの3Dシーン再構成法と比較して、SpikeGSの優位性を示している。 コードとデータはまもなくリリースされる。

3D Gaussian Splatting (3DGS) demonstrates unparalleled superior performance in 3D scene reconstruction. However, 3DGS heavily relies on the sharp images. Fulfilling this requirement can be challenging in real-world scenarios especially when the camera moves fast, which severely limits the application of 3DGS. To address these challenges, we proposed Spike Gausian Splatting (SpikeGS), the first framework that integrates the spike streams into 3DGS pipeline to reconstruct 3D scenes via a fast-moving bio-inspired camera. With accumulation rasterization, interval supervision, and a specially designed pipeline, SpikeGS extracts detailed geometry and texture from high temporal resolution but texture lacking spike stream, reconstructs 3D scenes captured in 1 second. Extensive experiments on multiple synthetic and real-world datasets demonstrate the superiority of SpikeGS compared with existing spike-based and deblur 3D scene reconstruction methods. Codes and data will be released soon.
翻訳日:2024-07-08 18:42:12 公開日:2024-07-04
# CS3: spermセグメンテーションのためのカスケードSAM

CS3: Cascade SAM for Sperm Segmentation ( http://arxiv.org/abs/2407.03772v1 )

ライセンス: Link先を確認
Yi Shi, Xu-Peng Tian, Yun-Kai Wang, Tie-Yi Zhang, Bin Yao, Hui Wang, Yong Shao, Cen-Cen Wang, Rong Zeng, De-Chuan Zhan, (参考訳) 精子の自動形態解析は、雄の受精率を評価する上で重要な役割を担っているが、その効果は精子の画像を正確に分類する際の課題によってしばしば損なわれる。 Segment Anything Model(SAM)を含む既存のセグメンテーション技術は、臨床サンプルで頻繁に発生する精子重複の複雑な問題に対処する上で、特に不十分である。 以上の結果から, 精子頭部の除去による画像特性の変化と, 重なり合う領域の視認性の向上が, 複雑な精子構造の分節化におけるSAMの効率を著しく向上させることが明らかとなった。 これらの結果から,精子重複問題に対処するための無監督アプローチであるCS3 (Cascade SAM for Sperm Segmentation) を提示した。 この方法は、SAMのカスケードを用いて精子の頭部、単純な尾、複雑な尾を段階的に分断する。 その後、これらのセグメンテッドマスクは慎重にマッチングされ、完全な精子マスクを構築するために結合される。 主要な医療機関と共同で,約2000枚の未ラベル精子画像からなるデータセットを作成した。 実験の結果,既存手法と比較してCS3の性能は優れていた。

Automated sperm morphology analysis plays a crucial role in the assessment of male fertility, yet its efficacy is often compromised by the challenges in accurately segmenting sperm images. Existing segmentation techniques, including the Segment Anything Model(SAM), are notably inadequate in addressing the complex issue of sperm overlap-a frequent occurrence in clinical samples. Our exploratory studies reveal that modifying image characteristics by removing sperm heads and easily segmentable areas, alongside enhancing the visibility of overlapping regions, markedly enhances SAM's efficiency in segmenting intricate sperm structures. Motivated by these findings, we present the Cascade SAM for Sperm Segmentation (CS3), an unsupervised approach specifically designed to tackle the issue of sperm overlap. This method employs a cascade application of SAM to segment sperm heads, simple tails, and complex tails in stages. Subsequently, these segmented masks are meticulously matched and joined to construct complete sperm masks. In collaboration with leading medical institutions, we have compiled a dataset comprising approximately 2,000 unlabeled sperm images to fine-tune our method, and secured expert annotations for an additional 240 images to facilitate comprehensive model assessment. Experimental results demonstrate superior performance of CS3 compared to existing methods.
翻訳日:2024-07-08 18:42:12 公開日:2024-07-04
# データから常識推論へ - 説明可能なAIのための大規模言語モデルの利用

From Data to Commonsense Reasoning: The Use of Large Language Models for Explainable AI ( http://arxiv.org/abs/2407.03778v1 )

ライセンス: Link先を確認
Stefanie Krause, Frieder Stolzenburg, (参考訳) 常識推論はコンピュータにとって難しい課題であるが、人工知能(AI)にとって重要なスキルである。 決定に対して直感的で人間的な説明を提供することで、AIモデルの説明可能性を高めることができる。 これは、自然言語処理(NLP)において最も重要なタスクの1つである質問応答(QA)において、特に多くの分野において必要である。 時間とともに、形式論理や言語分析を用いた知識に基づくアプローチのような、常識的推論問題を解くための多くの方法が出現してきた。 本稿では,大規模言語モデル(LLM)が様々なQAタスクに与える影響について考察する。 GPT-3.5, Gemma, Llama 3の3つのLCMについて検討した。 さらに,LCMの結果をアンケートにより評価した。 モデルが異なるデータセット上で人間より優れており、LLMがコモンセンスで推論できることを実証する。 GPT-3.5の精度は、様々なQAベンチマークで56%から93%の範囲であるが、Llama 3は11のデータセットで平均90%の精度を達成した。 これにより、Llama 3は10データセットよりも平均21%高い精度で、すべてのデータセットで人間を上回っている。 さらに、説明可能な人工知能(XAI)という意味では、GPT-3.5はその決定によい説明を提供すると評価できる。 回答者の66%がGPT-3.5の説明を「良い」あるいは「優れている」と評価した。 これらの知見を総合して、現在のLSMの理解を深め、推論と説明可能性に関する今後の研究の道を開く。

Commonsense reasoning is a difficult task for a computer, but a critical skill for an artificial intelligence (AI). It can enhance the explainability of AI models by enabling them to provide intuitive and human-like explanations for their decisions. This is necessary in many areas especially in question answering (QA), which is one of the most important tasks of natural language processing (NLP). Over time, a multitude of methods have emerged for solving commonsense reasoning problems such as knowledge-based approaches using formal logic or linguistic analysis. In this paper, we investigate the effectiveness of large language models (LLMs) on different QA tasks with a focus on their abilities in reasoning and explainability. We study three LLMs: GPT-3.5, Gemma and Llama 3. We further evaluate the LLM results by means of a questionnaire. We demonstrate the ability of LLMs to reason with commonsense as the models outperform humans on different datasets. While GPT-3.5's accuracy ranges from 56% to 93% on various QA benchmarks, Llama 3 achieved a mean accuracy of 90% on all eleven datasets. Thereby Llama 3 is outperforming humans on all datasets with an average 21% higher accuracy over ten datasets. Furthermore, we can appraise that, in the sense of explainable artificial intelligence (XAI), GPT-3.5 provides good explanations for its decisions. Our questionnaire revealed that 66% of participants rated GPT-3.5's explanations as either "good" or "excellent". Taken together, these findings enrich our understanding of current LLMs and pave the way for future investigations of reasoning and explainability.
翻訳日:2024-07-08 18:42:12 公開日:2024-07-04
# 野生における機能的忠実性:微分計算グラフプルーニングによる回路発見

Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning ( http://arxiv.org/abs/2407.03779v1 )

ライセンス: Link先を確認
Lei Yu, Jingcheng Niu, Zining Zhu, Gerald Penn, (参考訳) 本稿では,回路発見のための識別可能なマスキングに基づく新規かつ効果的なアルゴリズムであるDiscoGPとともに,サーキットディスカバリ(Circuit Discovery)と呼ばれるタスクを包括的に再構成する手法を提案する。 サーキットディスカバリ(英: circuit discovery)は、言語モデル(LM)の計算機構を、その機能と機能をスパースサブネットワーク(サーキット)に分割することで解釈するタスクである。 既往の回路発見の取り組みにおいて,(1)重みに基づくアプローチと接続エッジに基づくアプローチの二分法により,研究者は刈り込み接続と重みを選択でき,それによってLMの機械的解釈の範囲を制限し,(2)アクティベーションパッチに基づくアルゴリズムは,機能的に忠実でも完全でもない回路を識別する傾向にある。 これらの特定回路の性能は大幅に低下し、しばしば孤立してほぼランダムな性能をもたらす。 さらに、回路の補体、すなわち、同定された回路を除去した元のLMは、依然として十分な性能を維持しており、完全な回路の必須成分が既存の方法によって欠落していることを示している。 DiscoGPは上記の2つの問題に対処し、最先端の忠実さ、完全性、疎さを実証する。 アルゴリズムの有効性とその新しい構造は、生成AIの内部動作に関する新たな洞察を集める新たな道を開く。

In this paper, we introduce a comprehensive reformulation of the task known as Circuit Discovery, along with DiscoGP, a novel and effective algorithm based on differentiable masking for discovering circuits. Circuit discovery is the task of interpreting the computational mechanisms of language models (LMs) by dissecting their functions and capabilities into sparse subnetworks (circuits). We identified two major limitations in existing circuit discovery efforts: (1) a dichotomy between weight-based and connection-edge-based approaches forces researchers to choose between pruning connections or weights, thereby limiting the scope of mechanistic interpretation of LMs; (2) algorithms based on activation patching tend to identify circuits that are neither functionally faithful nor complete. The performance of these identified circuits is substantially reduced, often resulting in near-random performance in isolation. Furthermore, the complement of the circuit -- i.e., the original LM with the identified circuit removed -- still retains adequate performance, indicating that essential components of a complete circuits are missed by existing methods. DiscoGP successfully addresses the two aforementioned issues and demonstrates state-of-the-art faithfulness, completeness, and sparsity. The effectiveness of the algorithm and its novel structure open up new avenues of gathering new insights into the internal workings of generative AI.
翻訳日:2024-07-08 18:42:12 公開日:2024-07-04
# コンピュータビジョンの解釈性の向上:複合場面の透過的2段階分類

Improving Computer Vision Interpretability: Transparent Two-level Classification for Complex Scenes ( http://arxiv.org/abs/2407.03786v1 )

ライセンス: Link先を確認
Stefan Scholz, Nils B. Weidmann, Zachary C. Steinert-Threlkeld, Eda Keremoğlu, Bastian Goldlücke, (参考訳) イメージをデータとして扱うことは、政治科学でますます人気が高まっている。 既存の画像分類器の精度は高いが,分類の基盤となる視覚的特徴を体系的に評価することは困難である。 本稿では,この透明性問題に対処する2段階の分類手法を提案する。 第1段階では、画像セグメンタが画像に存在するオブジェクトを検出し、それらのオブジェクトから特徴ベクトルを生成する。 第2段階では、この特徴ベクトルを標準的な機械学習分類器の入力として使用し、画像間の識別を行う。 この手法を、14万枚以上の画像からなる新しいデータセットに適用し、政治的抗議を示すものを検出する。 この分析は,本論文のアプローチの3つの利点を示す。 まず、画像に表示されたオブジェクトに対する人間の理解可能なラベルを提供することで、画像内のオブジェクトの識別が透明性を向上させる。 第二に、これらのオブジェクトを知ることは、抗議画像と非抗議画像とを区別する分析を可能にする。 第3に、国家間のオブジェクトの重要性を比較すると、抗議行動がどう変化するかが明らかになる。 これらの知見は従来のコンピュータビジョン分類器では利用できず、比較研究の新しい機会を提供する。

Treating images as data has become increasingly popular in political science. While existing classifiers for images reach high levels of accuracy, it is difficult to systematically assess the visual features on which they base their classification. This paper presents a two-level classification method that addresses this transparency problem. At the first stage, an image segmenter detects the objects present in the image and a feature vector is created from those objects. In the second stage, this feature vector is used as input for standard machine learning classifiers to discriminate between images. We apply this method to a new dataset of more than 140,000 images to detect which ones display political protest. This analysis demonstrates three advantages to this paper's approach. First, identifying objects in images improves transparency by providing human-understandable labels for the objects shown on an image. Second, knowing these objects enables analysis of which distinguish protest images from non-protest ones. Third, comparing the importance of objects across countries reveals how protest behavior varies. These insights are not available using conventional computer vision classifiers and provide new opportunities for comparative research.
翻訳日:2024-07-08 18:42:12 公開日:2024-07-04
# ビデオ言語表現学習のためのメタ最適化Angular Marginコントラストフレームワーク

Meta-optimized Angular Margin Contrastive Framework for Video-Language Representation Learning ( http://arxiv.org/abs/2407.03788v1 )

ライセンス: Link先を確認
Thong Nguyen, Yi Bin, Xiaobao Wu, Xinshuai Dong, Zhiyuan Hu, Khoi Le, Cong-Duy Nguyen, See-Kiong Ng, Luu Anh Tuan, (参考訳) データ品質は、ビデオ言語表現学習の有効性を決定する最前線にある。 しかし、以前のデータにおけるビデオテキストのペアは通常、完全に一致しないため、ビデオ言語による表現は、正確にはクロスモーダルなセマンティクスを反映しない。 さらに、従来のデータにも概念の不均一な分布があり、不人気な対象に対する下流のパフォーマンスを阻害する。 これらの問題に対処するため, 完全類似性を達成するためのクロスモーダル表現を正規化するために, 減算的角マージンを持つ対照的な目的を提案する。 さらに, 不均一な概念分布に対応するために, 多層パーセプトロン(MLP)パラメータ重み付け関数を提案する。 大規模な視覚言語モデルによって生成されたビデオテキストデータにより、少量の未バイアスメタデータで指導され、強化された訓練により、ビデオ言語表現を改善し、よく使われるビデオ質問応答とテキストビデオ検索データセットにおいて優れたパフォーマンスを達成する。

Data quality stands at the forefront of deciding the effectiveness of video-language representation learning. However, video-text pairs in previous data typically do not align perfectly with each other, which might lead to video-language representations that do not accurately reflect cross-modal semantics. Moreover, previous data also possess an uneven distribution of concepts, thereby hampering the downstream performance across unpopular subjects. To address these problems, we propose a contrastive objective with a subtractive angular margin to regularize cross-modal representations in their effort to reach perfect similarity. Furthermore, to adapt to the non-uniform concept distribution, we propose a multi-layer perceptron (MLP)-parameterized weighting function that maps loss values to sample weights which enable dynamic adjustment of the model's focus throughout the training. With the training guided by a small amount of unbiased meta-data and augmented by video-text data generated by large vision-language model, we improve video-language representations and achieve superior performances on commonly used video question answering and text-video retrieval datasets.
翻訳日:2024-07-08 18:42:12 公開日:2024-07-04
# コードの可読性に関する開発者の見解の一致を評価する

Assessing Consensus of Developers' Views on Code Readability ( http://arxiv.org/abs/2407.03790v1 )

ライセンス: Link先を確認
Agnia Sergeyuk, Olga Lvova, Sergey Titov, Anastasiia Serova, Farid Bagirov, Timofey Bryksin, (参考訳) 大規模言語モデル(LLM)の急速な増加は、CopilotやJetBrains AI Assistantといったツールによって、開発者の生産性が向上するなど、ソフトウェア開発に変化をもたらした。 しかし、開発者はコードを書くよりもコードレビューに多くの時間を費やし、コード理解におけるコード可読性の重要性を強調している。 以前の調査では、既存のCode Readabilityモデルは開発者の考え方を表現できないことが分かり、開発者の間でのコンセンサスが低く、この分野におけるさらなる調査の必要性が浮き彫りになりました。 これに基づいて、コード可読性評価と関連する側面に関するコンセンサスを評価するために、似たようなコーディング経験を持つ10人のJava開発者を調査しました。 コード可読性の評価について開発者の間で大きな合意が得られ、コード可読性と強く相関する特定のコード側面を特定しました。 全体的な研究は、LLMコンテキスト内のコード可読性に注目し、これらのモデルが開発者のコード可読性に対する認識とどのように一致し、AI時代のソフトウェア開発を向上するかについての洞察を提供する。

The rapid rise of Large Language Models (LLMs) has changed software development, with tools like Copilot, JetBrains AI Assistant, and others boosting developers' productivity. However, developers now spend more time reviewing code than writing it, highlighting the importance of Code Readability for code comprehension. Our previous research found that existing Code Readability models were inaccurate in representing developers' notions and revealed a low consensus among developers, highlighting a need for further investigations in this field. Building on this, we surveyed 10 Java developers with similar coding experience to evaluate their consensus on Code Readability assessments and related aspects. We found significant agreement among developers on Code Readability evaluations and identified specific code aspects strongly correlated with Code Readability. Overall, our study sheds light on Code Readability within LLM contexts, offering insights into how these models can align with developers' perceptions of Code Readability, enhancing software development in the AI era.
翻訳日:2024-07-08 18:42:12 公開日:2024-07-04
# M$\mathbf5$ -- 多言語および多文化視覚言語タスクにおける大規模マルチモーダルモデルの性能を評価するための逆ベンチマーク

M$\mathbf5$ -- A Diverse Benchmark to Assess the Performance of Large Multimodal Models Across Multilingual and Multicultural Vision-Language Tasks ( http://arxiv.org/abs/2407.03791v1 )

ライセンス: Link先を確認
Florian Schneider, Sunayana Sitaram, (参考訳) ChatGPTのリリース以来、自然言語処理の分野は、特にLarge Language Models (LLMs)とそのマルチモーダルモデルであるLarge Multimodal Models (LMMs)において、急速に進歩してきた。 その印象的な能力にもかかわらず、LLMは様々なテキストのみのベンチマークで示されるように、様々な言語や文化的文脈で大きなパフォーマンス格差を示すことが多い。 しかし、現在の研究ではマルチモーダルビオラスティックな設定のためのベンチマークが欠落している。 この研究は、多言語および多文化の文脈における多様な視覚言語タスクのLMMを評価するために設計された最初の総合ベンチマークであるM5を導入することで、このギャップを埋める。 M5には5つのタスクと41ドルの言語をカバーする8つのデータセットが含まれている。 さらに,M5-VGRとM5-VLODという2つの新しいデータセットを導入し,新しいVisio-Linguistic Outlier Detectionタスクを導入した。 広範囲な評価と分析を通じて,高次言語と低次言語のタスク非依存性能の相違を強調した。 さらに、より大規模なモデルは、多言語環境では必ずしもより小さなモデルよりも優れているとは限らないことを示す。

Since the release of ChatGPT, the field of Natural Language Processing has experienced rapid advancements, particularly in Large Language Models (LLMs) and their multimodal counterparts, Large Multimodal Models (LMMs). Despite their impressive capabilities, LLMs often exhibit significant performance disparities across different languages and cultural contexts, as demonstrated by various text-only benchmarks. However, current research lacks such benchmarks for multimodal visio-linguistic settings. This work fills this gap by introducing M5, the first comprehensive benchmark designed to evaluate LMMs on diverse vision-language tasks within a multilingual and multicultural context. M5 includes eight datasets covering five tasks and $41$ languages, with a focus on underrepresented languages and culturally diverse images. Furthermore, we introduce two novel datasets, M5-VGR and M5-VLOD, including a new Visio-Linguistic Outlier Detection task, in which all evaluated open-source models fail to significantly surpass the random baseline. Through extensive evaluation and analyses, we highlight substantial task-agnostic performance disparities between high- and low-resource languages. Moreover, we show that larger models do not necessarily outperform smaller ones in a multilingual setting.
翻訳日:2024-07-08 18:42:12 公開日:2024-07-04
# NeuroSteiner: 線長推定のためのグラフ変換器

NeuroSteiner: A Graph Transformer for Wirelength Estimation ( http://arxiv.org/abs/2407.03792v1 )

ライセンス: Link先を確認
Sahil Manchanda, Dana Kianfar, Markus Peschl, Romain Lepert, Michaël Defferrard, (参考訳) 物理的設計のコアとなる目的は、チップ部品をキャンバスに配置する際のワイヤ長(WL)を最小化することである。 配置の最小WLを計算するには、NPハード問題である線形スタイナー最小木(RSMT)を見つける必要がある。 WL推定のコスト-精度フロンティアをナビゲートするために,最適なRSMTソルバであるGeoSteinerを蒸留するニューラルネットワークであるNeuroSteinerを提案する。 NeuroSteinerはGeoSteinerによってラベル付けされた合成ネットでトレーニングされており、実際のチップ設計でトレーニングする必要がなくなる。 さらに、NeuroSteinerの微分性は、勾配降下によるWLの最小化によって実現される。 ISPD 2005と2019では、NeuroSteinerはGeoSteinerよりも60%速く、0.2%と30%のエラーを得られる。

A core objective of physical design is to minimize wirelength (WL) when placing chip components on a canvas. Computing the minimal WL of a placement requires finding rectilinear Steiner minimum trees (RSMTs), an NP-hard problem. We propose NeuroSteiner, a neural model that distills GeoSteiner, an optimal RSMT solver, to navigate the cost--accuracy frontier of WL estimation. NeuroSteiner is trained on synthesized nets labeled by GeoSteiner, alleviating the need to train on real chip designs. Moreover, NeuroSteiner's differentiability allows to place by minimizing WL through gradient descent. On ISPD 2005 and 2019, NeuroSteiner can obtain 0.3% WL error while being 60% faster than GeoSteiner, or 0.2% and 30%.
翻訳日:2024-07-08 18:32:28 公開日:2024-07-04
# CardioSpectrum:3Dディープラーニングと幾何学的インサイトを用いた総合心筋運動解析

CardioSpectrum: Comprehensive Myocardium Motion Analysis with 3D Deep Learning and Geometric Insights ( http://arxiv.org/abs/2407.03794v1 )

ライセンス: Link先を確認
Shahar Zuler, Shai Tejman-Yarden, Dan Raviv, (参考訳) 左心室 (LV) 運動をCTアンギオグラフィー (CTA) を用いてマッピングすることは, 心血管疾患の診断と介入手順の導出に不可欠である。 従来のニューラルネットワークは局所性が高いため、微妙な接点運動を予測するのが困難であり、心筋の3次元マッピングの精度を大幅に低下させる。 3次元光フロー技術とFM(Functional Maps)を用いて,この問題に対処する包括的アプローチを提案する。 FMは地球規模の幾何学的特徴を捉える能力で知られており、3次元幾何学の理解を深めている。 従来のセグメンテーションに基づく先行手法の代替として、スペクトル対応法から導かれる曲面ベース2次元(2次元)制約を用いる。 私たちの3Dディープラーニングアーキテクチャは、ARFlowモデルに基づいて、複雑な3Dモーション分析タスクに最適化されています。 FMを取り入れることで、心筋表面の微妙な運動を正確に捉え、心筋の3次元マッピングの精度を大幅に向上させることができる。 実験により, 心筋運動解析における本法の有効性が確認された。 このアプローチは、心血管疾患の診断と治療の改善に寄与する。 私たちのコードと追加のリソースは、https://shaharzuler.github.io/CardioSpectrumPage.comで利用可能です。

The ability to map left ventricle (LV) myocardial motion using computed tomography angiography (CTA) is essential to diagnosing cardiovascular conditions and guiding interventional procedures. Due to their inherent locality, conventional neural networks typically have difficulty predicting subtle tangential movements, which considerably lessens the level of precision at which myocardium three-dimensional (3D) mapping can be performed. Using 3D optical flow techniques and Functional Maps (FMs), we present a comprehensive approach to address this problem. FMs are known for their capacity to capture global geometric features, thus providing a fuller understanding of 3D geometry. As an alternative to traditional segmentation-based priors, we employ surface-based two-dimensional (2D) constraints derived from spectral correspondence methods. Our 3D deep learning architecture, based on the ARFlow model, is optimized to handle complex 3D motion analysis tasks. By incorporating FMs, we can capture the subtle tangential movements of the myocardium surface precisely, hence significantly improving the accuracy of 3D mapping of the myocardium. The experimental results confirm the effectiveness of this method in enhancing myocardium motion analysis. This approach can contribute to improving cardiovascular diagnosis and treatment. Our code and additional resources are available at: https://shaharzuler.github.io/CardioSpectrumPage
翻訳日:2024-07-08 18:32:28 公開日:2024-07-04
# 波動-粒子双対性によるエントロピー不確実性の等価性の実験的実証

Experimental demonstration of the equivalence of entropic uncertainty with wave-particle duality ( http://arxiv.org/abs/2407.03797v1 )

ライセンス: Link先を確認
Daniel Spegel-Lexne, Santiago Gómez, Joakim Argillander, Marcin Pawłowski, Pedro R. Dieguez, Alvaro Alarcón, Guilherme B. Xavier, (参考訳) 波動粒子の双対性は、量子力学の最も印象的かつ反直観的な特徴の1つであり、2つの非互換な可観測物が任意の精度で同時に測定できないことを示している。 本研究では、光の軌道角運動量(OAM)状態を用いた波動-粒子双対性とエントロピーの不確実性関係の等価性を実験的に実証する。 本実験は,光ファイバーと光ランタンからなる,革新的で再構成可能なプラットフォームを用いて,量子情報処理におけるこの技術の汎用性を示す。 この結果から,情報の観点からの相補性原理に関する基本的な知見が得られ,量子技術の幅広い分野への示唆がもたらされる。

Wave-particle duality is one of the most striking and counter-intuitive features of quantum mechanics, illustrating that two incompatible observables cannot be measured simultaneously with arbitrary precision. In this work, we experimentally demonstrate the equivalence of wave-particle duality and entropic uncertainty relations using orbital angular momentum (OAM) states of light. Our experiment utilizes an innovative and reconfigurable platform composed of few-mode optical fibers and photonic lanterns, showcasing the versatility of this technology for quantum information processing. Our results provide fundamental insights into the complementarity principle from an informational perspective, with implications for the broader field of quantum technologies.
翻訳日:2024-07-08 18:32:28 公開日:2024-07-04
# 動的プログラム人気を有するMECシステムにおけるマルチタイムサービスキャッシングと価格設定

Multi-Time Scale Service Caching and Pricing in MEC Systems with Dynamic Program Popularity ( http://arxiv.org/abs/2407.03804v1 )

ライセンス: Link先を確認
Yiming Chen, Xingyuan Hu, Bo Gu, Shimin Gong, Zhou Su, (参考訳) モバイルエッジコンピューティングシステムでは、エッジサーバを備えたベースステーション(BS)が、タスク実行時間を短縮するためにコンピューティングサービスを提供する。 しかし、常にBSとユーザーの間で利害の対立がある。 BSは自身の利益を最大化するためにユーザ需要に基づいてサービスプログラムを価格設定し、ユーザは価格に基づいてオフロード戦略を決定してコストを最小化する。 さらに、即時コンピューティングのニーズを満たすためには、サービスプログラムを事前キャッシュする必要がある。 キャッシュ容量の制限とサービスプログラムの人気の変化のため、BSはどのサービスプログラムをキャッシュするかを動的に選択する必要がある。 サービスキャッシングと価格設定は時間粒度の調整を必要とするため、サービスキャッシング、価格設定、タスクオフロードを協調的に最適化する2時間スケールのフレームワークを提案する。 大規模化のために,推定人気情報に応じてサービスキャッシュを動的に調整するゲームネスト深層強化学習アルゴリズムを提案する。 小規模な時間スケールでは、BSとユーザ間の相互作用を2段階ゲームとしてモデル化することにより、不完全な情報の下での平衡の存在を証明し、最適な価格設定とオフロード戦略を導出する。 実世界のデータセットに基づく大規模なシミュレーションは、提案手法の効率を実証する。

In mobile edge computing systems, base stations (BSs) equipped with edge servers can provide computing services to users to reduce their task execution time. However, there is always a conflict of interest between the BS and users. The BS prices the service programs based on user demand to maximize its own profit, while the users determine their offloading strategies based on the prices to minimize their costs. Moreover, service programs need to be pre-cached to meet immediate computing needs. Due to the limited caching capacity and variations in service program popularity, the BS must dynamically select which service programs to cache. Since service caching and pricing have different needs for adjustment time granularities, we propose a two-time scale framework to jointly optimize service caching, pricing and task offloading. For the large time scale, we propose a game-nested deep reinforcement learning algorithm to dynamically adjust service caching according to the estimated popularity information. For the small time scale, by modeling the interaction between the BS and users as a two-stage game, we prove the existence of the equilibrium under incomplete information and then derive the optimal pricing and offloading strategies. Extensive simulations based on a real-world dataset demonstrate the efficiency of the proposed approach.
翻訳日:2024-07-08 18:32:28 公開日:2024-07-04
# 難読化LDMを用いた認知的モデリング : 参照表現生成を事例として

Cognitive Modeling with Scaffolded LLMs: A Case Study of Referential Expression Generation ( http://arxiv.org/abs/2407.03805v1 )

ライセンス: Link先を確認
Polina Tsvilodub, Michael Franke, Fausto Carcassi, (参考訳) LLMは、言語生成の認知モデルの一部として、どの程度まで使えるのか? 本稿では,Dale & Reiter (1995) による参照表現生成のアルゴリズム的認知モデルのニューラルシンボリック実装を探索し,この問題にアプローチする。 シンボリックタスク解析は、シンボリックおよびgpt-3.5-turboベースのモジュールを足場とする反復手順として生成を実装している。 この実装を、A3DSデータセット(Tsvilodub & Franke, 2023)の短縮モデルと、1ショットのLCMのみのベースラインと比較する。 我々のハイブリッドアプローチは認知的に妥当であり、複雑なコンテキストでうまく機能し、より大きなドメインにおける言語生成のよりオープンなモデリングを可能にします。

To what extent can LLMs be used as part of a cognitive model of language generation? In this paper, we approach this question by exploring a neuro-symbolic implementation of an algorithmic cognitive model of referential expression generation by Dale & Reiter (1995). The symbolic task analysis implements the generation as an iterative procedure that scaffolds symbolic and gpt-3.5-turbo-based modules. We compare this implementation to an ablated model and a one-shot LLM-only baseline on the A3DS dataset (Tsvilodub & Franke, 2023). We find that our hybrid approach is cognitively plausible and performs well in complex contexts, while allowing for more open-ended modeling of language generation in a larger domain.
翻訳日:2024-07-08 18:32:28 公開日:2024-07-04
# 対称ビーム変位設計による高品質絡み合った光子源

High-quality entangled photons source by symmetric beam displacement design ( http://arxiv.org/abs/2407.03806v1 )

ライセンス: Link先を確認
Giacomo Paganini, Alvaro Cuevas, Robin Camphausen, Alexander Demuth, Valerio Pruneri, (参考訳) 絡み合った光子源(EPS)は、量子通信、計算、センシングの進展において重要である。 例外的な(フェーズ)安定性を特徴とする、効率的で堅牢なEPSを現場に展開する需要は、ますます顕在化しつつある。 この研究は偏光絡み合った光子源を導入し、タイプ0の自発パラメトリックダウンコンバージョンを利用し、商用のバルク光学部品を用いて構築する。 我々のシステムは汎用的であり、センサアプリケーションや量子鍵分布プロトコルのためのベル状態に対するN00N状態の生成を可能にする。 平均交絡視力は99%を超える最大ベル不平等違反を認めた。 さらなるパフォーマンス向上の可能性も検討されている。

Entangled photon sources (EPSs) are pivotal in advancing quantum communication, computing and sensing. The demand for deploying efficient, robust EPSs in the field, characterized by exceptional (phase) stability, has become increasingly apparent. This work introduces a polarization-entangled photon source, leveraging type-0 spontaneous parametric down-conversion, and constructed using commercial bulk optomechanical components. Our system is versatile, enabling the generation of N00N states for sensing applications or Bell states for quantum key distribution protocols. We attained a maximal Bell inequality violation, with the average entanglement visibility exceeding 99% . The potential for further performance enhancements is also explored.
翻訳日:2024-07-08 18:32:28 公開日:2024-07-04
# エストニア語会話音声翻訳のための微調整エンド・ツー・エンドモデル

Finetuning End-to-End Models for Estonian Conversational Spoken Language Translation ( http://arxiv.org/abs/2407.03809v1 )

ライセンス: Link先を確認
Tiia Sildam, Andra Velve, Tanel Alumäe, (参考訳) 本稿では,エストニア語-英語・エストニア語-ロシア語対話音声-テキスト翻訳におけるエンドツーエンドモデルの微調整について検討する。 エストニア語のための音声翻訳データが限られているため、機械翻訳を用いた音声認識データセットからWebスクレイピングと合成により、追加のトレーニングデータを作成しました。 我々は、Whisper、OWSM 3.1、SeamlessM4Tの3つの公開エンド・ツー・エンドモデルを評価した。 以上の結果から, 合成データを用いた微調整は, 最先端音声認識と機械翻訳モデルを用いたSeamlessM4Tマッチングやカスケード音声翻訳システムによる翻訳精度を大幅に向上させることが示唆された。

This paper investigates the finetuning of end-to-end models for bidirectional Estonian-English and Estonian-Russian conversational speech-to-text translation. Due to the limited availability of speech translation data for Estonian, we created additional training data by web scraping and synthesizing data from speech recognition datasets using machine translation. We evaluated three publicly available end-to-end models: Whisper, OWSM 3.1, and SeamlessM4T. Our results indicate that fine-tuning with synthetic data enhances translation accuracy by a large margin, with SeamlessM4T matching or surpassing cascaded speech translation systems that use state-of-the-art speech recognition and machine translation models.
翻訳日:2024-07-08 18:32:28 公開日:2024-07-04
# PECTP:インクリメンタル・ビジョン・トランスのためのパラメータ効率の良いクロスタスク・プロンプト

PECTP: Parameter-Efficient Cross-Task Prompts for Incremental Vision Transformer ( http://arxiv.org/abs/2407.03813v1 )

ライセンス: Link先を確認
Qian Feng, Hanbin Zhao, Chao Zhang, Jiahua Dong, Henghui Ding, Yu-Gang Jiang, Hui Qian, (参考訳) インクリメンタルラーニング(IL)は、シーケンシャルタスクの深層モデルを継続的に学習することを目的としており、各タスクは新しいクラスのバッチを含み、ディープモデルは推論時にタスクID情報にアクセスできない。 最近の大規模な事前学習モデル(PTM)は、古いサンプル(リハーサルフリー)とメモリ制約(メモリ制約)を伴わない実用的なILにおいて、Prompt-extending法とPrompt-fixed法により、優れた性能を実現している。 しかし、拡張するプロンプトプールを維持し、さらに困難なプロンプト選択問題に対処するために、プロンプト拡張メソッドは大きなメモリバッファを必要とする。 プロンプト修正されたメソッドは、インクリメンタルタスクの1つで1組のプロンプトしか学習せず、インクリメンタルタスクを効果的に処理することはできない。 メモリコストと全タスクのパフォーマンスのバランスを良くするために,Prompt Retention Module (PRM) と Classifier Head Retention Module (HRM) を備えたパラメータ効率のよいクロスタスク・プロンプト(PECTP)フレームワークを提案する。 最終的な学習プロンプトをすべてのインクリメンタルタスクで効果的にするために、PRMは、外部プロンプトのグラニュラリティと内プロンプトのグラニュラリティから、クロスタスクプロンプトのパラメータの進化を制限する。 さらに,HRMを用いて,従来学習されていた分類器ヘッドの知識を継承し,クロスタスクプロンプトの一般化能力を高める。 大規模な実験により,本手法の有効性が示された。 ソースコードは \url{https://github.com/RAIAN08/PECTP} で入手できる。

Incremental Learning (IL) aims to learn deep models on sequential tasks continually, where each new task includes a batch of new classes and deep models have no access to task-ID information at the inference time. Recent vast pre-trained models (PTMs) have achieved outstanding performance by prompt technique in practical IL without the old samples (rehearsal-free) and with a memory constraint (memory-constrained): Prompt-extending and Prompt-fixed methods. However, prompt-extending methods need a large memory buffer to maintain an ever-expanding prompt pool and meet an extra challenging prompt selection problem. Prompt-fixed methods only learn a single set of prompts on one of the incremental tasks and can not handle all the incremental tasks effectively. To achieve a good balance between the memory cost and the performance on all the tasks, we propose a Parameter-Efficient Cross-Task Prompt (PECTP) framework with Prompt Retention Module (PRM) and classifier Head Retention Module (HRM). To make the final learned prompts effective on all incremental tasks, PRM constrains the evolution of cross-task prompts' parameters from Outer Prompt Granularity and Inner Prompt Granularity. Besides, we employ HRM to inherit old knowledge in the previously learned classifier heads to facilitate the cross-task prompts' generalization ability. Extensive experiments show the effectiveness of our method. The source codes will be available at \url{https://github.com/RAIAN08/PECTP}.
翻訳日:2024-07-08 18:32:28 公開日:2024-07-04
# マーカレスマルチビュー3次元人物位置推定:サーベイ

Markerless Multi-view 3D Human Pose Estimation: a survey ( http://arxiv.org/abs/2407.03817v1 )

ライセンス: Link先を確認
Ana Filipa Rodrigues Nogueira, Hélder P. Oliveira, Luís F. Teixeira, (参考訳) 3D人間のポーズ推定は、複数の関節を検知することで、シーン内のすべての個人の骨格を再構築することを目的としている。 アニメーション、人間とロボットのインタラクション、監視システム、スポーツなど、現実のいくつかの応用において、正確で効率的な方法の作成が求められている。 しかし、オクルージョンやランダムカメラの視点、あるいは3Dラベル付きデータの不足といったいくつかの障害は、モデルの性能を阻害し、実際のシナリオへの展開を制限してきた。 カメラの高可用性により、研究者は様々な視点を利用してポーズを再構築できるという利点から、マルチビューのソリューションを探ることができた。 そこで本調査の目的は,多視点環境での3次元ポーズ推定手法の概要を提示し,様々な課題に対処する戦略を把握し,その限界を識別することである。 レビューした論文から,3次元ポーズの再構築に伴う課題をすべて解決できる手法が存在しないことが確認できた。 複雑さとパフォーマンスの間に既存のトレードオフがあるため、最良のメソッドはアプリケーションのシナリオに依存します。 そのため,高精度な3次元ポーズを計算コストで迅速に推定できるアプローチを開発するためには,さらなる研究が必要である。 この目的のためには、アクティブラーニング、低レベルの監督で学習する手法、時間的一貫性、視点選択、深度情報の推定、マルチモーダルアプローチといった手法が、この課題を解決するための新しい方法論を開発する際に留意すべき興味深い戦略である。

3D human pose estimation aims to reconstruct the human skeleton of all the individuals in a scene by detecting several body joints. The creation of accurate and efficient methods is required for several real-world applications including animation, human-robot interaction, surveillance systems or sports, among many others. However, several obstacles such as occlusions, random camera perspectives, or the scarcity of 3D labelled data, have been hampering the models' performance and limiting their deployment in real-world scenarios. The higher availability of cameras has led researchers to explore multi-view solutions due to the advantage of being able to exploit different perspectives to reconstruct the pose. Thus, the goal of this survey is to present an overview of the methodologies used to estimate the 3D pose in multi-view settings, understand what were the strategies found to address the various challenges and also, identify their limitations. Based on the reviewed articles, it was possible to find that no method is yet capable of solving all the challenges associated with the reconstruction of the 3D pose. Due to the existing trade-off between complexity and performance, the best method depends on the application scenario. Therefore, further research is still required to develop an approach capable of quickly inferring a highly accurate 3D pose with bearable computation cost. To this goal, techniques such as active learning, methods that learn with a low level of supervision, the incorporation of temporal consistency, view selection, estimation of depth information and multi-modal approaches might be interesting strategies to keep in mind when developing a new methodology to solve this task.
翻訳日:2024-07-08 18:32:28 公開日:2024-07-04
# CONText at WASSA 2024 Empathy and Personality Shared Task: History-Dependent Embedding Utterance Representations for Empathy and Emotion Prediction in Conversations (英語)

ConText at WASSA 2024 Empathy and Personality Shared Task: History-Dependent Embedding Utterance Representations for Empathy and Emotion Prediction in Conversations ( http://arxiv.org/abs/2407.03818v1 )

ライセンス: Link先を確認
Patrícia Pereira, Helena Moniz, Joao Paulo Carvalho, (参考訳) 共感と感情予測は、他のいくつかのアプリケーションの中で、効果的で共感的なエージェントの開発において重要な要素である。 WASSAは、相互作用における共感と感情予測に関するタスクを共有しており、これらのタスクに対するアプローチをベンチマークする機会を提供する。 歴史的文脈を適切に選択し、表現することは、会話における共感と感情のモデル化に不可欠である。 本論文では,会話における各発話の共感,感情の極性,感情の強さを,会話の文脈とともに分類する発話,すなわち,予め訓練された言語モデルへの入力として,ある前の会話のターンを入力し,予測のための回帰ヘッドを付加することによってモデル化する。 また,会話からのすべての発話と,その共感を予測しているインターロケータを識別するトークンを入力して,各インターロケータの相手共感をモデル化する。 当システムでは, CONV-ターントラックで1^{st}$, CONV-ダイアログトラックで2^{nd}$を公式にランク付けした。

Empathy and emotion prediction are key components in the development of effective and empathetic agents, amongst several other applications. The WASSA shared task on empathy and emotion prediction in interactions presents an opportunity to benchmark approaches to these tasks. Appropriately selecting and representing the historical context is crucial in the modelling of empathy and emotion in conversations. In our submissions, we model empathy, emotion polarity and emotion intensity of each utterance in a conversation by feeding the utterance to be classified together with its conversational context, i.e., a certain number of previous conversational turns, as input to an encoder Pre-trained Language Model, to which we append a regression head for prediction. We also model perceived counterparty empathy of each interlocutor by feeding all utterances from the conversation and a token identifying the interlocutor for which we are predicting the empathy. Our system officially ranked $1^{st}$ at the CONV-turn track and $2^{nd}$ at the CONV-dialog track.
翻訳日:2024-07-08 18:32:28 公開日:2024-07-04
# 工学部学生のモチベーションと参加向上のための教室におけるモバイルデバイスの利用

Use of Mobile Devices in the Classroom to Increase Motivation and Participation of Engineering University Students ( http://arxiv.org/abs/2407.03820v1 )

ライセンス: Link先を確認
Carlos Guerrero, Antoni Jaume-i-Capó, Carlos Juiz, Isaac Lera, (参考訳) 本研究の目的は,教室でモバイルデバイスを用いた場合,学生の参加が増加するかどうかを検討することである。 学生参加行動の量を測定した。 2012/2013と2013/2014の4つのコンピュータ工学科目に対応する192人の学生を対象に実験を行った。 測定では, 独立ペアt-testが施行された。 分析の結果,理論授業にモバイルデバイスを使用することで学生の参加が増加し,学生は授業活動に積極的に参加し,独自の結果を共有することが示唆された。

The aim of this study was to see whether student participation increased when mobile devices were used in the classroom. We measured the amount of student participative actions when the Socrative tool was used and when it was not used. Our experiment involved a total of 192 students, corresponding to 4 different subjects of Computer Engineering at the Universitat de les Illes Balears, during 2012/2013 and 2013/2014 courses. An independent paired t-test was performed on the measurements. The analysis results show that student participation increases with the use of mobile devices for theory classes and students are willing to participate in class activities and share their own results.
翻訳日:2024-07-08 18:32:28 公開日:2024-07-04
# 時系列のユニバーサルモデルを用いた応力レベルのシームレスモニタリング

Seamless Monitoring of Stress Levels Leveraging a Universal Model for Time Sequences ( http://arxiv.org/abs/2407.03821v1 )

ライセンス: Link先を確認
Davide Gabrielli, Bardh Prenkaj, Paola Velardi, (参考訳) 神経変性疾患患者のストレスレベルをモニタリングすることは、症状を管理し、患者の生活の質を改善し、疾患の進行に関する洞察を与えるのに役立つ。 文献では、心電図、アクチグラフィー、音声、音声、顔分析が患者の感情を検出するのに有効であることが証明されている。 一方、これらのツールは侵襲的であり、患者の日常生活にスムーズに統合されない。 HRVはまた、特に他のシグナルと組み合わせることで、ストレス条件を効果的に示すことが証明されている。 しかし、HRVがスマートウォッチやブレスレットなど、ECGよりも侵襲性の低いデバイスから派生している場合、測定の質は著しく低下する。 本稿では,時系列のユニバーサルモデルであるUniTSに基づくスマートウォッチからのストレス検出手法を提案する。 本研究は, 患者個人に対するモデル適応を優先し, 臨床医がシステム予測のコントロールを大きく維持できるように, 分類よりも異常検出を課題とした。 提案モデルが3つのベンチマークデータセット上での上位12の手法をかなり上回っていることを示す。 さらに、他の最先端システムとは異なり、UniTSは侵襲的または軽量デバイスからの信号を使用する際の同等のパフォーマンスを示すため、シームレスな監視を可能にする。

Monitoring the stress level in patients with neurodegenerative diseases can help manage symptoms, improve patient's quality of life, and provide insight into disease progression. In the literature, ECG, actigraphy, speech, voice, and facial analysis have proven effective at detecting patients' emotions. On the other hand, these tools are invasive and do not integrate smoothly into the patient's daily life. HRV has also been proven to effectively indicate stress conditions, especially in combination with other signals. However, when HRV is derived from less invasive devices than the ECG, like smartwatches and bracelets, the quality of measurements significantly degrades. This paper presents a methodology for stress detection from a smartwatch based on a universal model for time series, UniTS, which we fine-tuned for the task. We cast the problem as anomaly detection rather than classification to favor model adaptation to individual patients and allow the clinician to maintain greater control over the system's predictions. We demonstrate that our proposed model considerably surpasses 12 top-performing methods on 3 benchmark datasets. Furthermore, unlike other state-of-the-art systems, UniTS enables seamless monitoring, as it shows comparable performance when using signals from invasive or lightweight devices.
翻訳日:2024-07-08 18:32:28 公開日:2024-07-04
# 可変不変制約による創発的解釈可能なシンボルとコンテンツスタイルの絡み合い

Emergent Interpretable Symbols and Content-Style Disentanglement via Variance-Invariance Constraints ( http://arxiv.org/abs/2407.03824v1 )

ライセンス: Link先を確認
Yuxuan Wu, Ziyu Wang, Bhiksha Raj, Gus Xia, (参考訳) 本研究では、生の観察から効果的に学習し、その潜在空間をコンテンツやスタイル表現に分解する教師なしの手法を提案する。 ドメイン固有のラベルや知識に依存するほとんどの非絡み合いアルゴリズムとは異なり、我々の手法は、コンテンツとスタイルのドメイン一般統計的差異の洞察に基づいています -- コンテンツはサンプル内の異なるフラグメントの間でより異なりますが、データサンプル間で不変な語彙を維持していますが、スタイルはサンプル内で比較的不変ですが、異なるサンプル間でより顕著なばらつきを示します。 このような帰納バイアスをエンコーダ・デコーダアーキテクチャに統合し、V3(分散-逆不変性)に因んでメソッドを命名する。 実験結果から,V3は異なる音節の異なる2つの領域,音楽の音声と文字の文字のイメージを一般化し,ピッチ音色とディジロジアンタングルメントの学習に成功していることがわかった。 また、乱れの堅牢性はベースラインの非教師付きメソッドよりも著しく優れており、教師付きメソッドに匹敵する。 さらに、学習した内容のコードブックに記号レベルの解釈可能性が現れ、機械表現と人間の知識のほぼ1対1の一致を形作る。

We contribute an unsupervised method that effectively learns from raw observation and disentangles its latent space into content and style representations. Unlike most disentanglement algorithms that rely on domain-specific labels and knowledge, our method is based on the insight of domain-general statistical differences between content and style -- content varies more among different fragments within a sample but maintains an invariant vocabulary across data samples, whereas style remains relatively invariant within a sample but exhibits more significant variation across different samples. We integrate such inductive bias into an encoder-decoder architecture and name our method after V3 (variance-versus-invariance). Experimental results show that V3 generalizes across two distinct domains in different modalities, music audio and images of written digits, successfully learning pitch-timbre and digit-color disentanglements, respectively. Also, the disentanglement robustness significantly outperforms baseline unsupervised methods and is even comparable to supervised counterparts. Furthermore, symbolic-level interpretability emerges in the learned codebook of content, forging a near one-to-one alignment between machine representation and human knowledge.
翻訳日:2024-07-08 18:32:28 公開日:2024-07-04
# StreamLTS: 協調物体検出のためのクエリベースの時空間LiDAR融合

StreamLTS: Query-based Temporal-Spatial LiDAR Fusion for Cooperative Object Detection ( http://arxiv.org/abs/2407.03825v1 )

ライセンス: Link先を確認
Yunshuang Yuan, Monika Sester, (参考訳) インテリジェントな交通機関間のコミュニケーションによる協調認識は、自動運転の安全性を向上させる大きな可能性を秘めている。 しかし,センサデータの通信帯域幅の制限,ローカライゼーションエラー,および非同期捕捉時間は,それぞれ異なるエージェントのデータ融合に困難をもたらす。 ある拡張のために、以前の研究は共有データサイズを減らし、局所化エラーと通信遅延による空間的特徴の不一致を軽減しようとした。 しかし、いずれも非陽子化センサのチギング時間を考慮しておらず、データ融合中に1メートル以上の動的物体のずれを生じさせる可能性がある。 本研究では、非同期LiDARセンサのタイピング時間を考慮して、広く使われているデータセットOPV2VとDairV2Xを適応させ、クエリベースの手法で個々のオブジェクトの時間情報をモデル化した効率的な完全スパースフレームワークを構築するためのTA-COODを提案する。 実験結果から, 最先端の高密度モデルと比較して, 完全スパースフレームワークの優れた効率性が確認された。 さらに重要なことは、動的オブジェクトのポイントワイドな観測タイムスタンプが、オブジェクトの時間的文脈とそれらの時間的位置の予測可能性の正確なモデリングに不可欠であることを示している。

Cooperative perception via communication among intelligent traffic agents has great potential to improve the safety of autonomous driving. However, limited communication bandwidth, localization errors and asynchronized capturing time of sensor data, all introduce difficulties to the data fusion of different agents. To some extend, previous works have attempted to reduce the shared data size, mitigate the spatial feature misalignment caused by localization errors and communication delay. However, none of them have considered the asynchronized sensor ticking times, which can lead to dynamic object misplacement of more than one meter during data fusion. In this work, we propose Time-Aligned COoperative Object Detection (TA-COOD), for which we adapt widely used dataset OPV2V and DairV2X with considering asynchronous LiDAR sensor ticking times and build an efficient fully sparse framework with modeling the temporal information of individual objects with query-based techniques. The experiment results confirmed the superior efficiency of our fully sparse framework compared to the state-of-the-art dense models. More importantly, they show that the point-wise observation timestamps of the dynamic objects are crucial for accurate modeling the object temporal context and the predictability of their time-related locations.
翻訳日:2024-07-08 18:32:28 公開日:2024-07-04
# DocXplain: 文書画像分類のための新しいモデルに依存しない説明可能性手法

DocXplain: A Novel Model-Agnostic Explainability Method for Document Image Classification ( http://arxiv.org/abs/2407.03830v1 )

ライセンス: Link先を確認
Saifullah Saifullah, Stefan Agne, Andreas Dengel, Sheraz Ahmed, (参考訳) 深層学習(DL)は文書画像解析の分野に革命をもたらした。 しかし、ディープラーニングモデルの本質的なブラックボックスの性質は、業界における安全で堅牢なデプロイメントにおいて、依然として大きな課題となっている。 近年,DLを利用した文書解析システムの開発に多くの研究が注がれているが,その透明性に対処する研究は比較的少ない。 本稿では,文書画像分類作業のための高解釈性特徴属性マップを生成するための,新しいモデルに依存しない説明可能性手法であるDocXplainを導入することにより,この研究ギャップを埋めることを目的とする。 特に,本手法では,文書の前景と背景の特徴を異なる文書要素に分離し,特徴的重要性を付与するためにこれらの要素を非難する。 4つの異なる評価指標,2つの広く認識されている文書ベンチマークデータセット,そして10の最先端の文書イメージ分類モデルを用いて,文書画像分類の文脈における提案手法を広く評価した。 既存の9つの最先端属性法に対して徹底的な定量的・定性的な分析を行うことで、忠実性と解釈可能性の両方の観点から、我々のアプローチの優位性を実証する。 著者の知識を最大限に活用するために、本研究は、特に文書画像に適した、モデルに依存しない属性に基づく説明可能性法を初めて提示する。 我々は,文書画像分類モデルの透明性,公平性,堅牢性に関する研究に,我々の研究が大きく貢献することを期待している。

Deep learning (DL) has revolutionized the field of document image analysis, showcasing superhuman performance across a diverse set of tasks. However, the inherent black-box nature of deep learning models still presents a significant challenge to their safe and robust deployment in industry. Regrettably, while a plethora of research has been dedicated in recent years to the development of DL-powered document analysis systems, research addressing their transparency aspects has been relatively scarce. In this paper, we aim to bridge this research gap by introducing DocXplain, a novel model-agnostic explainability method specifically designed for generating high interpretability feature attribution maps for the task of document image classification. In particular, our approach involves independently segmenting the foreground and background features of the documents into different document elements and then ablating these elements to assign feature importance. We extensively evaluate our proposed approach in the context of document image classification, utilizing 4 different evaluation metrics, 2 widely recognized document benchmark datasets, and 10 state-of-the-art document image classification models. By conducting a thorough quantitative and qualitative analysis against 9 existing state-of-the-art attribution methods, we demonstrate the superiority of our approach in terms of both faithfulness and interpretability. To the best of the authors' knowledge, this work presents the first model-agnostic attribution-based explainability method specifically tailored for document images. We anticipate that our work will significantly contribute to advancing research on transparency, fairness, and robustness of document image classification models.
翻訳日:2024-07-08 18:32:28 公開日:2024-07-04
# 勾配とヘッセン推定のための量子スペクトル法

Quantum spectral method for gradient and Hessian estimation ( http://arxiv.org/abs/2407.03833v1 )

ライセンス: Link先を確認
Yuxin Zhang, Changpeng Shao, (参考訳) 勾配降下は連続最適化問題を解くための最も基本的なアルゴリズムの1つである。 ヨルダンは[Jordan, PRL, 95(5):050501, 2005] において、線形に近い関数の勾配を推定するための最初の量子アルゴリズムを提案し、ブラックボックスモデルでは指数的なスピードアップを行った。 この量子アルゴリズムは[Gily\'en, Arunachalam, and Wiebe, SODA, pp. 1425-1444, 2019]によって大幅に拡張され、$d$変数の滑らかな関数のクラスに対して、最適なクエリ複雑性を持つ量子アルゴリズムを提供する。 これは、同じ問題に対して古典的なアルゴリズムよりも2倍高速である。 この研究では、複素体上で十分に定義された解析関数 $f(\boldsymbol{x})$ という別の種類の函数に対して、新しい量子アルゴリズムを提案することで、この研究を継続する。 実部と虚部をそれぞれ$f(\boldsymbol{x})$で問うための位相オラクルが与えられたとき、クエリ複雑性$\widetilde{O}(1/\varepsilon)$で勾配の$\varepsilon$-approximationを返す量子アルゴリズムを提案する。 これにより、古典的アルゴリズムの次元$d$の指数的なスピードアップが達成される。 拡張として、ニュートン法の量子アナログを改善することを目的とした、ヘッセン推定のための2つの量子アルゴリズムを提案する。 2つのアルゴリズムはそれぞれ異なる仮定の下で、クエリ複雑性$\widetilde{O}(d/\varepsilon)$と$\widetilde{O}(d^{1.5}/\varepsilon)$を持つ。 さらに、ヘシアンが$s$スパースであると約束されている場合、クエリ複雑性を持つ2つの新しい量子アルゴリズムがそれぞれ$\widetilde{O}(s/\varepsilon)$と$\widetilde{O}(sd/\varepsilon)$である。 前者は古典的アルゴリズムよりも指数的なスピードアップを達成する。 また、一般の場合におけるヘッセン推定に対して、$\widetilde{\Omega}(d)$の低い境界も証明する。

Gradient descent is one of the most basic algorithms for solving continuous optimization problems. In [Jordan, PRL, 95(5):050501, 2005], Jordan proposed the first quantum algorithm for estimating gradients of functions close to linear, with exponential speedup in the black-box model. This quantum algorithm was greatly enhanced and developed by [Gily\'en, Arunachalam, and Wiebe, SODA, pp. 1425-1444, 2019], providing a quantum algorithm with optimal query complexity $\widetilde{\Theta}(\sqrt{d}/\varepsilon)$ for a class of smooth functions of $d$ variables, where $\varepsilon$ is the accuracy. This is quadratically faster than classical algorithms for the same problem. In this work, we continue this research by proposing a new quantum algorithm for another class of functions, namely, analytic functions $f(\boldsymbol{x})$ which are well-defined over the complex field. Given phase oracles to query the real and imaginary parts of $f(\boldsymbol{x})$ respectively, we propose a quantum algorithm that returns an $\varepsilon$-approximation of its gradient with query complexity $\widetilde{O}(1/\varepsilon)$. This achieves exponential speedup over classical algorithms in terms of the dimension $d$. As an extension, we also propose two quantum algorithms for Hessian estimation, aiming to improve quantum analogs of Newton's method. The two algorithms have query complexity $\widetilde{O}(d/\varepsilon)$ and $\widetilde{O}(d^{1.5}/\varepsilon)$, respectively, under different assumptions. Moreover, if the Hessian is promised to be $s$-sparse, we then have two new quantum algorithms with query complexity $\widetilde{O}(s/\varepsilon)$ and $\widetilde{O}(sd/\varepsilon)$, respectively. The former achieves exponential speedup over classical algorithms. We also prove a lower bound of $\widetilde{\Omega}(d)$ for Hessian estimation in the general case.
翻訳日:2024-07-08 18:22:43 公開日:2024-07-04
# 公正表現の10年 : 挑戦と機会

10 Years of Fair Representations: Challenges and Opportunities ( http://arxiv.org/abs/2407.03834v1 )

ライセンス: Link先を確認
Mattia Cerrato, Marius Köppel, Philipp Wolf, Stefan Kramer, (参考訳) Fair Representation Learning(FRL)は、主にニューラルネットワークに基づいて、機密情報や望ましくない情報が削除されたデータの新しい表現を学習しようとする、幅広いテクニックセットである。 FRLはリチャード・ゼメルらによって10年ほど前に開拓された。 FRL方法論の基本概念,目的,評価戦略は,現在でも変わらぬままである。 本稿では,FRLの最初の10年間を振り返る。 一 ニューラルネットワーク表現における情報の除去の難しさを示す深層学習理論の最近の研究を踏まえて、その理論的地位を再考すること。 225.000モデル適合と110.000オートML適合)の結果をFRLの共通評価シナリオの改善を目的として提示した。 より具体的には、自動機械学習(AutoML)を使用して、公正な表現であると思われる機密情報を敵対的に“マイニング”します。 我々の理論的および実験的分析は、決定論的で不定量なFRL法が機密情報の除去に深刻な問題を抱えていることを示唆している。

Fair Representation Learning (FRL) is a broad set of techniques, mostly based on neural networks, that seeks to learn new representations of data in which sensitive or undesired information has been removed. Methodologically, FRL was pioneered by Richard Zemel et al. about ten years ago. The basic concepts, objectives and evaluation strategies for FRL methodologies remain unchanged to this day. In this paper, we look back at the first ten years of FRL by i) revisiting its theoretical standing in light of recent work in deep learning theory that shows the hardness of removing information in neural network representations and ii) presenting the results of a massive experimentation (225.000 model fits and 110.000 AutoML fits) we conducted with the objective of improving on the common evaluation scenario for FRL. More specifically, we use automated machine learning (AutoML) to adversarially "mine" sensitive information from supposedly fair representations. Our theoretical and experimental analysis suggests that deterministic, unquantized FRL methodologies have serious issues in removing sensitive information, which is especially troubling as they might seem "fair" at first glance.
翻訳日:2024-07-08 18:22:43 公開日:2024-07-04
# 第7回ABAWコンペティション:マルチタスク学習と複合表現認識

7th ABAW Competition: Multi-Task Learning and Compound Expression Recognition ( http://arxiv.org/abs/2407.03835v1 )

ライセンス: Link先を確認
Dimitrios Kollias, Stefanos Zafeiriou, Irene Kotsia, Abhinav Dhall, Shreya Ghosh, Chunchang Shao, Guanyu Hu, (参考訳) 本稿では,ECCV 2024と共同で開催されているワークショップの一環として,第7回ABAWコンペティションについて述べる。 第7回ABAWコンペティションは、人間中心の技術の発展に不可欠な、人間の表現と行動を理解するための新しい課題に対処する。 コンペティションは2つのサブチェアから成っている。 一 マルチタスク・ラーニング(マルチタスク・ラーニング・セッティングにおいて、第七基本表現と第十二アクション・ユニットの相互排他的クラス間の認識のために、価と覚醒の2つの連続的な影響次元を推定し、同時に学習すること)及び 二 複合表現認識(相互排他的複合表現クラス七種間の認識を目的とする。) A/V Aff-Wild2データベースの静的バージョンであり、valence-arousal、式、アクションユニットのアノテーションを含むs-Aff-Wild2は、マルチタスク学習チャレンジの目的のために利用されており、複合表現アノテーションを備えたA/VインザミルドデータベースであるC-EXPR-DBの一部が複合表現認識チャレンジの目的のために使用される。 本稿では,2つの課題を紹介し,それぞれのデータセットとそれに続くプロトコルについて詳述する。 また,評価指標について概説し,ベースラインシステムとその結果について概説する。 この競合に関する追加情報は、 \url{https://affective-behavior-analysis-in-the-wild.github.io/7th} で見ることができる。

This paper describes the 7th Affective Behavior Analysis in-the-wild (ABAW) Competition, which is part of the respective Workshop held in conjunction with ECCV 2024. The 7th ABAW Competition addresses novel challenges in understanding human expressions and behaviors, crucial for the development of human-centered technologies. The Competition comprises of two sub-challenges: i) Multi-Task Learning (the goal is to learn at the same time, in a multi-task learning setting, to estimate two continuous affect dimensions, valence and arousal, to recognise between the mutually exclusive classes of the 7 basic expressions and 'other'), and to detect 12 Action Units); and ii) Compound Expression Recognition (the target is to recognise between the 7 mutually exclusive compound expression classes). s-Aff-Wild2, which is a static version of the A/V Aff-Wild2 database and contains annotations for valence-arousal, expressions and Action Units, is utilized for the purposes of the Multi-Task Learning Challenge; a part of C-EXPR-DB, which is an A/V in-the-wild database with compound expression annotations, is utilized for the purposes of the Compound Expression Recognition Challenge. In this paper, we introduce the two challenges, detailing their datasets and the protocols followed for each. We also outline the evaluation metrics, and highlight the baseline systems and their results. Additional information about the competition can be found at \url{https://affective-behavior-analysis-in-the-wild.github.io/7th}.
翻訳日:2024-07-08 18:22:43 公開日:2024-07-04
# ADAPT: 行方不明者の生理的変化を検出するマルチモーダル学習

ADAPT: Multimodal Learning for Detecting Physiological Changes under Missing Modalities ( http://arxiv.org/abs/2407.03836v1 )

ライセンス: Link先を確認
Julie Mordacq, Leo Milecki, Maria Vakalopoulou, Steve Oudot, Vicky Kalogeiton, (参考訳) マルチモダリティは、画像やビデオのモダリティをバイオメディカル信号や健康記録と統合する医療分野で最近注目を集めている。 しかし、モダリティのコントリビューションのバランス、特に限られた量のデータがある場合のバランス、欠落したモダリティへの対処の2つの課題が残る。 両問題に対処するため,本稿では,AnchoreD MultimodAl Physiological Transformer (ADAPT)を紹介した。 一 最強で、最も豊かなモダリティ(アンカーと呼ばれる)の空間におけるすべてのモダリティを整列して、共同埋め込み空間を学ぶこと。 (II) モダリティの欠如に対処しつつ, モダリティ間相関とモダリティ内相関を生かしたマルチモーダルトランス。 本研究は,2つの実生活シナリオにおける生理的変化を検出することに焦点を当て,特定のトリガーによって誘発される個人におけるストレスと,$g$-forcesによって誘発される意識喪失に焦点を当てた。 我々は,これらのタスクに対する2つのデータセットに関する広範な実験を通じて,ADAPTの一般化可能性を検証する。

Multimodality has recently gained attention in the medical domain, where imaging or video modalities may be integrated with biomedical signals or health records. Yet, two challenges remain: balancing the contributions of modalities, especially in cases with a limited amount of data available, and tackling missing modalities. To address both issues, in this paper, we introduce the AnchoreD multimodAl Physiological Transformer (ADAPT), a multimodal, scalable framework with two key components: (i) aligning all modalities in the space of the strongest, richest modality (called anchor) to learn a joint embedding space, and (ii) a Masked Multimodal Transformer, leveraging both inter- and intra-modality correlations while handling missing modalities. We focus on detecting physiological changes in two real-life scenarios: stress in individuals induced by specific triggers and fighter pilots' loss of consciousness induced by $g$-forces. We validate the generalizability of ADAPT through extensive experiments on two datasets for these tasks, where we set the new state of the art while demonstrating its robustness across various modality scenarios and its high potential for real-life applications.
翻訳日:2024-07-08 18:22:43 公開日:2024-07-04
# オープンドメイン対話評価のためのLLMのベンチマークについて

On the Benchmarking of LLMs for Open-Domain Dialogue Evaluation ( http://arxiv.org/abs/2407.03841v1 )

ライセンス: Link先を確認
John Mendonça, Alon Lavie, Isabel Trancoso, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示した。 特にオープンドメインの自動対話評価において,LLMは評価フレームワークにシームレスに統合され,人間による評価とともに,ほとんどの評価のバックボーンを構成する。 しかし、既存の評価ベンチマークは、しばしば時代遅れのデータセットに依存し、FluencyやRelevanceのようなアスペクトを評価する。 本稿では,現在の評価ベンチマークを批判的に検討し,従来の応答生成器の使用と品質面が,現代のチャットボットの機能を正確に反映できないことを強調した。 最近のLSM生成データセット(SODA)における小さなアノテーション実験により、GPT-4のようなLCM評価器は、現在のLSMチャットボットが生成する対話における実際の欠陥を検出するのに苦労していることが明らかになった。

Large Language Models (LLMs) have showcased remarkable capabilities in various Natural Language Processing tasks. For automatic open-domain dialogue evaluation in particular, LLMs have been seamlessly integrated into evaluation frameworks, and together with human evaluation, compose the backbone of most evaluations. However, existing evaluation benchmarks often rely on outdated datasets and evaluate aspects like Fluency and Relevance, which fail to adequately capture the capabilities and limitations of state-of-the-art chatbot models. This paper critically examines current evaluation benchmarks, highlighting that the use of older response generators and quality aspects fail to accurately reflect modern chatbot capabilities. A small annotation experiment on a recent LLM-generated dataset (SODA) reveals that LLM evaluators such as GPT-4 struggle to detect actual deficiencies in dialogues generated by current LLM chatbots.
翻訳日:2024-07-08 18:22:43 公開日:2024-07-04
# 視点を超えて: 連立多部表現による任意視点下でのロバストな3次元物体認識

Beyond Viewpoint: Robust 3D Object Recognition under Arbitrary Views through Joint Multi-Part Representation ( http://arxiv.org/abs/2407.03842v1 )

ライセンス: Link先を確認
Linlong Fan, Ye Huang, Yanqi Ge, Wen Li, Lixin Duan, (参考訳) 既存のビューベース手法は、事前定義された視点から3Dオブジェクトを認識するのに優れているが、任意の視点下での認識の探索は限られている。 これは、各オブジェクトが異なる視点の位置と量を持ち、それらのポーズが一致していないため、難しくて現実的な設定です。 しかし、グローバルな特徴表現を得るために複数のビュー特徴を集約するビューベース手法のほとんどは、任意のビュー下での3Dオブジェクト認識に対処することが困難である。 任意のビューからのアンアラインインプットのため、機能を堅牢に集約することは困難であり、パフォーマンスの低下につながります。 本稿では,これらの問題に対処するためのパートベース表現である新しいパート・アウェア・ネットワーク(PANet)を提案する。 この部分に基づく表現は、飛行機の翼や尾などの3Dオブジェクトの異なる部分のローカライズと理解を目的としている。 視点不変性や回転ロバスト性などの特性を持ち、任意の視点下での3次元物体認識問題に対処する上で有利である。 提案手法は, 任意の視点下での3次元物体認識のタスクにおいて, 既存のビューベースアグリゲーションベースラインよりも優れており, 固定的な視点法よりも優れていることを示す。

Existing view-based methods excel at recognizing 3D objects from predefined viewpoints, but their exploration of recognition under arbitrary views is limited. This is a challenging and realistic setting because each object has different viewpoint positions and quantities, and their poses are not aligned. However, most view-based methods, which aggregate multiple view features to obtain a global feature representation, hard to address 3D object recognition under arbitrary views. Due to the unaligned inputs from arbitrary views, it is challenging to robustly aggregate features, leading to performance degradation. In this paper, we introduce a novel Part-aware Network (PANet), which is a part-based representation, to address these issues. This part-based representation aims to localize and understand different parts of 3D objects, such as airplane wings and tails. It has properties such as viewpoint invariance and rotation robustness, which give it an advantage in addressing the 3D object recognition problem under arbitrary views. Our results on benchmark datasets clearly demonstrate that our proposed method outperforms existing view-based aggregation baselines for the task of 3D object recognition under arbitrary views, even surpassing most fixed viewpoint methods.
翻訳日:2024-07-08 18:22:43 公開日:2024-07-04
# 準位相整合型量子周波数変換器と高次逆伝搬SPDCの雑音解析

Noise analysis of a quasi-phase-matched quantum frequency converter and higher-order counter-propagating SPDC ( http://arxiv.org/abs/2407.03845v1 )

ライセンス: Link先を確認
Felix Mann, Helen M. Chrzanowski, Felipe Gewers, Marlon Placke, Sven Ramelow, (参考訳) 量子周波数変換(QFC)は、将来の量子技術において欠かせない要素である。 例えば、大規模なファイバーベースの量子ネットワークでは、QFCがエミッタ、チャネル、メモリ、検出器などの異質なビルディングブロックを相互接続する必要がある。 既存のQFCデバイスの性能(通常は周期的にポーリングされた非線形結晶で実現される)は、ポンプ波長が変換される波長の間にあるときに発生する寄生音によって著しく制限される。 ここでは、CW 1064 nmレーザーで励起される周波数コンバータの雑音スペクトルについて検討する。 チタン酸カリウム(ppKTP)結晶を637nmから1587nmに変換するための準相整合したモノリシックバルクポンプ拡張キャビティとして実現した。 1140nmから1330nm(ポンプから60Hzまで)の範囲ではストークス・ラマン共鳴が支配的なノイズ源となりうるが、1330nmから1650nmの範囲のノイズは主に寄生性自然パラメトリックダウンコンバージョン(SPDC)に起因する。 さらに、高次逆伝播SPDCに由来するスペクトルにおいて、狭帯域ピークの連続が観察される。 ポンプビームに対して低エネルギーアイドラー光子または高エネルギー信号光子反プロパゲートのいずれかが観測され、第10〜44次準位相マッチングに対応する狭帯域ピークが観測される。

Quantum frequency conversion (QFC) will be an indispensable ingredient in future quantum technologies. For example, large-scale fibre-based quantum networks will require QFC to interconnect heterogeneous building blocks like emitters, channels, memories and detectors. The performance of existing QFC devices - typically realised in periodically-poled nonlinear crystals - is often severely limited by parasitic noise that arises when the pump wavelength lies between the wavelengths which are inter-converted. Here we investigate the noise spectrum of a frequency converter pumped by a CW 1064 nm laser. The converter was realised as a monolithic bulk pump enhancement cavity made from a periodically-poled potassium titanyl phosphate (ppKTP) crystal - quasi-phase-matched for the conversion of 637 nm to 1587 nm. In the range from 1140 nm to 1330 nm (up to 60 THz from the pump) Stokes-Raman resonances can be identified as the dominant noise source while the noise in the range from 1330 nm to 1650 nm can be attributed mainly to parasitic spontaneous parametric down-conversion (SPDC). Further, a succession of narrow-band peaks is observed in the spectrum originating from higher-order counter-propagating SPDC. Both types of counter-propagation, where either the lower-energy idler photon or the higher-energy signal photon counter-propagate relative to the pump beam, are observed, with narrow-band peaks corresponding to 10th to 44th order quasi-phase-matching.
翻訳日:2024-07-08 18:22:43 公開日:2024-07-04
# クッキーのジレンマから抜け出す方法としてのGoogle Topics?

Google Topics as a way out of the cookie dilemma? ( http://arxiv.org/abs/2407.03846v1 )

ライセンス: Link先を確認
Marius Köppel, Jan-Philipp Muttach, Gerrit Hornung, (参考訳) 本稿では、特に欧州司法裁判所(ECJ)の「Planet49」判決と、ドイツ連邦裁判所(Bundesgerichtshof, BGH)の「Cookie Consent II」判決に照らして、広告目的の情報と個人情報の処理の法的要件と意義について論じる。 クッキーの設定には個人の明示的な同意を得ることが必要だと強調している。 ドイツテレコミュニケーション・テレメディアデータ保護法(Telekommunikation-Telemedien-Datenschutzgesetz,TTDSG)の導入は、ドイツテレメディア法(Telemediengesetz, TMG)の関連部を置き換え、第5条(3)ePrivacy Directiveに則って、端末機器に関する情報の保存及びアクセスに関するインフォームドコンセントの概念を転換した。 これらの要件を満たすために、同意を得るための代替手段を模索している企業は、法的基盤に依存する技術的メカニズムを開発している。 Googleは当初、"Privacy Sandbox"戦略の一環として、"Federated Learning of Cohorts"(FLoC)をテストした。 この技術は非常に批判され、Googleは"Google Topics"と呼ばれる新しいプロジェクトを導入した。 この技術の実装は2023年7月に始まった。

The paper discusses the legal requirements and implications of the processing of information and personal data for advertising purposes, particularly in the light of the "Planet49" decision of the European Court of Justice (ECJ) and the "Cookie Consent II" decision by the German Federal Court (Bundesgerichtshof, BGH). It emphasises that obtaining explicit consent of individuals is necessary for setting cookies. The introduction of the German Telecommunication Telemedia Data Protection Act (Telekommunikation-Telemedien-Datenschutzgesetz, TTDSG) has replaced the relevant section of the German Telemedia Act (Telemediengesetz, TMG) and transpose the concept of informed consent for storing and accessing information on terminal equipment, aligning with Article 5(3) ePrivacy Directive. To meet these requirements, companies exploring alternatives to obtaining consent are developing technical mechanisms that rely on a legal basis. Google tested initially "Federated Learning of Cohorts" (FLoC) as part of their "Privacy Sandbox" strategy. This technology was significantly criticized, Google introduced a new project called "Google Topics", which aims to personalize advertising by categorizing users into interest groups, called topics. Implementation of this technology began in July 2023.
翻訳日:2024-07-08 18:22:43 公開日:2024-07-04
# 確率的勾配線あるいはアーキテクチャのバイアス:ニューラルネットワークの過度パラメータ化の影響を解消する

Bias of Stochastic Gradient Descent or the Architecture: Disentangling the Effects of Overparameterization of Neural Networks ( http://arxiv.org/abs/2407.03848v1 )

ライセンス: Link先を確認
Amit Peleg, Matthias Hein, (参考訳) ニューラルネットワークは、過度にパラメータ化されているにもかかわらず、データを完璧に適合させるときによく一般化する。 この現象の原因として、確率勾配降下(SGD)の暗黙バイアスや、ニューラルネットワークアーキテクチャから生じる単純さバイアスなど、多くの要因が指摘されている。 本研究の目的は、学習ミスをゼロにするランダムネットワークとSGD最適化ネットワークを研究することによって、最適化とアーキテクチャ選択から生じる一般化に影響を与える要因を解消することである。 実験により, 低試料状態下では, 幅の増大による過度パラメータ化が一般化に有用であることを示し, この利点はSGDの偏りによるものであり, アーキテクチャ上の偏りによるものではないことを示した。 対照的に、深度を増大させるため、過パラメータ化は一般化には有害であるが、ランダムおよびSGD最適化ネットワークも同様に振る舞うので、これはアーキテクチャ上のバイアスによるものである。 詳細はhttps://bias-sgd-or-architecture.github.io を参照してください。

Neural networks typically generalize well when fitting the data perfectly, even though they are heavily overparameterized. Many factors have been pointed out as the reason for this phenomenon, including an implicit bias of stochastic gradient descent (SGD) and a possible simplicity bias arising from the neural network architecture. The goal of this paper is to disentangle the factors that influence generalization stemming from optimization and architectural choices by studying random and SGD-optimized networks that achieve zero training error. We experimentally show, in the low sample regime, that overparameterization in terms of increasing width is beneficial for generalization, and this benefit is due to the bias of SGD and not due to an architectural bias. In contrast, for increasing depth, overparameterization is detrimental for generalization, but random and SGD-optimized networks behave similarly, so this can be attributed to an architectural bias. For more information, see https://bias-sgd-or-architecture.github.io .
翻訳日:2024-07-08 18:22:43 公開日:2024-07-04
# HYBRINFOX at CheckThat! 2024 - Task 1: Enhancing Language Models with Structured Information for Check-Worthiness Estimation (英語)

HYBRINFOX at CheckThat! 2024 -- Task 1: Enhancing Language Models with Structured Information for Check-Worthiness Estimation ( http://arxiv.org/abs/2407.03850v1 )

ライセンス: Link先を確認
Géraud Faye, Morgane Casanova, Benjamin Icard, Julien Chanson, Guillaume Gadek, Guillaume Gravier, Paul Égré, (参考訳) 本報告では,CheckThatのHYBRINFOXチームによる実験結果について要約する。 2024年 - 第1回大会開催。 本稿では,RoBERTaのような言語モデルに,テキストから抽出した三重項(目的語,述語,対象語)の埋め込みを組み込むアプローチを提案する。 本手法は言語モデルのみの性能向上を図っている。 評価データによると、最高成績は英語であり、F1得点は71.1点、27候補中12位だった。 他の言語(オランダ語とアラビア語)では、より複雑な結果が得られる。 今後の研究トラックは、この処理パイプラインを、より最近のLarge Language Modelsに適応するために特定される。

This paper summarizes the experiments and results of the HYBRINFOX team for the CheckThat! 2024 - Task 1 competition. We propose an approach enriching Language Models such as RoBERTa with embeddings produced by triples (subject ; predicate ; object) extracted from the text sentences. Our analysis of the developmental data shows that this method improves the performance of Language Models alone. On the evaluation data, its best performance was in English, where it achieved an F1 score of 71.1 and ranked 12th out of 27 candidates. On the other languages (Dutch and Arabic), it obtained more mixed results. Future research tracks are identified toward adapting this processing pipeline to more recent Large Language Models.
翻訳日:2024-07-08 18:22:43 公開日:2024-07-04
# 深部ReLUネットワークにおける暗黙的超曲面近似能力

Implicit Hypersurface Approximation Capacity in Deep ReLU Networks ( http://arxiv.org/abs/2407.03851v1 )

ライセンス: Link先を確認
Jonatan Vallin, Karl Larsson, Mats G. Larson, (参考訳) 本稿では,ReLUアクティベーションを用いたディープフィードフォワードニューラルネットワークの幾何近似理論を開発する。 C^2$-関数のグラフとして表される$\mathbb{R}^{d+1}$の$d$次元超曲面が与えられたとき、$d+1$の幅の深い完全連結なReLUネットワークは、層数に応じて精度に制限されたゼロの輪郭として暗黙的に近似を構築することができることを示す。 この結果は、ネットワークの符号を分類器として訓練し、ネットワークのゼロ輪郭を決定境界とするバイナリ分類設定に直接適用される。 我々の証明は構成的であり、[doi:10.48550/arXiv.2310.03482]で提供されるReLU層の幾何学的構造に依存している。 この幾何学的記述にインスパイアされた新しい等価ネットワークアーキテクチャは、各隠蔽層の作用が各層のパラメータから導出される多面体円錐への射影であるので、幾何学的に容易に解釈できる。 このような層を繰り返すことで、パラメータが選択され、外部から$\phi$のグラフの小さな部分を投影することで、制御された方法で、半径$R$の球上でグラフを暗黙的に近似するネットワークを構築する。 この構成の精度は離散化パラメータ$\delta$で制御され、結果として生じる誤差境界スケールの耐性は$(d-1)R^{3/2}\delta^{1/2}$であり、必要なレイヤ数は$d\big(\frac{32R}{\delta}\big)^{\frac{d+1}{2}}$であることを示す。

We develop a geometric approximation theory for deep feed-forward neural networks with ReLU activations. Given a $d$-dimensional hypersurface in $\mathbb{R}^{d+1}$ represented as the graph of a $C^2$-function $\phi$, we show that a deep fully-connected ReLU network of width $d+1$ can implicitly construct an approximation as its zero contour with a precision bound depending on the number of layers. This result is directly applicable to the binary classification setting where the sign of the network is trained as a classifier, with the network's zero contour as a decision boundary. Our proof is constructive and relies on the geometrical structure of ReLU layers provided in [doi:10.48550/arXiv.2310.03482]. Inspired by this geometrical description, we define a new equivalent network architecture that is easier to interpret geometrically, where the action of each hidden layer is a projection onto a polyhedral cone derived from the layer's parameters. By repeatedly adding such layers, with parameters chosen such that we project small parts of the graph of $\phi$ from the outside in, we, in a controlled way, construct a network that implicitly approximates the graph over a ball of radius $R$. The accuracy of this construction is controlled by a discretization parameter $\delta$ and we show that the tolerance in the resulting error bound scales as $(d-1)R^{3/2}\delta^{1/2}$ and the required number of layers is of order $d\big(\frac{32R}{\delta}\big)^{\frac{d+1}{2}}$.
翻訳日:2024-07-08 18:22:43 公開日:2024-07-04
# マルチキュービット状態識別のための低レイテンシ機械学習FPGAアクセラレータ

Low-latency machine learning FPGA accelerator for multi-qubit state discrimination ( http://arxiv.org/abs/2407.03852v1 )

ライセンス: Link先を確認
Pradeep Kumar Gautam, Shantharam Kalipatnapu, Shankaranarayanan H, Ujjawal Singhal, Benjamin Lienhard, Vibhor Singh, Chetan Singh Thakur, (参考訳) 量子ビットの測定は、量子コンピューティングにおいて基本的ながエラーを起こしやすい操作である。 これらの誤りは、クロストーク、自然状態遷移、読み出しパルスによって引き起こされる励起など、様々なソースから生じる可能性がある。 本研究では、ニューラルネットワーク(NN)をフィールドプログラマブルゲートアレイ(FPGA)に展開するための統合的なアプローチを利用する。 周波数多重リードアウトの計算複雑性と低レイテンシ要求とのバランスをとるために、精度を著しく損なうことなく、完全に接続されたニューラルネットワークアクセラレータを設計、実装することが実用的であることを実証する。 ニューラルネットワークは、重み、アクティベーション関数、入力の量子化によって実装される。 このハードウェアアクセラレータは、RFSoC ZCU111FPGA上で、5つの超伝導量子ビットを50 ns未満で周波数多重読み出しを行う。 これらのモジュールは、RFSoC ZCU111を使って既存のQuantumコントロールと読み取りプラットフォームに実装および統合できる。

Measuring a qubit is a fundamental yet error prone operation in quantum computing. These errors can stem from various sources such as crosstalk, spontaneous state-transitions, and excitation caused by the readout pulse. In this work, we utilize an integrated approach to deploy neural networks (NN) on to field programmable gate arrays (FPGA). We demonstrate that it is practical to design and implement a fully connected neural network accelerator for frequency-multiplexed readout balancing computational complexity with low latency requirements without significant loss in accuracy. The neural network is implemented by quantization of weights, activation functions, and inputs. The hardware accelerator performs frequency-multiplexed readout of 5 superconducting qubits in less than 50 ns on RFSoC ZCU111 FPGA which is first of its kind in the literature. These modules can be implemented and integrated in existing Quantum control and readout platforms using a RFSoC ZCU111 ready for experimental deployment.
翻訳日:2024-07-08 18:22:43 公開日:2024-07-04
# Q-Adapter: LLMアダプタを残留Q-Functionとしてトレーニングする

Q-Adapter: Training Your LLM Adapter as a Residual Q-Function ( http://arxiv.org/abs/2407.03856v1 )

ライセンス: Link先を確認
Yi-Chen Li, Fuxiang Zhang, Wenjie Qiu, Lei Yuan, Chengxing Jia, Zongzhang Zhang, Yang Yu, (参考訳) 本稿では,RLHF(Reinforcement Learning from Human Feedback)で事前学習したLarge Language Models(LLMs)を,下流の好みデータに適用する問題について考察する。 これを実現するためのナイーブなアプローチは、望ましい反応の微調整や、学習された報酬モデルによる強化学習を監督することができる。 しかし、LSMは微調整が進むにつれて、最初の知識を忘れるリスクを負う。 既存の能力を維持しつつLCMをカスタマイズするために,Q-Adapterという新しい手法を提案する。 まず,2つの報酬の線形結合を最大化する問題としてLLM適応を定式化する。 どちらの報奨も不明であるが、これは \emph{residual Q-function} を近似する選好データから新しい加群を直接学習することで解決できることを示す。 我々は、このモジュールをアダプタとみなす。なぜなら、オリジナルの事前学習LLMとそれと共に、最適なカスタマイズLLMを形成することができるからである。 実証的に、様々なドメイン固有のタスクと安全アライメントタスクの実験は、新しい好みから学習するアンチフォッゲッティングにおいて、Q-Adapterの優位性を示している。

We consider the problem of adapting Large Language Models (LLMs) pre-trained with Reinforcement Learning from Human Feedback (RLHF) to downstream preference data. Naive approaches to achieve this could be supervised fine-tuning on preferred responses or reinforcement learning with a learned reward model. However, the LLM runs the risk of forgetting its initial knowledge as the fine-tuning progresses. To customize the LLM while preserving its existing capabilities, this paper proposes a novel method, named as Q-Adapter. We start by formalizing LLM adaptation as a problem of maximizing the linear combination of two rewards, one of which corresponds to the reward optimized by the pre-trained LLM and the other to the downstream preference data. Although both rewards are unknown, we show that this can be solved by directly learning a new module from the preference data that approximates the \emph{residual Q-function}. We consider this module to be an adapter because the original pre-trained LLM, together with it, can form the optimal customised LLM. Empirically, experiments on a range of domain-specific tasks and safety alignment tasks illustrate the superiority of Q-Adapter in both anti-forgetting and learning from new preferences.
翻訳日:2024-07-08 18:22:43 公開日:2024-07-04
# PFGS: フィーチャースプレイティングによる高忠実度ポイントクラウドレンダリング

PFGS: High Fidelity Point Cloud Rendering via Feature Splatting ( http://arxiv.org/abs/2407.03857v1 )

ライセンス: Link先を確認
Jiaxu Wang, Ziyi Zhang, Junhao He, Renjing Xu, (参考訳) まばらな点から高忠実な画像をレンダリングすることは依然として困難である。 既存の学習ベースのアプローチは、ホールアーティファクト、詳細の欠如、高価な計算のいずれかに悩まされている。 本稿では,スパースポイントから高品質な画像をレンダリングする新しいフレームワークを提案する。 この手法はまず、いくつかのカスケードモジュールを含む3次元ガウス格子と点雲レンダリングを橋渡ししようとする。 我々はまず,ガウス特性をポイントワイズに推定するために回帰器を用い,その推定特性を用いて,多スケール抽出器から抽出した2次元平面にニューラル特徴記述器をラスタライズする。 投影された特徴ボリュームは、マルチスケールおよびプログレッシブデコーダを介して最終予測に向けて徐々にデコードされる。 パイプライン全体が2段階のトレーニングを経験し、十分に設計されたプログレッシブでマルチスケールの再構築損失によって駆動されます。 異なるベンチマーク実験により、レンダリング品質と主成分の必要性の観点から、我々の手法の優位性を示す。

Rendering high-fidelity images from sparse point clouds is still challenging. Existing learning-based approaches suffer from either hole artifacts, missing details, or expensive computations. In this paper, we propose a novel framework to render high-quality images from sparse points. This method first attempts to bridge the 3D Gaussian Splatting and point cloud rendering, which includes several cascaded modules. We first use a regressor to estimate Gaussian properties in a point-wise manner, the estimated properties are used to rasterize neural feature descriptors into 2D planes which are extracted from a multiscale extractor. The projected feature volume is gradually decoded toward the final prediction via a multiscale and progressive decoder. The whole pipeline experiences a two-stage training and is driven by our well-designed progressive and multiscale reconstruction loss. Experiments on different benchmarks show the superiority of our method in terms of rendering qualities and the necessities of our main components.
翻訳日:2024-07-08 18:22:43 公開日:2024-07-04
# 人類中心バイアスと人工認知の可能性

Anthropocentric bias and the possibility of artificial cognition ( http://arxiv.org/abs/2407.03859v1 )

ライセンス: Link先を確認
Raphaël Millière, Charles Rathkopf, (参考訳) 大規模言語モデル(LLM)の認知能力を評価するには、人文型だけでなく人文中心のバイアスも克服する必要がある。 本稿では,LLMの能力に拘わらず,補助的要因がLLMのパフォーマンスを損なうかを見極めること (Type-I) と,人間の能力と異なるLLMの機械的戦略を否定すること (Type-II) の2つの点について述べる。 これらのバイアスを緩和するには、認知タスクをLLM固有の能力とメカニズムにマッピングするための経験的かつ反復的なアプローチが必要である。

Evaluating the cognitive capacities of large language models (LLMs) requires overcoming not only anthropomorphic but also anthropocentric biases. This article identifies two types of anthropocentric bias that have been neglected: overlooking how auxiliary factors can impede LLM performance despite competence (Type-I), and dismissing LLM mechanistic strategies that differ from those of humans as not genuinely competent (Type-II). Mitigating these biases necessitates an empirically-driven, iterative approach to mapping cognitive tasks to LLM-specific capacities and mechanisms, which can be done by supplementing carefully designed behavioral experiments with mechanistic studies.
翻訳日:2024-07-08 18:22:43 公開日:2024-07-04
# TartuNLP @ AXOLOTL-24:Lexical Semanticsにおける新しいセンス検出のための分類器出力の活用

TartuNLP @ AXOLOTL-24: Leveraging Classifier Output for New Sense Detection in Lexical Semantics ( http://arxiv.org/abs/2407.03861v1 )

ライセンス: Link先を確認
Aleksei Dorkin, Kairit Sirts, (参考訳) AXOLOTL-24共有タスクに提案する。 共有タスクは2つのサブタスクから構成される: 単語が時間とともに得られる新しい感覚(新しい時間と古い時間を比較するとき)を識別し、識別された新しい感覚の定義を生成する。 両サブタスクに対して,概念的にシンプルで計算コストの低いソリューションを実装した。 適応型バイナリ分類モデルをトレーニングし、使用例とグルースを一致させ、モデルの確率出力を利用して新しい感覚を識別した。 同じモデルは、新しい感覚の使用例とWiktionaryの定義とを一致させるために使用された。 我々の提出は第1サブタスクで3位、第2サブタスクで1位に達した。

We present our submission to the AXOLOTL-24 shared task. The shared task comprises two subtasks: identifying new senses that words gain with time (when comparing newer and older time periods) and producing the definitions for the identified new senses. We implemented a conceptually simple and computationally inexpensive solution to both subtasks. We trained adapter-based binary classification models to match glosses with usage examples and leveraged the probability output of the models to identify novel senses. The same models were used to match examples of novel sense usages with Wiktionary definitions. Our submission attained third place on the first subtask and the first place on the second subtask.
翻訳日:2024-07-08 18:12:58 公開日:2024-07-04
# FedSat:フェデレーションラーニングにおけるクラスイバレーテッドクライアントの統計的集約アプローチ

FedSat: A Statistical Aggregation Approach for Class Imbalaced Clients in Federated Learning ( http://arxiv.org/abs/2407.03862v1 )

ライセンス: Link先を確認
Sujit Chowdhury, Raju Halder, (参考訳) フェデレートラーニング(FL)は、プライバシを保存する分散機械学習のための有望なパラダイムとして登場したが、クライアント間の異種データ分散の課題に直面している。 本稿ではFedSatについて紹介する。FedSatは様々なデータ不均一性を同時に扱うために設計された新しいFLアプローチである。 FedSatは、コスト感受性の損失関数と優先順位付けされたクラスベースの重み付けアグリゲーションスキームを使用して、ラベルの歪、欠落したクラス、クライアント間の量スキューネスに対処する。 提案したコスト感受性損失関数はマイノリティクラスにおけるモデル性能を向上させるが、優先順位付けされたクラスベース重み付けアグリゲーション方式は、クリティカルクラスにおける統計的意義と性能の両方に基づいてクライアントの貢献を重み付けする。 多様なデータヘテロジニティー設定の広範な実験は、FedSatが最先端のベースラインを著しく上回り、第2のベストメソッドよりも平均1.8%、最もパフォーマンスの低いベースラインより19.87%向上していることを示している。 このアプローチは、既存の方法よりも高速な収束を示す。 これらの結果は、異質なフェデレーション学習の課題に対処するFedSatの有効性と、実世界の応用の可能性を強調している。

Federated learning (FL) has emerged as a promising paradigm for privacy-preserving distributed machine learning, but faces challenges with heterogeneous data distributions across clients. This paper introduces FedSat, a novel FL approach designed to tackle various forms of data heterogeneity simultaneously. FedSat employs a cost-sensitive loss function and a prioritized class-based weighted aggregation scheme to address label skewness, missing classes, and quantity skewness across clients. While the proposed cost-sensitive loss function enhances model performance on minority classes, the prioritized class-based weighted aggregation scheme ensures client contributions are weighted based on both statistical significance and performance on critical classes. Extensive experiments across diverse data-heterogeneity settings demonstrate that FedSat significantly outperforms state-of-the-art baselines, with an average improvement of 1.8% over the second-best method and 19.87% over the weakest-performing baseline. The approach also demonstrates faster convergence compared to existing methods. These results highlight FedSat's effectiveness in addressing the challenges of heterogeneous federated learning and its potential for real-world applications.
翻訳日:2024-07-08 18:12:58 公開日:2024-07-04
# 3次元変形型オートエンコーダを用いたアルツハイマー病信号の教師なし解析

Unsupervised Analysis of Alzheimer's Disease Signatures using 3D Deformable Autoencoders ( http://arxiv.org/abs/2407.03863v1 )

ライセンス: Link先を確認
Mehmet Yigit Avci, Emily Chan, Veronika Zimmer, Daniel Rueckert, Benedikt Wiestler, Julia A. Schnabel, Cosmin I. Bercea, (参考訳) アルツハイマー病(AD)のような神経変性疾患の発生が増加する中、疾患の検出とモニタリングを強化するさらなる研究が必要である。 MORPHADE (Morphological Autoencoders for Alzheimer's Disease Detection, MORPHADE) は3次元T1重み付き脳画像の解析に変形を用いた教師なし学習手法である。 私たちの知る限りでは、ADによる脳の構造変化の重症度の検出と評価を、教師なしの深い学習で行うのはこれが初めてです。 健常者では,AD関連萎縮を効果的に検出できる可能性が示唆された。 また, 異常マップで強調された萎縮の重症度と, 臨床専門家が評価した側頭葉萎縮の経時的評価との間には, 視覚的相関が認められた。 最後に,AD検出において約0.80のAUROCを達成し,教師付きベースラインや教師なしベースラインよりも優れていた。 当社のフレームワークは,ADの理解,監視,検出を改善するためのツールとして,将来性を示しています。 さらなる研究と応用を支援するため、github.com/ci-ber/MORPHADEでコードを公開しました。

With the increasing incidence of neurodegenerative diseases such as Alzheimer's Disease (AD), there is a need for further research that enhances detection and monitoring of the diseases. We present MORPHADE (Morphological Autoencoders for Alzheimer's Disease Detection), a novel unsupervised learning approach which uses deformations to allow the analysis of 3D T1-weighted brain images. To the best of our knowledge, this is the first use of deformations with deep unsupervised learning to not only detect, but also localize and assess the severity of structural changes in the brain due to AD. We obtain markedly higher anomaly scores in clinically important areas of the brain in subjects with AD compared to healthy controls, showcasing that our method is able to effectively locate AD-related atrophy. We additionally observe a visual correlation between the severity of atrophy highlighted in our anomaly maps and medial temporal lobe atrophy scores evaluated by a clinical expert. Finally, our method achieves an AUROC of 0.80 in detecting AD, out-performing several supervised and unsupervised baselines. We believe our framework shows promise as a tool towards improved understanding, monitoring and detection of AD. To support further research and application, we have made our code publicly available at github.com/ci-ber/MORPHADE.
翻訳日:2024-07-08 18:12:58 公開日:2024-07-04
# 断面部分群間のVAEの対向ロバスト性

Adversarial Robustness of VAEs across Intersectional Subgroups ( http://arxiv.org/abs/2407.03864v1 )

ライセンス: Link先を確認
Chethan Krishnamurthy Ramanaik, Arjun Roy, Eirini Ntoutsi, (参考訳) 次元減少、表現学習、データ生成といったタスクに対するオートエンコーダ(AE)の進歩にもかかわらず、敵の攻撃には弱いままである。 変分自己エンコーダ (VAEs) は、その確率論的アプローチにより、決定論的AEよりも強い摂動抵抗を示すが、その逆入力に対するレジリエンスは依然として懸念されている。 本研究は, 多様な集団群(年齢と性別の組み合わせ)において, 最小限のサンプル特異的摂動を最適化し, 対人攻撃に対するVAEの堅牢性を評価する。 サブグループ間に堅牢性格差が存在するか,データ不足や表現の絡み合いなど,これらの格差にどのような要因が寄与するか,という2つの疑問について検討する。 本研究の結果, 頑健性には相違があるが, 必ずしもサブグループの大きさと相関しないことが明らかとなった。 下流のジェンダーと年齢分類器を用いて潜伏埋め込みを調べることで、他のサブグループに対して表現を推し進める敵の摂動により、誤分類される傾向にある年配の女性のようなサブグループの脆弱性を強調した。

Despite advancements in Autoencoders (AEs) for tasks like dimensionality reduction, representation learning and data generation, they remain vulnerable to adversarial attacks. Variational Autoencoders (VAEs), with their probabilistic approach to disentangling latent spaces, show stronger resistance to such perturbations compared to deterministic AEs; however, their resilience against adversarial inputs is still a concern. This study evaluates the robustness of VAEs against non-targeted adversarial attacks by optimizing minimal sample-specific perturbations to cause maximal damage across diverse demographic subgroups (combinations of age and gender). We investigate two questions: whether there are robustness disparities among subgroups, and what factors contribute to these disparities, such as data scarcity and representation entanglement. Our findings reveal that robustness disparities exist but are not always correlated with the size of the subgroup. By using downstream gender and age classifiers and examining latent embeddings, we highlight the vulnerability of subgroups like older women, who are prone to misclassification due to adversarial perturbations pushing their representations toward those of other subgroups.
翻訳日:2024-07-08 18:12:58 公開日:2024-07-04
# クリロフ複雑性について

On Krylov Complexity ( http://arxiv.org/abs/2407.03866v1 )

ライセンス: Link先を確認
A. Sánchez-Garrido, (参考訳) この論文は、クリロフ複雑性を量子カオスのプローブとして、またホログラフィック複雑性の候補として考える。 第1部は、この分野の研究を行うために必要な基本的な概念を提示することに集中している。 すなわち、ランツォスアルゴリズムの広範な導入、その性質と関連する代数構造、およびその実践的実装に関する技術的な詳細が与えられる。 その後、クリャロフの複雑性とカオスやホログラフィーとの関係について概説する。 この第1部を通しての本文は、レビュー資料と、文学における結果の文脈化、比較、批判を意図したオリジナルの分析、あるいは、この論文が根拠となっている出版物に繋がる調査の結果の成果を組み合わせたものである。 これらの研究プロジェクトは、写本の第2部の対象となっている。 そこで, 有限多体系におけるLanczosアルゴリズムの効率的な実装法が開発され, SYK や XXZ スピンチェーンのようなモデルのクリロフ複雑性を, システムサイズが指数関数的に大きい時間スケールまで数値的に計算できるようになった。 ホログラフィック双対を持つパラダイム的低次元カオス系であるSYKの作用素Krylov複雑性プロファイルはホログラフィック予想と一致し、XXZ複雑性のような可積分モデルの場合、その成長を妨げるいわゆるKrylov空間の新たな局所化効果によって影響を受けることが観察された。 最後に、二重スケールSYKモデルの低エネルギー状態における無限温度熱場二重状態のクリロフ複雑性とJT重力理論におけるバルク長との正確な解析的対応を確立する。

This Thesis explores the notion of Krylov complexity as a probe of quantum chaos and as a candidate for holographic complexity. The first Part is devoted to presenting the fundamental notions required to conduct research in this area. Namely, an extensive introduction to the Lanczos algorithm, its properties and associated algebraic structures, as well as technical details related to its practical implementation, is given. Subsequently, an overview of the seminal references and the main debates regarding Krylov complexity and its relation to chaos and holography is provided. The text throughout this first Part combines review material with original analyses which either intend to contextualize, compare and criticize results in the literature, or are the fruit of the investigations leading to the publications on which this Thesis is based. These research projects are the subject of the second Part of the manuscript. In them, methods for the efficient implementation of the Lanczos algorithm in finite many-body systems were developed, allowing to compute numerically the Krylov complexity of models like SYK or the XXZ spin chain up to time scales exponentially large in system size. It was observed that the operator Krylov complexity profile in SYK, a paradigmatic low-dimensional chaotic system with a holographic dual, agrees with holographic expectations, while in the case of integrable models like XXZ complexity is affected by a novel localization effect in the so-called Krylov space which hinders its growth. Finally, an exact, analytical, correspondence between the Krylov complexity of the infinite-temperature thermofield double state in the low-energy regime of the double-scaled SYK model and bulk length in the theory of JT gravity is established.
翻訳日:2024-07-08 18:12:58 公開日:2024-07-04
# GAIIC2024 RGB-TIRオブジェクト検出チャレンジの解法

The Solution for the GAIIC2024 RGB-TIR object detection Challenge ( http://arxiv.org/abs/2407.03872v1 )

ライセンス: Link先を確認
Xiangyu Wu, Jinling Xu, Longfei Huang, Yang Yang, (参考訳) 本報告では,無人航空機の観点からのRGB-TIR物体検出の課題について紹介する。 従来のオブジェクト検出方法とは異なり、RGB-TIRオブジェクト検出は、RGBとTIRの両方のイメージを、検出中に補完的な情報として利用することを目的としている。 無人航空機の観点からのRGB-TIRオブジェクト検出の課題には、高度に複雑な画像背景、照明の頻繁な変化、RGB-TIRイメージペアの未調整などが含まれる。 モデルレベルでのこれらの課題に対処するために,多段補助枝を拡張した軽量YOLOv9モデルを用いて,モデルのロバスト性を向上し,無人航空機シナリオの実用化に適している。 RGB-TIR検出における画像融合のために,バックボーンネットワークに融合モジュールを組み込んで特徴レベルで画像を融合させ,キャリブレーションの問題に暗黙的に対処した。 提案手法は,AとBのベンチマークでそれぞれ0.516と0.543のmAPスコアを達成し,各モデルで最高の推論速度を維持した。

This report introduces a solution to The task of RGB-TIR object detection from the perspective of unmanned aerial vehicles. Unlike traditional object detection methods, RGB-TIR object detection aims to utilize both RGB and TIR images for complementary information during detection. The challenges of RGB-TIR object detection from the perspective of unmanned aerial vehicles include highly complex image backgrounds, frequent changes in lighting, and uncalibrated RGB-TIR image pairs. To address these challenges at the model level, we utilized a lightweight YOLOv9 model with extended multi-level auxiliary branches that enhance the model's robustness, making it more suitable for practical applications in unmanned aerial vehicle scenarios. For image fusion in RGB-TIR detection, we incorporated a fusion module into the backbone network to fuse images at the feature level, implicitly addressing calibration issues. Our proposed method achieved an mAP score of 0.516 and 0.543 on A and B benchmarks respectively while maintaining the highest inference speed among all models.
翻訳日:2024-07-08 18:12:58 公開日:2024-07-04
# RobQuNNs: 敵対的攻撃に対するロバストな準進化的ニューラルネットワークの方法論

RobQuNNs: A Methodology for Robust Quanvolutional Neural Networks against Adversarial Attacks ( http://arxiv.org/abs/2407.03875v1 )

ライセンス: Link先を確認
Walid El Maouaki, Alberto Marchisio, Taoufik Said, Muhammad Shafique, Mohamed Bennai, (参考訳) 量子コンピューティングの最近の進歩は、量子層と古典層を統合するクオン進化ニューラルネットワーク(Quunvolutional Neural Networks、QuNN)のようなハイブリッド量子ニューラルネットワークの出現につながっている。 古典的ニューラルネットワークの敵攻撃に対する感受性は十分に文書化されているが、QuNNへの影響は理解されていない。 本研究は,QuNNの敵攻撃に対する堅牢性を高めるための新しい手法であるRobQuNNを紹介する。 さらに、ロブクNNを用いた古典的モデルと量子的モデル間の逆例の転送可能性について検討し、クロスモデル脆弱性の理解を深め、量子サイバーセキュリティにおける新たな方向性を示す。 この結果から,QuNNはMNISTデータセットの古典的ネットワーク,特に摂動の低レベルにおいて,最大で60倍の堅牢性を示すことがわかった。 このことは、セキュリティ防衛を改善するための量子アプローチの可能性を強調している。 さらに、RobQuNNは、QuNNが量子回路アーキテクチャに関係なく、クロスモデル対逆例に対する強化された抵抗や感受性を示していないことを明らかにした。

Recent advancements in quantum computing have led to the emergence of hybrid quantum neural networks, such as Quanvolutional Neural Networks (QuNNs), which integrate quantum and classical layers. While the susceptibility of classical neural networks to adversarial attacks is well-documented, the impact on QuNNs remains less understood. This study introduces RobQuNN, a new methodology to enhance the robustness of QuNNs against adversarial attacks, utilizing quantum circuit expressibility and entanglement capability alongside different adversarial strategies. Additionally, the study investigates the transferability of adversarial examples between classical and quantum models using RobQuNN, enhancing our understanding of cross-model vulnerabilities and pointing to new directions in quantum cybersecurity. The findings reveal that QuNNs exhibit up to 60\% higher robustness compared to classical networks for the MNIST dataset, particularly at low levels of perturbation. This underscores the potential of quantum approaches in improving security defenses. In addition, RobQuNN revealed that QuNN does not exhibit enhanced resistance or susceptibility to cross-model adversarial examples regardless of the quantum circuit architecture.
翻訳日:2024-07-08 18:12:58 公開日:2024-07-04
# DART: LLM安全のための深層対人自動レッドチーム

DART: Deep Adversarial Automated Red Teaming for LLM Safety ( http://arxiv.org/abs/2407.03876v1 )

ライセンス: Link先を確認
Bojian Jiang, Yi Jing, Tianhao Shen, Qing Yang, Deyi Xiong, (参考訳) 手動レッドチーム(Manual Red teaming)は、大規模言語モデル(LLM)の脆弱性を特定するために一般的に使用される手法である。 対照的に、自動化されたレッドチームでは、Red LLMを使用してTarget LLMに対する敵のプロンプトを自動的に生成し、安全な脆弱性検出のためのスケーラブルな方法を提供している。 しかしながら、強力な自動化されたRed LLMを構築することの難しさは、Target LLMの安全性上の脆弱性がTarget LLMの進化とともに動的に変化しているという事実にある。 この問題を軽減するために,Red LLMとTarget LLMが相互に反復的に動的に相互作用するディープ・アディバーショナル・オートマチック・レッド・チーム(DART)フレームワークを提案する。 各イテレーションにおいて、できるだけ多くの攻撃を成功させるために、Red LLMはターゲットLSMからの応答を考慮に入れ、複数のイテレーションにわたって生成された攻撃のグローバルな多様性を監視して攻撃方向を逆向きに調整する。 同時に、ターゲットLLMの安全性の脆弱性を動的に変化させるために、アクティブラーニングベースのデータ選択機構を通じて、ターゲットLLMの安全性を高めることができる。 実験により、DARTは目標LLMの安全性を著しく低下させることが示された。 人類学的なハームレスデータセットの人間による評価では、命令チューニング対象のLLMと比較して、DARTは違反リスクを53.4\%削減する。 近いうちに、DARTのデータセットとコードをリリースします。

Manual Red teaming is a commonly-used method to identify vulnerabilities in large language models (LLMs), which, is costly and unscalable. In contrast, automated red teaming uses a Red LLM to automatically generate adversarial prompts to the Target LLM, offering a scalable way for safety vulnerability detection. However, the difficulty of building a powerful automated Red LLM lies in the fact that the safety vulnerabilities of the Target LLM are dynamically changing with the evolution of the Target LLM. To mitigate this issue, we propose a Deep Adversarial Automated Red Teaming (DART) framework in which the Red LLM and Target LLM are deeply and dynamically interacting with each other in an iterative manner. In each iteration, in order to generate successful attacks as many as possible, the Red LLM not only takes into account the responses from the Target LLM, but also adversarially adjust its attacking directions by monitoring the global diversity of generated attacks across multiple iterations. Simultaneously, to explore dynamically changing safety vulnerabilities of the Target LLM, we allow the Target LLM to enhance its safety via an active learning based data selection mechanism. Experimential results demonstrate that DART significantly reduces the safety risk of the target LLM. For human evaluation on Anthropic Harmless dataset, compared to the instruction-tuning target LLM, DART eliminates the violation risks by 53.4\%. We will release the datasets and codes of DART soon.
翻訳日:2024-07-08 18:12:58 公開日:2024-07-04
# 脳波データに基づく予測シフト適応のための測地的最適化

Geodesic Optimization for Predictive Shift Adaptation on EEG data ( http://arxiv.org/abs/2407.03878v1 )

ライセンス: Link先を確認
Apolline Mellot, Antoine Collas, Sylvain Chevallier, Alexandre Gramfort, Denis A. Engemann, (参考訳) 脳波(EEG)データは、様々な個体群と脳波装置を含む様々な状況から収集されることが多い。 この可変性は、データである$X$と、興味を持つ$y$の生物医学変数における分布シフトを誘導し、教師付き機械学習(ML)アルゴリズムの適用を制限する。 ドメイン適応(DA)メソッドは、これらのシフトの影響を軽減するために開発されているが、そのようなメソッドは、分散シフトが同時に$X$と$y$で発生した場合に苦労する。 脳波の最先端MLモデルは空間共分散行列(Symmetric Positive Definite (SPD) 行列のリーマン多様体)で表されるデータを表すため、SPD多様体上で動くDA技術の研究は魅力的である。 本稿では、ソースドメインがそれぞれ$y$の分布を持つ状況に対して、テスト時マルチソースDAに対処するため、GOPSA(Geodesic Optimization for Predictive Shift Adaptation)と呼ばれる新しい手法を提案する。 GOPSAはリーマン多様体の測地構造を利用して、サイト固有のインターセプトと回帰モデルを表す領域固有の再中心作用素を共同で学習する。 我々は,大規模多国籍データセット(HarMNqEEG)から得られた静止状態脳波データを用いた年齢予測モデルのクロスサイト一般化に関する実証的ベンチマークを行った。 その結果,GOPSAは3つの回帰指標(R^2$, MAE, Spearman's $\rho$)に対して,複数のソース・ターゲットサイトの組み合わせに対して高い性能を達成し,脳波データ解析におけるマルチソースDA処理の有効性を強調した。 本手法は多施設臨床試験などの脳波バイオメディカル応用における混合効果モデリングと機械学習の利点を併用する可能性がある。

Electroencephalography (EEG) data is often collected from diverse contexts involving different populations and EEG devices. This variability can induce distribution shifts in the data $X$ and in the biomedical variables of interest $y$, thus limiting the application of supervised machine learning (ML) algorithms. While domain adaptation (DA) methods have been developed to mitigate the impact of these shifts, such methods struggle when distribution shifts occur simultaneously in $X$ and $y$. As state-of-the-art ML models for EEG represent the data by spatial covariance matrices, which lie on the Riemannian manifold of Symmetric Positive Definite (SPD) matrices, it is appealing to study DA techniques operating on the SPD manifold. This paper proposes a novel method termed Geodesic Optimization for Predictive Shift Adaptation (GOPSA) to address test-time multi-source DA for situations in which source domains have distinct $y$ distributions. GOPSA exploits the geodesic structure of the Riemannian manifold to jointly learn a domain-specific re-centering operator representing site-specific intercepts and the regression model. We performed empirical benchmarks on the cross-site generalization of age-prediction models with resting-state EEG data from a large multi-national dataset (HarMNqEEG), which included $14$ recording sites and more than $1500$ human participants. Compared to state-of-the-art methods, our results showed that GOPSA achieved significantly higher performance on three regression metrics ($R^2$, MAE, and Spearman's $\rho$) for several source-target site combinations, highlighting its effectiveness in tackling multi-source DA with predictive shifts in EEG data analysis. Our method has the potential to combine the advantages of mixed-effects modeling with machine learning for biomedical applications of EEG, such as multicenter clinical trials.
翻訳日:2024-07-08 18:12:58 公開日:2024-07-04
# 教育におけるゲームの評価方法:文献レビュー

How to Evaluate Games in Education: A Literature Review ( http://arxiv.org/abs/2407.03879v1 )

ライセンス: Link先を確認
Giulio Barbero, Marcello M. Bonsangue, Felienne F. J. Hermans, (参考訳) 高等教育にゲーム要素を加えることは、ますます一般的になっている。 その結果、近年の実証研究はゲーミフィケーションやゲームベースの教育経験の有効性の研究に焦点が当てられている。 これらの研究の発見は非常に多様であり、肯定的な効果と否定的な効果の両方を示し、その結果、比較メタスタディが要求される。 本稿では,異なる科学分野における制御実験の要約と評価を目的とした,異なる研究のレビューと分析を行う。 非実験条件記述の明快さに着目し,ほとんどの場合においてその明快さを示す。 a)コントロールグループの活動に使用される教育方法について、説明が不十分である。 ロ 統制団体の活動に使用される教育資料は、しばしば不明瞭であり、 c. 開始条件は不明です また、コンピュータ科学や工学の分野での研究が、他の分野よりも明らかに成果を報告していることにも気づいた。 以上の知見に基づいて,より構造化された比較を可能にする教育におけるゲーム実験研究の実施について,いくつかの推奨事項をまとめて結論付けている。

Adding game elements to higher education is an increasingly common practice. As a result, many recent empirical studies focus on studying the effectiveness of gamified or game-based educational experiences. The findings of these studies are very diverse, showing both positive and negative effects, and thus calling for comparative meta-studies. In this paper we review and analyze different studies, aiming to summarise and evaluate controlled experiments conducted within different scientific disciplines. We focus on the clarity of non-experimental conditions' descriptions and show that in most cases a. educational methods used in control groups' activities are poorly described, b. educational materials used in control groups' activities are often unclear, and c. the starting conditions are unclear. We also noticed that studies in the fields of computer science and engineering, in general, report results more clearly than in other fields. Based on the above finding, we conclude with a few recommendations for the execution of future empirical studies of games in education for the sake of allowing a more structured comparison.
翻訳日:2024-07-08 18:12:58 公開日:2024-07-04
# Breaking-Good: ビルド分析による依存関係更新のブレークスルー

Breaking-Good: Explaining Breaking Dependency Updates with Build Analysis ( http://arxiv.org/abs/2407.03880v1 )

ライセンス: Link先を確認
Frank Reyes, Benoit Baudry, Martin Monperrus, (参考訳) 依存関係の更新は、新しい依存関係バージョンが既存のクライアントコードと互換性のない変更を導入したときに、コンパイルエラーを引き起こすことが多い。 依存関係の更新を壊すことは、その根本原因が依存関係ツリーの奥深くに隠されるため、非常に難しい。 Breaking-Goodは、更新を壊すための説明を自動的に生成するツールです。 Breaking-Goodはコンパイルエラーの詳細な分類を提供し、直接および間接依存関係の変更、Javaバージョン間の非互換性、クライアント固有の設定に関連するいくつかの要因を特定する。 breaking-Goodは、ログと依存性ツリーのブレンド分析によって、ブレークスルー毎に詳細な説明を生成する。 これらの説明は、開発者はブレークスルーアップデートの原因を理解し、ブレークスルーを修正するためのアクションを提案するのに役立つ。 実世界の243件の依存性更新についてBreaking-Goodを評価した。 以上の結果から,Breaking-Goodは根本原因を正確に同定し,その70%の自動説明を生成することがわかった。 私たちのユーザ調査では、生成された説明が開発者の役に立つことが示されています。 Breaking-Goodは、依存関係の更新が原因を自動的に識別し、それに従って障害を説明する最初のテクニックである。

Dependency updates often cause compilation errors when new dependency versions introduce changes that are incompatible with existing client code. Fixing breaking dependency updates is notoriously hard, as their root cause can be hidden deep in the dependency tree. We present Breaking-Good, a tool that automatically generates explanations for breaking updates. Breaking-Good provides a detailed categorization of compilation errors, identifying several factors related to changes in direct and indirect dependencies, incompatibilities between Java versions, and client-specific configuration. With a blended analysis of log and dependency trees, Breaking-Good generates detailed explanations for each breaking update. These explanations help developers understand the causes of the breaking update, and suggest possible actions to fix the breakage. We evaluate Breaking-Good on 243 real-world breaking dependency updates. Our results indicate that Breaking-Good accurately identifies root causes and generates automatic explanations for 70% of these breaking updates. Our user study demonstrates that the generated explanations help developers. Breaking-Good is the first technique that automatically identifies causes of a breaking dependency update and explains the breakage accordingly.
翻訳日:2024-07-08 18:12:58 公開日:2024-07-04
# 逆例フリー再利用検出によるディープラーニングモデル著作権保護

Protecting Deep Learning Model Copyrights with Adversarial Example-Free Reuse Detection ( http://arxiv.org/abs/2407.03883v1 )

ライセンス: Link先を確認
Xiaokun Luan, Xiyue Zhang, Jingyi Wang, Meng Sun, (参考訳) モデル再利用技術は、既存のモデルを活用することで、高性能ディープニューラルネットワーク(DNN)のトレーニングに必要なリソースを削減できる。 しかし、DNNの不正な再利用と複製は、モデル所有者に著作権侵害と経済的損失をもたらす可能性がある。 このことは、DNN間の再利用関係を分析し、知的財産権を保護するために著作権保護技術を開発する必要性を浮き彫りにする。 既存のホワイトボックステストベースのアプローチでは、モデルアーキテクチャが変更される一般的な異種再利用のケースには対処できない。 このギャップを埋めるために、ニューロファンクティリティ分析に基づく再利用検出器であるNFARDを提案し、ニューロファンクティフィケーション(NF)と呼ばれる新しいモデル特徴に基づくモデルの違いを測定することで、通常のテストサンプルだけで再利用関係を検出する。 一連のNFベースの距離メトリクスは、NFARDをホワイトボックスとブラックボックスの設定の両方に適用できるように設計されている。 さらに,次元整合性を考慮した最適投影行列を構築し,NFARDの適用範囲を大幅に拡張することで,不均一な再利用事例を扱う線形変換法を提案する。 我々の知る限りでは、これはDNN著作権保護のためにニューロン機能を利用する最初の敵対的な例のない手法である。 副次的な貢献として、さまざまな実用的再利用技術や一般的なデータセットをカバーするReuse Zooという再利用検出ベンチマークを構築した。 この総合的なベンチマークでは、NFARDは、それぞれブラックボックスとホワイトボックスの設定における再利用関係を検出するために、0.984と1.0のF1スコアを達成し、テストスイートを2~99倍高速に生成している。

Model reuse techniques can reduce the resource requirements for training high-performance deep neural networks (DNNs) by leveraging existing models. However, unauthorized reuse and replication of DNNs can lead to copyright infringement and economic loss to the model owner. This underscores the need to analyze the reuse relation between DNNs and develop copyright protection techniques to safeguard intellectual property rights. Existing white-box testing-based approaches cannot address the common heterogeneous reuse case where the model architecture is changed, and DNN fingerprinting approaches heavily rely on generating adversarial examples with good transferability, which is known to be challenging in the black-box setting. To bridge the gap, we propose NFARD, a Neuron Functionality Analysis-based Reuse Detector, which only requires normal test samples to detect reuse relations by measuring the models' differences on a newly proposed model characterization, i.e., neuron functionality (NF). A set of NF-based distance metrics is designed to make NFARD applicable to both white-box and black-box settings. Moreover, we devise a linear transformation method to handle heterogeneous reuse cases by constructing the optimal projection matrix for dimension consistency, significantly extending the application scope of NFARD. To the best of our knowledge, this is the first adversarial example-free method that exploits neuron functionality for DNN copyright protection. As a side contribution, we constructed a reuse detection benchmark named Reuse Zoo that covers various practical reuse techniques and popular datasets. Extensive evaluations on this comprehensive benchmark show that NFARD achieves F1 scores of 0.984 and 1.0 for detecting reuse relationships in black-box and white-box settings, respectively, while generating test suites 2 ~ 99 times faster than previous methods.
翻訳日:2024-07-08 18:12:58 公開日:2024-07-04
# 対話エージェントのための大規模言語モデルによる計画

Planning with Large Language Models for Conversational Agents ( http://arxiv.org/abs/2407.03884v1 )

ライセンス: Link先を確認
Zhigen Li, Jianxiang Peng, Yanmeng Wang, Tianhao Shen, Minghui Zhang, Linxi Su, Shang Wu, Yihang Wu, Yuqian Wang, Ye Wang, Wei Hu, Jianfeng Li, Shaojun Wang, Jing Xiao, Deyi Xiong, (参考訳) 制御性と能動性は自律的会話エージェント(CA)の重要な性質である。 制御性には、CAはクレジットカードをアクティベートする前にIDを検証するなど、標準的な操作手順(SOP)に従う必要がある。 プロアクティビティは、説得的対話のようなユーザの非協力の間、CAが会話を目標に向かって導く必要がある。 既存の研究は、制御性、積極性、低マニュアルアノテーションと統合することはできない。 このギャップを埋めるために,我々は大規模言語モデル(LLM)を利用した計画型対話エージェント(PCA)の新たなフレームワークを提案する。 会話の前にLLMは、オフラインで対話するための中核的で必要なSOPを計画している。 会話中、LLMはSOPを参照して、オンラインで最高のアクションパスを計画し、プロセスの制御性を達成するために応答を生成する。 次に、半自動対話データ作成フレームワークを提案し、高品質な対話データセット(PCA-D)をキュレートする。 一方, モンテカルロ木探索 (PCA-M) を用いて, SOP制約を満たしながら最適な対話動作を探索し, 対話の積極性を達成するための多変量および評価指標を開発した。 実験の結果,PCA-Dで微調整されたLCMは性能を著しく向上し,未確認領域に一般化できることがわかった。 PCA-Mは会話制御性、確率性、タスク成功率、全体的な論理コヒーレンスという点で他のCoTおよびToTベースラインよりも優れており、産業対話のシナリオに適用できる。 データセットとコードはXXXXで入手できる。

Controllability and proactivity are crucial properties of autonomous conversational agents (CAs). Controllability requires the CAs to follow the standard operating procedures (SOPs), such as verifying identity before activating credit cards. Proactivity requires the CAs to guide the conversation towards the goal during user uncooperation, such as persuasive dialogue. Existing research cannot be unified with controllability, proactivity, and low manual annotation. To bridge this gap, we propose a new framework for planning-based conversational agents (PCA) powered by large language models (LLMs), which only requires humans to define tasks and goals for the LLMs. Before conversation, LLM plans the core and necessary SOP for dialogue offline. During the conversation, LLM plans the best action path online referring to the SOP, and generates responses to achieve process controllability. Subsequently, we propose a semi-automatic dialogue data creation framework and curate a high-quality dialogue dataset (PCA-D). Meanwhile, we develop multiple variants and evaluation metrics for PCA, e.g., planning with Monte Carlo Tree Search (PCA-M), which searches for the optimal dialogue action while satisfying SOP constraints and achieving the proactive of the dialogue. Experiment results show that LLMs finetuned on PCA-D can significantly improve the performance and generalize to unseen domains. PCA-M outperforms other CoT and ToT baselines in terms of conversation controllability, proactivity, task success rate, and overall logical coherence, and is applicable in industry dialogue scenarios. The dataset and codes are available at XXXX.
翻訳日:2024-07-08 18:12:58 公開日:2024-07-04
# ハイブリッド戦略を用いた3次元点雲の知覚誘導品質測定

Perception-Guided Quality Metric of 3D Point Clouds Using Hybrid Strategy ( http://arxiv.org/abs/2407.03885v1 )

ライセンス: Link先を確認
Yujie Zhang, Qi Yang, Yiling Xu, Shan Liu, (参考訳) フルリファレンスポイントクラウド品質評価(FR-PCQA)は、歪んだポイントクラウドの品質を利用可能なリファレンスで推測することを目的としている。 既存のFR-PCQAメトリクスのほとんどは、人間の視覚システム(HVS)が様々な歪みレベル(例えば、高品質サンプルの歪み検出と低品質サンプルの外観認識)に応じて視覚情報に動的に取り組むという事実を無視し、統一された特徴を用いて点雲の品質を測定する。 このギャップを埋めるために,本論文では,2つの視覚的戦略を適応的に活用して点雲の質を予測するための知覚誘導ハイブリッド計量(PHM)を提案する。高品質な試料の可視差を測定するため,PHMはマスキング効果を考慮に入れ,絶対差の効果的な補正因子としてテクスチャ複雑性を利用する。一方,PHMはスペクトルグラフ理論を利用して,低品質試料の外観劣化を評価する。 グラフ上の幾何信号の変化とスペクトルグラフウェーブレット係数の変化を利用して、それぞれ幾何学的およびテクスチャ的外観劣化を特徴づける。 最後に、2つのコンポーネントから得られた結果を非線形法で組み合わせて、テストポイントクラウドの全体的な品質スコアを生成する。 5つの独立データベース上での実験結果から,PHMがSOTA(State-of-the-art)性能を達成し,複数歪み環境での大幅な性能向上を実現していることが示された。 コードはhttps://github.com/zhangyujie-1998/PHMで公開されている。

Full-reference point cloud quality assessment (FR-PCQA) aims to infer the quality of distorted point clouds with available references. Most of the existing FR-PCQA metrics ignore the fact that the human visual system (HVS) dynamically tackles visual information according to different distortion levels (i.e., distortion detection for high-quality samples and appearance perception for low-quality samples) and measure point cloud quality using unified features. To bridge the gap, in this paper, we propose a perception-guided hybrid metric (PHM) that adaptively leverages two visual strategies with respect to distortion degree to predict point cloud quality: to measure visible difference in high-quality samples, PHM takes into account the masking effect and employs texture complexity as an effective compensatory factor for absolute difference; on the other hand, PHM leverages spectral graph theory to evaluate appearance degradation in low-quality samples. Variations in geometric signals on graphs and changes in the spectral graph wavelet coefficients are utilized to characterize geometry and texture appearance degradation, respectively. Finally, the results obtained from the two components are combined in a non-linear method to produce an overall quality score of the tested point cloud. The results of the experiment on five independent databases show that PHM achieves state-of-the-art (SOTA) performance and offers significant performance improvement in multiple distortion environments. The code is publicly available at https://github.com/zhangyujie-1998/PHM.
翻訳日:2024-07-08 18:12:58 公開日:2024-07-04
# DSMix:非参照画像品質評価のための歪み誘発感度マップに基づく事前学習

DSMix: Distortion-Induced Sensitivity Map Based Pre-training for No-Reference Image Quality Assessment ( http://arxiv.org/abs/2407.03886v1 )

ライセンス: Link先を確認
Jinsong Shi, Pan Gao, Xiaojiang Peng, Jie Qin, (参考訳) 画像品質評価(IQA)は画像理解の基本的な課題である。 近年,ディープラーニングに基づくIQA手法は有望な性能を示した。 しかし、IQAフィールドに大量のラベル付きデータがないことは、これらの手法のさらなる進歩を妨げている。 本稿では,この制限を克服するために,IQAタスク用に設計された新しいデータ拡張手法であるDSMixを紹介する。 DSMixは、画像の歪み誘発感度マップ(DSM)を事前の知識として活用する。 合成歪み画像の様々なカテゴリにカット・ミックス操作を適用し、上記の事前知識に基づいて信頼スコアをクラスラベルに割り当てる。 DSMix拡張データを用いた事前学習段階では, モデルが意味的特徴を抽出する能力を高めるために, 知識蒸留を用いる。 DSMixが達成した予測および一般化性能は, 完全モデルの微調整を必要とせず, 合成および認証両方のIQAデータセットに対する実験結果から検証した。 コードは \url{https://github.com/I2-Multimedia-Lab/DSMix} で公開されている。

Image quality assessment (IQA) has long been a fundamental challenge in image understanding. In recent years, deep learning-based IQA methods have shown promising performance. However, the lack of large amounts of labeled data in the IQA field has hindered further advancements in these methods. This paper introduces DSMix, a novel data augmentation technique specifically designed for IQA tasks, aiming to overcome this limitation. DSMix leverages the distortion-induced sensitivity map (DSM) of an image as prior knowledge. It applies cut and mix operations to diverse categories of synthetic distorted images, assigning confidence scores to class labels based on the aforementioned prior knowledge. In the pre-training phase using DSMix-augmented data, knowledge distillation is employed to enhance the model's ability to extract semantic features. Experimental results on both synthetic and authentic IQA datasets demonstrate the significant predictive and generalization performance achieved by DSMix, without requiring fine-tuning of the full model. Code is available at \url{https://github.com/I2-Multimedia-Lab/DSMix}.
翻訳日:2024-07-08 18:12:58 公開日:2024-07-04
# Tsallisエントロピー下におけるジャンプ拡散モデルの連続Qラーニング

Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy ( http://arxiv.org/abs/2407.03888v1 )

ライセンス: Link先を確認
Lijun Bo, Yijie Huang, Xiang Yu, Tingting Zhang, (参考訳) 本稿では,Tsallisエントロピー正規化の下で,q-関数(Q-関数の連続的対応)とq-学習アルゴリズムを特徴付けることで,制御されたジャンプ拡散モデルの連続時間強化学習について検討する。 従来のシャノンエントロピーとは対照的に、Tsallisエントロピーの一般的な形式はギブス測度を必要としない最適ポリシーを表現し、そこではラグランジュ乗算器とKKT乗算器がある種の制約から自然に生じて、学習したポリシーが確率分布であることを保証する。 その結果、最適ポリシーとq-函数の関係はラグランジュ乗算器にも関係する。 これに対し、Tsallisエントロピーの下でq関数のマーチンゲール特性を確立し、ラグランジュ乗算器を明示的に導出できるか否かに応じて2つのq-ラーニングアルゴリズムを考案する。 後者の場合、q関数とポリシーの異なるパラメータ化を検討し、代わりに更新する必要がある。 最後に、最適ポートフォリオ清算問題と非LQ制御問題という2つのファイナンシャル・アプリケーションについて検討する。 ここで興味深いのは、Tsallisエントロピー正則化の下での最適ポリシーが明確に特徴づけられることである。 いずれの例においても,q-learningアルゴリズムの良好な性能が示されている。

This paper studies continuous-time reinforcement learning for controlled jump-diffusion models by featuring the q-function (the continuous-time counterpart of Q-function) and the q-learning algorithms under the Tsallis entropy regularization. Contrary to the conventional Shannon entropy, the general form of Tsallis entropy renders the optimal policy not necessary a Gibbs measure, where some Lagrange multiplier and KKT multiplier naturally arise from certain constraints to ensure the learnt policy to be a probability distribution. As a consequence,the relationship between the optimal policy and the q-function also involves the Lagrange multiplier. In response, we establish the martingale characterization of the q-function under Tsallis entropy and devise two q-learning algorithms depending on whether the Lagrange multiplier can be derived explicitly or not. In the latter case, we need to consider different parameterizations of the q-function and the policy and update them alternatively. Finally, we examine two financial applications, namely an optimal portfolio liquidation problem and a non-LQ control problem. It is interesting to see therein that the optimal policies under the Tsallis entropy regularization can be characterized explicitly, which are distributions concentrate on some compact support. The satisfactory performance of our q-learning algorithm is illustrated in both examples.
翻訳日:2024-07-08 18:03:13 公開日:2024-07-04
# AutoBench: HDL設計のためのLCMを用いた自動テストベンチ生成と評価

AutoBench: Automatic Testbench Generation and Evaluation Using LLMs for HDL Design ( http://arxiv.org/abs/2407.03891v1 )

ライセンス: Link先を確認
Ruidi Qiu, Grace Li Zhang, Rolf Drechsler, Ulf Schlichtmann, Bing Li, (参考訳) デジタル回路設計において、テストベンチはシミュレーションベースのハードウェア検証の基礎となる。 シミュレーションベースのハードウェア検証におけるテストベンチ生成の従来の手法は、一部手作業のままであり、様々なシナリオのテストや設計者からの高価な時間を要する。 LLM(Large Language Models)は、回路設計フローの自動化の可能性を実証している。 しかし、直接LLMをテストベンチ生成に適用することは、通過率の低下に悩まされる。 この課題に対処するために,我々は,デジタル回路設計のための最初のLCMベースのテストベンチジェネレータであるAutoBenchを紹介した。 AutoBenchでは、LLMを用いてハイブリッドテストベンチ構造と自己チェックシステムを実現する。 生成されたテストベンチを検証するために,複数の視点から生成されたテストベンチの品質を評価する自動テストベンチ評価フレームワークも導入した。 実験の結果, AutoBenchは, LLMを用いて直接テストベンチを生成するベースラインと比較して, testbench pass@1比が57%向上していることがわかった。 75のシーケンシャル回路では、AutoBenchはベースラインに比べて3.36倍のテストベンチパス@1比で成功した。 ソースコードと実験結果は、このリンクでオープンソース化されている。

In digital circuit design, testbenches constitute the cornerstone of simulation-based hardware verification. Traditional methodologies for testbench generation during simulation-based hardware verification still remain partially manual, resulting in inefficiencies in testing various scenarios and requiring expensive time from designers. Large Language Models (LLMs) have demonstrated their potential in automating the circuit design flow. However, directly applying LLMs to generate testbenches suffers from a low pass rate. To address this challenge, we introduce AutoBench, the first LLM-based testbench generator for digital circuit design, which requires only the description of the design under test (DUT) to automatically generate comprehensive testbenches. In AutoBench, a hybrid testbench structure and a self-checking system are realized using LLMs. To validate the generated testbenches, we also introduce an automated testbench evaluation framework to evaluate the quality of generated testbenches from multiple perspectives. Experimental results demonstrate that AutoBench achieves a 57% improvement in the testbench pass@1 ratio compared with the baseline that directly generates testbenches using LLMs. For 75 sequential circuits, AutoBench successfully has a 3.36 times testbench pass@1 ratio compared with the baseline. The source codes and experimental results are open-sourced at this link: https://github.com/AutoBench/AutoBench
翻訳日:2024-07-08 18:03:13 公開日:2024-07-04
# Decoder-Only TTSにおける音響的BPEの有効性について

On the Effectiveness of Acoustic BPE in Decoder-Only TTS ( http://arxiv.org/abs/2407.03892v1 )

ライセンス: Link先を確認
Bohan Li, Feiyu Shen, Yiwei Guo, Shuai Wang, Xie Chen, Kai Yu, (参考訳) 音声をトークン化しデコーダのみのモデルで生成することは、テキスト音声(TTS)と音声言語モデリング(SLM)にとって有望な方向である。 音声トークンのシーケンス長を短くするため、SLMでは、自己教師付き意味表現から音声トークンを文字として扱い、さらにトークンシーケンスを圧縮する音響バイトペア符号化(BPE)が出現している。 しかし、TSの利得は十分に調査されておらず、音響的BPEの適切な選択はいまだに不明である。 本研究では,意味的音声トークンを用いたデコーダのみのTSモデルにおいて,音響的BPEの様々な設定について包括的な研究を行い,その有効性について検討する。 LibriTTSの実験では、音響的BPEはBPE設定毎に異なる特徴を示しながら、合成音声のインテリジェンス性と多様性を均一に向上することを確認した。 したがって、音響BPEはデコーダのみのTSにとって好ましいツールである。

Discretizing speech into tokens and generating them by a decoder-only model have been a promising direction for text-to-speech (TTS) and spoken language modeling (SLM). To shorten the sequence length of speech tokens, acoustic byte-pair encoding (BPE) has emerged in SLM that treats speech tokens from self-supervised semantic representations as characters to further compress the token sequence. But the gain in TTS has not been fully investigated, and the proper choice of acoustic BPE remains unclear. In this work, we conduct a comprehensive study on various settings of acoustic BPE to explore its effectiveness in decoder-only TTS models with semantic speech tokens. Experiments on LibriTTS verify that acoustic BPE uniformly increases the intelligibility and diversity of synthesized speech, while showing different features across BPE settings. Hence, acoustic BPE is a favorable tool for decoder-only TTS.
翻訳日:2024-07-08 18:03:13 公開日:2024-07-04
# 一般化分類器は本当に人間のドロー・ケッチに効くのか?

Do Generalised Classifiers really work on Human Drawn Sketches? ( http://arxiv.org/abs/2407.03893v1 )

ライセンス: Link先を確認
Hmrishav Bandyopadhyay, Pinaki Nath Chowdhury, Aneeshan Sain, Subhadeep Koley, Tao Xiang, Ayan Kumar Bhunia, Yi-Zhe Song, (参考訳) 本論文は,ヒトのスケッチ理解を伴う大規模基礎モデルを初めて紹介する。 一般的なスケッチ表現学習(例えば、分類)という観点からのパラダイムシフトです。 この一般化は2つの点で成り立つ。 (i)未知のカテゴリ(すなわち開集合)、及び (II)抽象レベル(善と悪のスケッチ)を横断する一般化は、スケッチ文学において未解決のままのタイムリーな課題である。 私たちのデザインは直感的で、スケッチの一般化学習の恩恵を受けるためにCLIPの既に輝かしい一般化能力の伝達に重点を置いています。 我々はまず,ベクトルスケッチ変換のための新しいラスタの補助ヘッドを用いて,スケッチ固有のプロンプトを学習することで,バニラCLIPモデルを「条件」する。 これはCLIPを"sketch-aware"にする。 次に、CLIPを本質的に異なるスケッチ抽象化レベルに緊急にします。 これは抽象化固有のプロンプトバイアスのコードブックを学習することで実現される。これは抽象化レベルのスケッチの表現を容易にする重み付けの組み合わせで、低抽象エッジマップ、TU-Berlinの中間抽象スケッチ、QuickDrawの高抽象ダドルなどである。 我々のフレームワークは、ゼロショットと少数ショットの両方のセットアップと、異なる抽象境界をまたいだ新しい設定において、一般的なスケッチ表現学習アルゴリズムを超越している。

This paper, for the first time, marries large foundation models with human sketch understanding. We demonstrate what this brings -- a paradigm shift in terms of generalised sketch representation learning (e.g., classification). This generalisation happens on two fronts: (i) generalisation across unknown categories (i.e., open-set), and (ii) generalisation traversing abstraction levels (i.e., good and bad sketches), both being timely challenges that remain unsolved in the sketch literature. Our design is intuitive and centred around transferring the already stellar generalisation ability of CLIP to benefit generalised learning for sketches. We first "condition" the vanilla CLIP model by learning sketch-specific prompts using a novel auxiliary head of raster to vector sketch conversion. This importantly makes CLIP "sketch-aware". We then make CLIP acute to the inherently different sketch abstraction levels. This is achieved by learning a codebook of abstraction-specific prompt biases, a weighted combination of which facilitates the representation of sketches across abstraction levels -- low abstract edge-maps, medium abstract sketches in TU-Berlin, and highly abstract doodles in QuickDraw. Our framework surpasses popular sketch representation learning algorithms in both zero-shot and few-shot setups and in novel settings across different abstraction boundaries.
翻訳日:2024-07-08 18:03:13 公開日:2024-07-04
# 実体認識タスクのためのアクティブラーニング戦略と評価環境のスコーピングレビュー

Scoping Review of Active Learning Strategies and their Evaluation Environments for Entity Recognition Tasks ( http://arxiv.org/abs/2407.03895v1 )

ライセンス: Link先を確認
Philipp Kohl, Yoka Krämer, Claudia Fohry, Bodo Kraft, (参考訳) 我々は,自然言語処理(NLP)分野におけるアクティブラーニングのスコーピングレビューを行い,PRISMA-ScRガイドラインに従って次のように要約した。 デザイン: ScopusとACMを検索エンジンとして使用しました。 調査結果を2つの文献調査と比較し,検索品質について検討した。 我々は、エンティティ認識のためのアクティブラーニング戦略の導入や比較をピアレビューした英語の出版物を含めた。 結果:62件の関連論文を分析し,アクティブラーニング戦略を106件同定した。 エクスプロイトベース(60倍)、探索ベース(14倍)、ハイブリッド戦略(32倍)の3つのカテゴリに分類した。 その結果,F1スコアを評価指標として用いた。 ハードウェア (6x) と実行時間 (13x) に関する情報は時折含まれていた。 62の論文では、57の異なるデータセットを使用して、それぞれの戦略を評価した。 ほとんどのデータセットには新聞記事やバイオメディカル・医療データが含まれていた。 分析の結果,57のデータセットのうち26が一般公開されていることがわかった。 結論: 多くのアクティブな学習戦略が特定され、解決すべき重要なオープンな疑問がまだ解決されている。 研究者と実践者は、どのアクティブな学習戦略を採用するべきかに関するデータ駆動決定を行う際に困難に直面します。 本研究で提案した評価環境を用いて総合的な経験的比較を行うことは,ドメインにおけるベストプラクティスの確立に有効である。

We conducted a scoping review for active learning in the domain of natural language processing (NLP), which we summarize in accordance with the PRISMA-ScR guidelines as follows: Objective: Identify active learning strategies that were proposed for entity recognition and their evaluation environments (datasets, metrics, hardware, execution time). Design: We used Scopus and ACM as our search engines. We compared the results with two literature surveys to assess the search quality. We included peer-reviewed English publications introducing or comparing active learning strategies for entity recognition. Results: We analyzed 62 relevant papers and identified 106 active learning strategies. We grouped them into three categories: exploitation-based (60x), exploration-based (14x), and hybrid strategies (32x). We found that all studies used the F1-score as an evaluation metric. Information about hardware (6x) and execution time (13x) was only occasionally included. The 62 papers used 57 different datasets to evaluate their respective strategies. Most datasets contained newspaper articles or biomedical/medical data. Our analysis revealed that 26 out of 57 datasets are publicly accessible. Conclusion: Numerous active learning strategies have been identified, along with significant open questions that still need to be addressed. Researchers and practitioners face difficulties when making data-driven decisions about which active learning strategy to adopt. Conducting comprehensive empirical comparisons using the evaluation environment proposed in this study could help establish best practices in the domain.
翻訳日:2024-07-08 18:03:13 公開日:2024-07-04
# gFlora:土壌微生物群集における機能的共応答群発見のためのトポロジー認識手法

gFlora: a topology-aware method to discover functional co-response groups in soil microbial communities ( http://arxiv.org/abs/2407.03897v1 )

ライセンス: Link先を確認
Nan Chen, Merlijn Schram, Doina Bucur, (参考訳) 機能的共応答群:共応答効果(群の代表的特徴)が機能的変数と統計的によく関連している分類群の学習を目指す。 現状の方法とは違って, 土壌微生物群集は, 分類群をノードとし, それらの関係(空間的および機能的生態学的側面の組合せ)をエッジ(関係の強さによる重み付け)として, 生態的共起ネットワークとしてモデル化する。 そこで我々は,この共起ネットワーク上のグラフ畳み込みを利用して,ネットワークトポロジが発見過程において考慮されるような,グループ間の共応答効果を得るために,gFloraと呼ばれる手法を設計する。 実地土壌微生物叢(細菌および線虫類)を用いて, gFlora の評価を行い, 最先端の方法と比較した。 gFloraは全ての評価指標でこれより優れており、これまで研究されていない分類の新たな機能的証拠を発見している。 グラフの畳み込み過程は, 個体数が少なく, 異なる属の細菌が共起ネットワークに分布するが, 相互に密接な関係にあり, トポロジカルに生態学的に異なる機能的役割を担っていることを示す。

We aim to learn the functional co-response group: a group of taxa whose co-response effect (the representative characteristic of the group) associates well statistically with a functional variable. Different from the state-of-the-art method, we model the soil microbial community as an ecological co-occurrence network with the taxa as nodes (weighted by their abundance) and their relationships (a combination from both spatial and functional ecological aspects) as edges (weighted by the strength of the relationships). Then, we design a method called gFlora which notably uses graph convolution over this co-occurrence network to get the co-response effect of the group, such that the network topology is also considered in the discovery process. We evaluate gFlora on two real-world soil microbiome datasets (bacteria and nematodes) and compare it with the state-of-the-art method. gFlora outperforms this on all evaluation metrics, and discovers new functional evidence for taxa which were so far under-studied. We show that the graph convolution step is crucial to taxa with low abundance, and the discovered bacteria of different genera are distributed in the co-occurrence network but still tightly connected among themselves, demonstrating that topologically they fill different but collaborative functional roles in the ecological community.
翻訳日:2024-07-08 18:03:13 公開日:2024-07-04
# Oracle Boneがマルチモーダルデータセットを記載

Oracle Bone Inscriptions Multi-modal Dataset ( http://arxiv.org/abs/2407.03900v1 )

ライセンス: Link先を確認
Bang Li, Donghao Luo, Yujie Liang, Jing Yang, Zengmao Ding, Xu Peng, Boyuan Jiang, Shengwei Han, Dan Sui, Peichao Qin, Pian Wu, Chaoyang Wang, Yun Qi, Taisong Jin, Chengjie Wang, Xiaoming Huang, Zhan Shu, Rongrong Ji, Yongge Liu, Yunsheng Wu, (参考訳) オラクルの骨碑文(Oracle bone inscriptions, OBI)は中国最古の書記体系であり、初期の上海の歴史や古史の貴重な実例を記している。 しかし、奨学金の現在の気候におけるOBI解読の課題は極めて困難である。 発掘された4,500個のオラクルの骨の文字のうち、わずか3分の1しか発見されていない。 したがって、高度なAI技術の利点を活用してOBIの解読を支援することが極めて重要な研究課題である。 しかし、これらの問題でAIの能力を十分に活用することは、包括的な高品質なOBIデータセットを手元に持つことに頼っている一方、既存のデータセットの多くは、たった1つまたは数次元でアノテートされているだけで、潜在的なアプリケーションの価値を制限している。 例えば、Oracle-MNISTデータセットは10のカテゴリに分類される30万のイメージしか提供していない。 そこで本研究では,Oracle Bone Inscriptions Multi-modal Dataset (OBIMD)を提案する。 各ピースにはピクセルレベルのアライメントラビングとファクシミリの2つのモードがある。 データセットは、検出ボックス、文字カテゴリ、転写、対応するインプリンティンググループ、および各オラクルの骨キャラクタのグループにおける読み込みシーケンスを注釈し、包括的な高品質のアノテーションを提供する。 このデータセットは、OBIの文字検出と認識、ラビングDenoising、キャラクタマッチング、キャラクタ生成、読み込みシーケンス予測、ミスキャラクタ補完タスクなど、OBIの分野に関連するさまざまなAI関連研究タスクに使用することができる。 このようなデータセットの作成と公開は、OBI研究の分野におけるAIアルゴリズムの適用を大幅に前進させるだろうと考えています。

Oracle bone inscriptions(OBI) is the earliest developed writing system in China, bearing invaluable written exemplifications of early Shang history and paleography. However, the task of deciphering OBI, in the current climate of the scholarship, can prove extremely challenging. Out of the 4,500 oracle bone characters excavated, only a third have been successfully identified. Therefore, leveraging the advantages of advanced AI technology to assist in the decipherment of OBI is a highly essential research topic. However, fully utilizing AI's capabilities in these matters is reliant on having a comprehensive and high-quality annotated OBI dataset at hand whereas most existing datasets are only annotated in just a single or a few dimensions, limiting the value of their potential application. For instance, the Oracle-MNIST dataset only offers 30k images classified into 10 categories. Therefore, this paper proposes an Oracle Bone Inscriptions Multi-modal Dataset(OBIMD), which includes annotation information for 10,077 pieces of oracle bones. Each piece has two modalities: pixel-level aligned rubbings and facsimiles. The dataset annotates the detection boxes, character categories, transcriptions, corresponding inscription groups, and reading sequences in the groups of each oracle bone character, providing a comprehensive and high-quality level of annotations. This dataset can be used for a variety of AI-related research tasks relevant to the field of OBI, such as OBI Character Detection and Recognition, Rubbing Denoising, Character Matching, Character Generation, Reading Sequence Prediction, Missing Characters Completion task and so on. We believe that the creation and publication of a dataset like this will help significantly advance the application of AI algorithms in the field of OBI research.
翻訳日:2024-07-08 18:03:13 公開日:2024-07-04
# DiCTI:テキスト誘導入力による拡散型衣料デザイナー

DiCTI: Diffusion-based Clothing Designer via Text-guided Input ( http://arxiv.org/abs/2407.03901v1 )

ライセンス: Link先を確認
Ajda Lampe, Julija Stopar, Deepak Kumar Jain, Shinichiro Omachi, Peter Peer, Vitomir Štruc, (参考訳) 近年の深層生成モデルの発展は、画像合成の幅広い機会を開き、ファッション産業を含む様々な創造的分野に大きな変化をもたらした。 特に仮想試用アプリケーションにおいて、購入者に利益をもたらすために多くの方法が提案されているが、デザイナーや顧客が新しいデザインを注文する際の高速なプロトタイピングを促進することには、比較的焦点が当てられていない。 このギャップに対処するために、Diffusion-based Clothing Designer via Text-guided Input(DICTI)を導入する。 人物の画像と所望の衣服を入力として記述すると、DiCTIは自動的に複数の高解像度のフォトリアリスティック画像を生成し、表現されたセマンティクスをキャプチャする。 テキスト入力に条件付けされた強力な拡散ベースのインペイントモデルを活用することで、DiCTIは、提供されたテキスト記述を確実に追従する様々な衣料品デザインの、説得力のある高品質な画像を合成できると同時に、非常に多彩で困難な入力を、完全に制約のない環境で処理することができる。 我々は2つの異なるデータセット(VITON-HDとFashionpedia)の総合的な実験でDiCTIを評価し、最先端(SoTa)と比較した。 実験の結果,DICTIは,標準的な定量的評価基準と人体評価に基づいて,より精巧な衣料で高品質な画像を生成することで,SoTAコンペティターを確実に上回っていることがわかった。

Recent developments in deep generative models have opened up a wide range of opportunities for image synthesis, leading to significant changes in various creative fields, including the fashion industry. While numerous methods have been proposed to benefit buyers, particularly in virtual try-on applications, there has been relatively less focus on facilitating fast prototyping for designers and customers seeking to order new designs. To address this gap, we introduce DiCTI (Diffusion-based Clothing Designer via Text-guided Input), a straightforward yet highly effective approach that allows designers to quickly visualize fashion-related ideas using text inputs only. Given an image of a person and a description of the desired garments as input, DiCTI automatically generates multiple high-resolution, photorealistic images that capture the expressed semantics. By leveraging a powerful diffusion-based inpainting model conditioned on text inputs, DiCTI is able to synthesize convincing, high-quality images with varied clothing designs that viably follow the provided text descriptions, while being able to process very diverse and challenging inputs, captured in completely unconstrained settings. We evaluate DiCTI in comprehensive experiments on two different datasets (VITON-HD and Fashionpedia) and in comparison to the state-of-the-art (SoTa). The results of our experiments show that DiCTI convincingly outperforms the SoTA competitor in generating higher quality images with more elaborate garments and superior text prompt adherence, both according to standard quantitative evaluation measures and human ratings, generated as part of a user study.
翻訳日:2024-07-08 18:03:13 公開日:2024-07-04
# 断熱原理のない連続時間量子最適化

Continuous-time quantum optimisation without the adiabatic principle ( http://arxiv.org/abs/2407.03910v1 )

ライセンス: Link先を確認
Robert J. Banks, Georgios S. Raftis, Dan E. Browne, P. A. Warburton, (参考訳) 量子アニールのような組合せ最適化問題に対する連続時間量子アルゴリズムは、これまで断熱原理によって動機付けられてきた。 しかし、多くの連続時間アプローチは力学を利用するため、もはや断熱原理によって物理的に動機づけられることはない。 この研究では、プランクの原理を、連続時間量子アルゴリズムの基盤となる物理的動機として捉えている。 プランクの原理は、循環過程の結果、孤立系のエネルギーは減少できないというものである。 我々はこの原理を用いて、断熱的でない量子アニールにおける単調なスケジュールを正当化する。 このアプローチはまた、孤立系における逆量子アニールの限界を強調している。

Continuous-time quantum algorithms for combinatorial optimisation problems, such as quantum annealing, have previously been motivated by the adiabatic principle. A number of continuous-time approaches exploit dynamics, however, and therefore are no longer physically motivated by the adiabatic principle. In this work we take Planck's principle as the underlying physical motivation for continuous-time quantum algorithms. Planck's principle states that the energy of an isolated system cannot decrease as the result of a cyclic process. We use this principle to justify monotonic schedules in quantum annealing which are not adiabatic. This approach also highlights the limitations of reverse quantum annealing in an isolated system.
翻訳日:2024-07-08 18:03:13 公開日:2024-07-04
# MobileExperts: モバイルデバイスの動的ツール対応エージェントチーム

MobileExperts: A Dynamic Tool-Enabled Agent Team in Mobile Devices ( http://arxiv.org/abs/2407.03913v1 )

ライセンス: Link先を確認
Jiayi Zhang, Chuang Zhao, Yihan Zhao, Zhaoyang Yu, Ming He, Jianping Fan, (参考訳) モバイルデバイスにおける自律的な操作の達成は、一貫して人間の追求の目標となっている。 LLM(Large Language Models)とVLM(Visual Language Models)の開発により、この試みは徐々に現実に変わりつつある。 現代の研究は、VLMを通してモバイルデバイス上での単純なタスクの自動化を探求してきたが、複雑なタスクの処理や推論コストの低減において、改善の余地は依然として大きい。 本稿では,ツールの定式化とマルチエージェントコラボレーションを導入して,上記の課題に対処するMobileExpertsを紹介する。 より具体的には、MobileExpertsは、エージェントのポートレートと人間の要求とのアライメントに基づいて、動的にチームを組み立てる。 その後、各エージェントは独立した探査段階に入り、そのツールを専門家に進化させる。 最後に、専門家間の協調関係を確立するための二重層計画機構を開発する。 我々の有効性を検証するため、我々は階層的なインテリジェンスレベルの新しいベンチマークを設計し、複雑度の範囲でタスクに対処するアルゴリズムの能力に関する洞察を提供する。 実験の結果,MobileExpertsはすべてのインテリジェンスレベルにおいて優れた性能を示し,推論コストの約22%削減を実現し,設計上の優位性を検証した。

The attainment of autonomous operations in mobile computing devices has consistently been a goal of human pursuit. With the development of Large Language Models (LLMs) and Visual Language Models (VLMs), this aspiration is progressively turning into reality. While contemporary research has explored automation of simple tasks on mobile devices via VLMs, there remains significant room for improvement in handling complex tasks and reducing high reasoning costs. In this paper, we introduce MobileExperts, which for the first time introduces tool formulation and multi-agent collaboration to address the aforementioned challenges. More specifically, MobileExperts dynamically assembles teams based on the alignment of agent portraits with the human requirements. Following this, each agent embarks on an independent exploration phase, formulating its tools to evolve into an expert. Lastly, we develop a dual-layer planning mechanism to establish coordinate collaboration among experts. To validate our effectiveness, we design a new benchmark of hierarchical intelligence levels, offering insights into algorithm's capability to address tasks across a spectrum of complexity. Experimental results demonstrate that MobileExperts performs better on all intelligence levels and achieves ~ 22% reduction in reasoning costs, thus verifying the superiority of our design.
翻訳日:2024-07-08 18:03:13 公開日:2024-07-04
# Variant-Rich ソフトウェアシステムにおけるエロージョンの対処 - 課題とアプローチ

Tackling Erosion in Variant-Rich Software Systems: Challenges and Approaches ( http://arxiv.org/abs/2407.03914v1 )

ライセンス: Link先を確認
Johannes Stümpfle, Nasser Jazdi, Michael Weyrich, (参考訳) ソフトウェア製品ライン(SPL)は、ソフトウェア工学における重要なパラダイムとして登場し、変種リッチなソフトウェアシステムの効率的な開発を可能にしている。 一貫性のある更新は、しばしばオーバー・ザ・エアの更新を通じて行われ、新しい機能とバグ修正の継続的統合を可能にし、システムがライフサイクル全体を通して最新であることを保証する。 しかし、そのような複雑なシステムを進化させることはエラーを起こしやすい問題であり、浸食と呼ばれる現象を引き起こす。 この現象はソフトウェアシステムの効率性と長寿に大きな影響を与え、自動車分野のような多種多様なソフトウェアシステムの製造者にとって大きな課題となる。 既存研究は変分豊富なソフトウェアシステムの進化計画に重点を置いているが、浸食問題に対処する研究の欠如が顕著である。 本稿では,多変量ソフトウェアシステムにおける浸食現象の詳細な調査を行う。 まず,多種多様なソフトウェアシステムにおいて,浸食を制御することの重要性を強調する。 続いて,浸食に対する理解と定義に関するコンセンサスの欠如,早期発見と除去など,浸食対策に関する現在の課題に対処する。 最後に,変種リッチソフトウェアシステムにおける浸食対策の取り組みについて概説する。

Software product lines (SPL) have emerged as a pivotal paradigm in software engineering, enabling the efficient development of variant-rich software systems. Consistently updating these systems, often through over-the-air updates, enables the continuous integration of new features and bug fixes, ensuring the system remains up to date throughout its entire lifecycle. However, evolving such complex systems is an error prone task, leading to a phenomenon known as erosion. This phenomenon significantly impacts the efficiency and longevity of software systems, presenting a formidable challenge for manufacturers of variant-rich software systems, such as in the automotive domain. While existing studies concentrate on the evolutionary planning of variant-rich software systems, there is a noticeable lack of research addressing the problem of erosion. In this paper, we conduct an in-depth exploration of the erosion phenomena within variant-rich software systems. We begin by highlighting the significance of controlling erosion in extensive variant-rich software systems. Subsequently, we address the current challenges regarding tackling erosion, including issues such as the lack of a consensus on understanding and defining erosion, as well as the early detection and elimination. Finally, we outline a first approach aimed at tackling erosion in variant-rich software systems.
翻訳日:2024-07-08 18:03:13 公開日:2024-07-04
# Entity-Level Sentiment:パートの要約以上のもの

Entity-Level Sentiment: More than the Sum of Its Parts ( http://arxiv.org/abs/2407.03916v1 )

ライセンス: Link先を確認
Egil Rønningstad, Roman Klinger, Erik Velldal, Lilja Øvrelid, (参考訳) より長いテキストの感情分析では、議論されたエンティティ、言及されたエンティティ、各エンティティについて表現された感情の様々なトピックが存在するかもしれない。 このような文章が関心の実体に対してどのように感情を表現するのか、どのようにこれらの感情がモデル化されるのか、といった研究が不足していることが分かっています。 個人や組織に対する感情が、より長いテキストでどのように表現されるかをよりよく理解するために、各エンティティに関する全体感情が識別される専門家アノテーションのデータセットと、これらのエンティティに対する文レベルの感情を別々に収集した。 文レベルでの感情の算術的アグリゲーションとは,エンティティに対する読者の知覚的感情がしばしば異なることを示す。 否定的なエンティティの70%と55%だけが、そのエンティティが言及されている文の(人間に注釈された)感情ラベルを集約するときに、正しい全体的な感情ラベルを受け取ります。 我々のデータセットは、長文におけるエンティティ固有の感情の複雑さを明らかにし、そのような感情表現をより正確にモデル化し、評価することができる。

In sentiment analysis of longer texts, there may be a variety of topics discussed, of entities mentioned, and of sentiments expressed regarding each entity. We find a lack of studies exploring how such texts express their sentiment towards each entity of interest, and how these sentiments can be modelled. In order to better understand how sentiment regarding persons and organizations (each entity in our scope) is expressed in longer texts, we have collected a dataset of expert annotations where the overall sentiment regarding each entity is identified, together with the sentence-level sentiment for these entities separately. We show that the reader's perceived sentiment regarding an entity often differs from an arithmetic aggregation of sentiments at the sentence level. Only 70\% of the positive and 55\% of the negative entities receive a correct overall sentiment label when we aggregate the (human-annotated) sentiment labels for the sentences where the entity is mentioned. Our dataset reveals the complexity of entity-specific sentiment in longer texts, and allows for more precise modelling and evaluation of such sentiment expressions.
翻訳日:2024-07-08 18:03:13 公開日:2024-07-04
# 量子拡散モデルの時間的補正

Timestep-Aware Correction for Quantized Diffusion Models ( http://arxiv.org/abs/2407.03917v1 )

ライセンス: Link先を確認
Yuzhe Yao, Feng Tian, Jun Chen, Haonan Lin, Guang Dai, Yong Liu, Jingdong Wang, (参考訳) 拡散モデルは意味的コヒーレントな画像の合成において重要なブレークスルーとなった。 しかし、その広範なノイズ推定ネットワークと反復生成プロセスは、特にモバイルデバイスのようなリソース制約のあるプラットフォームにおいて、より広範なアプリケーションを制限する。 既存のトレーニング後量子化(PTQ)法では,拡散モデルを低精度に圧縮することができた。 しかし、拡散モデルの反復的な性質のため、量子化誤差は生成過程を通して蓄積する傾向にある。 この誤差の蓄積は、低精度のシナリオでは特に問題となり、生成された画像にかなりの歪みをもたらす。 この累積問題は、エラーの伝搬と露出バイアスの2つの主な原因に帰着する。 これらの問題に対処するために,量子化拡散モデルに対する時間ステップ対応補正法を提案し,量子化誤差を動的に補正する。 提案手法を低精度拡散モデルに応用することにより,計算オーバーヘッドを無視できるだけで,出力品質を大幅に向上させることができる。 大規模な実験は、我々の方法の有効性と一般化可能性を強調している。 提案手法を用いることで, 精度の低いモデルに対して, 最先端のSOTA(State-of-the-art)結果が得られる。

Diffusion models have marked a significant breakthrough in the synthesis of semantically coherent images. However, their extensive noise estimation networks and the iterative generation process limit their wider application, particularly on resource-constrained platforms like mobile devices. Existing post-training quantization (PTQ) methods have managed to compress diffusion models to low precision. Nevertheless, due to the iterative nature of diffusion models, quantization errors tend to accumulate throughout the generation process. This accumulation of error becomes particularly problematic in low-precision scenarios, leading to significant distortions in the generated images. We attribute this accumulation issue to two main causes: error propagation and exposure bias. To address these problems, we propose a timestep-aware correction method for quantized diffusion model, which dynamically corrects the quantization error. By leveraging the proposed method in low-precision diffusion models, substantial enhancement of output quality could be achieved with only negligible computation overhead. Extensive experiments underscore our method's effectiveness and generalizability. By employing the proposed correction strategy, we achieve state-of-the-art (SOTA) results on low-precision models.
翻訳日:2024-07-08 18:03:13 公開日:2024-07-04
# MedRAT:補助的タスクによる不正な医療報告生成

MedRAT: Unpaired Medical Report Generation via Auxiliary Tasks ( http://arxiv.org/abs/2407.03919v1 )

ライセンス: Link先を確認
Elad Hirsch, Gefen Dawidowicz, Ayellet Tal, (参考訳) X線画像の医療報告を生成することは、特にペア化された画像レポートデータがトレーニングに利用できない不適切なシナリオにおいて、難しい課題である。 この課題に対処するために、我々は2つの異なるデータセットで利用可能な情報を活用する新しいモデルを提案する。 私たちのモデルの中核的な考え方は、自動エンコードレポート生成とマルチモーダル(レポートイメージ)アライメントを組み合わせることでソリューションを提供する、という考えに基づいています。 しかし、ペア対応が欠如している場合には、このアライメントをどのように達成するかという課題が続いている。 提案手法は,特にコントラスト学習と分類の補助的タスクを用いて,関連する画像や報告を互いに近接して配置することを含む。 このアプローチは、知識グラフに格納された外部情報を使用した事前処理ステップに依存する従来の方法とは異なる。 我々のモデルはMedRATと呼ばれ、従来の最先端の手法を超越し、ペアデータや外部ツールを必要とせずに総合的な医療報告を作成可能であることを示す。

Generating medical reports for X-ray images is a challenging task, particularly in an unpaired scenario where paired image-report data is unavailable for training. To address this challenge, we propose a novel model that leverages the available information in two distinct datasets, one comprising reports and the other consisting of images. The core idea of our model revolves around the notion that combining auto-encoding report generation with multi-modal (report-image) alignment can offer a solution. However, the challenge persists regarding how to achieve this alignment when pair correspondence is absent. Our proposed solution involves the use of auxiliary tasks, particularly contrastive learning and classification, to position related images and reports in close proximity to each other. This approach differs from previous methods that rely on pre-processing steps using external information stored in a knowledge graph. Our model, named MedRAT, surpasses previous state-of-the-art methods, demonstrating the feasibility of generating comprehensive medical reports without the need for paired data or external tools.
翻訳日:2024-07-08 18:03:13 公開日:2024-07-04
# フェデレーション学習における支援ベクトルに基づく異常検出

Support Vector Based Anomaly Detection in Federated Learning ( http://arxiv.org/abs/2407.03920v1 )

ライセンス: Link先を確認
Massimo Frasson, Dario Malchiodi, (参考訳) 異常検出は、サイバーセキュリティから産業システムまで、様々な領域において重要な役割を果たす。 しかし、従来の集中型アプローチは、データプライバシに関する課題にしばしば遭遇する。 この文脈では、フェデレートラーニングは有望なソリューションとして現れます。 本研究は, SVDDとSupport Vector Electionという2つの革新的なアルゴリズムを導入し, フェデレートされた環境での異常検出にSupport Vector Machinesを活用する。 フェデレートラーニングで一般的に使用されるニューラルネットワークと比較して、これらの新しいアルゴリズムは、小さなデータセットで効果的に動作し、計算コストを低減できるため、潜在的な代替手段として出現する。 新たなアルゴリズムは、様々な分散システム構成でテストされ、将来性のある初期結果をもたらし、さらなる調査の道を開く。

Anomaly detection plays a crucial role in various domains, from cybersecurity to industrial systems. However, traditional centralized approaches often encounter challenges related to data privacy. In this context, Federated Learning emerges as a promising solution. This work introduces two innovative algorithms--Ensemble SVDD and Support Vector Election--that leverage Support Vector Machines for anomaly detection in a federated setting. In comparison with the Neural Networks typically used in within Federated Learning, these new algorithms emerge as potential alternatives, as they can operate effectively with small datasets and incur lower computational costs. The novel algorithms are tested in various distributed system configurations, yielding promising initial results that pave the way for further investigation.
翻訳日:2024-07-08 18:03:13 公開日:2024-07-04
# 事前定義された概念を持たない概念ボトルネックモデル

Concept Bottleneck Models Without Predefined Concepts ( http://arxiv.org/abs/2407.03921v1 )

ライセンス: Link先を確認
Simon Schrodi, Julian Schur, Max Argus, Thomas Brox, (参考訳) 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の解釈可能な概念を最初に予測し、それらを出力クラスにマッピングする。 人間のアノテーションによる概念への依存を減らすため、最近の研究は、事前訓練されたブラックボックスモデルを、ポストホックの解釈可能なCBMに変換する。 しかしながら、これらのアプローチは、ブラックボックスモデルがその表現にエンコードする概念を前提として、一連の概念を事前に定義する。 本研究では,人間のアノテーションや事前定義された概念のセットを使わずに,教師なしの概念発見を利用して概念を自動的に抽出することで,この仮定を解消する。 さらに入力依存型概念選択機構を導入し、すべてのクラスで小さな概念のサブセットが使用されることを保証する。 提案手法は,ブラックボックスモデルと性能ギャップを狭めるとともに,分類における概念をはるかに少ないものにすることで,ダウンストリーム性能の向上と性能ギャップの縮小を図っている。 最後に,大規模な視覚言語モデルが最終モデルの重み付けにどう介入し,モデルの誤りを正すかを実証する。

There has been considerable recent interest in interpretable concept-based models such as Concept Bottleneck Models (CBMs), which first predict human-interpretable concepts and then map them to output classes. To reduce reliance on human-annotated concepts, recent works have converted pretrained black-box models into interpretable CBMs post-hoc. However, these approaches predefine a set of concepts, assuming which concepts a black-box model encodes in its representations. In this work, we eliminate this assumption by leveraging unsupervised concept discovery to automatically extract concepts without human annotations or a predefined set of concepts. We further introduce an input-dependent concept selection mechanism that ensures only a small subset of concepts is used across all classes. We show that our approach improves downstream performance and narrows the performance gap to black-box models, while using significantly fewer concepts in the classification. Finally, we demonstrate how large vision-language models can intervene on the final model weights to correct model errors.
翻訳日:2024-07-08 17:53:13 公開日:2024-07-04
# POLAFFINI: 効率的な特徴ベースポリアフィン初期化による非線形画像登録の改善

POLAFFINI: Efficient feature-based polyaffine initialization for improved non-linear image registration ( http://arxiv.org/abs/2407.03922v1 )

ライセンス: Link先を確認
Antoine Legouhy, Ross Callaghan, Hojjat Azadbakht, Hui Zhang, (参考訳) 本稿では,非線形画像登録を初期化するための効率的な特徴ベース手法を提案する。 現在、非線形画像登録は強度に基づく類似度尺度に依存する手法によって支配されている。 従来の反復アルゴリズムと最近の一発ディープラーニング(DL)ベースの選択肢の両方において、初期変換の優れた見積が不可欠である。 この出発点を推定するための確立されたアプローチは、アフィン登録を実行することであるが、その類似性、グローバル性、および非曲げ性のため、これは不十分である可能性がある。 そこで本研究では,最近のDLベースセグメンテーション技術の進歩を生かした改良された初期化手法を提案する。 これらのセグメンテーションは、イテレーションフリーのクローズドフォーム式を使用して、局所的で解剖学的に基礎付けられた特徴ベースのアフィンマッチングを生成するために使用される。 推定された局所アフィン変換は、対数ユークリッドのポリアフィンフレームワークと融合され、全体密な微分同相変換となる。 提案手法は,アフィンに比較して,従来型およびDLベースの非線形登録アルゴリズムのアライメントが著しく向上していることを示す。 提案手法は、FSL FLIRTのような一般的なアフィン登録アルゴリズムよりも頑健で、はるかに高速である。

This paper presents an efficient feature-based approach to initialize non-linear image registration. Today, nonlinear image registration is dominated by methods relying on intensity-based similarity measures. A good estimate of the initial transformation is essential, both for traditional iterative algorithms and for recent one-shot deep learning (DL)-based alternatives. The established approach to estimate this starting point is to perform affine registration, but this may be insufficient due to its parsimonious, global, and non-bending nature. We propose an improved initialization method that takes advantage of recent advances in DL-based segmentation techniques able to instantly estimate fine-grained regional delineations with state-of-the-art accuracies. Those segmentations are used to produce local, anatomically grounded, feature-based affine matchings using iteration-free closed-form expressions. Estimated local affine transformations are then fused, with the log-Euclidean polyaffine framework, into an overall dense diffeomorphic transformation. We show that, compared to its affine counterpart, the proposed initialization leads to significantly better alignment for both traditional and DL-based non-linear registration algorithms. The proposed approach is also more robust and significantly faster than commonly used affine registration algorithms such as FSL FLIRT.
翻訳日:2024-07-08 17:53:13 公開日:2024-07-04
# CRiM-GS:モーションブライヤー画像からの連続剛体運動認識ガウス散乱

CRiM-GS: Continuous Rigid Motion-Aware Gaussian Splatting from Motion Blur Images ( http://arxiv.org/abs/2407.03923v1 )

ライセンス: Link先を確認
Junghe Lee, Donghyeong Kim, Dogyoon Lee, Suhwan Cho, Sangyoun Lee, (参考訳) ニューラルレイディアンス場(NeRF)は、高品質なビューレンダリング能力によって注目されており、様々な現実世界のケースに対処する研究が進められている。 重要な課題の1つは、露出中のカメラの動きによるカメラの動きのぼやけであり、正確な3Dシーンの復元を妨げている。 本研究では,リアルタイムレンダリング速度でぼやけた画像から正確な3Dシーンを再構成するための連続剛性動作対応ガウススプラッティング(CRiM-GS)を提案する。 複雑な動きパターンからなる実際のカメラ動作のぼかし過程を考慮し、ニューラル常微分方程式(ODE)に基づいてカメラの連続的な動きを予測する。 具体的には、剛体変換を利用して、物体の形状と大きさを保存し、適切な正則化でカメラの動きをモデル化する。 さらに,高次自由度を確保することにより,剛体変換を実世界の問題に適応させるために,連続的な変形可能な3次元変換をtextit{SE(3)} フィールドに導入する。 基本カメラ理論を再考し、高度なニューラルネットワークトレーニング技術を用いて、連続カメラ軌道の正確なモデリングを実現する。 我々は大規模な実験を行い、ベンチマークデータセット上で定量的かつ質的に最先端のパフォーマンスを実証する。

Neural radiance fields (NeRFs) have received significant attention due to their high-quality novel view rendering ability, prompting research to address various real-world cases. One critical challenge is the camera motion blur caused by camera movement during exposure time, which prevents accurate 3D scene reconstruction. In this study, we propose continuous rigid motion-aware gaussian splatting (CRiM-GS) to reconstruct accurate 3D scene from blurry images with real-time rendering speed. Considering the actual camera motion blurring process, which consists of complex motion patterns, we predict the continuous movement of the camera based on neural ordinary differential equations (ODEs). Specifically, we leverage rigid body transformations to model the camera motion with proper regularization, preserving the shape and size of the object. Furthermore, we introduce a continuous deformable 3D transformation in the \textit{SE(3)} field to adapt the rigid body transformation to real-world problems by ensuring a higher degree of freedom. By revisiting fundamental camera theory and employing advanced neural network training techniques, we achieve accurate modeling of continuous camera trajectories. We conduct extensive experiments, demonstrating state-of-the-art performance both quantitatively and qualitatively on benchmark datasets.
翻訳日:2024-07-08 17:53:13 公開日:2024-07-04
# TwinLab: デジタル双生児のための非侵襲的低次モデルのデータ効率トレーニングのためのフレームワーク

TwinLab: a framework for data-efficient training of non-intrusive reduced-order models for digital twins ( http://arxiv.org/abs/2407.03924v1 )

ライセンス: Link先を確認
Maximilian Kannapinn, Michael Schäfer, Oliver Weeger, (参考訳) 目的:シミュレーションに基づくディジタルツインは,操作物理的プロセスに対する高精度なリアルタイム洞察を提供することを目的としている。 しかし、多くの多物理シミュレーションモデルの計算時間はリアルタイムには程遠い。 データ駆動のダウンオーダーモデルのトレーニングに十分なデータを生成するのに、適切な時間枠を超えるかもしれません。 本研究では,2つのデータセットしか持たないニューラル-ODE型リダクションオーダモデルの,効率的かつ高精度なトレーニングフレームワークであるTwinLabを提案する。 設計・方法論・アプローチ: 縮小順序モデルの試験誤差と対応する訓練データの特徴の相関について検討した。 トレーニングに最適なデータセットをひとつ見つけた後、類似性とエラー対策の助けを借りて第2のデータセットを求め、トレーニングプロセスを効果的に強化する。 発見: トレーニングプロセスに適切な第2のトレーニングデータセットを追加すると、テストエラーが最大49%削減される。 このような第2のトレーニングデータセットは、少なくともそれ自体で優れた縮小順序モデルを生成し、各励起信号に関するベーストレーニングデータセットと高いレベルの相似性を示すべきである。 さらに、基本の低次モデルは、第2のデータセットでテストエラーを増大させるべきである。 時系列の相対誤差は0.18%から0.49%である。 予測速度は最大36,000倍に達する。 原点性:提案した計算フレームワークは,シミュレーションソフトウェアに依存しない既存のシミュレーションモデルから,ディジタル双生児のための非侵襲的低次モデルの自動抽出を容易にする。

Purpose: Simulation-based digital twins represent an effort to provide high-accuracy real-time insights into operational physical processes. However, the computation time of many multi-physical simulation models is far from real-time. It might even exceed sensible time frames to produce sufficient data for training data-driven reduced-order models. This study presents TwinLab, a framework for data-efficient, yet accurate training of neural-ODE type reduced-order models with only two data sets. Design/methodology/approach: Correlations between test errors of reduced-order models and distinct features of corresponding training data are investigated. Having found the single best data sets for training, a second data set is sought with the help of similarity and error measures to enrich the training process effectively. Findings: Adding a suitable second training data set in the training process reduces the test error by up to 49% compared to the best base reduced-order model trained only with one data set. Such a second training data set should at least yield a good reduced-order model on its own and exhibit higher levels of dissimilarity to the base training data set regarding the respective excitation signal. Moreover, the base reduced-order model should have elevated test errors on the second data set. The relative error of the time series ranges from 0.18% to 0.49%. Prediction speed-ups of up to a factor of 36,000 are observed. Originality: The proposed computational framework facilitates the automated, data-efficient extraction of non-intrusive reduced-order models for digital twins from existing simulation models, independent of the simulation software.
翻訳日:2024-07-08 17:53:13 公開日:2024-07-04
# 減階ニューラル演算子:高スパースグラフ上でのラグランジアンダイナミクスの学習

Reduced-Order Neural Operators: Learning Lagrangian Dynamics on Highly Sparse Graphs ( http://arxiv.org/abs/2407.03925v1 )

ライセンス: Link先を確認
Hrishikesh Viswanath, Yue Chang, Julius Berner, Peter Yichen Chen, Aniket Bera, (参考訳) 流体流動, 粒状流, 弾塑性などのラグランジアン力学をシミュレートするニューラル演算子アーキテクチャを提案する。 有限要素法(FEM)のような従来の数値法は、長い実行時間と大きなメモリ消費に悩まされている。 一方、グラフニューラルネットワークに基づくアプローチは高速であるが、高忠実度シミュレーションにしばしば必要とされる高密度グラフ上での長い計算時間に悩まされている。 我々のモデルであるGIOROM(Graph Interaction Operator for Reduced-Order Modeling)は、低次設定で時間的ダイナミクスを学習し、入力の疎グラフ表現から空間的特徴を抽出し、推論中に任意の空間的位置へ一般化する。 このモデルは幾何学的認識と離散化とは無関係であり、訓練後に異なる初期条件、速度、幾何学に一般化することができる。 10万点の点雲は$\sim$1000のスパースグラフから推定でき、計算時間は無視できる。 我々は, 弾性固体, ニュートン流体, 非ニュートン流体, ドラッカー・プラガー粒状流, およびフォン・ミセスエラスト塑性に関する実験的検討を行った。 これらのベンチマークでは、他のニューラルネットワークベースの物理シミュレータと比較して25$\times$のスピードアップを実現し、複雑な物理システムの高忠実度予測を実現し、ほとんどのベンチマークでパフォーマンスが向上した。 コードとデモはhttps://github.com/HrishikeshVish/GIOROMで公開されている。

We present a neural operator architecture to simulate Lagrangian dynamics, such as fluid flow, granular flows, and elastoplasticity. Traditional numerical methods, such as the finite element method (FEM), suffer from long run times and large memory consumption. On the other hand, approaches based on graph neural networks are faster but still suffer from long computation times on dense graphs, which are often required for high-fidelity simulations. Our model, GIOROM or Graph Interaction Operator for Reduced-Order Modeling, learns temporal dynamics within a reduced-order setting, capturing spatial features from a highly sparse graph representation of the input and generalizing to arbitrary spatial locations during inference. The model is geometry-aware and discretization-agnostic and can generalize to different initial conditions, velocities, and geometries after training. We show that point clouds of the order of 100,000 points can be inferred from sparse graphs with $\sim$1000 points, with negligible change in computation time. We empirically evaluate our model on elastic solids, Newtonian fluids, Non-Newtonian fluids, Drucker-Prager granular flows, and von Mises elastoplasticity. On these benchmarks, our approach results in a 25$\times$ speedup compared to other neural network-based physics simulators while delivering high-fidelity predictions of complex physical systems and showing better performance on most benchmarks. The code and the demos are provided at https://github.com/HrishikeshVish/GIOROM.
翻訳日:2024-07-08 17:53:13 公開日:2024-07-04
# 最先端への道のり : トラベリングセールスパーソン問題の解決における候補リストがLKHにどのように影響するか

Dancing to the State of the Art? How Candidate Lists Influence LKH for Solving the Traveling Salesperson Problem ( http://arxiv.org/abs/2407.03927v1 )

ライセンス: Link先を確認
Jonathan Heins, Lennart Schäpermeier, Pascal Kerschke, Darrell Whitley, (参考訳) トラベリングセールスパーソン問題 (TSP) の解決は、現代の状況において多くの一般化された応用において基礎的な役割を担っているにもかかわらず、依然として永続的な課題である。 ヒューリスティックな解法は、高品質な解を見つけるための需要を効果的に解決する。 これらの解法の中で、Lin-Kernighan-Helsgaun(LKH)のヒューリスティックは、多様な問題インスタンスにおける遺伝的アルゴリズムのパフォーマンスを補完するものとして際立っている。 しかし、挑戦するインスタンスに対する頻繁なタイムアウトは、解法の適用性を妨げている。 本研究では,木構造に基づく固定された候補セットの利用について,これまで見過ごされてきた要因について検討する。 我々の研究により、ハミルトニアン回路に基づく候補集合はより最適なエッジを含むことが明らかとなった。 そこで我々は,この有望な初期化戦略であるPOPMUSICを,LKHの効率的な再起動バージョンに統合することを提案する。 実験によって確認されたように、この改良されたTSPヒューリスティックはより効率的であり、タイムアウトが少なくなり、(ペナル化平均ランタイムの観点から)パフォーマンスが桁違いに向上する。

Solving the Traveling Salesperson Problem (TSP) remains a persistent challenge, despite its fundamental role in numerous generalized applications in modern contexts. Heuristic solvers address the demand for finding high-quality solutions efficiently. Among these solvers, the Lin-Kernighan-Helsgaun (LKH) heuristic stands out, as it complements the performance of genetic algorithms across a diverse range of problem instances. However, frequent timeouts on challenging instances hinder the practical applicability of the solver. Within this work, we investigate a previously overlooked factor contributing to many timeouts: The use of a fixed candidate set based on a tree structure. Our investigations reveal that candidate sets based on Hamiltonian circuits contain more optimal edges. We thus propose to integrate this promising initialization strategy, in the form of POPMUSIC, within an efficient restart version of LKH. As confirmed by our experimental studies, this refined TSP heuristic is much more efficient - causing fewer timeouts and improving the performance (in terms of penalized average runtime) by an order of magnitude - and thereby challenges the state of the art in TSP solving.
翻訳日:2024-07-08 17:53:13 公開日:2024-07-04
# 伝送線路に埋め込まれたフラストレーションされたジョセフソン接合配列の量子力学:長距離相互作用を持つ有効XXスピン鎖

Quantum dynamics of frustrated Josephson junction arrays embedded in a transmission line: an effective XX spin chain with long-range interaction ( http://arxiv.org/abs/2407.03928v1 )

ライセンス: Link先を確認
Benedikt J. P. Pernack, Mikhail V. Fistul, Ilya M. Eremin, (参考訳) 我々は理論的には、散逸のない伝送路に埋め込まれたジョセフソン接合のフラストレーションされたソートゥース鎖に生じる様々な集合量子相について研究する。 システムの基本的な要素、すなわち三角超伝導セルは、E_J$と$\alpha E_J$ジョセフソンエネルギーによって特徴づけられる2つの$0$-と1つの$\pi$-ジョセフソン接合を含む。 フラストレーション状態において、単一セルの低エネルギー量子力学は、反時計回りまたは時計回りに流れる持続電流(渦/反渦)によって決定される。 透過線への$\pi$-Josephson接合の直接埋め込みにより、よく分離された細胞の(反)渦の間の短距離および長距離の相互作用を確立することができる。 変動的アプローチを用いることで、超伝導回路ハミルトニアンは、交換スピン-スピン相互作用が1セル内の渦と反渦の間のコヒーレントな量子ビートに対応する局所的な$\hat \sigma_{x,n}$-termsと$x$と$x^{-\beta}$とで崩壊する効果的な$XX$スピンモデルにマッピングする。 長い配列において、$N \gg \ell_0 \simeq \sqrt{C/C_0}$、$C$と$C_0$は、0$-ジョセフソン接合と伝送線路の容量であり、従って量子ビートの振幅が強く抑制される。 正確な数値対角化により、コヒーレント量子ビートと交換スピン-スピン相互作用の間の相互作用を研究し、パラ磁性(P$)、圧縮性超流動(CS$)、弱い圧縮性超流動(w$-CS$)状態などの様々な集合量子相が出現する。

We study theoretically a variety of collective quantum phases occurring in frustrated saw-tooth chains of Josephson junctions embedded in a dissipationless transmission line. The basic element of a system, i.e., the triangular superconducting cell, contains two $0$- and one $\pi$- Josephson junctions characterized by $E_J$ and $\alpha E_J$ Josephson energies, accordingly. In the frustrated regime the low energy quantum dynamics of a single cell is determined by anticlockwise or clockwise flowing persistent currents (vortex/antivortex). The direct embedding of $\pi$-Josephson junctions in a transmission line allows to establish a short/long-range interaction between (anti)vortices of well separated cells. By making use of the variational approach, we map the superconducting circuit Hamiltonian to an effective $XX$ spin model with an exchange spin-spin interaction decaying with the distance $x$ as $x^{-\beta}$, and the local $\hat \sigma_{x,n}$-terms corresponding to the coherent quantum beats between vortex and antivortex in a single cell. We obtain that in long arrays as $N \gg \ell_0 \simeq \sqrt{C/C_0}$, where $C$ and $C_0$ are capacitances of $0$-Josephson junction and transmission line, accordingly, the amplitude of quantum beats is strongly suppressed. By means of exact numerical diagonalization, we study the interplay between the coherent quantum beats and the exchange spin-spin interaction leading to the appearance of various collective quantum phases such as the paramagnetic ($P$), compressible superfluid ($CS$) and weakly compressible superfluid ($w$-$CS$) states.
翻訳日:2024-07-08 17:53:13 公開日:2024-07-04
# ランダム量子回路におけるマジック拡散

Magic spreading in random quantum circuits ( http://arxiv.org/abs/2407.03929v1 )

ライセンス: Link先を確認
Xhek Turkeshi, Emanuele Tirrito, Piotr Sierant, (参考訳) マジックステートリソースまたは非安定化器性は、普遍量子コンピューティングに必要なクリフォードの演算を定量化する。 局所性の制約の下で汎用多体ダイナミクスによって生成されるマジックリソースは、どの程度の速さで生成されるか? ブロックウォールのランダムなユニタリ回路における魔法の拡散を探索することでこの問題に対処する。 クリフォード群の代数構造に着想を得て、安定化器エントロピーの概念を一般化し、その定性的な振る舞いを反映する、非安定化器性(英語版)のスケーラブルな測度であるカルダーバンク・ソー=ステアンエントロピー(英語版)を提案する。 この計量は、最大で N = 1024 クォーディットの系に対する非安定度力学の研究を可能にする。 我々の主な発見は、マジックリソースがシステムサイズ N の対数論と等しく、反集中やヒルベルト空間の非局在化と似ているが、絡み合いエントロピーとは異なっていることである。 本研究は, カオス多体系における非安定化剤成長の現象を概説するものである。

Magic state resources or non-stabilizerness quantify the beyond-Clifford operations necessary for universal quantum computing. How rapidly are magic resources generated by generic many-body dynamics under constraints of locality? We address this problem by exploring magic spreading in brick-wall random unitary circuits. Inspired by the algebraic structure of the Clifford group, we propose a scalable measure of non-stabilizerness, the Calderbank-Shor-Steane entropy, which generalizes the notion of stabilizer entropy and mirrors its qualitative behavior. This metric enables the investigation of non-stabilizerness dynamics for systems of up to N = 1024 qudits. Our main finding is that magic resources equilibrate on timescales logarithmic in system size N, akin to anticoncentration and Hilbert space delocalization measures, but differently from entanglement entropy. We conjecture that our findings describe the phenomenology of non-stabilizerness growth in a broad class of chaotic many-body systems.
翻訳日:2024-07-08 17:53:13 公開日:2024-07-04
# LeDNet:マルチラベルラジオグラフィ画像分類のためのローカライズ対応ディープニューラルネットワーク

LeDNet: Localization-enabled Deep Neural Network for Multi-Label Radiography Image Classification ( http://arxiv.org/abs/2407.03931v1 )

ライセンス: Link先を確認
Lalit Pant, Shubham Arora, (参考訳) マルチラベルラジオグラフィー画像分類は、長い間ニューラルネットワーク研究における関心のトピックであった。 本稿では,新しいローカライゼーション手法を用いた畳み込みニューラルネットワークを用いて,そのような画像を分類する。 胸部X線画像を用いて胸部疾患を検出する。 正確な診断のためには、高品質な画像でネットワークを訓練することが不可欠である。 しかし、多くの胸部X線画像は、欠陥スキャン、肺領域の隣でスキャンされた電子機器、不注意に身体の空気を捕捉するスキャンなど、無関係な外部オブジェクトを持っている。 そこで本稿では, 胸部疾患を高精度に予測するために, 局所化アルゴリズムと深層学習アルゴリズムを組み合わせたLeDNetを提案する。 胸部X線像から肺領域マスクを局在化して抽出する。 これらのマスクは元のX線画像に重畳され、マスクオーバーレイ画像を生成する。 次に、DenseNet-121分類モデルを用いて、胸部X線画像と局所化マスクオーバーレイ画像の特徴を検索する。 これらの特徴は疾患の分類を予測するために使用される。 実験では,元のCheXpert画像とマスクオーバーレイ画像との分類結果の比較を行った。 この比較は、精度と損失曲線解析によって示される。

Multi-label radiography image classification has long been a topic of interest in neural networks research. In this paper, we intend to classify such images using convolution neural networks with novel localization techniques. We will use the chest x-ray images to detect thoracic diseases for this purpose. For accurate diagnosis, it is crucial to train the network with good quality images. But many chest X-ray images have irrelevant external objects like distractions created by faulty scans, electronic devices scanned next to lung region, scans inadvertently capturing bodily air etc. To address these, we propose a combination of localization and deep learning algorithms called LeDNet to predict thoracic diseases with higher accuracy. We identify and extract the lung region masks from chest x-ray images through localization. These masks are superimposed on the original X-ray images to create the mask overlay images. DenseNet-121 classification models are then used for feature selection to retrieve features of the entire chest X-ray images and the localized mask overlay images. These features are then used to predict disease classification. Our experiments involve comparing classification results obtained with original CheXpert images and mask overlay images. The comparison is demonstrated through accuracy and loss curve analyses.
翻訳日:2024-07-08 17:53:13 公開日:2024-07-04
# TongGu: 知識を中心とした大規模言語モデルによる中国語の古典的理解を習得する

TongGu: Mastering Classical Chinese Understanding with Knowledge-Grounded Large Language Models ( http://arxiv.org/abs/2407.03937v1 )

ライセンス: Link先を確認
Jiahuan Cao, Dezhi Peng, Peirong Zhang, Yongxin Shi, Yang Liu, Kai Ding, Lianwen Jin, (参考訳) 古典中国語は古代中国の豊かな遺産と知恵の入り口であるが、その複雑さは専門知識のない現代のほとんどの人々にとって重大な理解障壁となっている。 大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示してきたが、古典中国語理解(CCU)、特にデータ要求や知識集約的なタスクでは苦戦している。 このジレンマに対応するために,3つのコアコントリビューションを基盤とした最初のCCU固有のLLMである「textbf{TongGu}」を提案する。 まず、LLMの完全なCCUポテンシャルを解き放つことを目的とした、2段階の命令チューニングデータセットACCN-INSを構築する。 第2に,破滅的な忘れを防止し,基礎知識を保ちながらTongGuが新たな能力を得ることを可能にするために,冗長性を考慮したチューニング(RAT)を提案する。 第3に,知識接地に基づく幻覚を低減するために,CCU検索拡張生成(CCU-RAG)技術を提案する。 24種類のCCUタスクにわたる大規模な実験は、TongGuの優れた能力を評価し、RATとCCU-RAGの有効性を裏付けている。 モデルとデータセットは公開されます。

Classical Chinese is a gateway to the rich heritage and wisdom of ancient China, yet its complexities pose formidable comprehension barriers for most modern people without specialized knowledge. While Large Language Models (LLMs) have shown remarkable capabilities in Natural Language Processing (NLP), they struggle with Classical Chinese Understanding (CCU), especially in data-demanding and knowledge-intensive tasks. In response to this dilemma, we propose \textbf{TongGu} (mean understanding ancient and modern), the first CCU-specific LLM, underpinned by three core contributions. First, we construct a two-stage instruction-tuning dataset ACCN-INS derived from rich classical Chinese corpora, aiming to unlock the full CCU potential of LLMs. Second, we propose Redundancy-Aware Tuning (RAT) to prevent catastrophic forgetting, enabling TongGu to acquire new capabilities while preserving its foundational knowledge. Third, we present a CCU Retrieval-Augmented Generation (CCU-RAG) technique to reduce hallucinations based on knowledge-grounding. Extensive experiments across 24 diverse CCU tasks validate TongGu's superior ability, underscoring the effectiveness of RAT and CCU-RAG. The model and dataset will be public available.
翻訳日:2024-07-08 17:53:13 公開日:2024-07-04
# SfM on-the-fly:より優れた3D撮影が可能に

SfM on-the-fly: Get better 3D from What You Capture ( http://arxiv.org/abs/2407.03939v1 )

ライセンス: Link先を確認
Zhan Zongqian, Yu Yifei, Xia Rui, Gan Wentian, Xie Hong, Perda Giulio, Morelli Luca, Remondino Fabio, Wang Xin, (参考訳) 過去20年間、Structure from Motion (SfM) はフォトグラメトリー、コンピュータビジョン、ロボティクスなどの分野において、常にホットスポットとして研究されてきた。 この作品は、オリジナルのオンザフライSfM(Zhan et al , 2024)の上に構築され、新しい3つの改良を加えて、撮影物からより良い3Dを得られるようにした。 (i)階層型ナビゲート型小型世界(HNSW)グラフを用いることにより、リアルタイム画像マッチングをさらに強化し、より真の正重畳み画像候補をより高速に同定する。 (II)SfM結果を改善するために,頑健な階層的局所バンドル調整のための自己適応重み付け戦略を提案する。 三 共同SfMを支援するための複数のエージェントを含み、一般的に登録された画像が現れたときに、複数の3D再構成をシームレスに完全3Dシーンにマージする。 提案したSfM法(On-the-fly SfMv2)は,より完全でロバストな3次元再構成を高時間効率で実現できることを示す。 コードはhttp://yifeiyu225.github.io/on-theflySfMv2.github.io/で公開されている。

In the last twenty years, Structure from Motion (SfM) has been a constant research hotspot in the fields of photogrammetry, computer vision, robotics etc., whereas real-time performance is just a recent topic of growing interest. This work builds upon the original on-the-fly SfM (Zhan et al., 2024) and presents an updated version with three new advancements to get better 3D from what you capture: (i) real-time image matching is further boosted by employing the Hierarchical Navigable Small World (HNSW) graphs, thus more true positive overlapping image candidates are faster identified; (ii) a self-adaptive weighting strategy is proposed for robust hierarchical local bundle adjustment to improve the SfM results; (iii) multiple agents are included for supporting collaborative SfM and seamlessly merge multiple 3D reconstructions into a complete 3D scene when commonly registered images appear. Various comprehensive experiments demonstrate that the proposed SfM method (named on-the-fly SfMv2) can generate more complete and robust 3D reconstructions in a high time-efficient way. Code is available at http://yifeiyu225.github.io/on-the-flySfMv2.github.io/.
翻訳日:2024-07-08 17:53:13 公開日:2024-07-04
# Narrow Transformer: Starcoderベースのデスクトップ用Java-LM

Narrow Transformer: Starcoder-Based Java-LM For Desktop ( http://arxiv.org/abs/2407.03941v1 )

ライセンス: Link先を確認
Kamalkumar Rathinasamy, Balaji A J, Ankush Kumar, Gagan Gayari, Harshini K, Rajab Ali Mondal, Sreenivasa Raghavan K S, Swayam Singh, (参考訳) 本稿では,StarCoderBase-1.1B上に構築されたオープンソースの特殊言語モデルNT-Java-1.1Bについて述べる。 NT-Java-1.1Bは、MultiPL-EのJavaコードベンチマークで、ベースモデルと同様のサイズのモデルの大半を上回り、最先端のパフォーマンスを達成する。 Pythonのような特定のプログラミング言語の習熟性を改善するために、大規模で汎用的な事前訓練モデルを拡張する研究があるが、他のプログラミング言語の小さなコードモデルに関する同様の調査は不十分である。 大規模なコードモデルは推論のためにGPUのような特別なハードウェアを必要としており、開発者デスクトップにデプロイ可能な小さなコードモデルを構築する研究の必要性を強調している。 本稿では, NT-Java-1.1B という小型 Java コードモデルとその量子化バージョンの開発に焦点をあて, マルチPL-E の Java コードベンチマーク上で 1.1B 前後のオープンモデルに対してコンパティブルに動作させることで, デスクトップのデプロイに最適であることを示す。 本稿では,NTモデルファミリーの言語やサイズにまたがる特化モデルの基盤を確立する。

This paper presents NT-Java-1.1B, an open-source specialized code language model built on StarCoderBase-1.1B, designed for coding tasks in Java programming. NT-Java-1.1B achieves state-of-the-art performance, surpassing its base model and majority of other models of similar size on MultiPL-E Java code benchmark. While there have been studies on extending large, generic pre-trained models to improve proficiency in specific programming languages like Python, similar investigations on small code models for other programming languages are lacking. Large code models require specialized hardware like GPUs for inference, highlighting the need for research into building small code models that can be deployed on developer desktops. This paper addresses this research gap by focusing on the development of a small Java code model, NT-Java-1.1B, and its quantized versions, which performs comparably to open models around 1.1B on MultiPL-E Java code benchmarks, making them ideal for desktop deployment. This paper establishes the foundation for specialized models across languages and sizes for a family of NT Models.
翻訳日:2024-07-08 17:53:13 公開日:2024-07-04
# ディヴァースとファイングラインドインストラクション-合成データを用いた追従能力探索

Diverse and Fine-Grained Instruction-Following Ability Exploration with Synthetic Data ( http://arxiv.org/abs/2407.03942v1 )

ライセンス: Link先を確認
Zihui Gu, Xingwu Sun, Fengzong Lian, Zhanhui Kang, Cheng-Zhong Xu, Ju Fan, (参考訳) インストラクションフォローは、大きな言語モデル(LLM)が多様なユーザリクエストをサポートするために特に重要である。 既存の研究はLLMを人間の好みと整合させる作業を進めてきたが、実際のユーザ命令の複雑さと多様性のために、次の命令でそれらの能力を評価することは依然として課題である。 既存の評価手法は一般的なスキルに重点を置いているが、それらは2つの大きな欠点、すなわち、きめ細かいタスクレベルの評価の欠如と特異な命令表現への依存に悩まされている。 これらの問題を解決するために,本論文では,(1)実世界のユーザ要求から130ノードを抽出した手作業による注釈付き,きめ細かな,多段階のカテゴリツリーに基づく,指示追従型評価データセットであるINGOを紹介し,(2)GPT-4と人的専門家の双方によって生成された多様な命令を含む。 広範囲な実験を通じて, INGO は LLM に対してより困難かつ包括的な評価を行うだけでなく, タスクレベルのきめ細かな方向も提供し, LLM をさらに改善できることが実証された。

Instruction-following is particularly crucial for large language models (LLMs) to support diverse user requests. While existing work has made progress in aligning LLMs with human preferences, evaluating their capabilities on instruction following remains a challenge due to complexity and diversity of real-world user instructions. While existing evaluation methods focus on general skills, they suffer from two main shortcomings, i.e., lack of fine-grained task-level evaluation and reliance on singular instruction expression. To address these problems, this paper introduces DINGO, a fine-grained and diverse instruction-following evaluation dataset that has two main advantages: (1) DINGO is based on a manual annotated, fine-grained and multi-level category tree with 130 nodes derived from real-world user requests; (2) DINGO includes diverse instructions, generated by both GPT-4 and human experts. Through extensive experiments, we demonstrate that DINGO can not only provide more challenging and comprehensive evaluation for LLMs, but also provide task-level fine-grained directions to further improve LLMs.
翻訳日:2024-07-08 17:53:13 公開日:2024-07-04
# 定常量子コヒーレンスにおける非マルコフ環境誘起異常

Non-Markovian environment induced anomaly in steady state quantum coherence ( http://arxiv.org/abs/2407.03943v1 )

ライセンス: Link先を確認
Arapat Ablimit, Zhao-Ming Wang, Feng-Hua Ren, Paul Brumer, Lian-Ao Wu, (参考訳) 環境誘起定常量子コヒーレンス(SSQC)は、従来のデコヒーレンスの理解に挑戦する捕食現象である。 本稿では,環境が引き起こすSSQCの基礎的な側面を掘り下げ,システムとバスの相互作用の枠組みにおけるその出現について光を当てる。 顕微鏡システムバス結合モデルから, SSQCの環境記憶効果, 浴槽温度, システムバス結合強度, スクイーズパラメータへの依存性について検討した。 以上の結果から, 環境はジェネレータとしてだけでなく, SSQCのディスラプターとしても機能することが明らかとなった。 非マルコフ浴のピークは、これらの2つのメカニズムの競合の結果である。 興味深いことに、マルコフのケースではピークが消える。 さらに, 生成したSSQCは, 環境スキューズによりさらに増幅可能であることも確認した。

Environment induced steady state quantum coherence (SSQC) is a captivating phenomenon that challenges conventional understandings of decoherence. In this letter, we delve into the foundational aspects of environment-induced SSQC, shedding light on its emergence within the framework of system-bath interactions. Starting from a microscopic system-bath coupled model, we investigate the dependence of SSQC on environmental memory effects, bath temperature, system-bath coupling strength, and squeezing parameters. Our findings reveal that the environment not only acts as a generator but also as a disruptor of SSQC. A peak will exist for a non-Markovian bath, which is a result of competition between these two mechanisms. Interestingly, the peak disappears in Markovian case. Additionally, we observe that the generated SSQC can be further amplified through environment squeezing.
翻訳日:2024-07-08 17:53:13 公開日:2024-07-04
# 非線形力学の暗黙的手法に適応した高速ニューラルネットワークハイブリッドニュートンソルバ

A fast neural hybrid Newton solver adapted to implicit methods for nonlinear dynamics ( http://arxiv.org/abs/2407.03945v1 )

ライセンス: Link先を確認
Tianyu Jin, Georg Maierhofer, Katharina Schratz, Yang Xiang, (参考訳) 厳密な非線形時間進化方程式に対する解の数値近似に暗黙の時間ステッピングスキームを用いることは、一般に、より優れた安定性の挙動とより大きな時間ステップの対応するサポート、構造保存特性など、よく知られた利点をもたらす。 しかし、これは数値スキームの時間ステップごとに非線形方程式を解く必要があることによる。 本研究では,厳密な時間進化非線形方程式に対する非線形時間ステップシステムの解を高速化するために,ニュートン法に基づく新しい演算子学習法を提案する。 本稿では,非教師なし学習をオフラインフェーズで支援し,ニュートンの手法を一貫した加速に導くために,ニュートン反復を高速に初期化する学習戦略を提案する。 初期化の改善によって達成されたニュートン法の改良の定量化率と、教師なし学習戦略の一般化誤差の上限を解析する。 これらの理論的結果は,1次元と2次元の両方で提案したニューラルハイブリド・ソルバの効率を実証する広範な数値的な結果によって支持される。

The use of implicit time-stepping schemes for the numerical approximation of solutions to stiff nonlinear time-evolution equations brings well-known advantages including, typically, better stability behaviour and corresponding support of larger time steps, and better structure preservation properties. However, this comes at the price of having to solve a nonlinear equation at every time step of the numerical scheme. In this work, we propose a novel operator learning based hybrid Newton's method to accelerate this solution of the nonlinear time step system for stiff time-evolution nonlinear equations. We propose a targeted learning strategy which facilitates robust unsupervised learning in an offline phase and provides a highly efficient initialisation for the Newton iteration leading to consistent acceleration of Newton's method. A quantifiable rate of improvement in Newton's method achieved by improved initialisation is provided and we analyse the upper bound of the generalisation error of our unsupervised learning strategy. These theoretical results are supported by extensive numerical results, demonstrating the efficiency of our proposed neural hybrid solver both in one- and two-dimensional cases.
翻訳日:2024-07-08 17:53:13 公開日:2024-07-04
# TrackPGD:ロバスト変圧器トラッカーに対するバイナリマスクを用いたホワイトボックス攻撃

TrackPGD: A White-box Attack using Binary Masks against Robust Transformer Trackers ( http://arxiv.org/abs/2407.03946v1 )

ライセンス: Link先を確認
Fatemeh Nourilenjan Nokabadi, Yann Batiste Pequignot, Jean-Francois Lalonde, Christian Gagné, (参考訳) トランスフォーマーバックボーンを持つオブジェクトトラッカーは、ビジュアルオブジェクト追跡データセットで堅牢なパフォーマンスを達成した。 しかし、これらのトラッカーの対角的堅牢性は文献ではあまり研究されていない。 バックボーンの違いにより、対象追跡のために提案された敵のホワイトボックス攻撃は、あらゆる種類のトラッカーに転送できない。 例えば、MixFormerMのようなトランスフォーマートラッカーは、ブラックボックス攻撃、特にオブジェクトのバイナリマスクの予測において、依然としてうまく機能している。 我々は,ロバストなトランスフォーマートラッカーを攻撃するために,予測対象のバイナリマスクに依存するTrackPGDという新しいホワイトボックス攻撃を提案している。 この新たな攻撃は、よく知られたSegPGDセグメンテーションアタックを適用することで、アノテーションマスクに焦点を当て、トランスフォーマーバックボーンに依存するトラッカーに対するホワイトボックスアタックを成功させる。 実験結果から,TrackPGDは,MixFormerM,OSTrackSTS,TransT-SEGなどのトランスフォーマーベースのトラッカーを,複数のトラッキングデータセット上で効果的に攻撃可能であることが示唆された。

Object trackers with transformer backbones have achieved robust performance on visual object tracking datasets. However, the adversarial robustness of these trackers has not been well studied in the literature. Due to the backbone differences, the adversarial white-box attacks proposed for object tracking are not transferable to all types of trackers. For instance, transformer trackers such as MixFormerM still function well after black-box attacks, especially in predicting the object binary masks. We are proposing a novel white-box attack named TrackPGD, which relies on the predicted object binary mask to attack the robust transformer trackers. That new attack focuses on annotation masks by adapting the well-known SegPGD segmentation attack, allowing to successfully conduct the white-box attack on trackers relying on transformer backbones. The experimental results indicate that the TrackPGD is able to effectively attack transformer-based trackers such as MixFormerM, OSTrackSTS, and TransT-SEG on several tracking datasets.
翻訳日:2024-07-08 17:43:28 公開日:2024-07-04
# コーディングに先立って前兆を確立する - 従来型と次世代の署名

Establishing Provenance Before Coding: Traditional and Next-Gen Signing ( http://arxiv.org/abs/2407.03949v1 )

ライセンス: Link先を確認
Taylor R. Schorlemmer, Ethan H. Burmane, Kelechi G. Kalu, Santiago Torres-Arias, James C. Davis, (参考訳) ソフトウェアエンジニアはアプリケーションにサードパーティのコンポーネントを統合する。 結果として生じるソフトウェアサプライチェーンは脆弱である。 攻撃面を減らすために、コンポーネント(性能)の起点を付加する前に検証できる。 暗号署名がこれを可能にする。 この記事では、従来の署名、その課題、および次世代署名プラットフォームによって導入された変更について説明する。

Software engineers integrate third-party components into their applications. The resulting software supply chain is vulnerable. To reduce the attack surface, we can verify the origin of components (provenance) before adding them. Cryptographic signatures enable this. This article describes traditional signing, its challenges, and changes introduced by next generation signing platforms
翻訳日:2024-07-08 17:43:28 公開日:2024-07-04
# 大規模言語モデル探索木における不確かさ誘導最適化

Uncertainty-Guided Optimization on Large Language Model Search Trees ( http://arxiv.org/abs/2407.03951v1 )

ライセンス: Link先を確認
Julia Grosse, Ruotian Wu, Ahmad Rashid, Philipp Hennig, Pascal Poupart, Agustinus Kristiadi, (参考訳) ビームサーチ(ビームサーチ)は、例えば大規模言語モデルの復号過程において、最大可能性の列を見つけるための標準的な木探索アルゴリズムである。 ただし、根元から葉までの全経路を考慮に入れないため、名勝である。 さらに、プロセスに関する事前の知識は無知である:例えば、最大化される目的は可能性であり、したがって単位区間に縛られるような特定の性質を持つとは考えていない。 確率論的アプローチを用いて、LLMの遷移確率に関する事前の信念を定義し、各反復において最も有望な経路についての後続の信念を得る。 これらの信念は、標準的なビーム探索よりも、よりデータ効率の高い探索スキームを可能にする、非神秘的ベイズ最適化のような取得関数を定義するのに役立つ。 Llama-2-7bを含む最近の大規模言語モデルを用いた事前およびオフモデル実験において,本手法はビームサーチよりも高い効率を達成できることを示す。

Beam search is a standard tree search algorithm when it comes to finding sequences of maximum likelihood, for example, in the decoding processes of large language models. However, it is myopic since it does not take the whole path from the root to a leaf into account. Moreover, it is agnostic to prior knowledge available about the process: For example, it does not consider that the objective being maximized is a likelihood and thereby has specific properties, like being bound in the unit interval. Taking a probabilistic approach, we define a prior belief over the LLMs' transition probabilities and obtain a posterior belief over the most promising paths in each iteration. These beliefs are helpful to define a non-myopic Bayesian-optimization-like acquisition function that allows for a more data-efficient exploration scheme than standard beam search. We discuss how to select the prior and demonstrate in on- and off-model experiments with recent large language models, including Llama-2-7b, that our method achieves higher efficiency than beam search: Our method achieves the same or a higher likelihood while expanding fewer nodes than beam search.
翻訳日:2024-07-08 17:43:28 公開日:2024-07-04
# 比喩的使用の背景にある意図の注釈とモデル化のための枠組み

A framework for annotating and modelling intentions behind metaphor use ( http://arxiv.org/abs/2407.03952v1 )

ライセンス: Link先を確認
Gianluca Michelli, Xiaoyu Tong, Ekaterina Shutova, (参考訳) メタファーは日常言語の一部であり、世界を概念化する方法を形成する。 さらに、彼らはコミュニケーションにおいて多面的な役割を担い、言語モデル(LM)の理解と生成を困難にしている。 個別の意図の充足と比喩を結びつけた文献には広範な研究があるが、自然言語処理(NLP)に適合する、そのような意図の包括的分類は、現在まで存在しない。 本稿では,9つのカテゴリーから構成されるメタファーによる意図の新たな分類法を提案する。 また、メタファの使用の背後にある意図に注釈を付けた最初のデータセットもリリースしました。 最後に、このデータセットを使用して、メタファー使用の背景にある意図を、ゼロテキストおよびインコンテキストのいくつかのショット設定で推測する際の、大きな言語モデル(LLM)の機能をテストする。 我々の実験は、まだLLMにとって挑戦であることを示している。

Metaphors are part of everyday language and shape the way in which we conceptualize the world. Moreover, they play a multifaceted role in communication, making their understanding and generation a challenging task for language models (LMs). While there has been extensive work in the literature linking metaphor to the fulfilment of individual intentions, no comprehensive taxonomy of such intentions, suitable for natural language processing (NLP) applications, is available to present day. In this paper, we propose a novel taxonomy of intentions commonly attributed to metaphor, which comprises 9 categories. We also release the first dataset annotated for intentions behind metaphor use. Finally, we use this dataset to test the capability of large language models (LLMs) in inferring the intentions behind metaphor use, in zero- and in-context few-shot settings. Our experiments show that this is still a challenge for LLMs.
翻訳日:2024-07-08 17:43:28 公開日:2024-07-04
# 産業規模データの事前学習による各種グラフ・タスク間のグラフ変換器の一般化

Generalizing Graph Transformers Across Diverse Graphs and Tasks via Pre-Training on Industrial-Scale Data ( http://arxiv.org/abs/2407.03953v1 )

ライセンス: Link先を確認
Yufei He, Zhenyu Hou, Yukuo Cen, Feng He, Xu Cheng, Bryan Hooi, (参考訳) グラフ事前学習は、小さなグラフ(例えば分子グラフ)のグラフレベルに集中したり、固定グラフ上のノード表現を学習したりしてきた。 グラフ事前トレーニングされたモデルを、産業シナリオにおいて数十億のノードを持つWebスケールのグラフに拡張する一方で、グラフやタスク間の負の転送を回避することは、依然として課題である。 我々は,未知の新しいノードや新しいグラフを予測できるインダクティブ能力を持つ汎用グラフ事前学習モデルを開発することを目指している。 本稿では、PGT(Pre-trained Graph Transformer)と呼ばれるスケーラブルなトランスフォーマーベースのグラフ事前学習フレームワークを提案する。 具体的には、バックボーンネットワークとしてフレキシブルでスケーラブルなグラフ変換器を設計する。 一方、マスク付きオートエンコーダアーキテクチャに基づいて、ノード特徴の再構成と局所構造の再構築の2つの事前学習タスクを設計する。 事前学習したデコーダを破棄するオリジナルのオートエンコーダアーキテクチャとは異なり,デコーダを機能拡張に利用する新しい戦略を提案する。 私たちはTencentのオンラインゲームデータにフレームワークをデプロイしました。 大規模な実験により、我々のフレームワークは5億4000万以上のノードと1200億のエッジを持つ実世界のWebスケールグラフで事前トレーニングを実行でき、下流タスクの異なる新しいグラフを効果的に一般化できることが示された。 我々はさらに、1100万のノードと160億のエッジからなる、公開可能なogbn-papers100Mデータセットの実験を行っている。 当社のフレームワークは,産業用データセットと公共用データセットの両方で最先端のパフォーマンスを実現すると同時に,スケーラビリティと効率性も享受する。

Graph pre-training has been concentrated on graph-level on small graphs (e.g., molecular graphs) or learning node representations on a fixed graph. Extending graph pre-trained models to web-scale graphs with billions of nodes in industrial scenarios, while avoiding negative transfer across graphs or tasks, remains a challenge. We aim to develop a general graph pre-trained model with inductive ability that can make predictions for unseen new nodes and even new graphs. In this work, we introduce a scalable transformer-based graph pre-training framework called PGT (Pre-trained Graph Transformer). Specifically, we design a flexible and scalable graph transformer as the backbone network. Meanwhile, based on the masked autoencoder architecture, we design two pre-training tasks: one for reconstructing node features and the other one for reconstructing local structures. Unlike the original autoencoder architecture where the pre-trained decoder is discarded, we propose a novel strategy that utilizes the decoder for feature augmentation. We have deployed our framework on Tencent's online game data. Extensive experiments have demonstrated that our framework can perform pre-training on real-world web-scale graphs with over 540 million nodes and 12 billion edges and generalizes effectively to unseen new graphs with different downstream tasks. We further conduct experiments on the publicly available ogbn-papers100M dataset, which consists of 111 million nodes and 1.6 billion edges. Our framework achieves state-of-the-art performance on both industrial datasets and public datasets, while also enjoying scalability and efficiency.
翻訳日:2024-07-08 17:43:28 公開日:2024-07-04
# メタプロンプト最適化検索拡張生成

Meta-prompting Optimized Retrieval-augmented Generation ( http://arxiv.org/abs/2407.03955v1 )

ライセンス: Link先を確認
João Rodrigues, António Branco, (参考訳) 下流タスクにおける大規模言語モデルの性能を活かすため、検索拡張世代は外部ソースから取得したコンテンツに頼っている。 抽出されたコンテンツの過剰な量、その部分の分散、または焦点外範囲は、いずれは漸進的な効果ではなく有害な結果をもたらす可能性がある。 この問題を緩和し,検索拡張生成を改善するために,メタプロンプト最適化に頼って,プロンプトに含める前に検索内容を洗練する方法を提案する。 提案手法は,StrategyQAデータセットから要求されるマルチホップ質問応答タスクを用いて実証実験を行い,この手法が類似の検索拡張システムよりも30%以上優れていることを示す。

Retrieval-augmented generation resorts to content retrieved from external sources in order to leverage the performance of large language models in downstream tasks. The excessive volume of retrieved content, the possible dispersion of its parts, or their out of focus range may happen nevertheless to eventually have a detrimental rather than an incremental effect. To mitigate this issue and improve retrieval-augmented generation, we propose a method to refine the retrieved content before it is included in the prompt by resorting to meta-prompting optimization. Put to empirical test with the demanding multi-hop question answering task from the StrategyQA dataset, the evaluation results indicate that this method outperforms a similar retrieval-augmented system but without this method by over 30%.
翻訳日:2024-07-08 17:43:28 公開日:2024-07-04
# 拘束誘導型マルチエージェントシステムによるゼブラノズルの解法

Solving Zebra Puzzles Using Constraint-Guided Multi-Agent Systems ( http://arxiv.org/abs/2407.03956v1 )

ライセンス: Link先を確認
Shmuel Berman, Baishakhi Ray, Kathleen McKeown, (参考訳) それまでの研究では、チェーン・オブ・シンクレットのプロンプトや記号表現の導入といった手法を用いて、論理パズルを解くためのLarge Language Models (LLM) の機能を強化してきた。 これらのフレームワークは、自然言語の手がかりを論理文に翻訳する固有の複雑さのため、ゼブラパズルのような複雑な論理問題を解くには依然として不十分である。 本稿では, LLM をオフ・ザ・シェルフ定理証明器と統合したマルチエージェントシステム ZPS を提案する。 このシステムは、問題をより小さく管理可能な部分に分割し、SMT(Satisfiability Modulo Theories)コードを生成して定理証明器で解決し、エージェント間のフィードバックを用いて繰り返し回答を改善することで、複雑なパズル解決タスクに取り組む。 また,問題解の正当性を評価するための自動グリッドパズルグレーダを導入し,ユーザスタディで評価することで,自動グレーダが信頼性が高いことを示す。 GPT-4では,完全正解数に対して166%の改善が見られた。

Prior research has enhanced the ability of Large Language Models (LLMs) to solve logic puzzles using techniques such as chain-of-thought prompting or introducing a symbolic representation. These frameworks are still usually insufficient to solve complicated logical problems, such as Zebra puzzles, due to the inherent complexity of translating natural language clues into logical statements. We introduce a multi-agent system, ZPS, that integrates LLMs with an off the shelf theorem prover. This system tackles the complex puzzle-solving task by breaking down the problem into smaller, manageable parts, generating SMT (Satisfiability Modulo Theories) code to solve them with a theorem prover, and using feedback between the agents to repeatedly improve their answers. We also introduce an automated grid puzzle grader to assess the correctness of our puzzle solutions and show that the automated grader is reliable by evaluating it in a user-study. Our approach shows improvement in all three LLMs we tested, with GPT-4 showing 166% improvement in the number of fully correct solutions.
翻訳日:2024-07-08 17:43:28 公開日:2024-07-04
# Stark:ペルソナ・コモンセンス知識を用いた長期多言語会話

Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge ( http://arxiv.org/abs/2407.03958v1 )

ライセンス: Link先を確認
Young-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Byungsoo Ko, Jonghwan Hyeon, Ho-Jin Choi, (参考訳) 人間はインスタントメッセージングツールを通じて会話の中での個人的な経験に関連するさまざまな画像を共有する。 しかし,既存の研究は,(1)特定のセッションにおける画像共有行動に着目し,(2)個人化された画像共有行動が欠如していることに焦点が当てられている。 本稿では,マルチモーダル形式,時間間隔,画像など,幅広いソーシャルペルソナをカバーする大規模長期マルチモーダル会話データセットであるStarkを紹介する。 Starkを自動構築するために,ChatGPTと提案したPlan-and-Execute画像整合器から抽出した長期マルチモーダル対話を生成する,新しいマルチモーダル文脈化フレームワークMcuを提案する。 Starkを使ってマルチモーダルな会話モデルUltron 7Bをトレーニングします。 さらに,人間の評価におけるデータセットの有効性を示す。 ソースコードとデータセットを公開しています。

Humans share a wide variety of images related to their personal experiences within conversations via instant messaging tools. However, existing works focus on (1) image-sharing behavior in singular sessions, leading to limited long-term social interaction, and (2) a lack of personalized image-sharing behavior. In this work, we introduce Stark, a large-scale long-term multi-modal conversation dataset that covers a wide range of social personas in a multi-modality format, time intervals, and images. To construct Stark automatically, we propose a novel multi-modal contextualization framework, Mcu, that generates long-term multi-modal dialogue distilled from ChatGPT and our proposed Plan-and-Execute image aligner. Using our Stark, we train a multi-modal conversation model, Ultron 7B, which demonstrates impressive visual imagination ability. Furthermore, we demonstrate the effectiveness of our dataset in human evaluation. We make our source code and dataset publicly available.
翻訳日:2024-07-08 17:43:28 公開日:2024-07-04
# 表面欠陥検出のための学習自由分布データ増大のための潜時拡散モデル

Leveraging Latent Diffusion Models for Training-Free In-Distribution Data Augmentation for Surface Defect Detection ( http://arxiv.org/abs/2407.03961v1 )

ライセンス: Link先を確認
Federico Girella, Ziyue Liu, Franco Fummi, Francesco Setti, Marco Cristani, Luigi Capogrosso, (参考訳) 欠陥検出は、生産サンプルの欠陥を特定するタスクである。 通常、欠陥検出分類器は、通常のサンプル(負のデータ)と欠陥のあるサンプル(正データ)によって形成される地中構造データに基づいて訓練される。 State-of-the-the-art data augmentation procedure add synthetic defect data by superimposing artifacts to normal sample to mitigate problems related to un Balanced training data。 これらの技術は、しばしば分布外画像を生成するため、通常のサンプルではないものを学習するが、欠陥がどのようなものか正確に識別することができないシステムとなる。 本研究では、データ拡張のためのトレーニング不要な拡散型In-distribution Anomaly GenerationパイプラインであるDIAGを紹介する。 従来の画像生成技術とは異なり、我々は、ドメインの専門家がテキスト記述と可能な異常の領域ローカライゼーションを通じてモデルへのマルチモーダルガイダンスを提供する、ヒューマン・イン・ザ・ループ・パイプラインを実装している。 この戦略的シフトは結果の解釈可能性を高め、より堅牢なフィードバックループを促進し、生成された出力の反復的改善を促進する。 注目すべきことに,本手法はゼロショット方式で動作し,優れた性能を達成しつつ,時間を要する微調整手順を回避する。 KSDD2データセットに対する最先端データ拡張アプローチに対するDIAGの有効性と汎用性を実証し、正のサンプルが利用可能であればAPが約18%、欠落時には28%改善した。 ソースコードはhttps://github.com/intelligolabs/DIAGで入手できる。

Defect detection is the task of identifying defects in production samples. Usually, defect detection classifiers are trained on ground-truth data formed by normal samples (negative data) and samples with defects (positive data), where the latter are consistently fewer than normal samples. State-of-the-art data augmentation procedures add synthetic defect data by superimposing artifacts to normal samples to mitigate problems related to unbalanced training data. These techniques often produce out-of-distribution images, resulting in systems that learn what is not a normal sample but cannot accurately identify what a defect looks like. In this work, we introduce DIAG, a training-free Diffusion-based In-distribution Anomaly Generation pipeline for data augmentation. Unlike conventional image generation techniques, we implement a human-in-the-loop pipeline, where domain experts provide multimodal guidance to the model through text descriptions and region localization of the possible anomalies. This strategic shift enhances the interpretability of results and fosters a more robust human feedback loop, facilitating iterative improvements of the generated outputs. Remarkably, our approach operates in a zero-shot manner, avoiding time-consuming fine-tuning procedures while achieving superior performance. We demonstrate the efficacy and versatility of DIAG with respect to state-of-the-art data augmentation approaches on the challenging KSDD2 dataset, with an improvement in AP of approximately 18% when positive samples are available and 28% when they are missing. The source code is available at https://github.com/intelligolabs/DIAG.
翻訳日:2024-07-08 17:43:28 公開日:2024-07-04
# LLM-jp: 完全にオープンなLLMの研究・開発のためのクロスオーガナイゼーションプロジェクト

LLM-jp: A Cross-organizational Project for the Research and Development of Fully Open Japanese LLMs ( http://arxiv.org/abs/2407.03963v1 )

ライセンス: Link先を確認
LLM-jp, :, Akiko Aizawa, Eiji Aramaki, Bowen Chen, Fei Cheng, Hiroyuki Deguchi, Rintaro Enomoto, Kazuki Fujii, Kensuke Fukumoto, Takuya Fukushima, Namgi Han, Yuto Harada, Chikara Hashimoto, Tatsuya Hiraoka, Shohei Hisada, Sosuke Hosokawa, Lu Jie, Keisuke Kamata, Teruhito Kanazawa, Hiroki Kanezashi, Hiroshi Kataoka, Satoru Katsumata, Daisuke Kawahara, Seiya Kawano, Atsushi Keyaki, Keisuke Kiryu, Hirokazu Kiyomaru, Takashi Kodama, Takahiro Kubo, Yohei Kuga, Ryoma Kumon, Shuhei Kurita, Sadao Kurohashi, Conglong Li, Taiki Maekawa, Hiroshi Matsuda, Yusuke Miyao, Kentaro Mizuki, Sakae Mizuki, Yugo Murawaki, Ryo Nakamura, Taishi Nakamura, Kouta Nakayama, Tomoka Nakazato, Takuro Niitsuma, Jiro Nishitoba, Yusuke Oda, Hayato Ogawa, Takumi Okamoto, Naoaki Okazaki, Yohei Oseki, Shintaro Ozaki, Koki Ryu, Rafal Rzepka, Keisuke Sakaguchi, Shota Sasaki, Satoshi Sekine, Kohei Suda, Saku Sugawara, Issa Sugiura, Hiroaki Sugiyama, Hisami Suzuki, Jun Suzuki, Toyotaro Suzumura, Kensuke Tachibana, Yu Takagi, Kyosuke Takami, Koichi Takeda, Masashi Takeshita, Masahiro Tanaka, Kenjiro Taura, Arseny Tolmachev, Nobuhiro Ueda, Zhen Wan, Shuntaro Yada, Sakiko Yahata, Yuya Yamamoto, Yusuke Yamauchi, Hitomi Yanaka, Rio Yokota, Koichiro Yoshino, (参考訳) 本稿では,LLM-jpについて紹介する。LLM-jpは,日本語大言語モデル(LLM)の研究・開発のためのクロスオーガナイゼーションプロジェクトである。 LLM-jpは、オープンソースで強力な日本のLCMを開発することを目的としており、本書の執筆時点で、学界や産業界から1,500人以上の参加者が協力して活動している。 本稿では, LLM-jpの設立の背景, 活動の概要, および LLM-jp の開発した LLM の技術報告について述べる。 最新のアクティビティについては、https://llm-jp.nii.ac.jp/en/.com/を参照してください。

This paper introduces LLM-jp, a cross-organizational project for the research and development of Japanese large language models (LLMs). LLM-jp aims to develop open-source and strong Japanese LLMs, and as of this writing, more than 1,500 participants from academia and industry are working together for this purpose. This paper presents the background of the establishment of LLM-jp, summaries of its activities, and technical reports on the LLMs developed by LLM-jp. For the latest activities, visit https://llm-jp.nii.ac.jp/en/.
翻訳日:2024-07-08 17:43:28 公開日:2024-07-04
# 大規模言語モデルからの背景知識を用いた強化学習のサンプル効率の向上

Improving Sample Efficiency of Reinforcement Learning with Background Knowledge from Large Language Models ( http://arxiv.org/abs/2407.03964v1 )

ライセンス: Link先を確認
Fuxiang Zhang, Junyou Li, Yi-Chen Li, Zongzhang Zhang, Yang Yu, Deheng Ye, (参考訳) 低サンプリング効率は強化学習(RL)の持続的課題である。 汎用大規模言語モデル(LLM)の出現に伴い、最近の研究は、RLプロセスのポリシー学習を加速するために、常識的な知識を提供する。 しかし、そのようなガイダンスは特定のタスクに適合することが多いが、一般化性は失われる。 本稿では,LLMを利用して環境全体に対する一般的な理解を含む環境の背景知識を抽出し,下流のRLタスクをワンタイムの知識表現から活用するフレームワークを提案する。 我々は,環境に関する背景知識を明確化するために,予め収集した経験をいくつか与えて,LCMを接地する。 その後、我々は出力知識を潜在的報酬形成の潜在機能として表現し、タスク報酬から政策最適性を維持するのに優れた特性を持つ。 我々は3つの変種をインスタンス化して、コードの記述、好みの注釈付け、目標の割り当てなど、バックグラウンド知識のためのLLMを誘導する。 提案手法は,Minigrid および Crafter ドメインの下流タスクのスペクトルにおいて,サンプル効率を著しく向上することを示す。

Low sample efficiency is an enduring challenge of reinforcement learning (RL). With the advent of versatile large language models (LLMs), recent works impart common-sense knowledge to accelerate policy learning for RL processes. However, we note that such guidance is often tailored for one specific task but loses generalizability. In this paper, we introduce a framework that harnesses LLMs to extract background knowledge of an environment, which contains general understandings of the entire environment, making various downstream RL tasks benefit from one-time knowledge representation. We ground LLMs by feeding a few pre-collected experiences and requesting them to delineate background knowledge of the environment. Afterward, we represent the output knowledge as potential functions for potential-based reward shaping, which has a good property for maintaining policy optimality from task rewards. We instantiate three variants to prompt LLMs for background knowledge, including writing code, annotating preferences, and assigning goals. Our experiments show that these methods achieve significant sample efficiency improvements in a spectrum of downstream tasks from Minigrid and Crafter domains.
翻訳日:2024-07-08 17:43:28 公開日:2024-07-04
# 現実的なBPMNモデルの即時、網羅的で、固定可能な音質チェック

Instantaneous, Comprehensible, and Fixable Soundness Checking of Realistic BPMN Models ( http://arxiv.org/abs/2407.03965v1 )

ライセンス: Link先を確認
Tim Kräuter, Patrick Stünkel, Adrian Rutle, Harald König, Yngve Lamo, (参考訳) 多くのビジネスプロセスモデルには、デッドロックのような制御フローエラーがあり、適切な実行を妨げる可能性がある。 本稿では、BPMNモデルのエラーを瞬時に識別し、モデラーにとって理解しやすくし、自動的に解決する修正を提案する新しい音質チェックツールを紹介します。 私たちは、ツールのサイズと状態空間の複雑さが増大する合成BPMNモデルと、文献で提供される現実的なモデルとをベンチマークすることで、ツールの音質チェックが500ms未満の即時性であることを示した。 さらに,本ツールでは,モデル内の可聴性違反を直接表示し,各違反のインタラクティブな反例可視化を行う。 さらに、現在他のツールでは利用できない違反を解決するための修正も提供されている。 このツールはオープンソースで、モジュール化され、拡張可能で、人気のあるBPMNモデリングツールに統合されています。

Many business process models have control-flow errors, such as deadlocks, which can hinder proper execution. In this paper, we introduce our new soundness-checking tool that can instantaneously identify errors in BPMN models, make them comprehensible for modelers, and even suggest corrections to resolve them automatically. We demonstrate that our tool's soundness checking is instantaneous, i.e., it takes less than 500ms, by benchmarking our tool against synthetic BPMN models with increasing size and state space complexity, as well as realistic models provided in the literature. Moreover, the tool directly displays possible soundness violations in the model and provides an interactive counterexample visualization of each violation. Additionally, it provides fixes to resolve the violations found, which are not currently available in other tools. The tool is open-source, modular, extensible, and integrated into a popular BPMN modeling tool.
翻訳日:2024-07-08 17:43:28 公開日:2024-07-04
# 学習ドミナンスによるシリアライズアウトプットトレーニング

Serialized Output Training by Learned Dominance ( http://arxiv.org/abs/2407.03966v1 )

ライセンス: Link先を確認
Ying Shi, Lantian Li, Shi Yin, Dong Wang, Jiqing Han, (参考訳) SOT(Serialized Output Training)は,話者の音声を逐次デコードすることで,多話者音声認識における最先端性能を示す。 ラベル置換の問題に対処するため、従来の手法はPIT(Permutation Invariant Training)とFIFO(First-In-First-Out)のどちらかに依存している。 本研究では,アテンション・エンコーダ・デコーダアーキテクチャに補助モジュールを組み込んだモデルベースシリアライズ手法を提案する。 LibriSpeech および LibriMix データベースで行った実験により,本手法は 2-mix および 3-mix のシナリオにおいて PIT と FIFO のベースラインを大幅に上回っていることがわかった。 さらに、連続化モジュールは、大音量や性別などの要因によって混合された音声成分を識別し、支配スコアに基づいて音声成分を注文する。

Serialized Output Training (SOT) has showcased state-of-the-art performance in multi-talker speech recognition by sequentially decoding the speech of individual speakers. To address the challenging label-permutation issue, prior methods have relied on either the Permutation Invariant Training (PIT) or the time-based First-In-First-Out (FIFO) rule. This study presents a model-based serialization strategy that incorporates an auxiliary module into the Attention Encoder-Decoder architecture, autonomously identifying the crucial factors to order the output sequence of the speech components in multi-talker speech. Experiments conducted on the LibriSpeech and LibriMix databases reveal that our approach significantly outperforms the PIT and FIFO baselines in both 2-mix and 3-mix scenarios. Further analysis shows that the serialization module identifies dominant speech components in a mixture by factors including loudness and gender, and orders speech components based on the dominance score.
翻訳日:2024-07-08 17:43:28 公開日:2024-07-04
# ロボット操作作業における指導バラエティと課題難易度の役割の検討

Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks ( http://arxiv.org/abs/2407.03967v1 )

ライセンス: Link先を確認
Amit Parekh, Nikolas Vitsakis, Alessandro Suglia, Ioannis Konstas, (参考訳) 分布外データのみの性能に基づくマルチモーダルモデルの一般化能力の評価は、真のロバスト性をとらえることに失敗する。 本研究は, アーキテクチャ設計, 言語・視覚モダリティ間の入力摂動, タスク複雑性の増大を考慮し, それらのモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。 提案フレームワークは,過度な命令摂動に対するマルチモーダルモデルのレジリエンスと観測上の変化に対する脆弱性を明らかにする。 ロボット操作タスクに対する現在のトランスフォーマーベースのマルチモーダルモデルに基づくこの評価フレームワークを利用することで,制約を明らかにするとともに,マルチモーダル入力をよりよく統合するアーキテクチャとトレーニングの革新に重点を置き,インシデント相関よりも入力コンテンツに対する感度を優先することで,モデルの一般化能力を高めることを提案する。

Evaluating the generalisation capabilities of multimodal models based solely on their performance on out-of-distribution data fails to capture their true robustness. This work introduces a comprehensive evaluation framework that systematically examines the role of instructions and inputs in the generalisation abilities of such models, considering architectural design, input perturbations across language and vision modalities, and increased task complexity. The proposed framework uncovers the resilience of multimodal models to extreme instruction perturbations and their vulnerability to observational changes, raising concerns about overfitting to spurious correlations. By employing this evaluation framework on current Transformer-based multimodal models for robotic manipulation tasks, we uncover limitations and suggest future advancements should focus on architectural and training innovations that better integrate multimodal inputs, enhancing a model's generalisation prowess by prioritising sensitivity to input content over incidental correlations.
翻訳日:2024-07-08 17:43:28 公開日:2024-07-04
# Craftium: 強化学習環境を構築するための拡張可能なフレームワーク

Craftium: An Extensible Framework for Creating Reinforcement Learning Environments ( http://arxiv.org/abs/2407.03969v1 )

ライセンス: Link先を確認
Mikel Malagón, Josu Ceberio, Jose A. Lozano, (参考訳) ほとんどの強化学習(RL)環境は、既存の物理シミュレータやビデオゲームに適応することで作られる。 しかし、それらは通常、研究によく関係するRL法の特徴を分析するのに必要な柔軟性を欠いている。 本稿では,Minetestゲームエンジンと人気のあるGymnasium API上に構築されたリッチな3DビジュアルRL環境を探索・作成するための新しいフレームワークであるCraftiumを提案する。 Minetestは拡張するために構築されており、Voxelベースの3D環境(しばしばMinecraftに似ている)を簡単に作成するために使用することができる。 Craftiumは、シンプルな視覚的なタスクから無限で手続き的に生成された世界まで、特定の研究要件に合わせて、完全にカスタマイズされた環境を作成できるプラットフォームを提供する。 また、ベンチマークのための5つの準備可能な環境や、新しいものの開発方法の例も提供します。 コードとドキュメントはhttps://github.com/mikelma/craftium/.comで公開されている。

Most Reinforcement Learning (RL) environments are created by adapting existing physics simulators or video games. However, they usually lack the flexibility required for analyzing specific characteristics of RL methods often relevant to research. This paper presents Craftium, a novel framework for exploring and creating rich 3D visual RL environments that builds upon the Minetest game engine and the popular Gymnasium API. Minetest is built to be extended and can be used to easily create voxel-based 3D environments (often similar to Minecraft), while Gymnasium offers a simple and common interface for RL research. Craftium provides a platform that allows practitioners to create fully customized environments to suit their specific research requirements, ranging from simple visual tasks to infinite and procedurally generated worlds. We also provide five ready-to-use environments for benchmarking and as examples of how to develop new ones. The code and documentation are available at https://github.com/mikelma/craftium/.
翻訳日:2024-07-08 17:43:28 公開日:2024-07-04
# ゲートトモグラフィーにおける過分散:ブロッホ球における実験と連続2スケールランダムウォークモデル

Overdispersion in gate tomography: Experiments and continuous, two-scale random walk model on the Bloch sphere ( http://arxiv.org/abs/2407.03970v1 )

ライセンス: Link先を確認
Wolfgang Nowak, Tim Brünnette, Merel Schalkers, Matthias Möller, (参考訳) ノイズの多い中間規模量子コンピュータ(NISQ)は幼少期であるが、高い可能性を秘めている。 NISQマシンの最大の関心事は、キュービット状態が各アルゴリズム操作で障害を受けるため、その固有のノイズ性である。 本研究では,量子ノイズに関する実験を行う。 我々のデータから、既存のノイズモデルでは、アルゴリズムのランタイム上でのノイズ効果の凝集を適切に捉えることができないことを示す。 観測可能な周波数は、二項分布の標準的な仮定が許すものよりも、繰り返しの実験の間にずっと散らばっている。 ゲート操作数の関数として読み出し確率のノイズモデルを開発する。 このモデルは (Bloch) 球面上の連続的ランダムウォークに基づいており、角拡散係数はゲート操作のノイズを特徴づける。 過分散を考慮した2番目のランダムウォークを複数の読み出しスケールで重畳する。 これら2つのランダムウォークの相互作用は、確率の理論的、実行に依存した境界を予測する。 全体として、これは3パラメータの分布モデルであり、対応する1スケールモデルよりも(オーバー分散なしで)データに適合する。 ベイジアンデータモデル解析により,予測境界の適合性と妥当性を示す。

Noisy intermediate-scale quantum computers (NISQ) are in their childhood, but showing high promise. One main concern for NISQ machines is their inherent noisiness, as the qubit states are subject to disturbances with each algorithmic operation applied. In this study, we conduct experiments on quantum noise. Based on our data, we show that existing noise models fail to properly capture the aggregation of noise effects over an algorithm's runtime. They are underdispersed, meaning that observable frequencies scatter much more between repeated experiments than what the standard assumptions of the binomial distribution allow for. We develop noise model for the readout probabilities as a function of the number of gate operations. The model is based on a continuous random walk on the (Bloch) sphere, where the angular diffusion coefficient characterizes the noisiness of gate operations. We superimpose a second random walk at the scale of multiple readouts to account for overdispersion. The interaction of these two random walks predicts theoretical, runtime-dependent bounds for probabilities. Overall, it is a three-parameter distributional model that fits the data better than the corresponding one-scale model (without overdispersion). We demonstrate the fit and the plausibility of the predicted bounds via Bayesian data-model analysis.
翻訳日:2024-07-08 17:33:44 公開日:2024-07-04
# MineNetCD:リモートセンシング画像によるグローバルマイニング変更検出ベンチマーク

MineNetCD: A Benchmark for Global Mining Change Detection on Remote Sensing Imagery ( http://arxiv.org/abs/2407.03971v1 )

ライセンス: Link先を確認
Weikang Yu, Xiaokang Zhang, Xiao Xiang Zhu, Richard Gloaguen, Pedram Ghamisi, (参考訳) 鉱業活動によって引き起こされる変化のモニタリングは、産業統制、環境管理、規制順守に不可欠であるが、鉱業サイトの広大な遠隔地のため、大きな課題となっている。 リモートセンシング技術は、時間とともにこれらの変化を検出し分析するために必要なものになりつつある。 そこで我々は,リモートセンシング画像を用いた地球規模の地雷検出のための総合的なベンチマークであるMineNetCDを紹介した。 ベンチマークには3つの重要なコントリビューションが含まれている。 まず,世界100カ所の採掘現場から,2時間間高解像度リモートセンシング画像と画素レベルのアノテーションのパッチを70万枚以上組み合わせた,地球規模の鉱毒変化検出データセットを構築した。 第2に、周波数領域内の特徴に必須のスペクトル成分を活用し、両時間的特徴差のチャネルワイズ相関を捉えることで、変化対応の高速フーリエ変換(ChangeFFT)モジュールをベースとした新しいベースラインモデルを構築し、変化対応表現を学習する。 第3に、13以上の高度な変更検出モデルを統合する統合変更検出(UCD)フレームワークを構築する。 このフレームワークは、HuggingFaceがホストするクラウドプラットフォームを利用して、合理化され、効率的に処理できるように設計されている。 提案するベースラインモデルの有効性を,12の最先端変化検出手法と比較し,広範囲な実験を行った。 モジュール化されたバックボーンに関する実証的研究は、異なる表現学習者が変化検出に有効であることを包括的に確認する。 この貢献は、リモートセンシングと変化検出の分野で大きな進歩を示し、地球規模の採掘監視における将来の研究と応用のための堅牢な資源を提供する。 DatasetとCodesはリンクから利用できる。

Monitoring changes triggered by mining activities is crucial for industrial controlling, environmental management and regulatory compliance, yet it poses significant challenges due to the vast and often remote locations of mining sites. Remote sensing technologies have increasingly become indispensable to detect and analyze these changes over time. We thus introduce MineNetCD, a comprehensive benchmark designed for global mining change detection using remote sensing imagery. The benchmark comprises three key contributions. First, we establish a global mining change detection dataset featuring more than 70k paired patches of bi-temporal high-resolution remote sensing images and pixel-level annotations from 100 mining sites worldwide. Second, we develop a novel baseline model based on a change-aware Fast Fourier Transform (ChangeFFT) module, which enhances various backbones by leveraging essential spectrum components within features in the frequency domain and capturing the channel-wise correlation of bi-temporal feature differences to learn change-aware representations. Third, we construct a unified change detection (UCD) framework that integrates over 13 advanced change detection models. This framework is designed for streamlined and efficient processing, utilizing the cloud platform hosted by HuggingFace. Extensive experiments have been conducted to demonstrate the superiority of the proposed baseline model compared with 12 state-of-the-art change detection approaches. Empirical studies on modularized backbones comprehensively confirm the efficacy of different representation learners on change detection. This contribution represents significant advancements in the field of remote sensing and change detection, providing a robust resource for future research and applications in global mining monitoring. Dataset and Codes are available via the link.
翻訳日:2024-07-08 17:33:44 公開日:2024-07-04
# 混合状態のクラスに対する絡み合いポリゴンの不等式

Entanglement Polygon Inequalities for A Class of Mixed States ( http://arxiv.org/abs/2407.03972v1 )

ライセンス: Link先を確認
Xian Shi, (参考訳) 多粒子系の絡み合うポリゴン不等式に関する研究は注目されている。 しかし、ほとんどの結果は純粋な状態にある。 ここでは、多粒子高次元系における一般化されたWクラス状態の密度行列の減少である混合状態のクラスの性質について考察する。 まず、混合状態のクラスが、Tsallis-q の絡み合いの観点から、絡み合いポリゴンの不等式を満たすことを示し、Tsallis-q の絡み合いの観点から、混合状態のより厳密な不等式のクラスを提案する。 最終的に混合状態の不等式が得られ、これは二部交絡関係と見なすことができる。

The study on the entanglement polygon inequality of multipartite systems has attracted much attention. However, most of the results are on pure states. Here we consider the property for a class of mixed states, which are the reduced density matrices of generalized W-class states in multipartite higher dimensional systems. First we show the class of mixed states satisfies the entanglement polygon inequalities in terms of Tsallis-q entanglement, then we propose a class of tighter inequalities for mixed states in terms of Tsallis-q entanglement. At last, we get an inequality for the mixed states, which can be regarded as a relation for bipartite entanglement.
翻訳日:2024-07-08 17:33:44 公開日:2024-07-04
# 二変量自転車符号の論理演算子とFold-Transversal Gates

Logical Operators and Fold-Transversal Gates of Bivariate Bicycle Codes ( http://arxiv.org/abs/2407.03973v1 )

ライセンス: Link先を確認
Jens Niklas Eberhardt, Vincent Steffan, (参考訳) 量子低密度パリティチェック(qLDPC)符号は、一定のオーバーヘッドを持つスケーラブルなフォールトトレラント量子計算への有望な経路を提供する。 近年の進歩により、qLDPC符号は、短期ハードウェアでも表面符号の量子メモリ能力より優れていることが示されている。 これらのコードに対して、論理ゲートをフォールトトレラントにどのように実装するかという問題は、まだ未解決である。 対称性が向上した高速度二変量自転車(BB)符号の新たな例を示す。 これらの符号は論理演算子(トーリック符号に似ている)の明確な良質な基底を特徴とし、折りたたみ反転クリフォードゲートをオーバーヘッドなくサポートしている。 例えば、$[[98,6,12]]$と$[[[162, 8, 12]]$ BB符号は、興味深いフォールトトレラントなクリフォードゲートを持つ。 我々の研究は、量子2ブロックおよび群代数符号における論理作用素の明示的な基底と折りたたみ変換ゲートの数学的基礎も築いており、これは独立な関心を持つかもしれない。

Quantum low-density parity-check (qLDPC) codes offer a promising route to scalable fault-tolerant quantum computation with constant overhead. Recent advancements have shown that qLDPC codes can outperform the quantum memory capability of surface codes even with near-term hardware. The question of how to implement logical gates fault-tolerantly for these codes is still open. We present new examples of high-rate bivariate bicycle (BB) codes with enhanced symmetry properties. These codes feature explicit nice bases of logical operators (similar to toric codes) and support fold-transversal Clifford gates without overhead. As examples, we construct $[[98,6,12]]$ and $[[162, 8, 12]]$ BB codes which admit interesting fault-tolerant Clifford gates. Our work also lays the mathematical foundations for explicit bases of logical operators and fold-transversal gates in quantum two-block and group algebra codes, which might be of independent interest.
翻訳日:2024-07-08 17:33:44 公開日:2024-07-04
# LLMロールプレイ:人間-チャットボットインタラクションのシミュレーション

LLM Roleplay: Simulating Human-Chatbot Interaction ( http://arxiv.org/abs/2407.03974v1 )

ライセンス: Link先を確認
Hovhannes Tamoyan, Hendrik Schuff, Iryna Gurevych, (参考訳) チャットボットの開発には、ユーザの社会的な背景と会話目標の広さを反映するために、多数の人間とチャットボットの対話を収集する必要がある。 しかし、各ユーザスタディを実施するためのリソース要件は違法に高くなり、特定の対話目標と参加者人口層を狭く分析することしかできないことが多い。 本稿では,人間とチャットボットのインタラクションをシミュレートした多ターン対話を自動生成する,目標指向のペルソナに基づくLLM-Roleplayを提案する。 LLM-Roleplayは、あらゆる種類のチャットボットと対話し、大きな言語モデル(LLM)を使用してテキストで記述されたペルソナの役割を果たす。 提案手法を検証するため,異なる社会デマログラフ群から自然な人間-チャットボット対話を収集し,実際の人間-チャットボット対話と生成された対話との比較を行う。 我々は,ペルソナを具現化して会話を行う上での最先端のLLMの能力を比較し,人間のチャットボット対話を高い識別可能性でシミュレートできることを見出した。

The development of chatbots requires collecting a large number of human-chatbot dialogues to reflect the breadth of users' sociodemographic backgrounds and conversational goals. However, the resource requirements to conduct the respective user studies can be prohibitively high and often only allow for a narrow analysis of specific dialogue goals and participant demographics. In this paper, we propose LLM-Roleplay: a goal-oriented, persona-based method to automatically generate diverse multi-turn dialogues simulating human-chatbot interaction. LLM-Roleplay can be applied to generate dialogues with any type of chatbot and uses large language models (LLMs) to play the role of textually described personas. To validate our method we collect natural human-chatbot dialogues from different sociodemographic groups and conduct a human evaluation to compare real human-chatbot dialogues with our generated dialogues. We compare the abilities of state-of-the-art LLMs in embodying personas and holding a conversation and find that our method can simulate human-chatbot dialogues with a high indistinguishability rate.
翻訳日:2024-07-08 17:33:44 公開日:2024-07-04
# 複数制約構成による複合命令のベンチマーク

Benchmarking Complex Instruction-Following with Multiple Constraints Composition ( http://arxiv.org/abs/2407.03978v1 )

ライセンス: Link先を確認
Bosi Wen, Pei Ke, Xiaotao Gu, Lindong Wu, Hao Huang, Jinfeng Zhou, Wenchuang Li, Binxin Hu, Wendy Gao, Jiaxin Xu, Yiming Liu, Jie Tang, Hongning Wang, Minlie Huang, (参考訳) 以下の命令は、大規模言語モデル(LLM)の基本機能のひとつです。 LLMの能力は常に改善されているため、現実のシナリオにおいて複雑なヒューマンインストラクションを扱うためにますます応用されている。 そのため,LLMの複雑な指示追従能力の評価方法が重要な研究課題となっている。 既存のベンチマークは主に、複雑な命令において必須の構成要素である異なる制約の構成を無視しながら、人間の命令で異なるタイプの制約をモデル化することに焦点を当てている。 この目的のために,複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するベンチマークである ComplexBench を提案する。 本研究では,4つの制約型,19個の制約次元,4つの構成型を含む複雑な命令に対する階層的な分類法を提案し,それに従って高品質なデータセットを手作業で収集する。 評価を信頼性のあるものにするため、LLMに基づく評価器をルールで強化し、生成されたテキストがそれぞれの制約や構成を満たすことができるかどうかを効果的に検証する。 さらに,異なる構成型によって決定される依存性構造に基づいて,最終的な評価スコアを得る。 ComplexBenchは、複数の制約構成を持つ複雑な命令を扱う際に、既存のLLMの重大な欠陥を特定する。

Instruction following is one of the fundamental capabilities of large language models (LLMs). As the ability of LLMs is constantly improving, they have been increasingly applied to deal with complex human instructions in real-world scenarios. Therefore, how to evaluate the ability of complex instruction-following of LLMs has become a critical research problem. Existing benchmarks mainly focus on modeling different types of constraints in human instructions while neglecting the composition of different constraints, which is an indispensable constituent in complex instructions. To this end, we propose ComplexBench, a benchmark for comprehensively evaluating the ability of LLMs to follow complex instructions composed of multiple constraints. We propose a hierarchical taxonomy for complex instructions, including 4 constraint types, 19 constraint dimensions, and 4 composition types, and manually collect a high-quality dataset accordingly. To make the evaluation reliable, we augment LLM-based evaluators with rules to effectively verify whether generated texts can satisfy each constraint and composition. Furthermore, we obtain the final evaluation score based on the dependency structure determined by different composition types. ComplexBench identifies significant deficiencies in existing LLMs when dealing with complex instructions with multiple constraints composition.
翻訳日:2024-07-08 17:33:44 公開日:2024-07-04
# 二元分類器のゼロフェイル検定

Zero-failure testing of binary classifiers ( http://arxiv.org/abs/2407.03979v1 )

ライセンス: Link先を確認
Ioannis Ivrissimtzis, Matthew Houliston, Shauna Concannon, Graham Roberts, (参考訳) 本稿では,ゼロフェイルテストから得られた性能指標を用いてバイナリ分類器の評価を行う。 提案手法の主な特徴は2種類の誤差の非対称な処理である。 特に、正と負のサンプルからなるテストセットを構築し、二項分類器の動作点を最低値に設定し、全ての正のサンプルの分類を正にし、そのアルゴリズムの成功率を性能指標として利用する。 提案手法の特性は、他の一般的な試験方法と異なり、正のサンプルテストセットのネストシーケンスに対応する難易度を増大させる一連のテストの構築を可能にすることである。 本稿では,2種類の誤差の非対称性を実証する問題として,対象が法的な年齢閾値を超えているかどうかを判断する年齢推定法を提案する。 実際、未成年者の誤分類は法的・規制上の問題であり、法律上の年齢以上の人々の誤分類は、主に年齢推定システムの商業ユーザに関する効率上の問題である。

We propose using performance metrics derived from zero-failure testing to assess binary classifiers. The principal characteristic of the proposed approach is the asymmetric treatment of the two types of error. In particular, we construct a test set consisting of positive and negative samples, set the operating point of the binary classifier at the lowest value that will result to correct classifications of all positive samples, and use the algorithm's success rate on the negative samples as a performance measure. A property of the proposed approach, setting it apart from other commonly used testing methods, is that it allows the construction of a series of tests of increasing difficulty, corresponding to a nested sequence of positive sample test sets. We illustrate the proposed method on the problem of age estimation for determining whether a subject is above a legal age threshold, a problem that exemplifies the asymmetry of the two types of error. Indeed, misclassifying an under-aged subject is a legal and regulatory issue, while misclassifications of people above the legal age is an efficiency issue primarily concerning the commercial user of the age estimation system.
翻訳日:2024-07-08 17:33:44 公開日:2024-07-04
# 有効蒸留による非同期計測・デバイス非依存量子鍵分布の実用化

Practical asynchronous measurement-device-independent quantum key distribution with advantage distillation ( http://arxiv.org/abs/2407.03980v1 )

ライセンス: Link先を確認
Di Luo, Xin Liu, Kaibiao Qin, Zhenrong Zhang, Kejin Wei, (参考訳) アドバンスト蒸留(AD)法は量子鍵分布(QKD)の性能向上に有効であることが証明されている。 本稿では、最近提案された非同期計測デバイス非依存QKDプロトコルにAD法を導入し、有限キー効果を考慮に入れた。 シミュレーションの結果、AD法はAMDIQKD, eg を著しく向上させ、N = 7.24*10^13の総パルス数で送信距離を16km延長し、以前キーを生成できなかったAMDI-QKDを、誤調整エラー率10%のキー生成を可能にした。 改良された後処理によりAD法を現在のシステムに直接組み込むことができるため,本研究はAMDI-QKDを様々なアプリケーション、特にチャネル損失や誤調整エラーのシナリオで実践的に実装する上で有効である。

The advantage distillation (AD) method has proven effective in improving the performance of quantum key distribution (QKD). In this paper, we introduce the AD method into a recently proposed asynchronous measurement-device-independent (AMDI) QKD protocol, taking finite-key effects into account. Simulation results show that the AD method significantly enhances AMDIQKD, e.g., extending the transmission distance by 16 km with a total pulse count of N = 7.24*10^13, and enables AMDI-QKD, previously unable to generate keys, to generate keys with a misalignment error rate of 10%. As the AD method can be directly integrated into the current system through refined post-processing, our results facilitate the practical implementation of AMDI-QKD in various applications, particularly in scenarios with high channel losses and misalignment errors.
翻訳日:2024-07-08 17:33:44 公開日:2024-07-04
# セキュア・高速伝送のための自動符号化画像圧縮

Autoencoded Image Compression for Secure and Fast Transmission ( http://arxiv.org/abs/2407.03990v1 )

ライセンス: Link先を確認
Aryan Kashyap Naveen, Sunil Thunga, Anuhya Murki, Mahati A Kalale, Shriya Anil, (参考訳) デジタル画像データの利用が指数関数的に増大するにつれ、効率的な伝送方法の必要性が高まっている。 従来の画像圧縮技術は、ファイルサイズを減らすために画像の忠実さを犠牲にし、品質と効率の両立を困難にしている。 彼らはまた、セキュリティを妥協する傾向があり、中間者攻撃のような脅威に弱いイメージを残している。 本稿では,画像圧縮のためのオートエンコーダアーキテクチャを提案する。 また, 復元損失と残留損失を組み合わせた複合損失関数を導入し, 性能向上を図る。 オートエンコーダアーキテクチャは、送信または記憶中の圧縮データを保護しながら、最適な寸法の低減と再生精度を達成するように設計されている。 オートエンコーダによって再生される画像は, 画像転送時の復元品質, 圧縮率, 片方向遅延の3つの重要な指標に対して評価される。 実験の結果, 提案アーキテクチャは再生画像に対して97.5%のSSIMを実現し, 平均遅延率87.5%のSSIMを実現し, 圧縮画像転送の安全かつ効率的なソリューションとしての有効性を示した。

With an exponential growth in the use of digital image data, the need for efficient transmission methods has become imperative. Traditional image compression techniques often sacrifice image fidelity for reduced file sizes, presenting a challenge in maintaining both quality and efficiency. They also tend to compromise on security, leaving images vulnerable to threats such as man-in-the-middle attacks. This paper proposes an autoencoder architecture for image compression so as to not only help in dimensionality reduction but also inherently encrypt the images. The paper also introduces the use of a composite loss function that combines reconstruction loss and residual loss for improved performance. The autoencoder architecture is designed to achieve optimal dimensionality reduction and regeneration accuracy while safeguarding the compressed data during transmission or storage. Images regenerated by the autoencoder are evaluated against three key metrics: reconstruction quality, compression ratio, and one-way delay during image transfer. The experiments reveal that the proposed architecture achieves an SSIM of 97.5% over the regenerated images and an average latency reduction of 87.5%, indicating its effectiveness as a secure and efficient solution for compressed image transfer.
翻訳日:2024-07-08 17:33:44 公開日:2024-07-04
# 自然言語対実生成に関する調査研究

A Survey on Natural Language Counterfactual Generation ( http://arxiv.org/abs/2407.03993v1 )

ライセンス: Link先を確認
Yongjie Wang, Xiaoqi Qiu, Yu Yue, Xu Guo, Zhiwei Zeng, Yuhong Feng, Zhiqi Shen, (参考訳) 自然言語カウンターファクト生成は、修正されたテキストが別のクラスに分類されるように、与えられたテキストを最小限に修正することを目的としている。 生成された反事実は、どの単語が結果に大きく影響するかを強調することによって、モデルの予測の背後にある推論に関する洞察を与える。 さらに、モデルフェアネスの問題を検出したり、トレーニングデータを増強してモデルの堅牢性を高めるために使用することもできる。 様々なNLPタスクに対して、さまざまなモデルや方法論を用いて、カウンターファクトリーを生成するために、かなりの量の研究がなされている。 この分野での研究が急速に成長する中で、将来の研究者や開発者を導くために、体系的なレビューが不可欠である。 このギャップを埋めるため,本調査では,特に大規模言語モデルに基づくテキスト・デファクト・デファクト・ジェネレーション手法を概観した。 生成手法を4つのグループに分類する新たな分類法を提案し、生成品質を評価するための指標を体系的に要約する。 最後に,現在進行中の研究課題について論じ,今後の研究の方向性について概説する。

Natural Language Counterfactual generation aims to minimally modify a given text such that the modified text will be classified into a different class. The generated counterfactuals provide insight into the reasoning behind a model's predictions by highlighting which words significantly influence the outcomes. Additionally, they can be used to detect model fairness issues or augment the training data to enhance the model's robustness. A substantial amount of research has been conducted to generate counterfactuals for various NLP tasks, employing different models and methodologies. With the rapid growth of studies in this field, a systematic review is crucial to guide future researchers and developers. To bridge this gap, this survey comprehensively overview textual counterfactual generation methods, particularly including those based on Large Language Models. We propose a new taxonomy that categorizes the generation methods into four groups and systematically summarize the metrics for evaluating the generation quality. Finally, we discuss ongoing research challenges and outline promising directions for future work.
翻訳日:2024-07-08 17:33:44 公開日:2024-07-04
# 低リソース言語におけるモデルマージの可能性の解き放つ

Unlocking the Potential of Model Merging for Low-Resource Languages ( http://arxiv.org/abs/2407.03994v1 )

ライセンス: Link先を確認
Mingxu Tao, Chen Zhang, Quzhe Huang, Tianyao Ma, Songfang Huang, Dongyan Zhao, Yansong Feng, (参考訳) 大規模言語モデル(LLM)を新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。 しかし、このCT-then-SFTアプローチは、低リソース言語のコンテキストにおいて限られたデータを扱うため、言語モデリングとタスク解決能力のバランスが取れない。 そこで我々は,低リソース言語に代わるモデルマージを提案する。 我々は、SFTデータを対象言語に含まない低リソース言語のためのタスク解決LLMを開発するために、モデルマージを使用する。 Llama-2-7Bをベースとした実験により, タスク解決能力の低い低リソース言語では, モデルマージがLLMを効果的に実現し, 極めて少ないシナリオではCT-then-SFTより優れていることが示された。 モデルマージにおける性能飽和をより多くのトレーニングトークンで観測し、さらにマージプロセスを分析し、モデルのマージアルゴリズムにスラック変数を導入し、重要なパラメータの損失を軽減し、性能を向上させる。 モデルマージは、データ不足とデータ効率の向上に苦しむ、より多くの人間の言語に恩恵をもたらすことを願っています。

Adapting large language models (LLMs) to new languages typically involves continual pre-training (CT) followed by supervised fine-tuning (SFT). However, this CT-then-SFT approach struggles with limited data in the context of low-resource languages, failing to balance language modeling and task-solving capabilities. We thus propose model merging as an alternative for low-resource languages, combining models with distinct capabilities into a single model without additional training. We use model merging to develop task-solving LLMs for low-resource languages without SFT data in the target languages. Our experiments based on Llama-2-7B demonstrate that model merging effectively endows LLMs for low-resource languages with task-solving abilities, outperforming CT-then-SFT in scenarios with extremely scarce data. Observing performance saturation in model merging with more training tokens, we further analyze the merging process and introduce a slack variable to the model merging algorithm to mitigate the loss of important parameters, thereby enhancing performance. We hope that model merging can benefit more human languages suffering from data scarcity with its higher data efficiency.
翻訳日:2024-07-08 17:33:44 公開日:2024-07-04
# ROER: 正規化された最適体験リプレイ

ROER: Regularized Optimal Experience Replay ( http://arxiv.org/abs/2407.03995v1 )

ライセンス: Link先を確認
Changling Li, Zhang-Wei Hong, Pulkit Agrawal, Divyansh Garg, Joni Pajarinen, (参考訳) 経験的リプレイは、オンライン強化学習(RL)の成功の鍵となる要素である。 優先経験リプレイ(PER)は、時間差(TD)誤差による経験を経験的に向上させる。 しかし、TDエラーを使用する動機を探る研究はほとんどない。 本研究は、TDエラーに基づく再重み付けに関する別の視点を提供する。 経験優先化と占有最適化の関連性を示す。 正規化 RL と$f-$divergence regularizer を併用し、その双対形式を用いることで、TD-error-based occupancy ratios を用いて、リプレイバッファ内のオフポリティデータの分布をオンポリティの最適分布にシフトさせることにより、目的に対する最適解が得られることを示す。 我々の導出は、新しいTDエラー優先順位付けのパイプラインをもたらす。 具体的には、KLの発散を正規化要因として探索し、新たな優先順位付け方式、正規化最適体験再生(ROER)を得る。 提案手法は,11タスク中6タスクでベースラインを上回り,残りのタスクの結果がベースラインと一致しているか,逸脱しないかを,連続制御の MuJoCo と DM Control のベンチマークタスクにおいて,Soft Actor-Critic (SAC) アルゴリズムを用いて優先順位付け方式を評価する。 さらに、ROERは事前トレーニングを用いることで、ベースラインが失敗する難易度の高いAntmaze環境において顕著な改善を実現し、オフラインからオンラインへの微調整の適用性を示す。 コードは \url{https://github.com/XavierChanglingLi/Regularized-Optimal-Experience-Replay} で公開されている。

Experience replay serves as a key component in the success of online reinforcement learning (RL). Prioritized experience replay (PER) reweights experiences by the temporal difference (TD) error empirically enhancing the performance. However, few works have explored the motivation of using TD error. In this work, we provide an alternative perspective on TD-error-based reweighting. We show the connections between the experience prioritization and occupancy optimization. By using a regularized RL objective with $f-$divergence regularizer and employing its dual form, we show that an optimal solution to the objective is obtained by shifting the distribution of off-policy data in the replay buffer towards the on-policy optimal distribution using TD-error-based occupancy ratios. Our derivation results in a new pipeline of TD error prioritization. We specifically explore the KL divergence as the regularizer and obtain a new form of prioritization scheme, the regularized optimal experience replay (ROER). We evaluate the proposed prioritization scheme with the Soft Actor-Critic (SAC) algorithm in continuous control MuJoCo and DM Control benchmark tasks where our proposed scheme outperforms baselines in 6 out of 11 tasks while the results of the rest match with or do not deviate far from the baselines. Further, using pretraining, ROER achieves noticeable improvement on difficult Antmaze environment where baselines fail, showing applicability to offline-to-online fine-tuning. Code is available at \url{https://github.com/XavierChanglingLi/Regularized-Optimal-Experience-Replay}.
翻訳日:2024-07-08 17:33:44 公開日:2024-07-04
# PaSE:効率的なDNNトレーニングのための並列化戦略

PaSE: Parallelization Strategies for Efficient DNN Training ( http://arxiv.org/abs/2407.04001v1 )

ライセンス: Link先を確認
Venmugil Elango, (参考訳) ディープニューラルネットワーク(DNN)のトレーニングには、かなりの計算とメモリの要求が必要である。 複数のデバイスを使用してDNNをトレーニングすることで、全体のトレーニング時間を短縮することが一般的である。 DNNでは、各レイヤを並列化する方法がいくつかある。 最適な並列化戦略を見つけるために、このリストを徹底的に検索することは、極めて時間がかかり、実用的ではない。 標準的なプラクティスは、単純さのためにデータ並列性を使用することです。 しかし、データ並列性は、しばしば準最適であり、性能が悪く、高いメモリ要求に悩まされる。 専門家が設計した戦略は、ドメイン固有の知識を使ってケースバイケースで提案されている。 これらの専門家が設計した戦略は、DNNが設計したもの以外はうまく一般化せず、必ずしも最良の選択であるとは限らない。 本稿では,計算グラフからDNNの効率的な並列化戦略を自動検出する手法を提案する。 本稿では,これらの戦略を合理的な時間内に計算する効率的なアルゴリズムを提案する。 各種DNNに対するアプローチの有効性を評価する。 我々はまた、データ並列性、専門家設計戦略、最先端アプローチに対する我々のアプローチによって特定された戦略のパフォーマンスを比較した。 以上の結果から,本手法がベースラインデータ並列化戦略より優れていることが示唆された。 さらに、我々の戦略は、専門家が設計した戦略や最先端のアプローチよりも優れたパフォーマンスを達成する。

Training a deep neural network (DNN) requires substantial computational and memory requirements. It is common to use multiple devices to train a DNN to reduce the overall training time. There are several choices to parallelize each layer in a DNN. Exhaustively searching this list to find an optimal parallelization strategy is prohibitively time consuming and impractical. The standard practice is to use data parallelism because of its simplicity. However, data parallelism is often sub-optimal, and suffers from poor performance and high memory requirement. Expert-designed strategies have been proposed on a case-by-case basis using domain specific knowledge. These expert-designed strategies do not generalize well to DNNs other than the ones for which they were designed, and are not always necessarily the best choice. In this paper, we propose an approach to automatically find efficient parallelization strategies for DNNs from their computation graphs. We present an efficient algorithm to compute these strategies within a reasonable time in practice. We evaluate the effectiveness of our approach on various DNNs. We also compare the performance of the strategies identified by our approach against data parallelism, expert-designed strategies, and the state-of-the-art approaches. Our results show that the strategies found using our approach outperform the baseline data parallelism strategy in all the cases. In addition, our strategies achieve better performance than the expert-designed strategies and the state-of-the-art approaches.
翻訳日:2024-07-08 17:33:44 公開日:2024-07-04
# 完全微調整型CLIPモデルは効率の良いFew-Shot学習者である

Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners ( http://arxiv.org/abs/2407.04003v1 )

ライセンス: Link先を確認
Mushui Liu, Bozheng Li, Yunlong Yu, (参考訳) 少数のパラメータをトレーニングするプロンプトチューニングは、トレーニング済みのビジョンランゲージモデル(VLM)を下流タスクに効果的に拡張する。 しかし、調整されたモデルが異なるデータセットやドメインに適用されると、柔軟性と適応性の犠牲になることが多い。 本稿では,VLM全体の精細な精細化によるタスク固有情報の取得について,最小限のパラメータ調整で検討する。 限られた監督下で特定のタスクのためにVLM全体を微調整すると、過度に適合し、破滅的な忘れがデファクト要因となる。 これらの問題を緩和するために、識別的視覚テキストタスクを設計し、視覚テキストの意味を監督的に調整し、得られた知識を保存するために知識蒸留技術を統合するCLIP-CITEというフレームワークを提案する。 本手法は他のデータセット上でのVLMの汎用性を保ちながら、限られた監督下での特定のタスクにおける性能を効果的に向上することを示す。

Prompt tuning, which involves training a small set of parameters, effectively enhances the pre-trained Vision-Language Models (VLMs) to downstream tasks. However, they often come at the cost of flexibility and adaptability when the tuned models are applied to different datasets or domains. In this paper, we explore capturing the task-specific information via meticulous refinement of entire VLMs, with minimal parameter adjustments. When fine-tuning the entire VLMs for specific tasks under limited supervision, overfitting and catastrophic forgetting become the defacto factors. To mitigate these issues, we propose a framework named CLIP-CITE via designing a discriminative visual-text task, further aligning the visual-text semantics in a supervision manner, and integrating knowledge distillation techniques to preserve the gained knowledge. Extensive experimental results under few-shot learning, base-to-new generalization, domain generalization, and cross-domain generalization settings, demonstrate that our method effectively enhances the performance on specific tasks under limited supervision while preserving the versatility of the VLMs on other datasets.
翻訳日:2024-07-08 17:33:44 公開日:2024-07-04
# 確率過程:古典から量子へ

Stochastic Processes: From Classical to Quantum ( http://arxiv.org/abs/2407.04005v1 )

ライセンス: Link先を確認
Soon Hoe Lim, (参考訳) これらのノートの主な目的は、量子ノイズの数学とその非平衡統計力学への応用について紹介することである。 古典的確率過程の理論からいくつかのリマインダーから始める。 次に、量子確率の観点から量子力学と場の量子論を概観し、HudsonとParthasarathyの言語を採用する。 ボソンフォック空間とその計算に量子確率過程を導入する。 可能であればいつでも、古典的確率論における関連する概念と結びつく。 この理論の応用として、これらのシステムの物理とモデリングの側面に重点を置いたオープン量子系の理論を導入する。

The main goal of these notes is to give an introduction to the mathematics of quantum noise and some of its applications in non-equilibrium statistical mechanics. We start with some reminders from the theory of classical stochastic processes. We then provide a brief overview of quantum mechanics and quantum field theory, from the viewpoint of quantum probability and adopting the language of Hudson and Parthasarathy. We introduce quantum stochastic processes on a boson Fock space and their calculus. Whenever possible, we make connections with the relevant concepts in classical probability theory. As an application of the theory, we introduce the theory of open quantum systems, with emphasis on the physics and modeling aspects of these systems.
翻訳日:2024-07-08 17:33:44 公開日:2024-07-04
# 侵入検知のための解釈・説明可能な機械学習の批判的評価

A Critical Assessment of Interpretable and Explainable Machine Learning for Intrusion Detection ( http://arxiv.org/abs/2407.04009v1 )

ライセンス: Link先を確認
Omer Subasi, Johnathan Cree, Joseph Manzano, Elena Peterson, (参考訳) サイバーセキュリティ、特に侵入検知のための解釈可能かつ説明可能なMLについて、多くの研究がなされている。 これらの研究の多くは、かなりの量の重複と繰り返しの評価と分析を持っている。 同時に、これらの研究は重要なモデル、データ、学習プロセス、ユーティリティに関連する問題を見落とし、しばしばそれらを完全に無視する。 これらの問題には、過度に複雑で不透明なMLモデルの使用、未計算のデータ不均衡と相関した特徴、異なる説明方法にまたがる一貫性のない影響力のある特徴、学習プロセスの構成から生じる矛盾、説明の不可能な有用性などが含まれる。 本研究では、これらの問題を実証的に実証し、分析し、特徴に基づくモデル説明の文脈で実践的な解決策を提案する。 具体的には、Deep Neural Networksのような複雑な不透明なモデルを避け、代わりにDecision Treesのような解釈可能なMLモデルを利用可能な侵入データセットとして使用することは、そのような解釈可能なモデルがうまく分類することが難しくない。 次に、マシューズ相関係数(不均衡なデータセットに適している)のようなバイナリ分類指標に注意を向ける。 さらに、機能ベースのモデル説明は、多くの場合、異なる設定で矛盾する。 本論では,不整合の程度を更に評価するために,ある説明方法によって影響が及ぶと判断された特徴が,他の方法とほとんど異なっていることを裏付けるクロス説明の概念を導入する。 さらに,高パラメータや最適化ルーチンといった学習プロセスの構成成分と強く相関したデータ特徴が,矛盾する説明の源となることを示す。 最後に,機能に基づく説明の有用性について論じる。

There has been a large number of studies in interpretable and explainable ML for cybersecurity, in particular, for intrusion detection. Many of these studies have significant amount of overlapping and repeated evaluations and analysis. At the same time, these studies overlook crucial model, data, learning process, and utility related issues and many times completely disregard them. These issues include the use of overly complex and opaque ML models, unaccounted data imbalances and correlated features, inconsistent influential features across different explanation methods, the inconsistencies stemming from the constituents of a learning process, and the implausible utility of explanations. In this work, we empirically demonstrate these issues, analyze them and propose practical solutions in the context of feature-based model explanations. Specifically, we advise avoiding complex opaque models such as Deep Neural Networks and instead using interpretable ML models such as Decision Trees as the available intrusion datasets are not difficult for such interpretable models to classify successfully. Then, we bring attention to the binary classification metrics such as Matthews Correlation Coefficient (which are well-suited for imbalanced datasets. Moreover, we find that feature-based model explanations are most often inconsistent across different settings. In this respect, to further gauge the extent of inconsistencies, we introduce the notion of cross explanations which corroborates that the features that are determined to be impactful by one explanation method most often differ from those by another method. Furthermore, we show that strongly correlated data features and the constituents of a learning process, such as hyper-parameters and the optimization routine, become yet another source of inconsistent explanations. Finally, we discuss the utility of feature-based explanations.
翻訳日:2024-07-08 17:23:59 公開日:2024-07-04
# 連続体におけるダイアクロニック・ダイアクロニック変化の探索--課題,データセット,課題

Exploring Diachronic and Diatopic Changes in Dialect Continua: Tasks, Datasets and Challenges ( http://arxiv.org/abs/2407.04010v1 )

ライセンス: Link先を確認
Melis Çelikkol, Lydia Körber, Wei Zhao, (参考訳) 言語コミュニティ間の絶え間ない接触は、時間とともに言語の変化をもたらし、言語の種類や方言が生まれる。 しかし、非標準言語を話すコミュニティはしばしば非包括的NLP技術によって見過ごされている。 近年,方言NLPにおける斜体変化と斜体変化の研究への関心が高まっているが,両者の交叉を探索する研究は行われていない。 本研究の目的は,ダイアクロニクおよびダイアクロニクの論文を統一的な視点で体系的にレビューすることで,このギャップを埋めることである。 本研究では,スラヴ語,ロマンス語,ゲルマン語の3つの語族から5つの方言にまたがる9つの課題とデータセットを,話し言葉と書き言葉の両方で批判的に評価する。 対象とする課題は,コーパス構築,方言距離推定,方言位置予測など多様である。 さらに、方言使用の変化、方言データセットの信頼性、話者特性の重要性、方言の限られた範囲、データ収集における倫理的考慮に関する5つのオープンな課題を概説する。 言語の種類や方言の包括的計算手法やデータセットに関する今後の研究に光を当てることを願っています。

Everlasting contact between language communities leads to constant changes in languages over time, and gives rise to language varieties and dialects. However, the communities speaking non-standard language are often overlooked by non-inclusive NLP technologies. Recently, there has been a surge of interest in studying diatopic and diachronic changes in dialect NLP, but there is currently no research exploring the intersection of both. Our work aims to fill this gap by systematically reviewing diachronic and diatopic papers from a unified perspective. In this work, we critically assess nine tasks and datasets across five dialects from three language families (Slavic, Romance, and Germanic) in both spoken and written modalities. The tasks covered are diverse, including corpus construction, dialect distance estimation, and dialect geolocation prediction, among others. Moreover, we outline five open challenges regarding changes in dialect use over time, the reliability of dialect datasets, the importance of speaker characteristics, limited coverage of dialects, and ethical considerations in data collection. We hope that our work sheds light on future research towards inclusive computational methods and datasets for language varieties and dialects.
翻訳日:2024-07-08 17:23:59 公開日:2024-07-04
# ブロックチェーンネットワークのための協調学習によるリアルタイムサイバー攻撃検出

Real-time Cyberattack Detection with Collaborative Learning for Blockchain Networks ( http://arxiv.org/abs/2407.04011v1 )

ライセンス: Link先を確認
Tran Viet Khoa, Do Hai Son, Dinh Thai Hoang, Nguyen Linh Trung, Tran Thi Thuy Quynh, Diep N. Nguyen, Nguyen Viet Ha, Eryk Dutkiewicz, (参考訳) ブロックチェーンアプリケーションの人気が絶え間なく高まる中、ブロックチェーンネットワークのセキュア化は、これらのサイバーシステムにおいて重要な役割を担っている。 本稿では,ブロックチェーンネットワークにおけるサイバーアタック(トランザクションの洪水,ブルートパスなど)を最初に研究し,ブロックチェーンネットワークを保護するための効果的な協調型サイバーアタック検出モデルを提案する。 具体的には、通常のトラフィックデータとアタックトラフィックデータの両方を含む新しいデータセットを構築するために、ブロックチェーンネットワークを研究室にデプロイします。 このデータセットの主な目的は、ブロックチェーン攻撃検出モデルのトレーニングとテストに使用できるブロックチェーンネットワーク内のさまざまなノードから、実際の攻撃データを生成することだ。 次に,ネットワーク内のノードがプライベートデータを公開せずに学習知識を共有できるリアルタイム協調学習モデルを提案し,ネットワーク全体のシステム性能を大幅に向上させる。 シミュレーションとリアルタイム実験の結果から,ブロックチェーンネットワーク内の攻撃を最大97%の精度で検出できることがわかった。

With the ever-increasing popularity of blockchain applications, securing blockchain networks plays a critical role in these cyber systems. In this paper, we first study cyberattacks (e.g., flooding of transactions, brute pass) in blockchain networks and then propose an efficient collaborative cyberattack detection model to protect blockchain networks. Specifically, we deploy a blockchain network in our laboratory to build a new dataset including both normal and attack traffic data. The main aim of this dataset is to generate actual attack data from different nodes in the blockchain network that can be used to train and test blockchain attack detection models. We then propose a real-time collaborative learning model that enables nodes in the network to share learning knowledge without disclosing their private data, thereby significantly enhancing system performance for the whole network. The extensive simulation and real-time experimental results show that our proposed detection model can detect attacks in the blockchain network with an accuracy of up to 97%.
翻訳日:2024-07-08 17:23:59 公開日:2024-07-04
# 多部絡み合い分布の量子トランスダクションのモデル化

Modelling Quantum Transduction for Multipartite Entanglement Distribution ( http://arxiv.org/abs/2407.04015v1 )

ライセンス: Link先を確認
Laura d'Avossa, Angela Sara Cacciapuoti, Marcello Caleffi, (参考訳) 超伝導とフォトニック技術は、量子インターネットにおいて重要な役割を果たすと想定されている。 しかし、これらの技術のハイブリッド化は、超伝導量子ビットをネットワークを介して伝播できる「フライング」量子ビットに変換する機能量子トランスデューサを必要とする。 本稿では,量子インターネットの重要な機能,すなわち複数粒子の絡み合い分布について理論的に検討する。 エンタングルメント分布を可能にするために、量子トランスダクションのための異なる通信モデルが提供される。 提案したモデルは、通信工学の観点から特定のソリューションの特質を抽象化して、文献で利用可能なハードウェアソリューションの大規模な不均一性から逸脱する。 次に,提案モデルの性能解析を,量子容量や絡み合い発生確率などの重要な通信指標を用いて行う。 この分析によると、考慮された通信メトリクスは、提案されたすべてのモデルのトランスダクションハードウェアパラメータに依存するが、考慮されたトランスダクションパラダイムの特色は、全体的な絡み合い分布性能において重要な役割を果たす。

Superconducting and photonic technologies are envisioned to play a key role in the Quantum Internet. However the hybridization of these technologies requires functional quantum transducers for converting superconducting qubits into "flying" qubits able to propagate through the network (and vice-versa). In this paper, quantum transduction is theoretically investigated for a key functionality of the Quantum Internet, namely, multipartite entanglement distribution. Different communication models for quantum transduction are provided, in order to make the entanglement distribution possible. The proposed models departs from the large heterogeneity of hardware solutions available in literature, abstracting from the particulars of the specific solutions with a communication engineering perspective. Then, a performance analysis of the proposed models is conducted through key communication metrics, such as quantum capacity and entanglement generation probability. The analysis reveals that -- although the considered communication metrics depend on transduction hardware parameters for all the proposed models -- the particulars of the considered transduction paradigm play a relevant role in the overall entanglement distribution performance.
翻訳日:2024-07-08 17:23:59 公開日:2024-07-04
# 低周波バイアスの緩和 : 対側ロバスト性に対する特徴補正と周波数注意規則化

Mitigating Low-Frequency Bias: Feature Recalibration and Frequency Attention Regularization for Adversarial Robustness ( http://arxiv.org/abs/2407.04016v1 )

ライセンス: Link先を確認
Kejia Zhang, Juanjuan Weng, Yuanzheng Cai, Zhiming Luo, Shaozi Li, (参考訳) コンピュータビジョンモデルの敵攻撃に対する堅牢性を保証することは、重要かつ長期間の目標である。 敵の攻撃によって動機づけられた研究者は、敵の訓練(AT)によるモデル堅牢性の向上に多大な努力を払ってきた。 しかし,ATは逆方向の摂動に対するモデルの頑健性を向上するが,全ての周波数成分の機能を効果的に抽出する能力は向上しない。 低周波の特徴は基本的な構造的な洞察を与え、高周波の特徴は複雑な詳細やテクスチャを捉えている。 特にATは、感受性の高い高周波特性への依存を無視する傾向にある。 この低周波バイアスは、高周波の特徴に含まれる潜在的意味のある意味情報を効果的に活用するモデルの能力を阻害する。 本稿では,HFDR(High-Frequency Feature Disentanglement and Recalibration)と呼ばれる新しいモジュールを提案する。 さらに、周波数アテンション正規化を導入し、異なる周波数特徴の抽出を行い、AT中の低周波バイアスを軽減する。 大規模な実験は、様々なホワイトボックス攻撃、転送攻撃、および強力な一般化能力に対する我々のアプローチの持つ大きな可能性と優位性を示している。

Ensuring the robustness of computer vision models against adversarial attacks is a significant and long-lasting objective. Motivated by adversarial attacks, researchers have devoted considerable efforts to enhancing model robustness by adversarial training (AT). However, we observe that while AT improves the models' robustness against adversarial perturbations, it fails to improve their ability to effectively extract features across all frequency components. Each frequency component contains distinct types of crucial information: low-frequency features provide fundamental structural insights, while high-frequency features capture intricate details and textures. In particular, AT tends to neglect the reliance on susceptible high-frequency features. This low-frequency bias impedes the model's ability to effectively leverage the potentially meaningful semantic information present in high-frequency features. This paper proposes a novel module called High-Frequency Feature Disentanglement and Recalibration (HFDR), which separates features into high-frequency and low-frequency components and recalibrates the high-frequency feature to capture latent useful semantics. Additionally, we introduce frequency attention regularization to magnitude the model's extraction of different frequency features and mitigate low-frequency bias during AT. Extensive experiments showcase the immense potential and superiority of our approach in resisting various white-box attacks, transfer attacks, and showcasing strong generalization capabilities.
翻訳日:2024-07-08 17:23:59 公開日:2024-07-04
# 現代ソフトウェアモダナイゼーション:レガシーシステムへの取り組みの展望と課題

Contemporary Software Modernization: Perspectives and Challenges to Deal with Legacy Systems ( http://arxiv.org/abs/2407.04017v1 )

ライセンス: Link先を確認
Wesley K. G. Assunção, Luciano Marchezan, Alexander Egyed, Rudolf Ramler, (参考訳) ソフトウェア・モダナイゼーションはソフトウェア工学の本質的な活動であり、テクノロジーの進歩とシステムは必然的に時代遅れになる。 ソフトウェア・モダナイゼーション(ソフトウェア・モダナイゼーション)という用語は、2000年代初頭に研究トピックとして登場し、従来のソフトウェアの発展とは区別された。 このトピックの研究は、新しいプログラミングパラダイム、技術、アーキテクチャスタイルによって人気を博した。 ソフトウェアが広範に普及していることを考えると、レガシーシステムの近代化は、ユーザに競争力があり革新的な製品やサービスを提供する上で最重要である。 書物には膨大な量の作品があるが、大きな限界がある。 (i) 提案されたアプローチは、1つのシナリオまたは技術に厳密に特有であり、柔軟性に欠ける。 (ii)提案されたアプローチのほとんどは、現在の現代的なソフトウェア開発シナリオと一致していない。 (三)先進的な近代化のアプローチが無数にあるため、実践者は正統性の近代化の仕方について誤認されることがある。 本研究の目的は、明確に定義されたソフトウェアモダナイゼーションドメインへの研究と実践の進歩の必要性に注意を向けることです。 その焦点は、破壊的で新興技術の利点を生かしながら、レガシーシステムで表される知識を組織が保持できるようにすることである。 この目標に基づいて、ソフトウェア近代化の異なる視点を、現代のソフトウェア開発の文脈に置きました。 また,新たな研究を動機付けるために,10の課題を伴う研究課題も提示する。

Software modernization is an inherent activity of software engineering, as technology advances and systems inevitably become outdated. The term "software modernization" emerged as a research topic in the early 2000s, with a differentiation from traditional software evolution. Studies on this topic became popular due to new programming paradigms, technologies, and architectural styles. Given the pervasive nature of software today, modernizing legacy systems is paramount to provide users with competitive and innovative products and services. Despite the large amount of work available in the literature, there are significant limitations: (i) proposed approaches are strictly specific to one scenario or technology, lacking flexibility; (ii) most of the proposed approaches are not aligned with the current modern software development scenario; and (iii) due to a myriad of proposed modernization approaches, practitioners may be misguided on how to modernize legacies. In this work, our goal is to call attention to the need for advances in research and practices toward a well-defined software modernization domain. The focus is on enabling organizations to preserve the knowledge represented in legacy systems while taking advantages of disruptive and emerging technologies. Based on this goal, we put the different perspectives of software modernization in the context of contemporary software development. We also present a research agenda with 10 challenges to motivate new studies.
翻訳日:2024-07-08 17:23:59 公開日:2024-07-04
# LLMAEL: 大規模言語モデルはエンティティリンクに適したコンテキスト拡張ツールである

LLMAEL: Large Language Models are Good Context Augmenters for Entity Linking ( http://arxiv.org/abs/2407.04020v1 )

ライセンス: Link先を確認
Amy Xin, Yunjia Qi, Zijun Yao, Fangwei Zhu, Kaisheng Zeng, Xu Bin, Lei Hou, Juanzi Li, (参考訳) エンティティリンク(EL)モデルは、所定のコンテキストに従って対応するエンティティへの参照のマッピングにおいて、十分にトレーニングされている。 しかし、ELモデルは訓練データに制限があるため、ロングテールエンティティの曖昧化に苦慮している。 一方、大きな言語モデル(LLM)は、一般的でない言及を解釈する上で、より堅牢である。 しかし、専門訓練の欠如により、LSMは正しいエンティティIDを生成するのに苦しむ。 さらに、ELを実行するためのLCMの訓練はコストがかかる。 これらの知見に基づいて,LLMデータ拡張によるエンティティリンクを強化するプラグイン・アンド・プレイアプローチであるLLMAELを導入する。 我々は、LLMを知識のあるコンテキスト拡張として活用し、タスク固有処理のための従来のELモデルを保持しながら、参照中心の記述を追加入力として生成する。 6つの標準データセットの実験では、バニラLLMAELはベースラインELモデルよりも優れており、細調整されたLLMAELは6つのベンチマークすべてで新しい最先端の結果を設定している。

Entity Linking (EL) models are well-trained at mapping mentions to their corresponding entities according to a given context. However, EL models struggle to disambiguate long-tail entities due to their limited training data. Meanwhile, large language models (LLMs) are more robust at interpreting uncommon mentions. Yet, due to a lack of specialized training, LLMs suffer at generating correct entity IDs. Furthermore, training an LLM to perform EL is cost-intensive. Building upon these insights, we introduce LLM-Augmented Entity Linking LLMAEL, a plug-and-play approach to enhance entity linking through LLM data augmentation. We leverage LLMs as knowledgeable context augmenters, generating mention-centered descriptions as additional input, while preserving traditional EL models for task specific processing. Experiments on 6 standard datasets show that the vanilla LLMAEL outperforms baseline EL models in most cases, while the fine-tuned LLMAEL set the new state-of-the-art results across all 6 benchmarks.
翻訳日:2024-07-08 17:23:59 公開日:2024-07-04
# 教師なしアウト・オブ・ディストリビューション検出のための非線形不変点の学習

Learning Non-Linear Invariants for Unsupervised Out-of-Distribution Detection ( http://arxiv.org/abs/2407.04022v1 )

ライセンス: Link先を確認
Lars Doorenbos, Raphael Sznitman, Pablo Márquez-Neila, (参考訳) 未知の分布から引き出されたデータを扱うディープラーニングモデルの欠如は、信頼できるディープラーニングモデルにとって不可欠であるため、教師なし配布(U-OOD)検出に大きな関心を呼んだ。 かなりの注意を払っているにもかかわらず、理論上動機付けられたアプローチはほとんどなく、ほとんどの手法はある種のヒューリスティックの上に構築されている。 近年、U-OODはデータ不変性の文脈で形式化され、U-OODのキャラクタリゼーションの仕方をより明確に理解できるようになった。 それでも、アフィン不変量に対する制限は、アプローチの表現性を妨げている。 本研究では, より一般的なケースにアフィン不変量の定式化を拡張し, 非線型不変量学習が可能な正規化フロー様アーキテクチャからなるフレームワークを提案する。 提案手法は,U-OOD ベンチマークによる最新結果を実現し,表計算データに適用可能であることを示す。 最後に,アフィン不変量に基づく手法と同じ望ましい性質を持つことを示す。

The inability of deep learning models to handle data drawn from unseen distributions has sparked much interest in unsupervised out-of-distribution (U-OOD) detection, as it is crucial for reliable deep learning models. Despite considerable attention, theoretically-motivated approaches are few and far between, with most methods building on top of some form of heuristic. Recently, U-OOD was formalized in the context of data invariants, allowing a clearer understanding of how to characterize U-OOD, and methods leveraging affine invariants have attained state-of-the-art results on large-scale benchmarks. Nevertheless, the restriction to affine invariants hinders the expressiveness of the approach. In this work, we broaden the affine invariants formulation to a more general case and propose a framework consisting of a normalizing flow-like architecture capable of learning non-linear invariants. Our novel approach achieves state-of-the-art results on an extensive U-OOD benchmark, and we demonstrate its further applicability to tabular data. Finally, we show our method has the same desirable properties as those based on affine invariants.
翻訳日:2024-07-08 17:23:59 公開日:2024-07-04
# ハイパースペクトル画像再構成のための非局所的ハイブリッド注意を用いた適応的なステップサイズ知覚展開ネットワーク

Adaptive Step-size Perception Unfolding Network with Non-local Hybrid Attention for Hyperspectral Image Reconstruction ( http://arxiv.org/abs/2407.04024v1 )

ライセンス: Link先を確認
Yanan Yang, Like Xin, (参考訳) 深部展開法とトランスフォーマーアーキテクチャは近年,ハイパースペクトル画像(HSI)再構成の有望な成果を示している。 しかし、(1)データサブプロブレムでは、ほとんどのメソッドは学習可能なパラメータを使ったステップ化を表す。 しかし、異なるスペクトルチャネルでは、特徴と基底真理の誤差は不等である。 2)トランスフォーマーは,受動的フィールドサイズと画素単位の詳細情報とのバランスをとるのに苦労する。 以上の欠点を克服するために、適応的なステップサイズ認識モジュールを用いて各スペクトルチャネルの更新ステップサイズを推定する、FISTAアルゴリズムに基づく深層展開ネットワークである適応ステップサイズ認識展開ネットワーク(ASPUN)を提案した。 さらに,非局所的ハイブリッドアテンショントランス (NHAT) モジュールを設計し,コンバータの受容場特性をフル活用する。 NLHAをNon-local Information Aggregation (NLIA)モジュールに接続することで、展開ネットワークはより良い再構築結果が得られる。 実験の結果, ASPUNは既存のSOTAアルゴリズムよりも優れ, 最高の性能が得られることがわかった。

Deep unfolding methods and transformer architecture have recently shown promising results in hyperspectral image (HSI) reconstruction. However, there still exist two issues: (1) in the data subproblem, most methods represents the stepsize utilizing a learnable parameter. Nevertheless, for different spectral channel, error between features and ground truth is unequal. (2) Transformer struggles to balance receptive field size with pixel-wise detail information. To overcome the aforementioned drawbacks, We proposed an adaptive step-size perception unfolding network (ASPUN), a deep unfolding network based on FISTA algorithm, which uses an adaptive step-size perception module to estimate the update step-size of each spectral channel. In addition, we design a Non-local Hybrid Attention Transformer(NHAT) module for fully leveraging the receptive field advantage of transformer. By plugging the NLHA into the Non-local Information Aggregation (NLIA) module, the unfolding network can achieve better reconstruction results. Experimental results show that our ASPUN is superior to the existing SOTA algorithms and achieves the best performance.
翻訳日:2024-07-08 17:23:59 公開日:2024-07-04
# ハイブリッド雑音下でのロバスト学習

Robust Learning under Hybrid Noise ( http://arxiv.org/abs/2407.04029v1 )

ライセンス: Link先を確認
Yang Wei, Shuo Chen, Shanshan Ye, Bo Han, Chen Gong, (参考訳) 機能ノイズとラベルノイズは、実践的なシナリオにおいてユビキタスであり、堅牢な機械学習モデルをトレーニングする上で大きな課題となる。 従来のほとんどのアプローチは、通常、特徴ノイズまたはラベルノイズのどちらかの1つの問題にのみ対処する。 しかし、実世界のアプリケーションでは、特徴ノイズとラベルノイズの両方を含むハイブリッドノイズは、信頼できないデータ収集とアノテーションプロセスのために非常に一般的である。 いくつかの結果はいくつかの表現学習に基づく試みによって達成されているが、この問題は有望な性能と理論解析によって解決されるには程遠い。 この課題に対処するために,データリカバリの観点からハイブリッドノイズに対処する新たな統合学習フレームワーク"Feature and Label Recovery"(FLR)を提案し,入力データの特徴行列とラベル行列の両方を同時に再構築する。 具体的には, クリーンな特徴行列を低ランク近似により検出し, 核ノルム正則化により得られた特徴に基づいて接地トラスラベル行列を埋め込む。 一方、特徴雑音とラベル雑音は、それぞれの適応行列ノルムによって特徴付けられ、対応する最大可能性を満たす。 このフレームワークが非凸最適化問題につながるため、学習目的を解決するための収束保証を備えた非凸代替乗算器方向法(ADMM)を開発した。 また,FLRの一般化誤差がハイブリッド雑音の存在下で上界に収まることを示す理論的解析を行った。 いくつかの典型的なベンチマークデータセットに対する実験結果から,提案手法が各種雑音に対する最先端の頑健な学習手法よりも優れていることが示された。

Feature noise and label noise are ubiquitous in practical scenarios, which pose great challenges for training a robust machine learning model. Most previous approaches usually deal with only a single problem of either feature noise or label noise. However, in real-world applications, hybrid noise, which contains both feature noise and label noise, is very common due to the unreliable data collection and annotation processes. Although some results have been achieved by a few representation learning based attempts, this issue is still far from being addressed with promising performance and guaranteed theoretical analyses. To address the challenge, we propose a novel unified learning framework called "Feature and Label Recovery" (FLR) to combat the hybrid noise from the perspective of data recovery, where we concurrently reconstruct both the feature matrix and the label matrix of input data. Specifically, the clean feature matrix is discovered by the low-rank approximation, and the ground-truth label matrix is embedded based on the recovered features with a nuclear norm regularization. Meanwhile, the feature noise and label noise are characterized by their respective adaptive matrix norms to satisfy the corresponding maximum likelihood. As this framework leads to a non-convex optimization problem, we develop the non-convex Alternating Direction Method of Multipliers (ADMM) with the convergence guarantee to solve our learning objective. We also provide the theoretical analysis to show that the generalization error of FLR can be upper-bounded in the presence of hybrid noise. Experimental results on several typical benchmark datasets clearly demonstrate the superiority of our proposed method over the state-of-the-art robust learning approaches for various noises.
翻訳日:2024-07-08 17:23:59 公開日:2024-07-04
# Beyond Pixels: マルチスケールパッチベースマルチラベル分類器による半スーパービジョンセマンティックセマンティックセマンティックセグメンテーション

Beyond Pixels: Semi-Supervised Semantic Segmentation with a Multi-scale Patch-based Multi-Label Classifier ( http://arxiv.org/abs/2407.04036v1 )

ライセンス: Link先を確認
Prantik Howlader, Srijan Das, Hieu Le, Dimitris Samaras, (参考訳) ピクセルコンテキスト情報を組み込むことは、正確なセグメンテーションに不可欠である。 本稿では,文脈情報を組み込む効果的な方法は,パッチベースの分類器によるものであることを示す。 このパッチ分類器は、画像領域内に存在するクラスを識別するように訓練され、イントラクタの除去を容易にし、小さなオブジェクトセグメントの分類を強化する。 具体的には、既存の半教師付きセグメンテーション(SSS)フレームワーク用に設計された新しいプラグインモジュールであるMPMC(Multiscale Patch-based Multi-label Classifier)を紹介する。 MPMCはパッチレベルの監視を提供し、パッチ内の異なるクラスのピクセル領域の識別を可能にする。 さらに、MPMCは、教師のうるさい疑似ラベル監視の影響を軽減するために、パッチレベルの分類を用いて適応的な擬似ラベル重みを学習する。 この軽量モジュールは任意のSSSフレームワークに統合することができ、パフォーマンスを大幅に向上させることができる。 提案手法を4つのSSS手法に統合し、2つの自然な画像と1つの医学的セグメンテーションデータセットにわたって改善することにより,提案手法の有効性を実証する。

Incorporating pixel contextual information is critical for accurate segmentation. In this paper, we show that an effective way to incorporate contextual information is through a patch-based classifier. This patch classifier is trained to identify classes present within an image region, which facilitates the elimination of distractors and enhances the classification of small object segments. Specifically, we introduce Multi-scale Patch-based Multi-label Classifier (MPMC), a novel plug-in module designed for existing semi-supervised segmentation (SSS) frameworks. MPMC offers patch-level supervision, enabling the discrimination of pixel regions of different classes within a patch. Furthermore, MPMC learns an adaptive pseudo-label weight, using patch-level classification to alleviate the impact of the teacher's noisy pseudo-label supervision the student. This lightweight module can be integrated into any SSS framework, significantly enhancing their performance. We demonstrate the efficacy of our proposed MPMC by integrating it into four SSS methodologies and improving them across two natural image and one medical segmentation dataset, notably improving the segmentation results of the baselines across all the three datasets.
翻訳日:2024-07-08 17:23:59 公開日:2024-07-04
# クロスビュー型自己監督型周辺深度推定に向けて

Towards Cross-View-Consistent Self-Supervised Surround Depth Estimation ( http://arxiv.org/abs/2407.04041v1 )

ライセンス: Link先を確認
Laiyan Ding, Hualie Jiang, Jie Li, Yongquan Chen, Rui Huang, (参考訳) 深度推定は自動運転の基盤であるが、教師あり学習のための画素ごとの深度基底真理の取得は困難である。 連続画像からSSSDE(Self-Supervised Surround Depth Estimation)が経済的代替手段を提供する。 従来のSSSDE法では、画像間で情報を融合する異なるメカニズムが提案されているが、特に重複する領域において、クロスビューの制約を明示的に考慮する者はほとんどいない。 本稿では,SSSDEのクロスビュー一貫性を高めるために,効率的で一貫したポーズ推定設計と2つの損失関数を提案する。 ポーズ推定のために、トレーニングメモリの削減とポーズ推定一貫性の維持のために、フロントビュー画像のみを使用することを提案する。 第1の損失関数は、重なり合う領域における予測された深さの差を罰する密度の深さ一貫性損失である。 2つ目は、空間的・時間的文脈からの再構成の整合性を維持することを目的とした多視点再構成整合性損失である。 さらに,さらなる性能向上を図るために,新規なフリップ拡張を導入する。 本手法により,DDADデータセットとnuScenesデータセット上での最先端のパフォーマンスを実現することができる。 最後に,提案手法を他の手法にも容易に適用することができる。 コードは公開されます。

Depth estimation is a cornerstone for autonomous driving, yet acquiring per-pixel depth ground truth for supervised learning is challenging. Self-Supervised Surround Depth Estimation (SSSDE) from consecutive images offers an economical alternative. While previous SSSDE methods have proposed different mechanisms to fuse information across images, few of them explicitly consider the cross-view constraints, leading to inferior performance, particularly in overlapping regions. This paper proposes an efficient and consistent pose estimation design and two loss functions to enhance cross-view consistency for SSSDE. For pose estimation, we propose to use only front-view images to reduce training memory and sustain pose estimation consistency. The first loss function is the dense depth consistency loss, which penalizes the difference between predicted depths in overlapping regions. The second one is the multi-view reconstruction consistency loss, which aims to maintain consistency between reconstruction from spatial and spatial-temporal contexts. Additionally, we introduce a novel flipping augmentation to improve the performance further. Our techniques enable a simple neural model to achieve state-of-the-art performance on the DDAD and nuScenes datasets. Last but not least, our proposed techniques can be easily applied to other methods. The code will be made public.
翻訳日:2024-07-08 17:23:59 公開日:2024-07-04
# トロッター-加藤分裂の収束率

Convergence rates for the Trotter-Kato splitting ( http://arxiv.org/abs/2407.04045v1 )

ライセンス: Link先を確認
Simon Becker, Niklas Galke, Robert Salzmann, Lauritz van Luijk, (参考訳) 強い作用素位相において、トロッター・カトー分割の収束速度は$e^{A+L} = \lim_{n \to \infty} (e^{L/n} e^{A/n})^n$である。 まず、複素補間理論を用いて、バナッハ空間上の生成元 $L$ と $A$ の縮約半群を、相対的な $A$-有界な$L$ で扱う。 第2部では、ヒルベルト空間上のユニタリダイナミクスを研究し、エネルギー制約の概念に基づく新しい手法を開発する。 以上の結果から, 単数, 精細, 磁気ベクトルポテンシャル, および次元$d=3$の分子多体ハミルトニアンを含む, 一般的なシュリンガー作用素とディラック作用素のトロッター分裂の収束率の完全な図式が得られた。 Brezis-Mironescuの不等式を用いて、$V(x)=\pm |x|^{-a}$ potential を持つシュル・オジンガー作用素の収束率を導出する。 いずれの場合も、我々の条件は完全に明確である。

We study convergence rates of the Trotter-Kato splitting $e^{A+L} = \lim_{n \to \infty} (e^{L/n} e^{A/n})^n$ in the strong operator topology. In the first part, we use complex interpolation theory to treat generators $L$ and $A$ of contraction semigroups on Banach spaces, with $L$ relatively $A$-bounded. In the second part, we study unitary dynamics on Hilbert spaces and develop a new technique based on the concept of energy constraints. Our results provide a complete picture of the convergence rates for the Trotter splitting for all common types of Schr\"odinger and Dirac operators, including singular, confining and magnetic vector potentials, as well as molecular many-body Hamiltonians in dimension $d=3$. Using the Brezis-Mironescu inequality, we derive convergence rates for the Schr\"odinger operator with $V(x)=\pm |x|^{-a}$ potential. In each case, our conditions are fully explicit.
翻訳日:2024-07-08 17:23:59 公開日:2024-07-04
# LLMを用いたシステマティックタスク探索:Citation Text Generationにおける検討

Systematic Task Exploration with LLMs: A Study in Citation Text Generation ( http://arxiv.org/abs/2407.04046v1 )

ライセンス: Link先を確認
Furkan Şahinuç, Ilia Kuznetsov, Yufang Hou, Iryna Gurevych, (参考訳) 大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。 しかし、この柔軟性は、タスクインプットと命令を定式化し、モデルパフォーマンスを評価するという新しい自由度を導入することで、新たな課題をもたらします。 創造的なNLGタスクの探索を容易にするため、系統的な入力操作、参照データ、出力測定からなる3成分研究フレームワークを提案する。 我々は、このフレームワークを用いて引用テキスト生成を探索する。これは、タスク定義と評価基準のコンセンサスに欠ける人気のあるNLPタスクであり、まだLLMパラダイムの中で取り組まれていない。 提案手法は,LLMを誘導する際のタスク命令と入力構成の両方を体系的に調査することの重要性を強調し,引用テキスト生成に使用する異なる評価指標間の非自明な関係を明らかにする。 追加の人的生成および人的評価実験は、引用テキスト生成における将来の研究を導くためのタスクに関する新しい質的な洞察を提供する。 コードとデータを公開しています。

Large language models (LLMs) bring unprecedented flexibility in defining and executing complex, creative natural language generation (NLG) tasks. Yet, this flexibility brings new challenges, as it introduces new degrees of freedom in formulating the task inputs and instructions and in evaluating model performance. To facilitate the exploration of creative NLG tasks, we propose a three-component research framework that consists of systematic input manipulation, reference data, and output measurement. We use this framework to explore citation text generation -- a popular scholarly NLP task that lacks consensus on the task definition and evaluation metric and has not yet been tackled within the LLM paradigm. Our results highlight the importance of systematically investigating both task instruction and input configuration when prompting LLMs, and reveal non-trivial relationships between different evaluation metrics used for citation text generation. Additional human generation and human evaluation experiments provide new qualitative insights into the task to guide future research in citation text generation. We make our code and data publicly available.
翻訳日:2024-07-08 17:23:59 公開日:2024-07-04
# 教師なし音声合成に基づくデータ拡張によるアクセント音声認識の改善

Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis ( http://arxiv.org/abs/2407.04047v1 )

ライセンス: Link先を確認
Cong-Thanh Do, Shuhei Imai, Rama Doddipatla, Thomas Hain, (参考訳) 本稿では、アクセント付き音声認識を改善するためのデータ拡張手法として、教師なし音声合成(TTS)の使用について検討する。 TTSシステムは、手書き文字起こしではなく、少量のアクセント付き音声訓練データと擬似ラベルで訓練されており、教師なしである。 この手法により,アクセント付き音声認識のためのデータ拡張を行うために,手書きの書き起こしを伴わないアクセント付き音声データを使用することが可能である。 TTSシステムを用いてテキストプロンプトから生成された合成アクセント音声データを、利用可能な非アクセント音声データと組み合わせて自動音声認識(ASR)システムの訓練を行う。 ASR実験は、大量の教師なしアクセント付き音声データに基づいて事前訓練されたWav2vec2.0モデルを用いて、自己教師付き学習フレームワークで実施される。 教師なしTSを訓練するためのアクセント付き音声データは、L2−ARCTICとBritish Isles corporaから選択された読み上げ音声であり、また、英語コーパスのエディンバラ国際アクセントからの自発的な会話音声が評価データとして使用される。 実験結果から, 教師なしTTSが生成した合成アクセント音声データを用いて, 下流ASRタスクに微調整した Wav2vec2.0 モデルは, Librispeech corpus の非アクセント音声データと微調整した Wav2vec2.0 ベースラインと比較して, 最大6.1% の単語誤り率の低減が得られることがわかった。

This paper investigates the use of unsupervised text-to-speech synthesis (TTS) as a data augmentation method to improve accented speech recognition. TTS systems are trained with a small amount of accented speech training data and their pseudo-labels rather than manual transcriptions, and hence unsupervised. This approach enables the use of accented speech data without manual transcriptions to perform data augmentation for accented speech recognition. Synthetic accented speech data, generated from text prompts by using the TTS systems, are then combined with available non-accented speech data to train automatic speech recognition (ASR) systems. ASR experiments are performed in a self-supervised learning framework using a Wav2vec2.0 model which was pre-trained on large amount of unsupervised accented speech data. The accented speech data for training the unsupervised TTS are read speech, selected from L2-ARCTIC and British Isles corpora, while spontaneous conversational speech from the Edinburgh international accents of English corpus are used as the evaluation data. Experimental results show that Wav2vec2.0 models which are fine-tuned to downstream ASR task with synthetic accented speech data, generated by the unsupervised TTS, yield up to 6.1% relative word error rate reductions compared to a Wav2vec2.0 baseline which is fine-tuned with the non-accented speech data from Librispeech corpus.
翻訳日:2024-07-08 17:23:59 公開日:2024-07-04
# 薄膜ニオブ酸リチウムの時ビン絡みベル状態発生とトモグラフィー

Time-bin entangled Bell state generation and tomography on thin-film lithium niobate ( http://arxiv.org/abs/2407.04048v1 )

ライセンス: Link先を確認
Giovanni Finco, Filippo Miserocchi, Andreas Maeder, Jost Kellner, Alessandra Sabatti, Robert J. Chapman, Rachel Grange, (参考訳) 光量子通信技術は、無条件で安全で効率的な情報転送の実現を期待している。 光の量子状態の生成と確実に検出する可能性、さらにプライベートなデータレートを増やす必要性は、ほとんどの研究努力が焦点を当てているところである。 エンタングルメントの物理的概念は、デバイスに依存しないスキームにおける最高レベルのセキュリティを保証するソリューションであるが、長い通信リンクの実装と保存は困難である。 ニオブ酸リチウムイオン絶縁体は、高速な古典的通信のための革命的プラットフォームとして登場し、光子対を効率よく生成できる2階の大きな非線形性のため、量子情報応用に等しく適している。 本研究では, ファイバー光通信波長におけるニオブ酸リチウムイオン絶縁体フォトニクスを用いて, 時間ビンベースで最大エンタングルド量子状態を生成し, 量子トモグラフィーにより密度行列を再構成する。 我々は、242MHz/mWの波長を持つ絡み合った量子ビットの源として、オンチップの周期的なニオブ酸リチウムを使用し、91.9+-1.0%の忠実度で量子トモグラフィーを行う。 我々の結果は、ニオブ酸リチウムの電気光学帯域の確立と相まって、このプラットフォームが情報セキュリティを実現するために絡み合いを利用する繊維結合型高速時間ビン量子通信モジュールを実現するための完璧な候補であることを示す。

Optical quantum communication technologies are making the prospect of unconditionally secure and efficient information transfer a reality. The possibility of generating and reliably detecting quantum states of light, with the further need of increasing the private data-rate is where most research efforts are focusing. The physical concept of entanglement is a solution guaranteeing the highest degree of security in device-independent schemes, yet its implementation and preservation over long communication links is hard to achieve. Lithium niobate-on-insulator has emerged as a revolutionising platform for high-speed classical telecommunication and is equally suited for quantum information applications owing to the large second-order nonlinearities that can efficiently produce entangled photon pairs. In this work, we generate maximally entangled quantum states in the time-bin basis using lithium niobate-on-insulator photonics at the fibre optics telecommunication wavelength, and reconstruct the density matrix by quantum tomography on a single photonic integrated circuit. We use on-chip periodically-poled lithium niobate as source of entangled qubits with a brightness of 242 MHz/mW and perform quantum tomography with a fidelity of 91.9+-1.0 %. Our results, combined with the established large electro-optic bandwidth of lithium niobate, showcase the platform as perfect candidate to realise fibre-coupled, high-speed time-bin quantum communication modules that exploit entanglement to achieve information security.
翻訳日:2024-07-08 17:14:12 公開日:2024-07-04
# ポイントの集合としての業務

Occupancy as Set of Points ( http://arxiv.org/abs/2407.04049v1 )

ライセンス: Link先を確認
Yiang Shi, Tianheng Cheng, Qian Zhang, Wenyu Liu, Xinggang Wang, (参考訳) 本稿では,複数視点画像からの3次元占有予測のための新しい点表現について検討する。 既存のカメラベースの手法では、シーン全体の占有率を予測するために、密度の高いボリュームベースの表現を利用する傾向があるため、知覚範囲外の特別な領域や領域に焦点を合わせることは困難である。 それに対して,本論文では,このシーンを表現するためのPoI(Points of Interest)を提案し,ポイントベースの3D占有予測のための新しいフレームワークであるOSPを提案する。 ポイントベース表現の固有の柔軟性のため、OSPは既存の手法と比較して高い性能を達成し、トレーニングや推論の適応性の点で優れている。 従来の知覚境界を超えて拡張され、ボリュームベースの手法とシームレスに統合することで、その効果を著しく向上することができる。 Occ3D nuScenes占有ベンチマークの実験によると、OSPはパフォーマンスと柔軟性が強い。 コードとモデルは \url{https://github.com/hustvl/osp} で公開されている。

In this paper, we explore a novel point representation for 3D occupancy prediction from multi-view images, which is named Occupancy as Set of Points. Existing camera-based methods tend to exploit dense volume-based representation to predict the occupancy of the whole scene, making it hard to focus on the special areas or areas out of the perception range. In comparison, we present the Points of Interest (PoIs) to represent the scene and propose OSP, a novel framework for point-based 3D occupancy prediction. Owing to the inherent flexibility of the point-based representation, OSP achieves strong performance compared with existing methods and excels in terms of training and inference adaptability. It extends beyond traditional perception boundaries and can be seamlessly integrated with volume-based methods to significantly enhance their effectiveness. Experiments on the Occ3D nuScenes occupancy benchmark show that OSP has strong performance and flexibility. Code and models are available at \url{https://github.com/hustvl/osp}.
翻訳日:2024-07-08 17:14:12 公開日:2024-07-04
# ファウンデーションモデルに基づくエンティティ・ターゲット感覚分析に向けた深いコンテンツ理解

Deep Content Understanding Toward Entity and Aspect Target Sentiment Analysis on Foundation Models ( http://arxiv.org/abs/2407.04050v1 )

ライセンス: Link先を確認
Vorakit Vorakitphan, Milos Basic, Guilhaume Leroy Meline, (参考訳) Entity-Aspect Sentiment Triplet extract (EASTE)は、Aspect-Based Sentiment Analysis (ABSA)タスクで、アスペクトカテゴリ(例えば、食事、飲み物)とアスペクト(例えば、味、新鮮さ)に分離することで、ターゲット-Aspect-Sentiment Detection (TASD)を拡張する。 Flan-T5, Flan-Ul2 to Llama2, Llama3, Mixtralなどのテキスト生成モデルに対して, ゼロ/ファウショット学習, Low-Rank Adaptation (LoRA) のようなパラメータ有効微調整 (PEFT) など, 異なるアライメント技術を用いて, BERTアーキテクチャを用いたトークン分類タスクを用いて, トランスフォーマアーキテクチャに基づく言語モデルのEASTE問題解決機能を実現する。 モデル性能はSamEval-2016ベンチマークデータセットで評価され、既存の研究との公正な比較を示す。 本研究は,EASTEタスクにおける高い性能を達成することを目的としただけでなく,モデルサイズ,タイプ,適応技術がタスクパフォーマンスに与える影響についても検討する。 最終的には、複雑な感情分析における詳細な洞察と最先端の成果を提供する。

Introducing Entity-Aspect Sentiment Triplet Extraction (EASTE), a novel Aspect-Based Sentiment Analysis (ABSA) task which extends Target-Aspect-Sentiment Detection (TASD) by separating aspect categories (e.g., food#quality) into pre-defined entities (e.g., meal, drink) and aspects (e.g., taste, freshness) which add a fine-gainer level of complexity, yet help exposing true sentiment of chained aspect to its entity. We explore the task of EASTE solving capabilities of language models based on transformers architecture from our proposed unified-loss approach via token classification task using BERT architecture to text generative models such as Flan-T5, Flan-Ul2 to Llama2, Llama3 and Mixtral employing different alignment techniques such as zero/few-shot learning, Parameter Efficient Fine Tuning (PEFT) such as Low-Rank Adaptation (LoRA). The model performances are evaluated on the SamEval-2016 benchmark dataset representing the fair comparison to existing works. Our research not only aims to achieve high performance on the EASTE task but also investigates the impact of model size, type, and adaptation techniques on task performance. Ultimately, we provide detailed insights and achieving state-of-the-art results in complex sentiment analysis.
翻訳日:2024-07-08 17:14:12 公開日:2024-07-04
# FunAudioLLM:人間とLLMの自然な相互作用のための音声理解と生成基盤モデル

FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs ( http://arxiv.org/abs/2407.04051v1 )

ライセンス: Link先を確認
Tongyi SpeechTeam, (参考訳) 本報告では,人間と大規模言語モデル(LLM)との自然な音声対話を強化するモデルファミリーであるFunAudioLLMを紹介する。 中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。 SenseVoice-Smallは5つの言語で例外的に低レイテンシASRを提供し、SenseVoice-Largeは50以上の言語で高精度ASRをサポートし、CosyVoiceは多言語音声生成、ゼロショットインコンテキスト学習、クロスリンガル音声クローニング、命令フォロー機能に優れている。 SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。 これらのモデルをLLMと統合することにより、FunAudioLLMは音声音声翻訳、感情音声チャット、対話型ポッドキャスト、表現型オーディオブックナレーションといった応用を可能にし、音声インタラクション技術の境界を押し進める。 デモはhttps://fun-audio-llm.github.ioで、コードはhttps://github.com/FunAudioLLMでアクセスできる。

This report introduces FunAudioLLM, a model family designed to enhance natural voice interactions between humans and large language models (LLMs). At its core are two innovative models: SenseVoice, which handles multilingual speech recognition, emotion recognition, and audio event detection; and CosyVoice, which facilitates natural speech generation with control over multiple languages, timbre, speaking style, and speaker identity. SenseVoice-Small delivers exceptionally low-latency ASR for 5 languages, and SenseVoice-Large supports high-precision ASR for over 50 languages, while CosyVoice excels in multi-lingual voice generation, zero-shot in-context learning, cross-lingual voice cloning, and instruction-following capabilities. The models related to SenseVoice and CosyVoice have been open-sourced on Modelscope and Huggingface, along with the corresponding training, inference, and fine-tuning codes released on GitHub. By integrating these models with LLMs, FunAudioLLM enables applications such as speech-to-speech translation, emotional voice chat, interactive podcasts, and expressive audiobook narration, thereby pushing the boundaries of voice interaction technology. Demos are available at https://fun-audio-llm.github.io, and the code can be accessed at https://github.com/FunAudioLLM.
翻訳日:2024-07-08 17:14:12 公開日:2024-07-04
# 構造から見た薬物標的相互作用モデリングのベンチマーク

Benchmark on Drug Target Interaction Modeling from a Structure Perspective ( http://arxiv.org/abs/2407.04055v1 )

ライセンス: Link先を確認
Xinnan Zhang, Jialin Wu, Junyi Xie, Tianlong Chen, Kaixiong Zhou, (参考訳) 薬物-標的相互作用の予測モデリングは、深層学習技術により急速に進歩した薬物発見と設計に不可欠である。 最近開発されたグラフニューラルネットワーク(GNN)やトランスフォーマーに基づく手法は、構造情報を効果的に抽出することで、様々なデータセット間で例外的な性能を示す。 しかし、これらの新しい手法のベンチマークは、アルゴリズムの進歩を制限するハイパーパラメータ設定とデータセットの点で大きく異なることが多い。 これらの観点から、GNNベースと暗黙的(トランスフォーマーベース)構造学習アルゴリズムの数十点を統合することにより、構造の観点からの薬物-標的相互作用モデリングの総合的な調査とベンチマークを行う。 そこで我々はまず,構造学習手法の各クラスにハイパーパラメータ設定を統一する。 さらに、これらの2種類の符号化戦略と、分子の化学的および物理的性質を知らせる異なる創製技術とのマクロな比較を行う。 次に、その有効性と効率を総合的にベンチマークすることで、6つのデータセットにまたがるすべての統合モデル間の顕微鏡的比較を行う。 注目すべきことに、ベンチマーク研究の要約された洞察は、モデルコンボの設計に繋がる。 コスト効率のよいメモリと計算に関連した各種データセットに対して,我々のコンボが新たな最先端性能を実現することを実証した。 我々のコードは \hyperlink{https://github.com/justinwjl/GTB-DTI/tree/main}{https://github.com/justinwjl/GTB-DTI/tree/main} で利用可能です。

The prediction modeling of drug-target interactions is crucial to drug discovery and design, which has seen rapid advancements owing to deep learning technologies. Recently developed methods, such as those based on graph neural networks (GNNs) and Transformers, demonstrate exceptional performance across various datasets by effectively extracting structural information. However, the benchmarking of these novel methods often varies significantly in terms of hyperparameter settings and datasets, which limits algorithmic progress. In view of these, we conduct a comprehensive survey and benchmark for drug-target interaction modeling from a structure perspective, via integrating tens of explicit (i.e., GNN-based) and implicit (i.e., Transformer-based) structure learning algorithms. To this end, we first unify the hyperparameter setting within each class of structure learning methods. Moreover, we conduct a macroscopical comparison between these two classes of encoding strategies as well as the different featurization techniques that inform molecules' chemical and physical properties. We then carry out the microscopical comparison between all the integrated models across the six datasets, via comprehensively benchmarking their effectiveness and efficiency. Remarkably, the summarized insights from the benchmark studies lead to the design of model combos. We demonstrate that our combos can achieve new state-of-the-art performance on various datasets associated with cost-effective memory and computation. Our code is available at \hyperlink{https://github.com/justinwjl/GTB-DTI/tree/main}{https://github.com/justinwjl/GTB-DTI/tree/main}.
翻訳日:2024-07-08 17:14:12 公開日:2024-07-04
# TALENT: 語彙分析と学習ツールボックス

TALENT: A Tabular Analytics and Learning Toolbox ( http://arxiv.org/abs/2407.04057v1 )

ライセンス: Link先を確認
Si-Yang Liu, Hao-Run Cai, Qi-Le Zhou, Han-Jia Ye, (参考訳) タブラルデータ(Tabular data)は、機械学習において最も一般的なデータソースの1つである。 この分野では、様々な古典的手法が実用性を示しているが、その柔軟性とデータ内の複雑な相互作用を捉える能力により、表形式のデータに対するディープラーニング手法は有望な代替手段になりつつある。 深い表型手法には,特徴の扱い方,設計学習の目的,モデルアーキテクチャの構築など,多種多様な設計哲学が存在することを考慮し,表型手法の活用,分析,比較を行うためにTALENT(Tabular Analytics and LEarNing Toolbox)と呼ばれる汎用的なディープラーニングツールボックスを導入する。 TALENTは、様々なエンコーディングおよび正規化モジュールに関連する、20以上の深い表層予測メソッドの広範なコレクションを含み、新しいメソッドが現れると容易に統合可能な統一インターフェースを提供する。 本稿では,ツールボックスの設計と機能について述べるとともに,その実践的応用をいくつかのケーススタディを通じて説明し,ツールボックスをベースとした各種手法の性能について検討する。 コードはhttps://github.com/qile2000/LAMDA-TALENTで公開されている。

Tabular data is one of the most common data sources in machine learning. Although a wide range of classical methods demonstrate practical utilities in this field, deep learning methods on tabular data are becoming promising alternatives due to their flexibility and ability to capture complex interactions within the data. Considering that deep tabular methods have diverse design philosophies, including the ways they handle features, design learning objectives, and construct model architectures, we introduce a versatile deep-learning toolbox called TALENT (Tabular Analytics and LEarNing Toolbox) to utilize, analyze, and compare tabular methods. TALENT encompasses an extensive collection of more than 20 deep tabular prediction methods, associated with various encoding and normalization modules, and provides a unified interface that is easily integrable with new methods as they emerge. In this paper, we present the design and functionality of the toolbox, illustrate its practical application through several case studies, and investigate the performance of various methods fairly based on our toolbox. Code is available at https://github.com/qile2000/LAMDA-TALENT.
翻訳日:2024-07-08 17:14:12 公開日:2024-07-04
# 熱力学的作業抽出による多部量子相関の測定

Measuring multipartite quantum correlations by thermodynamic work extraction ( http://arxiv.org/abs/2407.04058v1 )

ライセンス: Link先を確認
Toshihiro Yada, Nobuyuki Yoshioka, Takahiro Sagawa, (参考訳) 量子相関は量子力学の核であり、様々な分野において重要な役割を果たす。 両部量子相関は広く研究されているが、多体系の多部量子相関は、その複雑な構造のために解明され続けている。 特に大きな課題は、多部量子相関測度の計算がしばしば指数的なコストを必要とするという事実にある。 本研究では,大域演算と局所演算と古典通信(LOCC)による抽出可能な熱力学的作業の違いに基づいて,多部量子相関の尺度を導入する。 これは仕事不足の多部一般化と見なすことができ、二部量子相関の熱力学的尺度として注目されている。 多部量子相関に対する熱力学的アプローチの際立った特徴は、量子相関の度合いと明確な操作的意味を比較することができることである。 重要なことは、多部労働赤字の効率的な計算方法を開発することである。 この効率的な方法は、行列積状態 (MPS) によって記述される量子多体系の特別なクラスに作用し、数値的なコストはシステムサイズに比例することが示され、直接計算に必要な指数的なコストが大幅に削減される。 AKLT状態とクラスタ状態において,この効率的な手法を実証し,その正確な値を解析的に取得する。 さらに,MPSで記述された量子相転移が,多部作業不足によってよく捉えられていることを示す。 これは、多部量子相関と量子熱力学の基本的な関係を浮き彫りにするだけでなく、量子多体系の構造を効率的に計算可能なプローブとしても機能することを示している。

Quantum correlations are at the core of quantum mechanics and play a crucial role in various fields. While bipartite quantum correlations have been extensively studied, multipartite quantum correlations in many-body systems remain elusive due to their complex structure. In particular, a primary challenge lies in the fact that the calculation of multipartite quantum correlation measure often requires exponential cost. In this work, we tackle this problem by adopting a thermodynamic approach; we introduce a measure of multipartite quantum correlations based on the difference in extractable thermodynamic work by global operations and local operations and classical communication (LOCC). This can be regarded as a multipartite generalization of the work deficit, which has attracted attention as a thermodynamic measure of bipartite quantum correlation. A distinguishing feature of the thermodynamic approach to multipartite quantum correlation is that we can compare the degree of quantum correlations with clear operational meaning. Importantly, we develop an efficient calculation method of the multipartite work deficit. This efficient method works for a special class of quantum many-body systems described by matrix product states (MPS), where the numerical cost is shown to be proportional to the system size, significantly reducing the exponential cost required for the direct calculations. We demonstrate this efficient method in the AKLT state and the cluster state, and analytically obtain the exact values of this measure. We further show that a quantum phase transition described by MPS is well captured by the multipartite work deficit. This shows that the multipartite work deficit does not only highlight the fundamental connection between multipartite quantum correlations and quantum thermodynamics, but also serves as an efficiently-computable probe of the structures of quantum many-body systems.
翻訳日:2024-07-08 17:14:12 公開日:2024-07-04
# 観察可能な近接面の検出:クロスドメイン3次元物体検出の新しいモデリングと評価

Detect Closer Surfaces that can be Seen: New Modeling and Evaluation in Cross-domain 3D Object Detection ( http://arxiv.org/abs/2407.04061v1 )

ライセンス: Link先を確認
Ruixiao Zhang, Yihong Wu, Juheon Lee, Adam Prugel-Bennett, Xiaohao Cai, (参考訳) ドメイン適応技術の性能は、現在の自動運転車の3Dオブジェクト検出分野において、まだ理想的なレベルに達していない。 これらの要因が組み合わさって、特定のデータセットから学んだ知識の効果的な伝達と応用を妨げる。 既存の評価指標は、当初、予測と接地トラスト境界ボックス間の2次元または3次元の重なりを計算して、単一領域上での評価のために設計されているため、データセット間のサイズ差に起因する過度な問題に悩まされることが多い。 ドメインにまたがって適用された後、元の3Dバウンディングボックスで優れたパフォーマンスを維持するために、本当にモデルが必要なのでしょうか? 実用的アプリケーションの観点からは、車両と他の障害物との衝突を防止することに重点を置いています。 言い換えれば、モデルがエゴ車両に最も近い表面を正確に識別できる限り、障害を効果的に回避することは十分である。 本稿では,エゴ車両のセンサに近接する表面を検出する3次元物体検出モデルの能力を測定するための2つの指標を提案する。 さらに、EdgeHeadと呼ばれる改良ヘッドを提案し、学習可能な近接面にもっと焦点を合わせることで、既存のモデルのクロスドメインパフォーマンスを大幅に向上させることができる。

The performance of domain adaptation technologies has not yet reached an ideal level in the current 3D object detection field for autonomous driving, which is mainly due to significant differences in the size of vehicles, as well as the environments they operate in when applied across domains. These factors together hinder the effective transfer and application of knowledge learned from specific datasets. Since the existing evaluation metrics are initially designed for evaluation on a single domain by calculating the 2D or 3D overlap between the prediction and ground-truth bounding boxes, they often suffer from the overfitting problem caused by the size differences among datasets. This raises a fundamental question related to the evaluation of the 3D object detection models' cross-domain performance: Do we really need models to maintain excellent performance in their original 3D bounding boxes after being applied across domains? From a practical application perspective, one of our main focuses is actually on preventing collisions between vehicles and other obstacles, especially in cross-domain scenarios where correctly predicting the size of vehicles is much more difficult. In other words, as long as a model can accurately identify the closest surfaces to the ego vehicle, it is sufficient to effectively avoid obstacles. In this paper, we propose two metrics to measure 3D object detection models' ability of detecting the closer surfaces to the sensor on the ego vehicle, which can be used to evaluate their cross-domain performance more comprehensively and reasonably. Furthermore, we propose a refinement head, named EdgeHead, to guide models to focus more on the learnable closer surfaces, which can greatly improve the cross-domain performance of existing models not only under our new metrics, but even also under the original BEV/3D metrics.
翻訳日:2024-07-08 17:14:12 公開日:2024-07-04
# リーダーボード運用(LBOps)のワークフローとスメルについて : 基礎モデルリーダーボードの探索的研究

On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards ( http://arxiv.org/abs/2407.04065v1 )

ライセンス: Link先を確認
Zhimin Zhao, Abdul Ali Bangash, Filipe Roseiro Côgo, Bram Adams, Ahmed E. Hassan, (参考訳) 大規模機械学習(ML)モデルである大規模言語モデル(LLM)のような基礎モデル(FM)は、コード補完、コード理解、ソフトウェア開発など、様々な下流ソフトウェア工学(SE)タスクにおいて顕著な適応性を示している。 その結果、FMリーダーボード、特にクラウドプラットフォームにホストされているものは、SEチームが特定の製品や目的のために、最高のサードパーティ製のFMを比較、選択するための必須のツールになっています。 しかし、FM評価と比較のための標準化されたガイドラインの欠如は、FMリーダーボードの透明性を脅かし、効果的にFM選択を行うステークホルダーの能力を制限している。 この課題に対処する第一歩として、我々の研究は、FMリーダーボードが現実世界のシナリオ(リーダーボード操作)でどのように機能するかを理解し、潜在的なリーダーボードの落とし穴と改善のための領域(リーダーボード臭い)を特定することに焦点を当てています。 本稿では,最大721個のFMリーダボードを収集する多言語文献レビューを実施し,その上で,それらのドキュメントを調査し,そのワークフローパターンを理解するために,リーダボードオペレータと直接コミュニケーションを行う。 カードソートと交渉された合意を用いて、5つのユニークなワークフローパターンを特定し、FMリーダーボード内で必要不可欠なコンポーネントとその相互作用を概説するドメインモデルを開発する。 次に、LBOpsで8種類のリーダーボードの匂いを識別します。 これらの臭いを和らげることで、SEチームは現在のLBOpsプラクティスにおける透明性、説明責任、コラボレーションを改善し、FM比較と選択のためのより堅牢で責任あるエコシステムを育むことができる。

Foundation models (FM), such as large language models (LLMs), which are large-scale machine learning (ML) models, have demonstrated remarkable adaptability in various downstream software engineering (SE) tasks, such as code completion, code understanding, and software development. As a result, FM leaderboards, especially those hosted on cloud platforms, have become essential tools for SE teams to compare and select the best third-party FMs for their specific products and purposes. However, the lack of standardized guidelines for FM evaluation and comparison threatens the transparency of FM leaderboards and limits stakeholders' ability to perform effective FM selection. As a first step towards addressing this challenge, our research focuses on understanding how these FM leaderboards operate in real-world scenarios ("leaderboard operations") and identifying potential leaderboard pitfalls and areas for improvement ("leaderboard smells"). In this regard, we perform a multivocal literature review to collect up to 721 FM leaderboards, after which we examine their documentation and engage in direct communication with leaderboard operators to understand their workflow patterns. Using card sorting and negotiated agreement, we identify 5 unique workflow patterns and develop a domain model that outlines the essential components and their interaction within FM leaderboards. We then identify 8 unique types of leaderboard smells in LBOps. By mitigating these smells, SE teams can improve transparency, accountability, and collaboration in current LBOps practices, fostering a more robust and responsible ecosystem for FM comparison and selection.
翻訳日:2024-07-08 17:14:12 公開日:2024-07-04
# EMPL:Few-shot Unsupervised Domain Adaptationのための新しいメタプロンプト学習フレームワーク

EMPL: A novel Efficient Meta Prompt Learning Framework for Few-shot Unsupervised Domain Adaptation ( http://arxiv.org/abs/2407.04066v1 )

ライセンス: Link先を確認
Wanqi Yang, Haoran Wang, Lei Wang, Ge Song, Yang Gao, (参考訳) Few-shot unsupervised domain adaptation (FS-UDA) は、ラベルなし対象領域の効果的な分類を実現するために、少数ショットラベル付きソースドメインデータを利用する。 しかし、現在のFS-UDAメソッドは以下の2つの問題に悩まされている。 1) 異なるドメインからのデータは、大きなドメインギャップのため、少数ショットラベル付きデータによって効果的に整列できない。 2)新しいFS-UDAタスクへの一般化には,不安定で時間がかかり,この問題に対処するために,FS-UDAのための効率的なメタプロンプト学習フレームワークを提案する。 このフレームワークでは、事前訓練されたCLIPモデルを機能学習ベースモデルとして使用しています。 まず、多数のメタタスクからメタ知識を学習し、ドメインギャップを緩和する仮想トークンからなるドメイン共有の素早い学習ベクトルを設計する。 また,タスクごとに特定のプロンプトベクトルを適応的に学習するタスク共有型プロンプト学習ネットワークを設計し,高速適応とタスク一般化の実現を目指す。 第3に、タスク固有のクロスドメインアライメントプロジェクションと、各メタタスクに対するクローズドフォームソリューションを備えたタスク固有分類器を学習し、1ステップでモデルを新しいタスクに効率的に適応させることができる。 学習過程全体は二段階最適化問題として定式化され、メタラーニングによりモデルパラメータの優れた初期化が学習される。 大規模な実験的研究は、ベンチマークデータセット上での我々のフレームワークの有望な性能を実証する。 5-way 1-shotでは少なくとも15.4%,5-way 5-shotでは8.7%の大幅な改善が得られた。 また、全てのテストタスクにおけるメソッドの性能は他のメソッドよりも安定している。

Few-shot unsupervised domain adaptation (FS-UDA) utilizes few-shot labeled source domain data to realize effective classification in unlabeled target domain. However, current FS-UDA methods are still suffer from two issues: 1) the data from different domains can not be effectively aligned by few-shot labeled data due to the large domain gaps, 2) it is unstable and time-consuming to generalize to new FS-UDA tasks.To address this issue, we put forward a novel Efficient Meta Prompt Learning Framework for FS-UDA. Within this framework, we use pre-trained CLIP model as the feature learning base model. First, we design domain-shared prompt learning vectors composed of virtual tokens, which mainly learns the meta knowledge from a large number of meta tasks to mitigate domain gaps. Secondly, we also design a task-shared prompt learning network to adaptively learn specific prompt vectors for each task, which aims to realize fast adaptation and task generalization. Thirdly, we learn a task-specific cross-domain alignment projection and a task-specific classifier with closed-form solutions for each meta task, which can efficiently adapt the model to new tasks in one step. The whole learning process is formulated as a bilevel optimization problem, and a good initialization of model parameters is learned through meta-learning. Extensive experimental study demonstrates the promising performance of our framework on benchmark datasets. Our method has the large improvement of at least 15.4% on 5-way 1-shot and 8.7% on 5-way 5-shot, compared with the state-of-the-art methods. Also, the performance of our method on all the test tasks is more stable than the other methods.
翻訳日:2024-07-08 17:14:12 公開日:2024-07-04
# 統語的単純化のための意味グラフ--LLM時代を振り返って

Semantic Graphs for Syntactic Simplification: A Revisit from the Age of LLM ( http://arxiv.org/abs/2407.04067v1 )

ライセンス: Link先を確認
Peiran Yao, Kostyantyn Guzhva, Denilson Barbosa, (参考訳) AMR(Abstract Meaning Representation)のような記号的な文の意味表現は、下流のNLPタスクを単純化する中間体として機能する表現的および構造化されたセマンティックグラフを提供する。 しかし、大規模言語モデル(LLM)の命令追従能力は、意味グラフの有用性に疑問を呈し、NLPタスクを効果的に解くショートカットを提供する。 一方、最近の研究は、単にLLMの補助的補助として意味表現を使用することの難しさも示している。 我々は,構文的単純化における意味グラフの位置を再考し,その意味を保ちながら文構造を単純化する作業,意味理解を必要とし,それを新しい複雑で自然なデータセット上で評価する。 私たちが提案するAMRS$^3$の手法は、最先端の意味表現が、競争性能とコスト、解釈可能性、一般化の独特な優位性を備えた簡易な実装法に繋がることを示した。 AMRS$^3$ をアンカーとして、構文的単純化が LLM のプロンプトにおいて意味グラフが役に立つタスクであることに気づく。 本稿では,AMRグラフ上での明示的なシンボリック推論のためのグラフアルゴリズムのエミュレートをLLMに誘導するAMRCoCプロンプトを提案する。

Symbolic sentence meaning representations, such as AMR (Abstract Meaning Representation) provide expressive and structured semantic graphs that act as intermediates that simplify downstream NLP tasks. However, the instruction-following capability of large language models (LLMs) offers a shortcut to effectively solve NLP tasks, questioning the utility of semantic graphs. Meanwhile, recent work has also shown the difficulty of using meaning representations merely as a helpful auxiliary for LLMs. We revisit the position of semantic graphs in syntactic simplification, the task of simplifying sentence structures while preserving their meaning, which requires semantic understanding, and evaluate it on a new complex and natural dataset. The AMR-based method that we propose, AMRS$^3$, demonstrates that state-of-the-art meaning representations can lead to easy-to-implement simplification methods with competitive performance and unique advantages in cost, interpretability, and generalization. With AMRS$^3$ as an anchor, we discover that syntactic simplification is a task where semantic graphs are helpful in LLM prompting. We propose AMRCoC prompting that guides LLMs to emulate graph algorithms for explicit symbolic reasoning on AMR graphs, and show its potential for improving LLM on semantic-centered tasks like syntactic simplification.
翻訳日:2024-07-08 17:14:12 公開日:2024-07-04
# CLIP-DR : クラッキング・アウェア・プロンプティングを応用したテキスト知識ガイド型糖尿病網膜症

CLIP-DR: Textual Knowledge-Guided Diabetic Retinopathy Grading with Ranking-aware Prompting ( http://arxiv.org/abs/2407.04068v1 )

ライセンス: Link先を確認
Qinkai Yu, Jianyang Xie, Anh Nguyen, He Zhao, Jiong Zhang, Huazhu Fu, Yitian Zhao, Yalin Zheng, Yanda Meng, (参考訳) 糖尿病網膜症(英: Diabetic retinopathy, DR)は、糖尿病の合併症の一つで、視力低下のレベルに達するのに何十年もかかる。 糖尿病の時間的管理と治療には、DR重症度を正確にかつ堅牢に検出することが重要である。 しかし、現在のDRグレーティング手法のほとんどは、データ可変性(\textit{e g } color fundus image)に不十分な頑健さに悩まされており、正確で堅牢なグレーディングには重大な困難が伴う。 本稿では,3つの観測結果に基づく新しいDRグレーティングフレームワークCLIP-DRを提案する。 1) 近年のCLIPのような事前学習型視覚言語モデルでは,様々な下流タスクにまたがる一般化能力を示し,効果的なベースラインモデルとして機能している。 2) DRのための画像テキストペアの階調は、しばしば識別可能な自然配列に固執するが、既存のDRグレーディング手法のほとんどは、この側面を主に見落としている。 3) DR重度レベルの長期分布は, 階調過程を複雑にする。 本研究は、CLIPモデルが順序情報を利用するのを支援するために、新しいランキングアウェア・プロンプト戦略を提案する。 具体的には、隣接するテキストイメージペア間の学習可能なプロンプトを、2つの異なるランク方向で逐次設計する。 さらに、クラス分布のバランスをとるために、CLIPの構造にSimisity Matrix Smoothモジュールを導入します。 最後に、GDRBenchベンチマークにおけるいくつかの最先端手法との比較を行い、CLIP-DRの堅牢性と優れた性能を実証した。 実装コードは \footnote{\url{https://github.com/Qinkaiyu/CLIP-DR} で利用可能である。

Diabetic retinopathy (DR) is a complication of diabetes and usually takes decades to reach sight-threatening levels. Accurate and robust detection of DR severity is critical for the timely management and treatment of diabetes. However, most current DR grading methods suffer from insufficient robustness to data variability (\textit{e.g.} colour fundus images), posing a significant difficulty for accurate and robust grading. In this work, we propose a novel DR grading framework CLIP-DR based on three observations: 1) Recent pre-trained visual language models, such as CLIP, showcase a notable capacity for generalisation across various downstream tasks, serving as effective baseline models. 2) The grading of image-text pairs for DR often adheres to a discernible natural sequence, yet most existing DR grading methods have primarily overlooked this aspect. 3) A long-tailed distribution among DR severity levels complicates the grading process. This work proposes a novel ranking-aware prompting strategy to help the CLIP model exploit the ordinal information. Specifically, we sequentially design learnable prompts between neighbouring text-image pairs in two different ranking directions. Additionally, we introduce a Similarity Matrix Smooth module into the structure of CLIP to balance the class distribution. Finally, we perform extensive comparisons with several state-of-the-art methods on the GDRBench benchmark, demonstrating our CLIP-DR's robustness and superior performance. The implementation code is available \footnote{\url{https://github.com/Qinkaiyu/CLIP-DR}
翻訳日:2024-07-08 17:14:12 公開日:2024-07-04
# 大規模言語モデルの評価に関する体系的調査と批判的レビュー:課題・限界・勧告

A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations ( http://arxiv.org/abs/2407.04069v1 )

ライセンス: Link先を確認
Md Tahmid Rahman Laskar, Sawsan Alqahtani, M Saiful Bari, Mizanur Rahman, Mohammad Abdullah Matin Khan, Haidar Khan, Israt Jahan, Amran Bhuiyan, Chee Wei Tan, Md Rizwan Parvez, Enamul Hoque, Shafiq Joty, Jimmy Huang, (参考訳) 大規模言語モデル(LLM)は、最近、様々なドメインで多様なタスクを実行する際、顕著な能力によって、大きな注目を集めている。 しかし、これらのモデルの徹底的な評価は、信頼性の高いパフォーマンスを実現するために、現実のアプリケーションにデプロイする前に不可欠である。 コミュニティにおけるLSMの評価の重要性は確立されているものの、評価プロセスの複雑さは様々な評価設定をもたらし、発見や解釈の不整合を引き起こしている。 そこで我々は,LLM評価の様々な段階において,これらの不整合や信頼できない評価の原因となる主な課題と限界を体系的に検討した。 批判的なレビューに基づいて、LLM評価が再現可能で、信頼性があり、堅牢であることを保証するために、私たちの視点と勧告を提示します。

Large Language Models (LLMs) have recently gained significant attention due to their remarkable capabilities in performing diverse tasks across various domains. However, a thorough evaluation of these models is crucial before deploying them in real-world applications to ensure they produce reliable performance. Despite the well-established importance of evaluating LLMs in the community, the complexity of the evaluation process has led to varied evaluation setups, causing inconsistencies in findings and interpretations. To address this, we systematically review the primary challenges and limitations causing these inconsistencies and unreliable evaluations in various steps of LLM evaluation. Based on our critical review, we present our perspectives and recommendations to ensure LLM evaluations are reproducible, reliable, and robust.
翻訳日:2024-07-08 17:14:12 公開日:2024-07-04
# 自律運転における現実と仮想現実のシナリオにおける人車間相互作用の行動ギャップ評価

Behavioural gap assessment of human-vehicle interaction in real and virtual reality-based scenarios in autonomous driving ( http://arxiv.org/abs/2407.04070v1 )

ライセンス: Link先を確認
Sergio. Martín Serrano, Rubén Izquierdo, Iván García Daza, Miguel Ángel Sotelo, D. Fernández Llorca, (参考訳) 自律運転研究の分野では、没入型バーチャルリアリティ(VR)技術の使用が広く普及し、安全かつ制御された条件下での様々な研究を可能にしている。 しかし、シミュレーションされた設定の参加者の行動が実際の環境での行動を反映している場合のみ、この手法は有効で一貫したものである。 本稿では,VR実験に携わる参加者の行動の相違を現実の状況と同等に捉えた概念である,行動ギャップ(obactiveal gap)と呼ぶものを評価するための,最初の,革新的なアプローチを提案する。 そこで我々は,既存の横断歩道のデジタルツインを開発し,実際の運転条件とシミュレーション運転条件の両方において,歩行者と自律走行車間の相互作用を調査するためのフィールド実験(N=18)を行った。 実験では、歩行者は異なる運転スタイルと外部のヒューマン・マシン・インタフェース(eHMI)の存在下で道路を横断しようと試みた。 調査に基づく行動分析手法と行動分析手法を組み合わせることで、シミュレーションされたVR環境で対話する実際の被験者から得られたデータを検証するメカニズムとして、行動ギャップを経験的に評価する定量的手法を開発する。 結果は、参加者がVRに対してより慎重で好奇心を持ち、そのスピードと判断に影響を与え、VRインターフェースが行動に大きく影響していることを示している。

In the field of autonomous driving research, the use of immersive virtual reality (VR) techniques is widespread to enable a variety of studies under safe and controlled conditions. However, this methodology is only valid and consistent if the conduct of participants in the simulated setting mirrors their actions in an actual environment. In this paper, we present a first and innovative approach to evaluating what we term the behavioural gap, a concept that captures the disparity in a participant's conduct when engaging in a VR experiment compared to an equivalent real-world situation. To this end, we developed a digital twin of a pre-existed crosswalk and carried out a field experiment (N=18) to investigate pedestrian-autonomous vehicle interaction in both real and simulated driving conditions. In the experiment, the pedestrian attempts to cross the road in the presence of different driving styles and an external Human-Machine Interface (eHMI). By combining survey-based and behavioural analysis methodologies, we develop a quantitative approach to empirically assess the behavioural gap, as a mechanism to validate data obtained from real subjects interacting in a simulated VR-based environment. Results show that participants are more cautious and curious in VR, affecting their speed and decisions, and that VR interfaces significantly influence their actions.
翻訳日:2024-07-08 17:14:12 公開日:2024-07-04
# スパシストモデルとエレードプルーニング : プルーニングの現在の能力の露見

Sparsest Models Elude Pruning: An Exposé of Pruning's Current Capabilities ( http://arxiv.org/abs/2407.04075v1 )

ライセンス: Link先を確認
Stephen Zhang, Vardan Papyan, (参考訳) プルーニングは大規模モデルを圧縮するための有望なアプローチとして現れてきたが、モデルの範囲を回復する効果はまだ検討されていない。 我々は485,838の実験を行い、キュビストスパイラルと名付けられた合成データセットに最先端のプルーニングアルゴリズムを適用した。 本研究は,新しい組合せ探索アルゴリズムを用いて,理想的なスパースネットワークと比較して,性能の差が顕著であることを示した。 この性能差は、過パラメータ化下での現在のプルーニングアルゴリズムの粗悪な動作、ネットワーク全体の不連結経路を誘導する傾向、最適幅と初期化が与えられた場合でも最適解に留まる確率に起因している。 このギャップは、我々の研究で使用されるネットワークアーキテクチャとデータセットの単純さを考慮している。 われわれの研究は、真のネットワークの空間性に挑戦する新たな刈り取り技術について、さらなる調査を奨励することを願っている。

Pruning has emerged as a promising approach for compressing large-scale models, yet its effectiveness in recovering the sparsest of models has not yet been explored. We conducted an extensive series of 485,838 experiments, applying a range of state-of-the-art pruning algorithms to a synthetic dataset we created, named the Cubist Spiral. Our findings reveal a significant gap in performance compared to ideal sparse networks, which we identified through a novel combinatorial search algorithm. We attribute this performance gap to current pruning algorithms' poor behaviour under overparameterization, their tendency to induce disconnected paths throughout the network, and their propensity to get stuck at suboptimal solutions, even when given the optimal width and initialization. This gap is concerning, given the simplicity of the network architectures and datasets used in our study. We hope that our research encourages further investigation into new pruning techniques that strive for true network sparsity.
翻訳日:2024-07-08 17:14:12 公開日:2024-07-04
# 商用エッジデバイスにおけるエンコーディングフリーSNNベースHARのためのネイティブニューロモルフィックLMUアーキテクチャ

Natively neuromorphic LMU architecture for encoding-free SNN-based HAR on commercial edge devices ( http://arxiv.org/abs/2407.04076v1 )

ライセンス: Link先を確認
Vittorio Fra, Benedetto Leto, Andrea Pignata, Enrico Macii, Gianvito Urgese, (参考訳) ニューロモルフィックモデル(Neuromorphic model)は、従来の機械学習(ML)とディープラーニング(DL)の代替手段を構築するために、生物解析可能なニューロンモデルを採用することで、人間の脳からインスピレーションを得ている。 脳にインスパイアされた計算のエミュレーションを実現することのできる専用ハードウェアの不足は、それ以外はシミュレートされていないが、エッジデバイスや組み込みシステムに対するニューロモルフィックコンピューティングの普及を妨げている。 この前提により、我々は従来のハードウェアにニューロモルフィックコンピューティングの観点を採用し、Leaky Integrate-and-Fire(LIF)ニューロンに完全に依存した、ネイティブなニューロモルフィックなレジェンド記憶ユニット(LMU)であるL2MUを提示する。 具体的には、LMUの元々の繰り返しアーキテクチャは、LIFまたはCuBa(Current-Based)LIFニューロンからなる神経集団を含む全ての構成要素をモデル化することによって再設計されている。 ニューロモルフィックコンピューティングとオフザシェルフエッジデバイスを混在させるため,実値をスパイクに変換するための入力モジュールをL2MUに搭載した。 ネットワークを検証するためのユースケースとして,HAR(Human Activity Recognition)の課題を選択した。 L2MUを手動のアクティビティからスマートウォッチの信号にベンチマークし、圧縮されたバージョンで3つの異なる商用エッジデバイスにデプロイしました。 報告された結果は、専用ハードウェアと排他的関係にあるだけでなく、一般的なセンサやデバイスで動作するための適切な選択肢として、ニューロモルフィックモデルを検討する可能性を示している。

Neuromorphic models take inspiration from the human brain by adopting bio-plausible neuron models to build alternatives to traditional Machine Learning (ML) and Deep Learning (DL) solutions. The scarce availability of dedicated hardware able to actualize the emulation of brain-inspired computation, which is otherwise only simulated, yet still hinders the wide adoption of neuromorphic computing for edge devices and embedded systems. With this premise, we adopt the perspective of neuromorphic computing for conventional hardware and we present the L2MU, a natively neuromorphic Legendre Memory Unit (LMU) which entirely relies on Leaky Integrate-and-Fire (LIF) neurons. Specifically, the original recurrent architecture of LMU has been redesigned by modelling every constituent element with neural populations made of LIF or Current-Based (CuBa) LIF neurons. To couple neuromorphic computing and off-the-shelf edge devices, we equipped the L2MU with an input module for the conversion of real values into spikes, which makes it an encoding-free implementation of a Recurrent Spiking Neural Network (RSNN) able to directly work with raw sensor signals on non-dedicated hardware. As a use case to validate our network, we selected the task of Human Activity Recognition (HAR). We benchmarked our L2MU on smartwatch signals from hand-oriented activities, deploying it on three different commercial edge devices in compressed versions too. The reported results remark the possibility of considering neuromorphic models not only in an exclusive relationship with dedicated hardware but also as a suitable choice to work with common sensors and devices.
翻訳日:2024-07-08 15:20:13 公開日:2024-07-04
# DotaMath: 数学的推論のためのコードアシストと自己補正による思考の分解

DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning ( http://arxiv.org/abs/2407.04078v1 )

ライセンス: Link先を確認
Chengpeng Li, Guanting Dong, Mingfeng Xue, Ru Peng, Xiang Wang, Dayiheng Liu, (参考訳) 大規模言語モデル(LLM)は、単純な数学問題に対処する上で驚くべき進歩を遂げてきたが、それでもより困難で複雑な数学的タスクに苦戦している。 本稿では,数理推論にコードアシストと自己補正を併用した思考分解システムであるDotaMathについて紹介する。 DotaMathモデルは複雑な数学的タスクに対処し、それらをより単純な論理的なサブタスクに分解し、これらのサブタスクを解決するためにコードを活用し、コードインタプリタからきめ細かいフィードバックを取得し、自己回帰と修正を行う。 GSM8KとMATHデータセットに多種多様な対話型ツール利用トラジェクトリを付加し、クエリ進化を利用することにより、574Kのクエリ応答対を持つDotaMathQAと呼ばれる命令微調整データセットを生成する。 そこで我々は,DotaMathQAの模倣学習を用いて一連のベースLLMをトレーニングし,様々なドメイン内およびドメイン外ベンチマークにおけるオープンソースLLMと比較して,優れた性能を実現するDotaMathモデルを作成した。 特にDotaMath-Deepseek-7Bは、競合するMATHデータセットで64.8%、GSM8Kで86.7%の優れたパフォーマンスを示している。 さらにDotaMath-Deepseek-7Bは、一連のドメイン内およびドメイン外ベンチマーク(Avg. 80.1%)で強い競争力を維持している。 今後,DotaMathパラダイムが複雑な数学的問題に対処するための新たな経路を開拓することを期待している。 私たちのコードはhttps://github.com/ChengpengLi1003/DotaMath.comで公開されています。

Large language models (LLMs) have made impressive progress in handling simple math problems, yet they still struggle with more challenging and complex mathematical tasks. In this paper, we introduce a series of LLMs that employs the Decomposition of thought with code assistance and self-correction for mathematical reasoning, dubbed as DotaMath. DotaMath models tackle complex mathematical tasks by decomposing them into simpler logical subtasks, leveraging code to solve these subtasks, obtaining fine-grained feedback from the code interpreter, and engaging in self-reflection and correction. By annotating diverse interactive tool-use trajectories and employing query evolution on GSM8K and MATH datasets, we generate an instruction fine-tuning dataset called DotaMathQA with 574K query-response pairs. We train a series of base LLMs using imitation learning on DotaMathQA, resulting in DotaMath models that achieve remarkable performance compared to open-source LLMs across various in-domain and out-of-domain benchmarks. Notably, DotaMath-deepseek-7B showcases an outstanding performance of 64.8% on the competitive MATH dataset and 86.7% on GSM8K. Besides, DotaMath-deepseek-7B maintains strong competitiveness on a series of in-domain and out-of-domain benchmarks (Avg. 80.1%). Looking forward, we anticipate that the DotaMath paradigm will open new pathways for addressing intricate mathematical problems. Our code is publicly available at https://github.com/ChengpengLi1003/DotaMath.
翻訳日:2024-07-08 15:20:13 公開日:2024-07-04
# AXOLOTL'24多言語説明可能な意味変化モデリングのための共有タスク

AXOLOTL'24 Shared Task on Multilingual Explainable Semantic Change Modeling ( http://arxiv.org/abs/2407.04079v1 )

ライセンス: Link先を確認
Mariia Fedorova, Timothee Mickus, Niko Partanen, Janine Siewert, Elena Spaziani, Andrey Kutuzov, (参考訳) 本稿では,多言語で説明可能なセマンティックチェンジモデリング共有タスクであるAXOLOTL'24の組織と成果について述べる。 フィンランド語とロシア語が共用した意味変化データセットと、既存のソースから借用したテスト専用ドイツ語データセットを新たに提案する。 AXOLOTL'24のセットアップはセマンティック・チェンジ・モデリングの分野で新しく、未知の(ノーベルな)感覚を識別し、これらの感覚に辞書のような定義を提供するサブタスクを含む。 優勝チームの方法が説明され、比較されるので、歴史的意味の変化に対する計算的アプローチにおける説明可能性への道が開ける。

This paper describes the organization and findings of AXOLOTL'24, the first multilingual explainable semantic change modeling shared task. We present new sense-annotated diachronic semantic change datasets for Finnish and Russian which were employed in the shared task, along with a surprise test-only German dataset borrowed from an existing source. The setup of AXOLOTL'24 is new to the semantic change modeling field, and involves subtasks of identifying unknown (novel) senses and providing dictionary-like definitions to these senses. The methods of the winning teams are described and compared, thus paving a path towards explainability in computational approaches to historical change of meaning.
翻訳日:2024-07-08 15:20:13 公開日:2024-07-04
# 応用視点:例SOEPデータセットの差分識別可能性リスクの推定

An applied Perspective: Estimating the Differential Identifiability Risk of an Exemplary SOEP Data Set ( http://arxiv.org/abs/2407.04084v1 )

ライセンス: Link先を確認
Jonas Allmann, Saskia Nuñez von Voigt, Florian Tschorsch, (参考訳) 実世界の研究データを使用するには、通常、研究結果を匿名形式でのみ公開できる契約契約が必要である。 差分プライバシーのような正式なプライバシー保証を必要とすることは、データ保護に準拠するデータ駆動プロジェクトに役立つだろう。 しかし、消費者のユースケースに差分プライバシーを配置することは、その基盤となるメカニズムと結果として生じるプライバシー保証を説明する必要が生じる。 本稿では,既存のプライバシー基準を徹底的に見直し,拡張する。 基本的統計的クエリの集合に対して、このリスクメトリックを効率的に計算する方法を示す。 我々の実世界の科学的データセットに基づく実証分析は、現実的な条件下でのリスクの計算方法に関する知識を拡大するとともに、ソリューションよりも多くの課題を提示します。

Using real-world study data usually requires contractual agreements where research results may only be published in anonymized form. Requiring formal privacy guarantees, such as differential privacy, could be helpful for data-driven projects to comply with data protection. However, deploying differential privacy in consumer use cases raises the need to explain its underlying mechanisms and the resulting privacy guarantees. In this paper, we thoroughly review and extend an existing privacy metric. We show how to compute this risk metric efficiently for a set of basic statistical queries. Our empirical analysis based on an extensive, real-world scientific data set expands the knowledge on how to compute risks under realistic conditions, while presenting more challenges than solutions.
翻訳日:2024-07-08 15:20:13 公開日:2024-07-04
# FIPGNet:Pyramid grafting network with feature interaction strategy

FIPGNet:Pyramid grafting network with feature interaction strategies ( http://arxiv.org/abs/2407.04085v1 )

ライセンス: Link先を確認
Ziyi Ding, Like Xin, (参考訳) 画像中の物体を識別し、最も視覚的な注意を惹きつけるよう設計されている。しかしながら、最も先進的な重要物検出手法は、ピラミッドグラフトネットワークアーキテクチャを採用する。しかしながら、ピラミッドグラフトネットワークアーキテクチャには、重要なターゲットを正確に特定できない問題がある。これは、現在のサリエントオブジェクト検出手法が、単に異なるスケール特徴を集約し、異なるスケール特徴の相関を無視するという事実が主な原因である。これらの問題を克服するために、特徴相互作用戦略を備えたピラミッドグラフトネットワークである新しいサリエンスオブジェクト検出フレームワーク(FIPGNet)を提案する。特に、空間エージェント(SACA)を革新的に導入し、空間的視点から重要な相互作用を強調する多層的相互作用を実現するために、特に、空間的視点から重要な空間的相互作用を実現するために、空間的相互作用を強調する(SACA)。

Salient object detection is designed to identify the objects in an image that attract the most visual attention.Currently, the most advanced method of significance object detection adopts pyramid grafting network architecture.However, pyramid-graft network architecture still has the problem of failing to accurately locate significant targets.We observe that this is mainly due to the fact that current salient object detection methods simply aggregate different scale features, ignoring the correlation between different scale features.To overcome these problems, we propose a new salience object detection framework(FIPGNet),which is a pyramid graft network with feature interaction strategies.Specifically, we propose an attention-mechanism based feature interaction strategy (FIA) that innovatively introduces spatial agent Cross Attention (SACA) to achieve multi-level feature interaction, highlighting important spatial regions from a spatial perspective, thereby enhancing salient regions.And the channel proxy Cross Attention Module (CCM), which is used to effectively connect the features extracted by the backbone network and the features processed using the spatial proxy cross attention module, eliminating inconsistencies.Finally, under the action of these two modules, the prominent target location problem in the current pyramid grafting network model is solved.Experimental results on six challenging datasets show that the proposed method outperforms the current 12 salient object detection methods on four indicators.
翻訳日:2024-07-08 15:20:13 公開日:2024-07-04
# かなりロバストな画像透かし

Certifiably Robust Image Watermark ( http://arxiv.org/abs/2407.04086v1 )

ライセンス: Link先を確認
Zhengyuan Jiang, Moyang Guo, Yuepeng Hu, Jinyuan Jia, Neil Zhenqiang Gong, (参考訳) ジェネレーティブAIは、偽情報やプロパガンダキャンペーンの促進など、多くの社会的懸念を提起する。 ウォーターマークAI生成コンテンツは、これらの懸念に対処するための重要な技術であり、業界に広くデプロイされている。 しかし、透かしは除去攻撃や偽造攻撃に弱い。 本研究では,除去と偽造攻撃に対するロバスト性保証を保証した最初の画像透かしを提案する。 本手法は, 確率的ロバストな分類器と回帰モデルを構築する手法として, ランダムな平滑化を利用する。 我々の主要な技術的貢献は、その特徴を考慮し、ランダム化スムースメントを透かしに拡張すること、認証された堅牢性保証を導き、それらを推定するアルゴリズムを設計することである。 さらに,画像の透かしを,実証的堅牢性と証明的堅牢性の両方の観点から広範囲に評価した。 私たちのコードは \url{https://github.com/zhengyuan-jiang/Watermark-Library} で利用可能です。

Generative AI raises many societal concerns such as boosting disinformation and propaganda campaigns. Watermarking AI-generated content is a key technology to address these concerns and has been widely deployed in industry. However, watermarking is vulnerable to removal attacks and forgery attacks. In this work, we propose the first image watermarks with certified robustness guarantees against removal and forgery attacks. Our method leverages randomized smoothing, a popular technique to build certifiably robust classifiers and regression models. Our major technical contributions include extending randomized smoothing to watermarking by considering its unique characteristics, deriving the certified robustness guarantees, and designing algorithms to estimate them. Moreover, we extensively evaluate our image watermarks in terms of both certified and empirical robustness. Our code is available at \url{https://github.com/zhengyuan-jiang/Watermark-Library}.
翻訳日:2024-07-08 15:20:13 公開日:2024-07-04
# 自然着想型アルゴリズムによる都市鉄道網設計の最適化のための高度な人工知能戦略

Advanced Artificial Intelligence Strategy for Optimizing Urban Rail Network Design using Nature-Inspired Algorithms ( http://arxiv.org/abs/2407.04087v1 )

ライセンス: Link先を確認
Hariram Sampath Kumar, Archana Singh, Manish Kumar Ojha, (参考訳) 本研究では,インド・タミル・ナドゥ州チェンナイの都市環境におけるメトロネットワークルート計画の革新的方法論を紹介する。 改良されたAnt Colony Optimization (ACO) 法(以前は開発されていた)の比較分析は、最近の自然に触発されたアルゴリズムのブレークスルーにより、改良されたACOが現代の技術よりも優れていることを示している。 改良されたACOアルゴリズムを利用することで、メトロルートの起点と宛先を繋ぐ最も効率的な経路を生成する。 さらに、モデルが既存のメトロネットワークに適用され、モデルの結果と現在のネットワークのバリエーションが強調される。 Pythonと統合されたGoogle Mapsプラットフォームは、土地利用、地理情報システム(GIS)データ、国勢調査情報、関心点などのリアルタイムデータを処理している。 この処理により、市内と選択されたルートに沿って停留所を特定することができる。 結果として得られたメトロネットワークは従来のルートプランニング手法に比べて大きなメリットを示しており、労働生産性の向上、計画時間短縮、コスト効率の向上が目覚ましい。 本研究は都市交通システムの効率を著しく向上させ,特にチェンナイのような都市環境の急速な変化に寄与する。

This study introduces an innovative methodology for the planning of metro network routes within the urban environment of Chennai, Tamil Nadu, India. A comparative analysis of the modified Ant Colony Optimization (ACO) method (previously developed) with recent breakthroughs in nature-inspired algorithms demonstrates the modified ACO's superiority over modern techniques. By utilizing the modified ACO algorithm, the most efficient routes connecting the origin and destination of the metro route are generated. Additionally, the model is applied to the existing metro network to highlight variations between the model's results and the current network. The Google Maps platform, integrated with Python, handles real-time data, including land utilization, Geographical Information Systems (GIS) data, census information, and points of interest. This processing enables the identification of stops within the city and along the chosen routes. The resulting metro network showcases substantial benefits compared to conventional route planning methods, with noteworthy enhancements in workforce productivity, decreased planning time, and cost-efficiency. This study significantly enhances the efficiency of urban transport systems, specifically in rapidly changing metropolitan settings such as chennai.
翻訳日:2024-07-08 15:20:13 公開日:2024-07-04
# 中間市場における人工知能とアルゴリズム価格の衝突

Artificial Intelligence and Algorithmic Price Collusion in Two-sided Markets ( http://arxiv.org/abs/2407.04088v1 )

ライセンス: Link先を確認
Cristian Chica, Yinglong Guo, Gilad Lerman, (参考訳) 人工知能(AI)アルゴリズムによって促進されるアルゴリズム価格の共謀は、重大な懸念を提起する。 両市場において,Qラーニングを用いたAIエージェントが暗黙の共謀にどのように関与するかを検討する。 実験の結果,AIによるプラットフォームは,Bertrandの競合よりも高いコラシオンレベルを実現していることがわかった。 ネットワークの外部性の向上は、共謀を著しく向上させ、AIアルゴリズムがそれらを活用して利益を最大化することを示唆している。 外部オプションからの利用者の不均一性や有効性の向上は、一般的に共謀を減らし、より高い割引率を増す。 暗黙の共謀は低割引率でも実現可能である。 協調行動の緩和と潜在的規制措置の通知を目的として,Q-ラーニングアルゴリズムにペナルティ項を導入することを提案する。

Algorithmic price collusion facilitated by artificial intelligence (AI) algorithms raises significant concerns. We examine how AI agents using Q-learning engage in tacit collusion in two-sided markets. Our experiments reveal that AI-driven platforms achieve higher collusion levels compared to Bertrand competition. Increased network externalities significantly enhance collusion, suggesting AI algorithms exploit them to maximize profits. Higher user heterogeneity or greater utility from outside options generally reduce collusion, while higher discount rates increase it. Tacit collusion remains feasible even at low discount rates. To mitigate collusive behavior and inform potential regulatory measures, we propose incorporating a penalty term in the Q-learning algorithm.
翻訳日:2024-07-08 15:20:13 公開日:2024-07-04
# 前向き特徴伝達によるTiny欠陥の探索

Looking for Tiny Defects via Forward-Backward Feature Transfer ( http://arxiv.org/abs/2407.04092v1 )

ライセンス: Link先を確認
Alex Costanzino, Pierluigi Zama Ramirez, Giuseppe Lisanti, Luigi Di Stefano, (参考訳) 効率の要求により、ほとんどの異常検出・セグメンテーション(AD&S)法は、低解像度画像(例えば、224ドル)の処理に重点を置いており、元の入力画像のダウンサンプリングによって得られる。 この設定では、典型的には、供給された接地トラス欠陥マスクにもダウンサンプリングが適用される。 しかし、多くの産業アプリケーションでは、大きな欠陥と小さな欠陥の両方を識別する必要があるため、上述したプロトコルは、現在の方法で実現可能な実際のパフォーマンスの現実的なイメージを提供するのに不足する可能性がある。 そこで本研究では,従来の高精細画像と地表面のトラスマスクの手法を,異常の大きさの関数としてのセグメンテーション性能に焦点をあてて評価する,新しいベンチマークを提案する。 我々のベンチマークには、欠陥サイズ、すなわち、大きな異常から小さな異常まで、優れたローカライゼーションを維持する方法の持つロバスト性をキャプチャする指標が含まれている。 さらに,凍結した視覚変換器(Teacher-Student)の層にパッチの特徴を伝達することを学ぶ2つの浅いMLP(学生)に依存した,新しいTeacher-Studentパラダイムに基づくAD&Sアプローチを導入する。 提案手法と最近のAD&S手法を,大小の欠陥を含む高分解能入力に対して評価した。 提案手法は,欠陥サイズに対する高いロバスト性,高速動作,MVTec ADデータセットの最先端性能,VisAデータセットの最先端セグメンテーション性能を特徴とする。

Motivated by efficiency requirements, most anomaly detection and segmentation (AD&S) methods focus on processing low-resolution images, e.g., $224\times 224$ pixels, obtained by downsampling the original input images. In this setting, downsampling is typically applied also to the provided ground-truth defect masks. Yet, as numerous industrial applications demand identification of both large and tiny defects, the above-described protocol may fall short in providing a realistic picture of the actual performance attainable by current methods. Hence, in this work, we introduce a novel benchmark that evaluates methods on the original, high-resolution image and ground-truth masks, focusing on segmentation performance as a function of the size of anomalies. Our benchmark includes a metric that captures robustness with respect to defect size, i.e., the ability of a method to preserve good localization from large anomalies to tiny ones. Furthermore, we introduce an AD&S approach based on a novel Teacher-Student paradigm which relies on two shallow MLPs (the Students) that learn to transfer patch features across the layers of a frozen vision transformer (the Teacher). By means of our benchmark, we evaluate our proposal and other recent AD&S methods on high-resolution inputs containing large and tiny defects. Our proposal features the highest robustness to defect size, runs at the fastest speed, yields state-of-the-art performance on the MVTec AD dataset and state-of-the-art segmentation performance on the VisA dataset.
翻訳日:2024-07-08 15:20:13 公開日:2024-07-04
# Stephanie: 社会会話におけるヒューマンインタラクションの軽減のためのステップバイステップ対話

Stephanie: Step-by-Step Dialogues for Mimicking Human Interactions in Social Conversations ( http://arxiv.org/abs/2407.04093v1 )

ライセンス: Link先を確認
Hao Yang, Hongyuan Lu, Xinhua Zeng, Yang Liu, Xiang Zhang, Haoran Yang, Yumeng Zhang, Yiran Wei, Wai Lam, (参考訳) 自然言語処理の分野では、対話システムは1段階の対話パラダイムを主に採用している。 このパラダイムは効率的だが、人間の相互作用の深さと流動性が欠如しており、自然に見えない。 本稿では,人間の会話のダイナミックな性質を模倣した,新しい『textbf{Step}-by-Step Dialogue Paradigm』(ステファニー)を紹介する。 デュアルラーニング戦略と,さらに分割した後編集手法を用いることで,既存の大規模言語モデルの微調整に高品質なステップバイステップ対話データセットを作成,活用し,ステップバイステップ対話を可能にする。 私たちはステファニーを徹底的に紹介する。 従来の単段階対話のパラダイムと比較して,その効果を評価するために,自動評価と人的評価を行った。 チャットボットの未来を促進するために、コード、Stephanieデータセット、Stephanie LLMをリリースします。

In the rapidly evolving field of natural language processing, dialogue systems primarily employ a single-step dialogue paradigm. Although this paradigm is efficient, it lacks the depth and fluidity of human interactions and does not appear natural. We introduce a novel \textbf{Step}-by-Step Dialogue Paradigm (Stephanie), designed to mimic the ongoing dynamic nature of human conversations. By employing a dual learning strategy and a further-split post-editing method, we generated and utilized a high-quality step-by-step dialogue dataset to fine-tune existing large language models, enabling them to perform step-by-step dialogues. We thoroughly present Stephanie. Tailored automatic and human evaluations are conducted to assess its effectiveness compared to the traditional single-step dialogue paradigm. We will release code, Stephanie datasets, and Stephanie LLMs to facilitate the future of chatbot eras.
翻訳日:2024-07-08 15:20:13 公開日:2024-07-04
# C$3$DG:収束と制約付きリスク理論を用いたハイパースペクトル画像分類のための条件付き領域一般化

C$^3$DG: Conditional Domain Generalization for Hyperspectral Imagery Classification with Convergence and Constrained-risk Theories ( http://arxiv.org/abs/2407.04100v1 )

ライセンス: Link先を確認
Zhe Gao, Bin Pan, Zhenwei Shi, (参考訳) ハイパースペクトル画像(HSI)分類は、異なるクラスが類似したスペクトルを呈するハイパースペクトルモノスペクトルの課題に直面する可能性がある。 共同空間スペクトル特徴抽出はこの問題に対する一般的な解法であるが、この戦略は、テストピクセルがトレーニングパッチに存在する可能性があるため、精度を向上する傾向がある。 領域一般化法は有望なポテンシャルを示すが、異なる領域間で類似したスペクトルを区別することができず、理論的な支持は通常無視される。 本稿では,ハイパースペクトル・モノスペクトル問題を解決するためのスペクトル情報のみに頼り,ハイパースペクトル画像分類のための収束・誤り制約条件付き領域一般化法(C$^3$DG)を提案する。 本論文の主な貢献は,条件付き修正推論ブロック(CRIB)と,モデル収束と一般化誤差に関する対応する理論である。 CRIBは、共有エンコーダとマルチブランチデコーダを用いて、トレーニング中に条件分布を完全に活用し、HSIの生成機構と整合したデカップリングを実現する。 さらに、モデル収束を確実にし、制御可能な誤差を維持するために、最適化収束定理とリスク上限定理を提案する。 最適化収束定理では、損失項の勾配が矛盾しないことを示すことによってモデル収束を保証する。 リスク・アッパーバウンドの定理では,テストタイム・トレーニングと最近の関連研究との関係を考察し,具体的なエラー境界を確立する。 3つのベンチマークデータセットの実験結果は,C$^3$DGの優位性を示している。

Hyperspectral imagery (HSI) classification may suffer the challenge of hyperspectral-monospectra, where different classes present similar spectra. Joint spatial-spectral feature extraction is a popular solution for the problem, but this strategy tends to inflate accuracy since test pixels may exist in training patches. Domain generalization methods show promising potential, but they still fail to distinguish similar spectra across varying domains, in addition, the theoretical support is usually ignored. In this paper, we only rely on spectral information to solve the hyperspectral-monospectra problem, and propose a Convergence and Error-Constrained Conditional Domain Generalization method for Hyperspectral Imagery Classification (C$^3$DG). The major contributions of this paper include two aspects: the Conditional Revising Inference Block (CRIB), and the corresponding theories for model convergence and generalization errors. CRIB is the kernel structure of the proposed method, which employs a shared encoder and multi-branch decoders to fully leverage the conditional distribution during training, achieving a decoupling that aligns with the generation mechanisms of HSI. Moreover, to ensure model convergence and maintain controllable error, we propose the optimization convergence theorem and risk upper bound theorem. In the optimization convergence theorem, we ensure the model convergence by demonstrating that the gradients of the loss terms are not contradictory. In the risk upper bound theorem, our theoretical analysis explores the relationship between test-time training and recent related work to establish a concrete bound for error. Experimental results on three benchmark datasets indicate the superiority of C$^3$DG.
翻訳日:2024-07-08 15:20:13 公開日:2024-07-04
# 長距離相互作用量子系における普遍的な仕事統計

Universal work statistics in long-range interacting quantum systems ( http://arxiv.org/abs/2407.04101v1 )

ライセンス: Link先を確認
Andrea Solfanelli, Nicolò Defenu, (参考訳) 我々は、非断熱進化における欠陥発生によるエネルギー損失を、長距離相互作用の存在が減少させる条件を決定し、量子熱デバイスの効率向上に不可欠である。 そこで本研究では, 様々な外部駆動に対する長距離システムの応答について検討し, 汎用ローカルシステムと比較して, 動的励振に対する頑健性を強調した。 この現象は量子ワーク統計学の研究を通じて実証され、エネルギー伝達効率と動的量子臨界性に関する洞察を明らかにする。 本研究は, 量子熱力学応用のための長距離相互作用媒質を組み込むことの利点を実証し, 有限時間量子熱サイクルの最適化の可能性を強調した。 有効次元アプローチのおかげで、我々の発見は完全な一般性、そして異なる実験的なシナリオに特定できる。

We determine the conditions under which the presence of long-range interactions reduce the energy losses due to defect generation during non-adiabatic evolution, crucial for enhancing the power to efficiency ratio of quantum thermal devices. In order to do so, we investigate the response of long-range systems to diverse external drivings, emphasizing their robustness against dynamic excitation in comparison to generic local systems. This phenomenon is demonstrated through the study of the quantum work statistics, revealing insights into energy transfer efficiency and dynamical quantum criticality. Our results demonstrate the benefits of including a long-range interacting medium for quantum thermodynamics application, highlighting the potential to optimize finite-time quantum thermal cycles. Thanks to the effective dimension approach our findings can be drawn in full generality and, then, specified to different experimentally relevant scenarios.
翻訳日:2024-07-08 15:20:13 公開日:2024-07-04
# 画像データ拡張のための拡散モデルの進歩:方法・モデル・評価基準・今後の研究方向について

Advances in Diffusion Models for Image Data Augmentation: A Review of Methods, Models, Evaluation Metrics and Future Research Directions ( http://arxiv.org/abs/2407.04103v1 )

ライセンス: Link先を確認
Panagiotis Alimisis, Ioannis Mademlis, Panagiotis Radoglou-Grammatikis, Panagiotis Sarigiannidis, Georgios Th. Papadopoulos, (参考訳) 画像データ拡張は、トレーニングデータセットの多様性と品質の向上を容易にし、下流タスクにおける機械学習モデルの性能と堅牢性を向上させるため、現代のコンピュータビジョンタスクにおいて重要な方法論である。 並行して、拡張アプローチは、コンテキストとセマンティクスを意識した方法で、特定の画像の編集や修正にも使用することができる。 ディフュージョンモデル(DM)は、生成人工知能(AI)分野における最も最新かつ有望な手法の1つであり、画像データ拡張のための強力なツールとして登場し、基礎となるデータ分布を学習することで、現実的で多様な画像を生成することができる。 本研究は,画像拡張のためのDMベースのアプローチの体系的,包括的,詳細なレビューを実現し,幅広い戦略,タスク,アプリケーションについて紹介する。 特に、DMの基本原則、モデルアーキテクチャ、およびトレーニング戦略を総合的に分析する。 その後、セマンティックな操作、パーソナライズと適応、およびアプリケーション固有の拡張タスクに関する技術に焦点を当てた、関連する画像拡張手法の分類法が導入された。 そして、性能評価手法と各評価指標を分析する。 最後に,現状の課題と今後の研究の方向性について論じる。

Image data augmentation constitutes a critical methodology in modern computer vision tasks, since it can facilitate towards enhancing the diversity and quality of training datasets; thereby, improving the performance and robustness of machine learning models in downstream tasks. In parallel, augmentation approaches can also be used for editing/modifying a given image in a context- and semantics-aware way. Diffusion Models (DMs), which comprise one of the most recent and highly promising classes of methods in the field of generative Artificial Intelligence (AI), have emerged as a powerful tool for image data augmentation, capable of generating realistic and diverse images by learning the underlying data distribution. The current study realizes a systematic, comprehensive and in-depth review of DM-based approaches for image augmentation, covering a wide range of strategies, tasks and applications. In particular, a comprehensive analysis of the fundamental principles, model architectures and training strategies of DMs is initially performed. Subsequently, a taxonomy of the relevant image augmentation methods is introduced, focusing on techniques regarding semantic manipulation, personalization and adaptation, and application-specific augmentation tasks. Then, performance assessment methodologies and respective evaluation metrics are analyzed. Finally, current challenges and future research directions in the field are discussed.
翻訳日:2024-07-08 15:20:13 公開日:2024-07-04
# ネットワークに基づく周辺レグレッション

Network-based Neighborhood regression ( http://arxiv.org/abs/2407.04104v1 )

ライセンス: Link先を確認
Yaoming Zhen, Jin-Hong Du, (参考訳) 生体系におけるモジュラリティの普遍性を考えると、モジュールレベルの規制分析は様々なレベルの生体系とその力学を理解するのに不可欠である。 生物学的モジュールに関する現在の統計分析は、主に、生物学的ネットワークにおける機能的モジュールの検出、またはネットワークデータを使用しない生物学的特徴に対するサブグループ回帰に焦点を当てている。 本稿では,グローバルなコミュニティレベルの情報と,エンティティ間のローカル接続構造に依存する,新たなネットワークベースの地区回帰フレームワークを提案する。 ネットワークモジュール間の規制の強みを明らかにするために,漸近的推論を可能とし,効率的なコミュニティワイド最小2乗最適化手法を開発した。 ランダムグラフ理論では、提案した推定器の非漸近推定誤差境界を導出し、極小極小性を正確に達成する。 正準線形回帰に典型的なルート-n整合性とは異なり、我々のモデルはノード数nの線形整合性を示し、近傍情報を組み込むことの利点を浮き彫りにする。 提案手法の有効性は, 広範な数値実験によりさらに裏付けられる。 ゲノム変異の遺伝子モジュールとゲノム差分表現の遺伝子モジュールとの関連を同定するために,全ゲノムシークエンシングおよびRNAシークエンシング自閉症データセットへの応用が提案手法の使用例を示す。

Given the ubiquity of modularity in biological systems, module-level regulation analysis is vital for understanding biological systems across various levels and their dynamics. Current statistical analysis on biological modules predominantly focuses on either detecting the functional modules in biological networks or sub-group regression on the biological features without using the network data. This paper proposes a novel network-based neighborhood regression framework whose regression functions depend on both the global community-level information and local connectivity structures among entities. An efficient community-wise least square optimization approach is developed to uncover the strength of regulation among the network modules while enabling asymptotic inference. With random graph theory, we derive non-asymptotic estimation error bounds for the proposed estimator, achieving exact minimax optimality. Unlike the root-n consistency typical in canonical linear regression, our model exhibits linear consistency in the number of nodes n, highlighting the advantage of incorporating neighborhood information. The effectiveness of the proposed framework is further supported by extensive numerical experiments. Application to whole-exome sequencing and RNA-sequencing Autism datasets demonstrates the usage of the proposed method in identifying the association between the gene modules of genetic variations and the gene modules of genomic differential expressions.
翻訳日:2024-07-08 15:20:13 公開日:2024-07-04
# 事前訓練された言語モデルは中国風に耐えられるか?

Can Pre-trained Language Models Understand Chinese Humor? ( http://arxiv.org/abs/2407.04105v1 )

ライセンス: Link先を確認
Yuyan Chen, Zhixu Li, Jiaqing Liang, Yanghua Xiao, Bang Liu, Yunwen Chen, (参考訳) ユーモア理解は自然言語処理において重要かつ挑戦的な研究である。 プレトレーニング言語モデル(PLM)の普及に伴い、近年のいくつかの研究は、ユーモアの認識と生成にPLMを採用する予備的な試みを行っている。 しかし、これらの単純な試みは、この質問に答えるものではない: PLMがユーモアを理解できるかどうか? 本稿は, PLMのユーモア理解能力を体系的に研究した最初の論文である。 この目的のために、3つの評価ステップと4つの評価タスクを備えた総合的なフレームワークを設計する。 また,提案した評価フレームワークのすべてのデータ要件を完全に満たす中国の総合的ユーモアデータセットを構築した。 中国のユーモアデータセットに関する実証的研究は、ユーモア理解と生成におけるPLMの将来の最適化に非常に役立つ貴重な観察結果をもたらす。

Humor understanding is an important and challenging research in natural language processing. As the popularity of pre-trained language models (PLMs), some recent work makes preliminary attempts to adopt PLMs for humor recognition and generation. However, these simple attempts do not substantially answer the question: {\em whether PLMs are capable of humor understanding?} This paper is the first work that systematically investigates the humor understanding ability of PLMs. For this purpose, a comprehensive framework with three evaluation steps and four evaluation tasks is designed. We also construct a comprehensive Chinese humor dataset, which can fully meet all the data requirements of the proposed evaluation framework. Our empirical study on the Chinese humor dataset yields some valuable observations, which are of great guiding value for future optimization of PLMs in humor understanding and generation.
翻訳日:2024-07-08 15:20:13 公開日:2024-07-04
# MiniGPT-Med:放射線診断のための汎用インタフェースとしての大規模言語モデル

MiniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis ( http://arxiv.org/abs/2407.04106v1 )

ライセンス: Link先を確認
Asma Alkhaldi, Raneem Alnajim, Layan Alabdullatef, Rawan Alyahya, Jun Chen, Deyao Zhu, Ahmed Alsinan, Mohamed Elhoseiny, (参考訳) 人工知能(AI)の最近の進歩は、特に診断手順の洗練において、医療の大きなブレークスルーを引き起こしている。 しかし、以前の研究はしばしば限られた機能に制限された。 本研究では,大規模言語モデルから派生した視覚言語モデルであるMiniGPT-Medを紹介する。 MiniGPT-Medは、X線、CTスキャン、MRIなど、様々な画像モダリティにおいて、優れた汎用性を示し、その有用性を高めている。 このモデルは、医療報告生成、視覚的質問応答(VQA)、医療画像内の疾患識別などのタスクを実行することができる。 画像とテキストの臨床データの統合処理は、診断精度を著しく向上させる。 我々の経験的評価は,MiniGPT-Medの疾患接地,医療報告生成,VQAベンチマークにおける優れた成績を裏付けるものであり,放射線学の実践におけるギャップを減らすための重要なステップである。 さらに,従来の最良モデルよりも19倍の精度で,医療報告生成における最先端性能を実現する。 MiniGPT-Medは、放射線診断の一般的なインターフェースになり、幅広い医療画像アプリケーションにおける診断効率を高めることを約束している。

Recent advancements in artificial intelligence (AI) have precipitated significant breakthroughs in healthcare, particularly in refining diagnostic procedures. However, previous studies have often been constrained to limited functionalities. This study introduces MiniGPT-Med, a vision-language model derived from large-scale language models and tailored for medical applications. MiniGPT-Med demonstrates remarkable versatility across various imaging modalities, including X-rays, CT scans, and MRIs, enhancing its utility. The model is capable of performing tasks such as medical report generation, visual question answering (VQA), and disease identification within medical imagery. Its integrated processing of both image and textual clinical data markedly improves diagnostic accuracy. Our empirical assessments confirm MiniGPT-Med's superior performance in disease grounding, medical report generation, and VQA benchmarks, representing a significant step towards reducing the gap in assisting radiology practice. Furthermore, it achieves state-of-the-art performance on medical report generation, higher than the previous best model by 19\% accuracy. MiniGPT-Med promises to become a general interface for radiology diagnoses, enhancing diagnostic efficiency across a wide range of medical imaging applications.
翻訳日:2024-07-08 15:10:29 公開日:2024-07-04
# バックドアトリガーとしての今後の出来事 : LLMにおける時間的脆弱性の調査

Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs ( http://arxiv.org/abs/2407.04108v1 )

ライセンス: Link先を確認
Sara Price, Arjun Panickssery, Sam Bowman, Asa Cooper Stickland, (参考訳) バックドアは隠れた振る舞いであり、AIシステムがデプロイされるとのみトリガーされる。 バックドアを成功させようとする悪いアクターは、トレーニングや評価の際のアクティベーションを避けるために、それらを設計する必要があります。 これらの段階で使用されるデータは、既に発生したイベントに関する情報のみを含むことが多いため、単純なバックドアトリガーのコンポーネントは、トレーニングされた時間に関する将来的なデータを認識するモデルになる可能性がある。 実験の促進と内部アクティベーションの探索により、現在の大規模言語モデル(LLM)が過去の出来事と将来の出来事を区別できることが示され、モデルアクティベーションに関する調査は90\%の精度で達成されている。 私たちは、時間的分布シフトによって引き起こされるバックドアでモデルをトレーニングします。 有用で無害で正直な(HHH)データの微調整は、シンプルなバックドアトリガを除去するにはうまくいきませんが、我々のバックドアモデルでは有効です。 また,モデルの内部表現を表すアクティベーションステアリングベクトルが,バックドアアクティベーションの速度に影響を与えることも確認した。 これらの結果は、少なくとも我々がテストする控えめなスケールのモデルでは、標準安全対策はこれらのバックドアを取り除くのに十分である、という最初の証拠として捉えています。 関連するすべてのコード(https://github.com/sbp354/Future_triggered_backdoors)、データセット(https://tinyurl.com/future-backdoor-datasets)、モデル(https://huggingface.co/saraprices)を公開しています。

Backdoors are hidden behaviors that are only triggered once an AI system has been deployed. Bad actors looking to create successful backdoors must design them to avoid activation during training and evaluation. Since data used in these stages often only contains information about events that have already occurred, a component of a simple backdoor trigger could be a model recognizing data that is in the future relative to when it was trained. Through prompting experiments and by probing internal activations, we show that current large language models (LLMs) can distinguish past from future events, with probes on model activations achieving $90\%$ accuracy. We train models with backdoors triggered by a temporal distributional shift; they activate when the model is exposed to news headlines beyond their training cut-off dates. Fine-tuning on helpful, harmless and honest (HHH) data does not work well for removing simpler backdoor triggers but is effective on our backdoored models, although this distinction is smaller for the larger-scale model we tested. We also find that an activation-steering vector representing a model's internal representation of the date influences the rate of backdoor activation. We take these results as initial evidence that, at least for models at the modest scale we test, standard safety measures are enough to remove these backdoors. We publicly release all relevant code (https://github.com/sbp354/Future_triggered_backdoors), datasets (https://tinyurl.com/future-backdoor-datasets), and models (https://huggingface.co/saraprice).
翻訳日:2024-07-08 15:10:29 公開日:2024-07-04
# オプティカルツイーザーでトラップされた円状リドバーグ原子の相互作用

Interacting Circular Rydberg Atoms Trapped in Optical Tweezers ( http://arxiv.org/abs/2407.04109v1 )

ライセンス: Link先を確認
Paul Méhaignerie, Yohann Machu, Andrés Durán Hernández, Gautier Creutzer, David J. Papoular, Jean-Michel Raimond, Clément Sayrin, Michel Brune, (参考訳) 円状のリドベルク原子(CRA)、すなわち最大軌道運動量を持つリドベルク原子は、理想的には、量子系の鍵となる性質である長いコヒーレンス時間と強い相互作用を結合する。 しかし、CRA間の双極子-双極子相互作用は今のところ観測されていない。 本稿では,2つのCRA間の共振双極子-双極子相互作用の測定と特性について報告する。 電場配向を調整して相互作用の強度を動的に制御する。 我々は、CRA間の相互作用を原子間距離のメーターとして使用し、トラップ内の2つの原子間の相対運動を記録する。 この運動は、リドベルク準位と永久電気双極子との相互作用を通じて誘導され、円周状態の準備中に一過性に占有されるこの運動は、スピン-運動結合のサインである。

Circular Rydberg atoms (CRAs), i.e., Rydberg atoms with maximal orbital momentum, ideally combine long coherence times and strong interactions, a key property of quantum systems, in particular for the development of quantum technologies. However, the dipole-dipole interaction between CRAs has not been observed so far. We report the measurement and characterization of the resonant dipole-dipole interaction between two CRAs, individually trapped in optical tweezers, and find excellent agreement with theoretical predictions. We demonstrate a dynamic control over the strength of the interaction by tuning the orientation of an electric field. We use the interaction between the CRAs as a meter for the interatomic distance, and record the relative motion between two atoms in their traps. This motion, that we induce through the interaction between Rydberg levels with permanent electric dipoles, transiently populated during the preparation of the circular states, is a signature of spin-motion coupling.
翻訳日:2024-07-08 15:10:29 公開日:2024-07-04
# 多体分散力の量子情報的展望

A Quantum Information Perspective on Many-Body Dispersive Forces ( http://arxiv.org/abs/2407.04111v1 )

ライセンス: Link先を確認
Christopher Willby, Martin Kiffner, Joseph Tindall, Jason Crain, Dieter Jaksch, (参考訳) その多体性にもかかわらず、多体分散はいまだに理解されていない。 ここでは、分散境界系の最小モデルである量子ドルーデ発振器集合体における絡み合いの分布について検討する。 我々は, エンタングルメントとエネルギーの関係を解析的に決定し, エンタングルメント分布が分散結合をいかに支配するかを示した。 このことは、絡み合いのモノガミーが、多部分散結合エネルギーの偏差を、一般的に用いられるペアワイズ予測と比較して説明していることを示唆している。 本稿では, トリマーおよび拡張結晶格子の例を例に紹介する。

Despite its ubiquity, many-body dispersion remains poorly understood. Here we investigate the distribution of entanglement in quantum Drude oscillator assemblies, minimal models for dispersion bound systems. We analytically determine a relation between entanglement and energy, showing how the entanglement distribution governs dispersive bonding. This suggests that the monogamy of entanglement explains deviations of multipartite dispersive binding energies compared to the commonly used pairwise prediction. We illustrate our findings using examples of a trimer and extended crystal lattices.
翻訳日:2024-07-08 15:10:29 公開日:2024-07-04
# 2次元の位相認識のための量子畳み込みニューラルネットワーク

Quantum Convolutional Neural Network for Phase Recognition in Two Dimensions ( http://arxiv.org/abs/2407.04114v1 )

ライセンス: Link先を確認
Leon C. Sander, Nathan A. McMahon, Petr Zapletal, Michael J. Hartmann, (参考訳) 量子畳み込みニューラルネットワーク(Quantum Convolutional Neural Network, QCNN)は、低サンプリングコストで物質の量子位相を認識する量子回路であり、1次元の凝縮物質系のために設計されている。 ここでは,2次元の位相認識が可能なQCNNを構築し,Toric Code相から常磁性相への位相遷移を$\mathbb{Z}_2$-topological orderで正確に同定する。 ネットワークはまた、トポロジ的順序が認識されるまでのノイズ閾値を示す。 本研究は,QCNNを用いた位相認識を高次元および固有位相順に一般化し,古典的な数値による探索と特徴付けが困難になる。

Quantum convolutional neural networks (QCNNs) are quantum circuits for recognizing quantum phases of matter at low sampling cost and have been designed for condensed matter systems in one dimension. Here we construct a QCNN that can perform phase recognition in two dimensions and correctly identify the phase transition from a Toric Code phase with $\mathbb{Z}_2$-topological order to the paramagnetic phase. The network also exhibits a noise threshold up to which the topological order is recognized. Our work generalizes phase recognition with QCNNs to higher spatial dimensions and intrinsic topological order, where exploration and characterization via classical numerics become challenging.
翻訳日:2024-07-08 15:10:29 公開日:2024-07-04
# 予測符号化ネットワークと推論学習:チュートリアルとサーベイ

Predictive Coding Networks and Inference Learning: Tutorial and Survey ( http://arxiv.org/abs/2407.04117v1 )

ライセンス: Link先を確認
Björn van Zwol, Ro Jefferson, Egon L. van den Broek, (参考訳) 近年、人工知能研究において神経科学にインスパイアされたアプローチに新たな重点を置き、$\textit{NeuroAI}$というバナーを掲げる声が高まっている。 これは、機械学習(ML)における予測符号化ネットワーク(PCN)の近年の注目によって実証されている。 PCNは、脳をフィードバック接続からの予測エラーを最小限に抑える階層的ベイズ推論モデルとみなす予測符号化(PC)の神経科学的枠組みに基づいている。 推論学習(IL)で訓練されたPCNは、バックプロパゲーションで訓練された伝統的なフィードフォワードニューラルネットワーク(FNN)に対して潜在的に有利である。 歴史的に計算集約的ではあるが、最近のILの改良により、十分な並列化によるバックプロパゲーションよりも効率的であることが示され、PCNは大規模アプリケーションやニューロモルフィックハードウェアの代替として有望である。 さらに、PCNは従来のFNNのスーパーセットと見なすことができ、教師なし学習と教師なし学習の両方の可能なアーキテクチャの範囲を大幅に広げることができる。 本稿では,PCNの包括的レビューと形式的仕様,特に近代的なML手法の文脈にPCを配置し,MLコミュニティによるさらなる研究にふさわしい汎用的で有望なフレームワークとして位置づける。

Recent years have witnessed a growing call for renewed emphasis on neuroscience-inspired approaches in artificial intelligence research, under the banner of $\textit{NeuroAI}$. This is exemplified by recent attention gained by predictive coding networks (PCNs) within machine learning (ML). PCNs are based on the neuroscientific framework of predictive coding (PC), which views the brain as a hierarchical Bayesian inference model that minimizes prediction errors from feedback connections. PCNs trained with inference learning (IL) have potential advantages to traditional feedforward neural networks (FNNs) trained with backpropagation. While historically more computationally intensive, recent improvements in IL have shown that it can be more efficient than backpropagation with sufficient parallelization, making PCNs promising alternatives for large-scale applications and neuromorphic hardware. Moreover, PCNs can be mathematically considered as a superset of traditional FNNs, which substantially extends the range of possible architectures for both supervised and unsupervised learning. In this work, we provide a comprehensive review as well as a formal specification of PCNs, in particular placing them in the context of modern ML methods, and positioning PC as a versatile and promising framework worthy of further study by the ML community.
翻訳日:2024-07-08 15:10:29 公開日:2024-07-04
# MAPO: モデル適応型プロンプト最適化による大規模言語モデルの性能向上

MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization ( http://arxiv.org/abs/2407.04118v1 )

ライセンス: Link先を確認
Yuyan Chen, Zhihao Wen, Ge Fan, Zhengyu Chen, Wei Wu, Dayiheng Liu, Zhixu Li, Bang Liu, Yanghua Xiao, (参考訳) LLM(Large Language Models)を活用するための効率的かつ効果的な方法として、プロンプトエンジニアリングは、研究コミュニティから多くの注目を集めています。 既存の研究は、特定のLLMではなく、特定のタスクにプロンプトを適用することの重要性を強調している。 しかし、適切なプロンプトは単にそのワードによって定義されるだけでなく、その問題の性質にも結びついている。 本研究はまず,NLPの下流タスクにおいて,異なるプロンプトを異なるLLMに適応させ,その能力を高めることを定量的に示す。 そこで,本研究では,下流タスクにおける各LLMに対して,元のプロンプトを最適化するMAPO手法を提案する。 広汎な実験により,提案手法はLLMのプロンプトを効果的に洗練し,様々な下流タスクに対して大幅な改善をもたらすことが示唆された。

Prompt engineering, as an efficient and effective way to leverage Large Language Models (LLM), has drawn a lot of attention from the research community. The existing research primarily emphasizes the importance of adapting prompts to specific tasks, rather than specific LLMs. However, a good prompt is not solely defined by its wording, but also binds to the nature of the LLM in question. In this work, we first quantitatively demonstrate that different prompts should be adapted to different LLMs to enhance their capabilities across various downstream tasks in NLP. Then we novelly propose a model-adaptive prompt optimizer (MAPO) method that optimizes the original prompts for each specific LLM in downstream tasks. Extensive experiments indicate that the proposed method can effectively refine prompts for an LLM, leading to significant improvements over various downstream tasks.
翻訳日:2024-07-08 15:10:29 公開日:2024-07-04
# ランドスケープフリーズソーサイクルのLバンドパッシブマイクロ波検索のためのオートエンコーダアーキテクチャ

An Autoencoder Architecture for L-band Passive Microwave Retrieval of Landscape Freeze-Thaw Cycle ( http://arxiv.org/abs/2407.04119v1 )

ライセンス: Link先を確認
Divya Kumawat, Ardeshir Ebtehaj, Xiaolan Xu, Andreas Colliander, Vipin Kumar, (参考訳) 北半球の景観と土壌凍結ソー(FT)の動態を推定することは、地球温暖化による永久凍土の応答と、地域および世界の炭素収支の変化を理解する上で重要である。 深部畳み込み自己エンコーダニューラルネットワークに基づくLバンドマイクロ波ラジオメトリーを用いた表面FTサイクル検索のための新しいフレームワークを提案する。 本フレームワークは,凍結状態を正常状態,解凍状態を異常状態とする時系列異常検出問題として,ランドスケープFTサイクル検索を定義する。 自己エンコーダは、ピーク冬(夏)の復元誤差を最小化(最大化)するコントラスト損失関数を用いて、輝度温度(TB)時系列の教師付き再構成によりFTサイクルを確率的に検索する。 土壌水分能動受動 (SMAP) 衛星のデータを用いて, 積雪の放射特性, 湖氷の表現学, 植生キャノピーなど, さまざまな地形のFT状態の異なる地形を分離する手法を学習した。 標準偏光比のしきい値を用いた従来の手法と比較して,観測結果の整合性は低かった。

Estimating the landscape and soil freeze-thaw (FT) dynamics in the Northern Hemisphere is crucial for understanding permafrost response to global warming and changes in regional and global carbon budgets. A new framework is presented for surface FT-cycle retrievals using L-band microwave radiometry based on a deep convolutional autoencoder neural network. This framework defines the landscape FT-cycle retrieval as a time series anomaly detection problem considering the frozen states as normal and thawed states as anomalies. The autoencoder retrieves the FT-cycle probabilistically through supervised reconstruction of the brightness temperature (TB) time series using a contrastive loss function that minimizes (maximizes) the reconstruction error for the peak winter (summer). Using the data provided by the Soil Moisture Active Passive (SMAP) satellite, it is demonstrated that the framework learns to isolate the landscape FT states over different land surface types with varying complexities related to the radiometric characteristics of snow cover, lake-ice phenology, and vegetation canopy. The consistency of the retrievals is evaluated over Alaska, against in situ ground-based observations, showing reduced uncertainties compared to the traditional methods that use thresholding of the normalized polarization ratio.
翻訳日:2024-07-08 15:10:29 公開日:2024-07-04
# 幻覚検出:大規模言語モデルにおける信頼回答のロバストな識別

Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models ( http://arxiv.org/abs/2407.04121v1 )

ライセンス: Link先を確認
Yuyan Chen, Qiang Fu, Yichen Yuan, Zhihao Wen, Ge Fan, Dayiheng Liu, Dongmei Zhang, Zhixu Li, Yanghua Xiao, (参考訳) 大規模言語モデル(LLM)は、質問応答や対話システムなど、様々な自然言語処理タスクで広く採用されている。 しかし、LLMの大きな欠点は幻覚の問題であり、それらが入力源から逸脱する不信または矛盾した内容を生成し、深刻な結果をもたらす。 本稿では,LLMの生成した回答の幻覚を効果的に検出する,RelDという頑健な識別器を提案する。 RelDは、LLMによって生成された回答と総合的なメトリクスセットとともに、バイリンガルな質問答え対話データセットであるRelQAでトレーニングされる。 実験結果から,提案するRelDは多種多様なLSMによる幻覚の検出に成功していることが示された。 さらに、LLMの生成した回答の幻覚を、分布内および分布外の両方のデータセットと区別することにも効果がある。 さらに、我々はまた、発生した幻覚の種類を徹底的に分析し、貴重な洞察を提示する。 本研究は, LLMが生成する信頼性の高い解答の検出に大きく貢献し, 今後の研究における幻覚の緩和に重要な意味を持つ。

Large Language Models (LLMs) have gained widespread adoption in various natural language processing tasks, including question answering and dialogue systems. However, a major drawback of LLMs is the issue of hallucination, where they generate unfaithful or inconsistent content that deviates from the input source, leading to severe consequences. In this paper, we propose a robust discriminator named RelD to effectively detect hallucination in LLMs' generated answers. RelD is trained on the constructed RelQA, a bilingual question-answering dialogue dataset along with answers generated by LLMs and a comprehensive set of metrics. Our experimental results demonstrate that the proposed RelD successfully detects hallucination in the answers generated by diverse LLMs. Moreover, it performs well in distinguishing hallucination in LLMs' generated answers from both in-distribution and out-of-distribution datasets. Additionally, we also conduct a thorough analysis of the types of hallucinations that occur and present valuable insights. This research significantly contributes to the detection of reliable answers generated by LLMs and holds noteworthy implications for mitigating hallucination in the future work.
翻訳日:2024-07-08 15:10:29 公開日:2024-07-04
# 質問ガイドによる看護ノートの自己監督要約

Query-Guided Self-Supervised Summarization of Nursing Notes ( http://arxiv.org/abs/2407.04125v1 )

ライセンス: Link先を確認
Ya Gao, Hans Moen, Saila Koivusalo, Miika Koskinen, Pekka Marttinen, (参考訳) 看護記録(Electronic Health Records, EHRs)の重要な構成要素である看護ノートは、ケアエピソード中の患者の健康状態の進行を追跡記録する。 看護ノートに重要な情報をテキスト要約技術で蒸留することで、看護ノートをレビューする際の患者の状態を理解する上で、臨床医の効率を向上させることができる。 しかし, 臨床現場における既存の抽象的要約法は, 看護ノートの見落としがちであり, 監視信号の参照要約の作成が必要であり, 時間を要する。 本稿では,看護ノート要約のためのクエリ誘導型自己教師型ドメイン適応フレームワークであるQGSummを紹介する。 本研究は,患者関連臨床クエリをガイダンスとして,基準サマリーに頼らず,高品質で患者中心のサマリーを生成する。 専門医による自動的,手動的評価を通じて,ゼロショットと少数ショットの両方で,最先端の大規模言語モデル(LLM)と比較して,我々のアプローチの強みを実証する。 最終的に,本手法は,臨床スタッフの特定の関心事に合わせて,条件付きテキスト要約の新しい視点を提供する。

Nursing notes, an important component of Electronic Health Records (EHRs), keep track of the progression of a patient's health status during a care episode. Distilling the key information in nursing notes through text summarization techniques can improve clinicians' efficiency in understanding patients' conditions when reviewing nursing notes. However, existing abstractive summarization methods in the clinical setting have often overlooked nursing notes and require the creation of reference summaries for supervision signals, which is time-consuming. In this work, we introduce QGSumm, a query-guided self-supervised domain adaptation framework for nursing note summarization. Using patient-related clinical queries as guidance, our approach generates high-quality, patient-centered summaries without relying on reference summaries for training. Through automatic and manual evaluation by an expert clinician, we demonstrate the strengths of our approach compared to the state-of-the-art Large Language Models (LLMs) in both zero-shot and few-shot settings. Ultimately, our approach provides a new perspective on conditional text summarization, tailored to the specific interests of clinical personnel.
翻訳日:2024-07-08 15:10:29 公開日:2024-07-04
# リモート光胸腺造影信号形態に基づく生体認証

Biometric Authentication Based on Enhanced Remote Photoplethysmography Signal Morphology ( http://arxiv.org/abs/2407.04127v1 )

ライセンス: Link先を確認
Zhaodong Sun, Xiaobai Li, Jukka Komulainen, Guoying Zhao, (参考訳) 遠隔プラチスモグラフィー(Remote Photoplethysmography、rPPG)は、コンタクトセンサーから得られる接触型フォトプレチスモグラフィー(cPPG)の代替として、顔画像から心臓の信号を計測する非接触式方法である。 近年の研究では、顔画像から抽出したrPPG信号の形態を人物認証に利用するために、各個人が生体認証として利用できる独自のcPPG信号形態を持っていることが示されている。 顔の外観とrPPGが混在しているため、まず顔の外観を識別し、rPPG情報を保持しながら顔の外観を除去し、顔のプライバシーを保護し、rPPGのみが認証に使用されることを保証する。 未同定ビデオは、rPPG信号形態を認証するためにrPPGモデルに入力される。 第1の訓練段階では、粗いrPPG信号を得るために、教師なしrPPG訓練を行う。 第2の訓練段階では、外部のcPPGデータセットを組み込んで、rPPG生体認証を実現し、rPPG信号形態を向上することにより、rPPG-cPPGハイブリッドトレーニングを行う。 提案手法では,rPPG認証モデルのトレーニングを行うために,対象ID付き顔認識ビデオのみを必要とする。 実験により, 顔画像に隠されたrPPG信号形態が生体認証に有効であることが確認された。 コードはhttps://github.com/zhaodongsun/rppg_biometricsで公開されている。

Remote photoplethysmography (rPPG) is a non-contact method for measuring cardiac signals from facial videos, offering a convenient alternative to contact photoplethysmography (cPPG) obtained from contact sensors. Recent studies have shown that each individual possesses a unique cPPG signal morphology that can be utilized as a biometric identifier, which has inspired us to utilize the morphology of rPPG signals extracted from facial videos for person authentication. Since the facial appearance and rPPG are mixed in the facial videos, we first de-identify facial videos to remove facial appearance while preserving the rPPG information, which protects facial privacy and guarantees that only rPPG is used for authentication. The de-identified videos are fed into an rPPG model to get the rPPG signal morphology for authentication. In the first training stage, unsupervised rPPG training is performed to get coarse rPPG signals. In the second training stage, an rPPG-cPPG hybrid training is performed by incorporating external cPPG datasets to achieve rPPG biometric authentication and enhance rPPG signal morphology. Our approach needs only de-identified facial videos with subject IDs to train rPPG authentication models. The experimental results demonstrate that rPPG signal morphology hidden in facial videos can be used for biometric authentication. The code is available at https://github.com/zhaodongsun/rppg_biometrics.
翻訳日:2024-07-08 15:10:29 公開日:2024-07-04
# 複数の競合する崩壊チャネルの存在下での集団遷移クエンチング

Collective transition quenching in the presence of multiple competing decay channels ( http://arxiv.org/abs/2407.04129v1 )

ライセンス: Link先を確認
Wai-Keong Mok, Stuart J. Masson, Dan M. Stamper-Kurn, Tanya Zelevinsky, Ana Asenjo-Garcia, (参考訳) 複数の集団崩壊チャネルを持つ系で発生する量子多体散逸現象である「集合遷移クエンチング」の理論的枠組みを提案する。 競合にもかかわらず、相互作用は支配的な崩壊遷移を除いて全てを抑制し、システムが主に支配的な基底状態に落ち着く「勝者が全てを取る」力学へと繋がる。 置換対称性の存在下では、この問題は任意の競合するチャネルに対して正確に解決可能であることを証明している。 さらに, 流体の連続性方程式に進化をマッピングすることで, 力学の近似モデルを構築し, 支配遷移比が任意の分岐比に対して, システムサイズが増大するにつれて一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一 この支配的な基底状態のほぼ決定論的準備は、幅広い適用性を有する。 例として、分子光解離のためのプロトコルとして、分子動力学が触媒として効果的に作用し、特定の最終状態における収率を増幅するプロトコルについて論じる。 本研究は,量子システムの構築と制御における多体戦略の新たな道を開くものである。

We present a theoretical framework for 'collective transition quenching', a quantum many-body dissipative phenomenon that occurs in systems with multiple collective decay channels. Despite the competition, interactions suppress all but the dominant decay transition, leading to a 'winner takes all' dynamic where the system primarily settles into the dominant ground state. We prove that, in the presence of permutation symmetry, this problem is exactly solvable for any number of competing channels. Additionally, we develop an approximate model for the dynamics by mapping the evolution into a continuity equation for a fluid, and show analytically that the dominant transition ratio converges to unity with increasing system size as a power-law, for any branching ratio. This near-deterministic preparation of the dominant ground state has broad applicability. As an example we discuss a protocol for molecular photoassociation where collective dynamics effectively acts as a catalyst, amplifying the yield in a particular final state. Our results open new avenues for many-body strategies in the preparation and control of quantum systems.
翻訳日:2024-07-08 15:10:29 公開日:2024-07-04
# テキストアノテーションの自動化に向けて:GPT-4を用いた意味的近接アノテーションを事例として

Towards Automating Text Annotation: A Case Study on Semantic Proximity Annotation using GPT-4 ( http://arxiv.org/abs/2407.04130v1 )

ライセンス: Link先を確認
Sachin Yadav, Tejaswi Choppa, Dominik Schlechtweg, (参考訳) 本稿では, GPT-3.5 と GPT-4 を用いて自動プロンプト技術を用いたデータアノテーションプロセスの自動化について検討する。 本研究の目的は,LLMの自動プロンプトを設計するための注釈付きデータとともに,人間のアノテーションガイドラインを再利用し,意味的近接アノテーションタスクに焦点を当てることである。 自動プロンプトはカスタマイズされたプロンプトと比較される。 さらに、オープンソースのテキストアノテーションツールにプロンプト戦略を実装し、OpenAI APIによるオンライン利用を容易にします。 本研究は, 高精度なプロンプト設計における重要な役割を明らかにし, 意味的近接タスクにおいて, 人為的な指示で GPT-4 を誘導することは容易ではないことを示唆する。 人間のガイドラインに対する小さな修正は、すでに性能を改善しており、今後の研究の可能性を示唆している。

This paper explores using GPT-3.5 and GPT-4 to automate the data annotation process with automatic prompting techniques. The main aim of this paper is to reuse human annotation guidelines along with some annotated data to design automatic prompts for LLMs, focusing on the semantic proximity annotation task. Automatic prompts are compared to customized prompts. We further implement the prompting strategies into an open-source text annotation tool, enabling easy online use via the OpenAI API. Our study reveals the crucial role of accurate prompt design and suggests that prompting GPT-4 with human-like instructions is not straightforwardly possible for the semantic proximity task. We show that small modifications to the human guidelines already improve the performance, suggesting possible ways for future research.
翻訳日:2024-07-08 15:10:29 公開日:2024-07-04
# 定式化テストカバレッジ基準に対する制御フローグラフのアノテート

Annotating Control-Flow Graphs for Formalized Test Coverage Criteria ( http://arxiv.org/abs/2407.04144v1 )

ライセンス: Link先を確認
Sean Kauffman, Carlos Moreno, Sebastian Fischmeister, (参考訳) 制御フローカバレッジ基準は、組込みソフトウェアを安全クリティカルシステムに適合させるプロセスにおいて重要な部分である。 DO-178Bが定義した修正条件/決定カバレッジ(MC/DC)のような基準は、テストの妥当性を判断するために規制当局が、完全なパスカバレッジが不可能な場合にはQAエンジニアがテストの設計を行うために使用される。 その重要性にもかかわらず、これらのカバレッジ基準はしばしば誤解される。 一つの問題は、それらの定義が典型的には自然言語の仕様文書で書かれており、不正確であることである。 他の研究では二進述語論理を用いた形式的定義が提案されているが、これらの定義は実プログラムの分析に適用することは困難である。 制御フローグラフ(CFG)は、コンパイラのプログラムロジックを解析するための最も一般的なモデルであり、カバレッジ基準を定義し、分析するのに適しているように思われる。 しかし、CFGは決定の明示的な概念を捨て、このタスクに使用することは不可能に思える。 本稿では,このグラフから推定される決定情報を用いてCFGにアノテートする方法を示す。 我々はこの注釈付きモデルをCFDG(Control-Flow Decision Graph)と呼び、いくつかの一般的なカバレッジ基準を正式に定義するために使用します。 我々は,一般的なコンパイラから出力されるCFGを自動的にアノテートするツールとして,アルゴリズムを実装した。

Control flow coverage criteria are an important part of the process of qualifying embedded software for safety-critical systems. Criteria such as modified condition/decision coverage (MC/DC) as defined by DO-178B are used by regulators to judge the adequacy of testing and by QA engineers to design tests when full path coverage is impossible. Despite their importance, these coverage criteria are often misunderstood. One problem is that their definitions are typically written in natural language specification documents, making them imprecise. Other works have proposed formal definitions using binary predicate logic, but these definitions are difficult to apply to the analysis of real programs. Control-Flow Graphs (CFGs) are the most common model for analyzing program logic in compilers, and seem to be a good fit for defining and analyzing coverage criteria. However, CFGs discard the explicit concept of a decision, making their use for this task seem impossible. In this paper, we show how to annotate a CFG with decision information inferred from the graph itself. We call this annotated model a Control-Flow Decision Graph (CFDG) and we use it to formally define several common coverage criteria. We have implemented our algorithms in a tool which we show can be applied to automatically annotate CFGs output from popular compilers.
翻訳日:2024-07-08 15:10:29 公開日:2024-07-04
# ALPINE:コードのための言語モデルのための適応型言語に依存しないプルーニング手法

ALPINE: An adaptive language-agnostic pruning method for language models for code ( http://arxiv.org/abs/2407.04147v1 )

ライセンス: Link先を確認
Mootez Saad, José Antonio Hernández López, Boqi Chen, Dániel Varró, Tushar Sharma, (参考訳) コードの言語モデルは、様々なソフトウェアエンジニアリングとソースコード解析タスクで最先端のパフォーマンスを示している。 しかし、彼らの要求する計算資源の要求と環境フットプリントは依然として大きな課題である。 ALPINEは、これらのモデルの計算オーバーヘッドを大幅に削減するために設計された適応型プログラミング言語に依存しないプルーニング技術である。 提案手法は,すべてのTransformerベースのモデルに統合可能な,プラグ可能な層を提供する。 ALPINEでは、入力シーケンスはパイプライン全体を通して適応圧縮され、初期サイズが最大3ドルまで小さくなり、計算負荷が大幅に削減された。 CodeBERT, GraphCodeBERT, UniXCoderの3つの言語モデルにおける欠陥予測とコードクローン検出実験により,ALPINEはFLOPの最大50%の削減,58.1%のメモリフットプリントの削減,28.1%のスループット向上を実現していることがわかった。 この結果、CO2は44.85ドル%まで削減された。 重要なことは、元の予測性能の98.1%を維持しながら、計算リソースの削減を実現することである。 これらの知見は、ALPINEが、パフォーマンスを維持しながら、よりリソース効率が高くアクセスしやすくする上で、ALPINEの可能性を浮き彫りにし、ソフトウェア開発における言語モデルの採用の全体的な持続可能性に寄与している。 また、ALPINEによって達成された実質的なシーケンス圧縮によって示されるように、ソースコード解析コーパスにおける冗長でノイズの多い情報にも光を当てる。

Language models of code have demonstrated state-of-the-art performance across various software engineering and source code analysis tasks. However, their demanding computational resource requirements and consequential environmental footprint remain as significant challenges. This work introduces ALPINE, an adaptive programming language-agnostic pruning technique designed to substantially reduce these models' computational overhead. The proposed method offers a pluggable layer that can be integrated with all Transformer-based models. With ALPINE, input sequences undergo adaptive compression throughout the pipeline, reaching a size up to $\times 3$ less their initial size, resulting in significantly reduced computational load. Our experiments on two software engineering tasks, defect prediction and code clone detection across three language models CodeBERT, GraphCodeBERT and UniXCoder show that ALPINE achieves up to a 50% reduction in FLOPs, a 58.1% decrease in memory footprint, and a 28.1% improvement in throughput on average. This led to a reduction in CO2 by up to $44.85$%. Importantly, it achieves the reduction in computation resources while maintaining up to 98.1% of the original predictive performance. These findings highlight the potential of ALPINE in making language models of code more resource-efficient and accessible while preserving their performance, contributing to the overall sustainability of adopting language models in software development. Also, it sheds light on redundant and noisy information in source code analysis corpora, as shown by the substantial sequence compression achieved by ALPINE.
翻訳日:2024-07-08 15:10:29 公開日:2024-07-04
# SineKAN:正弦波活性化関数を用いたコルモゴロフ・アルノルドネットワーク

SineKAN: Kolmogorov-Arnold Networks Using Sinusoidal Activation Functions ( http://arxiv.org/abs/2407.04149v1 )

ライセンス: Link先を確認
Eric A. F. Reinhardt, Sergei Gleyzer, (参考訳) 最近の研究は、KAN(Kolmogorov-Arnold Networks)という形で、従来の多層パーセプトロンニューラルネットワークに代わるものを確立している。 一般のkanフレームワークは、計算グラフのエッジ上で学習可能なアクティベーション関数を使用し、続いてノード上での集計を行う。 元の実装における学習可能なエッジアクティベーション関数は、ベーススプライン関数(B-Spline)である。 本稿では,B-Spline 活性化関数の学習可能なグリッドを,重み付けされた正弦関数のグリッドに置き換えるモデルを提案する。 MNIST ベンチマークでは,B-Spline Kan モデルよりも優れた,あるいは同等の数値性能を示し,さらに 4-9 倍の速度向上を実現している。

Recent work has established an alternative to traditional multi-layer perceptron neural networks in the form of Kolmogorov-Arnold Networks (KAN). The general KAN framework uses learnable activation functions on the edges of the computational graph followed by summation on nodes. The learnable edge activation functions in the original implementation are basis spline functions (B-Spline). Here, we present a model in which learnable grids of B-Spline activation functions can be replaced by grids of re-weighted sine functions. We show that this leads to better or comparable numerical performance to B-Spline KAN models on the MNIST benchmark, while also providing a substantial speed increase on the order of 4-9 times.
翻訳日:2024-07-08 15:00:44 公開日:2024-07-04
# 分散バックドアトリガーに対するマルチターン会話言語モデルのセキュア化

Securing Multi-turn Conversational Language Models Against Distributed Backdoor Triggers ( http://arxiv.org/abs/2407.04151v1 )

ライセンス: Link先を確認
Terry Tong, Jiashu Xu, Qin Liu, Muhao Chen, (参考訳) マルチターン対話型大言語モデル(LLM)のセキュリティは、最も人気のあるLCM利用の1つであるにもかかわらず検討されている。 敵がトレーニングデータを操作し、モデルが事前に定義されたトリガーに対して悪意のある応答を出力させる。 マルチターンの対話設定に特化して、LLMは、バックドアトリガーが複数の発話にまたがる、より有害でステルスなバックドア攻撃の危険性があり、コンテキスト駆動攻撃へのリーウェイを与える。 本稿では,他の単一ターン攻撃戦略をプラグ・アンド・プレイ方式で操作可能な,敵のツールボックスに余分なツールとして機能する分散バックドアトリガー攻撃について検討する。 2つの代表的防御機構の結果、分散バックドアトリガーは、シングルターンのユーザモデルインタラクション用に設計された既存の防衛戦略に対して堅牢であることを示し、より困難なマルチターン対話設定のための新しい防衛戦略を提案する動機となった。 この目的のために、バックドアを低計算トレードオフで緩和できる、対照的なデコードに基づく防御法についても検討する。

The security of multi-turn conversational large language models (LLMs) is understudied despite it being one of the most popular LLM utilization. Specifically, LLMs are vulnerable to data poisoning backdoor attacks, where an adversary manipulates the training data to cause the model to output malicious responses to predefined triggers. Specific to the multi-turn dialogue setting, LLMs are at the risk of even more harmful and stealthy backdoor attacks where the backdoor triggers may span across multiple utterances, giving lee-way to context-driven attacks. In this paper, we explore a novel distributed backdoor trigger attack that serves to be an extra tool in an adversary's toolbox that can interface with other single-turn attack strategies in a plug and play manner. Results on two representative defense mechanisms indicate that distributed backdoor triggers are robust against existing defense strategies which are designed for single-turn user-model interactions, motivating us to propose a new defense strategy for the multi-turn dialogue setting that is more challenging. To this end, we also explore a novel contrastive decoding based defense that is able to mitigate the backdoor with a low computational tradeoff.
翻訳日:2024-07-08 15:00:44 公開日:2024-07-04
# VoxAct-B:Voxel-based Acting and Stabilizing Policy for bimanual Manipulation

VoxAct-B: Voxel-Based Acting and Stabilizing Policy for Bimanual Manipulation ( http://arxiv.org/abs/2407.04152v1 )

ライセンス: Link先を確認
I-Chun Arthur Liu, Sicheng He, Daniel Seita, Gaurav Sukhatme, (参考訳) 双対操作は多くのロボティクス応用において重要である。 シングルアーム操作とは対照的に、高次元のアクション空間のため、双方向操作タスクは困難である。 先行研究は、この問題に対処するために大量のデータと原始的なアクションを利用するが、サンプルの非効率性と様々なタスクにわたる限定的な一般化に悩まされる可能性がある。 この目的のために,視覚言語モデル(VLM)を利用した言語条件付きボクセルベース手法であるVoxAct-Bを提案する。 我々はこのボクセルグリッドをバイマニュアル操作ポリシーに提供し、動作と安定化の動作を学ぶ。 このアプローチは、ボクセルからのより効率的なポリシー学習を可能にし、異なるタスクに一般化することができる。 シミュレーションにおいて、VoxAct-Bは、細粒度バイマニュアル操作タスクにおいて、強いベースラインを上回ります。 さらに、現実世界の$\texttt{Open Drawer}$と$\texttt{Open Jar}$タスクで2つのUR5を使ってVoxAct-Bを実証する。 コード、データ、ビデオはhttps://voxact-b.github.io.comで入手できる。

Bimanual manipulation is critical to many robotics applications. In contrast to single-arm manipulation, bimanual manipulation tasks are challenging due to higher-dimensional action spaces. Prior works leverage large amounts of data and primitive actions to address this problem, but may suffer from sample inefficiency and limited generalization across various tasks. To this end, we propose VoxAct-B, a language-conditioned, voxel-based method that leverages Vision Language Models (VLMs) to prioritize key regions within the scene and reconstruct a voxel grid. We provide this voxel grid to our bimanual manipulation policy to learn acting and stabilizing actions. This approach enables more efficient policy learning from voxels and is generalizable to different tasks. In simulation, we show that VoxAct-B outperforms strong baselines on fine-grained bimanual manipulation tasks. Furthermore, we demonstrate VoxAct-B on real-world $\texttt{Open Drawer}$ and $\texttt{Open Jar}$ tasks using two UR5s. Code, data, and videos will be available at https://voxact-b.github.io.
翻訳日:2024-07-08 15:00:44 公開日:2024-07-04
# 百万人の専門家の混ざり合い

Mixture of A Million Experts ( http://arxiv.org/abs/2407.04153v1 )

ライセンス: Link先を確認
Xu Owen He, (参考訳) 標準トランスアーキテクチャにおけるフィードフォワード(FFW)層は、隠れた層幅が大きくなるにつれて、計算コストとアクティベーションメモリが線形に増加する。 Sparse Mixed-of-Experts (MoE) アーキテクチャは、計算コストからモデルサイズを分離することでこの問題に対処するための実行可能なアプローチとして登場した。 最近のMoEスケーリング法則の発見は、より高い粒度がより良いパフォーマンスをもたらすことを示している。 しかし、既存のMoEモデルは、計算と最適化の課題のため、少数の専門家に限られている。 本稿では,小人数の専門家(100万人以上)のプールからのスパース検索に製品キー技術を利用する新しい層設計であるPEER(parameter efficient expert search)を紹介する。 言語モデリングタスクの実験では、PEER層が高密度FFWや粗粒のMoEよりもパフォーマンス・計算トレードオフの点で優れていることが示された。 PEERは、多数の専門家の効率的な利用を可能にすることで、計算効率を維持しながら、トランスフォーマーモデルのさらなるスケーリングの可能性を解き放つ。

The feedforward (FFW) layers in standard transformer architectures incur a linear increase in computational costs and activation memory as the hidden layer width grows. Sparse mixture-of-experts (MoE) architectures have emerged as a viable approach to address this issue by decoupling model size from computational cost. The recent discovery of the fine-grained MoE scaling law shows that higher granularity leads to better performance. However, existing MoE models are limited to a small number of experts due to computational and optimization challenges. This paper introduces PEER (parameter efficient expert retrieval), a novel layer design that utilizes the product key technique for sparse retrieval from a vast pool of tiny experts (over a million). Experiments on language modeling tasks demonstrate that PEER layers outperform dense FFWs and coarse-grained MoEs in terms of performance-compute trade-off. By enabling efficient utilization of a massive number of experts, PEER unlocks the potential for further scaling of transformer models while maintaining computational efficiency.
翻訳日:2024-07-08 15:00:44 公開日:2024-07-04
# 量子コンピュータを用いた非相対論的弾性散乱の位相シフトの評価

Evaluation of phase shifts for non-relativistic elastic scattering using quantum computers ( http://arxiv.org/abs/2407.04155v1 )

ライセンス: Link先を確認
Francesco Turro, Kyle A. Wendt, Sofia Quaglioni, Francesco Pederiva, Alessandro Roggero, (参考訳) 散乱過程のシミュレーションは、宇宙の物理学を理解するのに不可欠である。 ab initio法からの関連する散乱量の計算は、計算資源がかなり必要であるため、古典的な装置では極めて困難である。 本研究は, 量子コンピュータ上での一般相対論的非弾性散乱過程の位相シフトを求めるアルゴリズムの開発を報告する。 このアルゴリズムは、リアルタイム進化の直接的実装から位相シフトを抽出することに基づいている。 アルゴリズムは変分処理によって改善され、量子ノイズに対してより正確で耐性がある。 アルゴリズムの信頼性は、まず様々なポテンシャルの古典的な数値シミュレーションによって実証され、後に既存の量子ハードウェア、特にIBM量子プロセッサで試験される。

Simulations of scattering processes are essential in understanding the physics of our universe. Computing relevant scattering quantities from ab initio methods is extremely difficult on classical devices because of the substantial computational resources needed. This work reports the development of an algorithm that makes it possible to obtain phase shifts for generic non-relativistic elastic scattering processes on a quantum computer. This algorithm is based on extracting phase shifts from the direct implementation of the real-time evolution. The algorithm is improved by a variational procedure, making it more accurate and resistant to the quantum noise. The reliability of the algorithm is first demonstrated by means of classical numerical simulations for different potentials, and later tested on existing quantum hardware, specifically on IBM quantum processors.
翻訳日:2024-07-08 15:00:44 公開日:2024-07-04
# 有限演算子学習 : ブリッジングニューラル演算子と効率的パラメトリック解の数値解法とPDEの最適化

Finite Operator Learning: Bridging Neural Operators and Numerical Methods for Efficient Parametric Solution and Optimization of PDEs ( http://arxiv.org/abs/2407.04157v1 )

ライセンス: Link先を確認
Shahed Rezaei, Reza Najian Asl, Kianoosh Taghikhani, Ahmad Moeineddin, Michael Kaliske, Markus Apel, (参考訳) 本稿では,ニューラルネットワーク,物理情報処理機械学習,およびPDEを解くための標準的な数値法を組み合わせた手法を提案する。 提案手法は、上記の各メソッドを拡張し、それらを単一のフレームワークに統合する。 データフリーな方法で偏微分方程式をパラメトリックに解き、正確な感度、すなわち設計空間に関する解空間の微分を与えることができる。 これらの機能は、応答関数の数に直接スケールする随伴法とは異なり、典型的な感度解析コストなしで勾配に基づく最適化を可能にする。 我々のFOL(Finite Operator Learning)アプローチでは、複雑でないフィードフォワードニューラルネットワークモデルを使用して、離散的な設計空間(パラメトリック入力空間)を直接離散的なソリューション空間(任意の形状領域における有限個のセンサポイント)にマッピングし、それらを損失関数に設計することで物理法則に準拠する。 離散化された支配方程式は、設計や解空間と同様に、確立された任意の数値技術から導出することができる。 本研究ではフィールドとその空間微分を近似するために有限要素法(FEM)を用いる。 その後、エネルギー汎関数の離散化弱形、境界条件違反、設計変数に対する残留物の定常性を含む多目的損失関数を最小化するためにソボレフ訓練を行う。 本研究は, 相コントラストに有意な温度依存性を示す不均一材料中の定常熱方程式に着目した。 ネットワークの接点行列は、組織の熱伝達特性を改善するために勾配に基づく最適化に直接使用される。 はぁ...。

We introduce a method that combines neural operators, physics-informed machine learning, and standard numerical methods for solving PDEs. The proposed approach extends each of the aforementioned methods and unifies them within a single framework. We can parametrically solve partial differential equations in a data-free manner and provide accurate sensitivities, meaning the derivatives of the solution space with respect to the design space. These capabilities enable gradient-based optimization without the typical sensitivity analysis costs, unlike adjoint methods that scale directly with the number of response functions. Our Finite Operator Learning (FOL) approach uses an uncomplicated feed-forward neural network model to directly map the discrete design space (i.e. parametric input space) to the discrete solution space (i.e. finite number of sensor points in the arbitrary shape domain) ensuring compliance with physical laws by designing them into loss functions. The discretized governing equations, as well as the design and solution spaces, can be derived from any well-established numerical techniques. In this work, we employ the Finite Element Method (FEM) to approximate fields and their spatial derivatives. Subsequently, we conduct Sobolev training to minimize a multi-objective loss function, which includes the discretized weak form of the energy functional, boundary conditions violations, and the stationarity of the residuals with respect to the design variables. Our study focuses on the steady-state heat equation within heterogeneous materials that exhibits significant phase contrast and possibly temperature-dependent conductivity. The network's tangent matrix is directly used for gradient-based optimization to improve the microstructure's heat transfer characteristics. ...
翻訳日:2024-07-08 15:00:44 公開日:2024-07-04
# ELCC: 創発的言語コーパスコレクション

ELCC: the Emergent Language Corpus Collection ( http://arxiv.org/abs/2407.04158v1 )

ライセンス: Link先を確認
Brendon Boldt, David Mortensen, (参考訳) 本稿では,言語コーパスコレクション (ELCC: Emergent Language Corpus Collection) について紹介する。 これらのシステムには、様々なシグナリングゲーム環境や、より複雑なソーシャル推論ゲームや、具体化されたナビゲーションなどが含まれる。 各コーパスには、ソースコードの特徴を記述したメタデータと、コーパスの分析スイート(例えば、サイズ、エントロピー、平均メッセージ長)が添付されている。 現在、創発言語の研究は、そのような言語の実際の分析から離れて、研究される言語の種類を制限し、深層学習のバックグラウンドを持たない研究者の参入障壁を提示する様々なシステムを直接実行する必要がある。 十分に文書化された創発言語コーパスのかなりのコレクションが利用可能となることで、実験装置ではなく、創発言語自体の特性に焦点をあてた研究の新たな方向性が可能になる。

We introduce the Emergent Language Corpus Collection (ELCC): a collection of corpora collected from open source implementations of emergent communication systems across the literature. These systems include a variety of signalling game environments as well as more complex tasks like a social deduction game and embodied navigation. Each corpus is annotated with metadata describing the characteristics of the source system as well as a suite of analyses of the corpus (e.g., size, entropy, average message length). Currently, research studying emergent languages requires directly running different systems which takes time away from actual analyses of such languages, limits the variety of languages that are studied, and presents a barrier to entry for researchers without a background in deep learning. The availability of a substantial collection of well-documented emergent language corpora, then, will enable new directions of research which focus their purview on the properties of emergent languages themselves rather than on experimental apparatus.
翻訳日:2024-07-08 15:00:44 公開日:2024-07-04
# 最初のパッチから長期コントリビュータへ:OSS新参者に対するオンボーディング勧告の評価

From First Patch to Long-Term Contributor: Evaluating Onboarding Recommendations for OSS Newcomers ( http://arxiv.org/abs/2407.04159v1 )

ライセンス: Link先を確認
Asif Kamal Turzo, Sayma Sultana, Amiangshu Bosu, (参考訳) オープンソースソフトウェア(OSS)プロジェクトの長期的な存続を保証するためには,新たなコントリビュータの定常的なストリームの獲得と維持が不可欠だ。 しかしながら、OSSプロジェクトへの新しいコントリビュータの導入推奨に関する2つの重要な研究ギャップがある。 まず、既存のレコメンデーションのほとんどは限られた数のプロジェクトに基づいています。 もしレコメンデーションが相反する結果を異なる文脈で与えれば、新参者を助けるのではなく、新参者の参加プロセスを妨げる可能性がある。 第二に、これらのレコメンデーションが経験豊富なコントリビュータにも当てはまるかどうかは不明です。 特定のレコメンデーションが新参者特有のものである場合、最初のコントリビューションが受け入れられた後もフォローし続けることは、長期的なコントリビューターになる可能性を妨げます。 これらのギャップに対処するため,我々は2段階混合法の研究を行った。 第1段階では,SLR(Systematic Literature Review)を実施し,OSSプロジェクトの新参者がフォロー可能なタスク関連アクション可能なレコメンデーション15件を特定した。 第2段階では、GitHubから5つのGerritベースのプロジェクトと1,155のOSSプロジェクトに関する大規模な実証的研究を行い、これらの推奨が新規参入の成功に役立つかどうかを評価します。 以上の結果から,4つの推奨事項は,新参者の最初のパッチ受け入れ状況と正の相関が示唆された。 4つの推奨事項は文脈に依存し、4つの推奨事項は、ほとんどのプロジェクトにおいて顕著なネガティブな関連を示す。 また, OSS参加者は, 長期コントリビュータになる確率を高めるために, 新規加入者以外の立場を放棄すべきである3つの新しいコントリビュータ固有のレコメンデーションも見出した。

Attracting and retaining a steady stream of new contributors is crucial to ensuring the long-term survival of open-source software (OSS) projects. However, there are two key research gaps regarding recommendations for onboarding new contributors to OSS projects. First, most of the existing recommendations are based on a limited number of projects, which raises concerns about their generalizability. If a recommendation yields conflicting results in a different context, it could hinder a newcomer's onboarding process rather than help them. Second, it's unclear whether these recommendations also apply to experienced contributors. If certain recommendations are specific to newcomers, continuing to follow them after their initial contributions are accepted could hinder their chances of becoming long-term contributors. To address these gaps, we conducted a two-stage mixed-method study. In the first stage, we conducted a Systematic Literature Review (SLR) and identified 15 task-related actionable recommendations that newcomers to OSS projects can follow to improve their odds of successful onboarding. In the second stage, we conduct a large-scale empirical study of five Gerrit-based projects and 1,155 OSS projects from GitHub to assess whether those recommendations assist newcomers' successful onboarding. Our results suggest that four recommendations positively correlate with newcomers' first patch acceptance in most contexts. Four recommendations are context-dependent, and four indicate significant negative associations for most projects. Our results also found three newcomer-specific recommendations, which OSS joiners should abandon at non-newcomer status to increase their odds of becoming long-term contributors.
翻訳日:2024-07-08 15:00:44 公開日:2024-07-04
# 解釈可能な微分可能論理ネットワークの学習

Learning Interpretable Differentiable Logic Networks ( http://arxiv.org/abs/2407.04168v1 )

ライセンス: Link先を確認
Chang Yue, Niraj K. Jha, (参考訳) 医療から自然言語処理まで、現実世界のアプリケーションにおけるニューラルネットワーク(NN)の普遍性は、高次元データ内の複雑な関係を捉える上で、その大きな有用性を示している。 しかし、NNには、解釈性を損なう「ブラックボックス」の性質や、トレーニングデータに過度に適合する傾向など、顕著な欠点がある。 本稿では,複数レイヤのバイナリ論理演算子を用いるアーキテクチャであるDLN(Interpretable Differentiable logic Network)を学習する新しい手法を提案する。 我々はこれらのネットワークを、入力の双対化、バイナリ論理演算、ニューロン間の接続を通じて、個々のコンポーネント、例えば、ソフト化と差別化によって訓練する。 このアプローチは、勾配に基づく学習手法の使用を可能にする。 20の分類タスクに関する実験結果は、従来のNNと同等かそれ以上の精度で、微分可能な論理ネットワークが達成可能であることを示している。 同じように、これらのネットワークは解釈可能性の利点を提供する。 さらに、その比較的単純な構造により、推論中の論理ゲートレベルの操作数はNNの1000倍も小さくなり、エッジデバイスへのデプロイに適している。

The ubiquity of neural networks (NNs) in real-world applications, from healthcare to natural language processing, underscores their immense utility in capturing complex relationships within high-dimensional data. However, NNs come with notable disadvantages, such as their "black-box" nature, which hampers interpretability, as well as their tendency to overfit the training data. We introduce a novel method for learning interpretable differentiable logic networks (DLNs) that are architectures that employ multiple layers of binary logic operators. We train these networks by softening and differentiating their discrete components, e.g., through binarization of inputs, binary logic operations, and connections between neurons. This approach enables the use of gradient-based learning methods. Experimental results on twenty classification tasks indicate that differentiable logic networks can achieve accuracies comparable to or exceeding that of traditional NNs. Equally importantly, these networks offer the advantage of interpretability. Moreover, their relatively simple structure results in the number of logic gate-level operations during inference being up to a thousand times smaller than NNs, making them suitable for deployment on edge devices.
翻訳日:2024-07-08 15:00:44 公開日:2024-07-04
# ディープフェイクの解決策: カメラのハードウェア、暗号、ディープラーニングはリアルなイメージを検証できるか?

Solutions to Deepfakes: Can Camera Hardware, Cryptography, and Deep Learning Verify Real Images? ( http://arxiv.org/abs/2407.04169v1 )

ライセンス: Link先を確認
Alexander Vilesov, Yuan Tian, Nader Sehatbakhsh, Achuta Kadambi, (参考訳) 生成AIの指数的な進歩は、すべての実際の画像やビデオの信頼性に深刻な影響を及ぼす。 将来、ある点が存在する。 1) 生成AIが生成するデジタルコンテンツは、カメラが生成するコンテンツと区別できない。 2)高品質な生成アルゴリズムは誰でも利用でき、 3) 合成画像と実画像の比率は大きい。 信頼性の高い合成データから実際のデータを分離する手法を確立することが不可欠である。 実際の画像は、実際のシーンをキャプチャして、カメラハードウェアが生成したものと定義する。 生成AIまたはコンピュータグラフィックス技術を介して、画像の合成生成や実際の画像の変更を合成画像としてラベル付けする。 この目的のために、この文書は、どの画像が本物であるかを検証し、これらの戦略の強みと弱みを重み付け、欠点を軽減するためにさらなる改善を提案できる、検出と暗号に関する既知の戦略を提示することを目的としている。

The exponential progress in generative AI poses serious implications for the credibility of all real images and videos. There will exist a point in the future where 1) digital content produced by generative AI will be indistinguishable from those created by cameras, 2) high-quality generative algorithms will be accessible to anyone, and 3) the ratio of all synthetic to real images will be large. It is imperative to establish methods that can separate real data from synthetic data with high confidence. We define real images as those that were produced by the camera hardware, capturing a real-world scene. Any synthetic generation of an image or alteration of a real image through generative AI or computer graphics techniques is labeled as a synthetic image. To this end, this document aims to: present known strategies in detection and cryptography that can be employed to verify which images are real, weight the strengths and weaknesses of these strategies, and suggest additional improvements to alleviate shortcomings.
翻訳日:2024-07-08 15:00:44 公開日:2024-07-04
# 注意正規化はスロット注意における心の一般化に影響を及ぼす

Attention Normalization Impacts Cardinality Generalization in Slot Attention ( http://arxiv.org/abs/2407.04170v1 )

ライセンス: Link先を確認
Markus Krimmel, Jan Achterhold, Joerg Stueckler, (参考訳) オブジェクト中心のシーン分解は、コンピュータビジョンやロボット工学のような分野における下流タスクの重要な表現である。 最近提案されたSlot Attentionモジュールは、画像のセグメンテーションやオブジェクト追跡のためのいくつかの派生作業に既に利用されており、入力画像に対して教師なしのオブジェクト中心のシーン分解を実行するディープラーニングコンポーネントである。 これは、オブジェクトの圧縮情報を保持する潜在スロットベクトルが、入力画像から局所化された知覚特徴に付随するアテンションアーキテクチャに基づいている。 本稿では,アテンションアーキテクチャにおける集約値の正規化に関する設計上の決定が,学習中に見られるスロットやオブジェクトの数の増加を一般化するスロットアテンションの能力に多大な影響を与えることを示す。 元のスロットアテンション正規化方式は、スロットへの画素の割り当ての事前確率に関する情報を排除し、その一般化能力を損なうと主張している。 これらの結果に基づき、スロットアテンションの様々なスロットとオブジェクト数への一般化能力を向上する代替正規化手法を提案し、その結果、教師なし画像セグメンテーションのタスクの性能向上をもたらす。

Object-centric scene decompositions are important representations for downstream tasks in fields such as computer vision and robotics. The recently proposed Slot Attention module, already leveraged by several derivative works for image segmentation and object tracking in videos, is a deep learning component which performs unsupervised object-centric scene decomposition on input images. It is based on an attention architecture, in which latent slot vectors, which hold compressed information on objects, attend to localized perceptual features from the input image. In this paper, we show that design decisions on normalizing the aggregated values in the attention architecture have considerable impact on the capabilities of Slot Attention to generalize to a higher number of slots and objects as seen during training. We argue that the original Slot Attention normalization scheme discards information on the prior assignment probability of pixels to slots, which impairs its generalization capabilities. Based on these findings, we propose and investigate alternative normalization approaches which increase the generalization capabilities of Slot Attention to varying slot and object counts, resulting in performance gains on the task of unsupervised image segmentation.
翻訳日:2024-07-08 15:00:44 公開日:2024-07-04
# 伝送線路のホログラフィー:連続MERAとAdS/CFTの考察

Holography of Transmission Lines: Insights of Continuous MERA and AdS/CFT ( http://arxiv.org/abs/2407.04171v1 )

ライセンス: Link先を確認
So Katagiri, (参考訳) 本研究では、量子コンピューティングと量子情報において重要な役割を果たす伝送線路の量子論のホログラフィック表現について検討する。 AdS空間における連続MERA(cMERA)の枠組みの中で、YurkeとDenkerの量子回路ネットワーク理論を利用して、伝送線路の量子化と相互作用を分析する。 この計量は、0限界のAdS空間である量子回路のインダクタンスによって説明される。 これらの結果は、量子回路における複雑な現象の扱いと制御に関する新たな洞察を与え、量子コンピューティングと量子通信の理解を深める可能性がある。

This study examines the holographic representation of the quantum theory of transmission lines, which play a crucial role in quantum computing and quantum information. Utilizing Yurke and Denker's quantum circuit network theory within the framework of continuous MERA (cMERA) in AdS space, we analyze the quantization and interactions of transmission lines. The metric is revealed to be described by the inductance of the quantum circuit, which is AdS-space in its 0-limit. These results provide new insights into handling and controlling complex phenomena in quantum circuits, potentially advancing the understanding of quantum computing and quantum communication.
翻訳日:2024-07-08 15:00:44 公開日:2024-07-04
# ChartGemma: ワイルドなチャート推論のためのビジュアルインストラクションチューニング

ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild ( http://arxiv.org/abs/2407.04172v1 )

ライセンス: Link先を確認
Ahmed Masry, Megh Thakkar, Aayush Bajaj, Aaryaman Kartha, Enamul Hoque, Shafiq Joty, (参考訳) データ分析、可視化、意思決定ツールとしてのチャートの普及を考えると、事前学習された基礎モデルや、チャート理解と推論のための汎用的な指導訓練モデルの開発への関心が高まっている。 しかし、既存の手法は、チャート表現モデルの性能に影響を与える2つの重要な軸に重大な欠点を被り、グラフの基盤となるデータテーブルから生成されたデータに基づいてトレーニングされ、チャート画像の視覚的傾向やパターンを無視し、ドメイン固有のトレーニングのために弱い整列された視覚言語バックボーンモデルを使用し、ワイルドなチャートに遭遇する際の一般化性を制限する。 我々はこれらの重要な欠点に対処し、PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。 ChartGemmaは、基礎となるデータテーブルに頼るのではなく、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練されている。 我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークにまたがる最先端の結果を達成し、現実世界のチャートに関する精巧な質的研究は、ChartGemmaが同時代のものよりも現実的で事実的に正しい要約を生成することを示している。 コード、モデルチェックポイント、データセット、およびデモはhttps://github.com/vis-nlp/ChartGemma.comで公開しています。

Given the ubiquity of charts as a data analysis, visualization, and decision-making tool across industries and sciences, there has been a growing interest in developing pre-trained foundation models as well as general purpose instruction-tuned models for chart understanding and reasoning. However, existing methods suffer crucial drawbacks across two critical axes affecting the performance of chart representation models: they are trained on data generated from underlying data tables of the charts, ignoring the visual trends and patterns in chart images, and use weakly aligned vision-language backbone models for domain-specific training, limiting their generalizability when encountering charts in the wild. We address these important drawbacks and introduce ChartGemma, a novel chart understanding and reasoning model developed over PaliGemma. Rather than relying on underlying data tables, ChartGemma is trained on instruction-tuning data generated directly from chart images, thus capturing both high-level trends and low-level visual information from a diverse set of charts. Our simple approach achieves state-of-the-art results across $5$ benchmarks spanning chart summarization, question answering, and fact-checking, and our elaborate qualitative studies on real-world charts show that ChartGemma generates more realistic and factually correct summaries compared to its contemporaries. We release the code, model checkpoints, dataset, and demos at https://github.com/vis-nlp/ChartGemma.
翻訳日:2024-07-08 15:00:44 公開日:2024-07-04
# タブラルLLMにおけるモデル乗法下における予測整合性の定量化

Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs ( http://arxiv.org/abs/2407.04173v1 )

ライセンス: Link先を確認
Faisal Hamman, Pasan Dissanayake, Saumitra Mishra, Freddy Lecue, Sanghamitra Dutta, (参考訳) 分類タスクの限られた表データ上での細調整された大きな言語モデル(LLM)は、トレーニングプロセスのバリエーション(シード、ランダムウェイトの初期化、追加または削除されたサンプルの再訓練など)によって、同じ入力に対して矛盾する予測を行うような、等しく良好なパフォーマンスのモデルである \textit{fine-tuning multiplicity} につながる。 このことは、特に金融、雇用、教育、医療など、高い意思決定のために配備されたタブラルLSMの堅牢性と信頼性に対する批判的な懸念を提起する。 本研究は,タブラルLLMにおける微調整多重性の課題を定式化し,高価なモデル再訓練を伴わずに個々の予測の堅牢性を定量化するための新しい指標を提案する。 我々の計量は、埋め込み空間における入力の周りのモデルの局所的挙動を解析(サンプリング)することにより、予測の安定性を定量化する。 興味深いことに、局所的な地区でのサンプリングは、広範囲の微調整モデルに対して確率論的堅牢性を保証するために活用できることが示されている。 ベルンシュタインの不等式を活用することで、(我々の測度によって定義されるように)十分に高い堅牢性を持つ予測が高い確率で一定であることを示す。 また、実世界のデータセットに関する実証的な評価を行い、理論的結果を支持する。 我々の研究は、高度で安全に重要なアプリケーションにおいて、LLMの信頼性の高い展開を可能にするための微調整不安定性に対処することの重要性を強調している。

Fine-tuning large language models (LLMs) on limited tabular data for classification tasks can lead to \textit{fine-tuning multiplicity}, where equally well-performing models make conflicting predictions on the same inputs due to variations in the training process (i.e., seed, random weight initialization, retraining on additional or deleted samples). This raises critical concerns about the robustness and reliability of Tabular LLMs, particularly when deployed for high-stakes decision-making, such as finance, hiring, education, healthcare, etc. This work formalizes the challenge of fine-tuning multiplicity in Tabular LLMs and proposes a novel metric to quantify the robustness of individual predictions without expensive model retraining. Our metric quantifies a prediction's stability by analyzing (sampling) the model's local behavior around the input in the embedding space. Interestingly, we show that sampling in the local neighborhood can be leveraged to provide probabilistic robustness guarantees against a broad class of fine-tuned models. By leveraging Bernstein's Inequality, we show that predictions with sufficiently high robustness (as defined by our measure) will remain consistent with high probability. We also provide empirical evaluation on real-world datasets to support our theoretical results. Our work highlights the importance of addressing fine-tuning instabilities to enable trustworthy deployment of LLMs in high-stakes and safety-critical applications.
翻訳日:2024-07-08 15:00:44 公開日:2024-07-04
# トーケン置換による統語的テクスチャバックドア攻撃に対する防御

Defense Against Syntactic Textual Backdoor Attacks with Token Substitution ( http://arxiv.org/abs/2407.04179v1 )

ライセンス: Link先を確認
Xinglin Li, Xianwen He, Yao Li, Minhao Cheng, (参考訳) テキストバックドア攻撃は、Large Language Models (LLM) に重大なセキュリティリスクをもたらす。 トレーニング段階では、慎重に選択されたトリガを犠牲者モデルに組み込んで、特定のクラスと同じトリガを含む入力を誤って予測する。 以前のバックドアディフェンスメソッドは主に特別なトークンベースのトリガーをターゲットとしており、構文ベースのトリガーは十分に対処されていない。 このギャップを埋めるために,シンタクスベースと特別なトークンベースのバックドア攻撃を効果的に対処する新しいオンライン防御アルゴリズムを提案する。 このアルゴリズムは、文中の意味的に意味のある単語を、完全に異なる単語に置き換えるが、構文テンプレートや特別なトークンを保存し、置換前後に予測されたラベルを比較して、文にトリガーが含まれているかどうかを判断する。 実験により,これらの2種類のトリガに対するアルゴリズムの性能を確認し,モデル整合性に対する総合的な防御戦略を提供する。

Textual backdoor attacks present a substantial security risk to Large Language Models (LLM). It embeds carefully chosen triggers into a victim model at the training stage, and makes the model erroneously predict inputs containing the same triggers as a certain class. Prior backdoor defense methods primarily target special token-based triggers, leaving syntax-based triggers insufficiently addressed. To fill this gap, this paper proposes a novel online defense algorithm that effectively counters syntax-based as well as special token-based backdoor attacks. The algorithm replaces semantically meaningful words in sentences with entirely different ones but preserves the syntactic templates or special tokens, and then compares the predicted labels before and after the substitution to determine whether a sentence contains triggers. Experimental results confirm the algorithm's performance against these two types of triggers, offering a comprehensive defense strategy for model integrity.
翻訳日:2024-07-08 15:00:44 公開日:2024-07-04
# Slice-100K: 押出し型3Dプリンティングのためのマルチモーダルデータセット

Slice-100K: A Multimodal Dataset for Extrusion-based 3D Printing ( http://arxiv.org/abs/2407.04180v1 )

ライセンス: Link先を確認
Anushrut Jignasu, Kelly O. Marshall, Ankush Kumar Mishra, Lucas Nerone Rillo, Baskar Ganapathysubramanian, Aditya Balu, Chinmay Hegde, Adarsh Krishnamurthy, (参考訳) Gコード(Geometric code)またはRS-274は、最も広く使われているコンピュータ数値制御(CNC)および3Dプリンティング言語である。 G符号は、特にノズル、ステージ、押出成形用材料の押出のための3Dプリンタの移動のための機械指示を提供する。 現在、加法製造用のGコードファイルとともに、キュレートされたCADモデルの大規模なリポジトリは存在しない。 この問題に対処するため、SLICE-100Kは100,000以上のGコードファイルからなる第一種データセットであり、CADモデル、LVIS(Large Vocabulary Instance Segmentation)カテゴリ、幾何学的特性、レンダリングも備えている。 我々はObjaverse-XLおよびThingi10Kデータセットから派生した三角メッシュからデータセットを構築する。 従来のGコードフォーマット(Sailfish)から、より現代的で広く使われているフォーマット(Marlin)へのGコード変換のためのデータセットのサブセットにGPT-2を微調整することで、このデータセットの有用性を実証する。 SLICE-100Kは、デジタル製造のためのマルチモーダル基盤モデルを開発するための第一歩となる。

G-code (Geometric code) or RS-274 is the most widely used computer numerical control (CNC) and 3D printing programming language. G-code provides machine instructions for the movement of the 3D printer, especially for the nozzle, stage, and extrusion of material for extrusion-based additive manufacturing. Currently there does not exist a large repository of curated CAD models along with their corresponding G-code files for additive manufacturing. To address this issue, we present SLICE-100K, a first-of-its-kind dataset of over 100,000 G-code files, along with their tessellated CAD model, LVIS (Large Vocabulary Instance Segmentation) categories, geometric properties, and renderings. We build our dataset from triangulated meshes derived from Objaverse-XL and Thingi10K datasets. We demonstrate the utility of this dataset by finetuning GPT-2 on a subset of the dataset for G-code translation from a legacy G-code format (Sailfish) to a more modern, widely used format (Marlin). SLICE-100K will be the first step in developing a multimodal foundation model for digital manufacturing.
翻訳日:2024-07-08 14:50:59 公開日:2024-07-04
# パーソナライゼーションの異なるLLMのオーケストレーション

Orchestrating LLMs with Different Personalizations ( http://arxiv.org/abs/2407.04181v1 )

ライセンス: Link先を確認
Jin Peng Zhou, Katie Z Luo, Jingwen Gu, Jason Yuan, Kilian Q. Weinberger, Wen Sun, (参考訳) 本稿では,大規模言語モデル(LLM)を個人の嗜好と整合させる新しいアプローチを提案する。 有用性、簡潔性、ユーモアなど、複数の次元に沿って記述された嗜好を踏まえると、ゴールは、この仕様に最もよく準拠する再訓練をせずにLLMを作成することである。 特殊専門家のLSMから、それぞれが特定の選好次元を訓練し、その出力をトーケンレベルでマージするブラックボックス法を提案する。 我々は、好み記述と現在のコンテキストを次トーケン予測重みに動的に変換する軽量なPreference Control Model (PCM) を訓練する。 トークンレベルでの専門家モデルの出力を組み合わせることで、我々のアプローチは与えられた好みを最適化するテキストを動的に生成する。 実証実験により,提案手法は従来の選好マージ手法と一致するか,あるいは超越しているかを示し,個人化のための微調整 LLM に代わるスケーラブルで効率的な代替手段を提供する。

This paper presents a novel approach to aligning large language models (LLMs) with individual human preferences, sometimes referred to as Reinforcement Learning from \textit{Personalized} Human Feedback (RLPHF). Given stated preferences along multiple dimensions, such as helpfulness, conciseness, or humor, the goal is to create an LLM without re-training that best adheres to this specification. Starting from specialized expert LLMs, each trained for one such particular preference dimension, we propose a black-box method that merges their outputs on a per-token level. We train a lightweight Preference Control Model (PCM) that dynamically translates the preference description and current context into next-token prediction weights. By combining the expert models' outputs at the token level, our approach dynamically generates text that optimizes the given preference. Empirical tests show that our method matches or surpasses existing preference merging techniques, providing a scalable, efficient alternative to fine-tuning LLMs for individual personalization.
翻訳日:2024-07-08 14:50:59 公開日:2024-07-04
# AIのように見える: LLMがWikipediaの中立性をいかに適用(そして不適切な)するか

Seeing Like an AI: How LLMs Apply (and Misapply) Wikipedia Neutrality Norms ( http://arxiv.org/abs/2407.04183v1 )

ライセンス: Link先を確認
Joshua Ashkinaze, Ruijia Guan, Laura Kurek, Eytan Adar, Ceren Budak, Eric Gilbert, (参考訳) 大規模言語モデル(LLM)は広義のコーパスで訓練され、特殊な規範を持つコミュニティで使用される。 LLMにコミュニティルールを提供することは、モデルがこれらの規範に従うのに十分なのだろうか? LLMの検知能力(Task)を評価する。 1)と正しい(Task) 2)ウィキペディアのニュートラル・ポイント・オブ・ビュー(NPOV)ポリシーに従って、バイアス付きのウィキペディア編集を行う。 LLMはバイアス検出に苦労し、バランスの取れたデータセットでは64%の精度しか達成できなかった。 モデルは対照的なバイアス(過大な予測バイアスなど)を示し、中立性に関する明確な先行を示唆した。 LLMは世代によって改善され、ウィキペディアの編集者によって削除された単語の79%が削除された。 しかし、LLMsはウィキペディアのエディターの単純な中性化以外の追加変更を行い、高速で精度の低い編集が可能になった。 興味深いことに、クラウドワーカーたちは、AIの書き直しをWikipediaの編集者による書き直しよりも中立的(70%)で流動的(61%)と評価した。 質的な分析により、LLMはウィキペディアの編集者よりも包括的にNPOVを適用したことがあるが、文法のような非NPOV関連の変更がしばしば行われた。 LLMは、一般市民と共鳴するが、コミュニティの専門家と異なる方法で規則を適用することができる。 LLMは生成に有効な可能性があるが、エディターエージェンシーを減らし、モデレーション作業量を増やす可能性がある(例えば、追加の検証)。 ルールが分かりやすくても、LSMを適用することは、コミュニティメンバーのように難しいかもしれません。

Large language models (LLMs) are trained on broad corpora and then used in communities with specialized norms. Is providing LLMs with community rules enough for models to follow these norms? We evaluate LLMs' capacity to detect (Task 1) and correct (Task 2) biased Wikipedia edits according to Wikipedia's Neutral Point of View (NPOV) policy. LLMs struggled with bias detection, achieving only 64% accuracy on a balanced dataset. Models exhibited contrasting biases (some under- and others over-predicted bias), suggesting distinct priors about neutrality. LLMs performed better at generation, removing 79% of words removed by Wikipedia editors. However, LLMs made additional changes beyond Wikipedia editors' simpler neutralizations, resulting in high-recall but low-precision editing. Interestingly, crowdworkers rated AI rewrites as more neutral (70%) and fluent (61%) than Wikipedia-editor rewrites. Qualitative analysis found LLMs sometimes applied NPOV more comprehensively than Wikipedia editors but often made extraneous non-NPOV-related changes (such as grammar). LLMs may apply rules in ways that resonate with the public but diverge from community experts. While potentially effective for generation, LLMs may reduce editor agency and increase moderation workload (e.g., verifying additions). Even when rules are easy to articulate, having LLMs apply them like community members may still be difficult.
翻訳日:2024-07-08 14:50:59 公開日:2024-07-04
# QueryMamba: ビデオアクション予測のための統計的Verb-Nounインタラクションモジュールを備えたマンバベースのエンコーダ-デコーダアーキテクチャ

QueryMamba: A Mamba-Based Encoder-Decoder Architecture with a Statistical Verb-Noun Interaction Module for Video Action Forecasting @ Ego4D Long-Term Action Anticipation Challenge 2024 ( http://arxiv.org/abs/2407.04184v1 )

ライセンス: Link先を確認
Zeyun Zhong, Manuel Martin, Frederik Diederichs, Juergen Beyerer, (参考訳) 本稿では,マンバをベースとした新しいエンコーダデコーダアーキテクチャであるQueryMambaについて述べる。 このアーキテクチャは、歴史的データに基づいて動詞や名詞の発生を予測するだけでなく、その共同発生も予測精度の向上のために考慮している。 本手法の有効性は実験結果によって実証され,Ego4D LTAチャレンジでは2位,名詞予測では1位となった。

This report presents a novel Mamba-based encoder-decoder architecture, QueryMamba, featuring an integrated verb-noun interaction module that utilizes a statistical verb-noun co-occurrence matrix to enhance video action forecasting. This architecture not only predicts verbs and nouns likely to occur based on historical data but also considers their joint occurrence to improve forecast accuracy. The efficacy of this approach is substantiated by experimental results, with the method achieving second place in the Ego4D LTA challenge and ranking first in noun prediction accuracy.
翻訳日:2024-07-08 14:50:59 公開日:2024-07-04
# HAF-RM:リワードモデルトレーニングのためのハイブリッドアライメントフレームワーク

HAF-RM: A Hybrid Alignment Framework for Reward Model Training ( http://arxiv.org/abs/2407.04185v1 )

ライセンス: Link先を確認
Shujun Liu, Xiaoyu Shen, Yuhang Lai, Siyuan Wang, Shengbin Yue, Zengfeng Huang, Xuanjing Huang, Zhongyu Wei, (参考訳) 報奨モデルは、大規模言語モデル(LLM)のアライメント、アセスメント、データ構築においてますます重要になっている。 既存の研究者の多くは、予測された報酬を直接最適化する報酬モデルのための従来のトレーニングフレームワークに従って、データ改善を通じて報酬モデルを強化することに重点を置いている。 本稿では,報酬スコアに加えてトークンレベルの政策確率に制約を加えることで,報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。 トークンレベルで内部の嗜好モデルを同時に監視し、シーケンスレベルで報酬モデルのマッピング層を最適化することができる。 5つのデータセットの理論的正当性と実験結果から,高品質の報酬モデルをトレーニングするためのハイブリッドフレームワークの有効性と有効性を示した。 我々のHaF-RMフレームワークは、報酬モデリング手順を分離し、ハイブリッド・インスペクションを取り入れることで、強力な言語モデルの開発において重要な要素である報酬モデルの性能とアライメントを向上させるための原則的かつ効果的なアプローチを提供する。 コードをhttps://haf-rm.github.ioでリリースします。

The reward model has become increasingly important in alignment, assessment, and data construction for large language models (LLMs). Most existing researchers focus on enhancing reward models through data improvements, following the conventional training framework for reward models that directly optimizes the predicted rewards. In this paper, we propose a hybrid alignment framework HaF-RM for reward model training by introducing an additional constraint on token-level policy probabilities in addition to the reward score. It can simultaneously supervise the internal preference model at the token level and optimize the mapping layer of the reward model at the sequence level. Theoretical justifications and experiment results on five datasets show the validity and effectiveness of our proposed hybrid framework for training a high-quality reward model. By decoupling the reward modeling procedure and incorporating hybrid supervision, our HaF-RM framework offers a principled and effective approach to enhancing the performance and alignment of reward models, a critical component in the responsible development of powerful language models. We release our code at https://haf-rm.github.io.
翻訳日:2024-07-08 14:50:59 公開日:2024-07-04
# メタラーニングと表現学習 : 短い理論ノート

Meta-Learning and representation learner: A short theoretical note ( http://arxiv.org/abs/2407.04189v1 )

ライセンス: Link先を確認
Mouad El Bouchattaoui, (参考訳) メタラーニング(メタラーニング、メタラーニング・トゥ・ラーニング)は、機械学習のサブフィールドであり、様々なタスクから学習し、時間の経過とともに学習プロセスを改善するモデルとアルゴリズムを開発することを目的としている。 特定のタスクを学習することに焦点を当てた従来の機械学習手法とは異なり、メタラーニングは、過去のタスクからの経験を活用して将来の学習を強化することを目的としている。 このアプローチは、新しいタスクの利用可能なデータが限られているシナリオでは特に有用であるが、関連するタスクから豊富なデータが存在する。 これらのタスクの根底にある構造とパターンを抽出し活用することにより、メタ学習アルゴリズムは、少ないデータでより高速な収束とより良いパフォーマンスを達成することができる。 以下は、主に \cite{vanschoren2018meta}、 \cite{baxter2019learning}、および \cite{maurer2005algorithmic}から着想を得たものである。

Meta-learning, or "learning to learn," is a subfield of machine learning where the goal is to develop models and algorithms that can learn from various tasks and improve their learning process over time. Unlike traditional machine learning methods focusing on learning a specific task, meta-learning aims to leverage experience from previous tasks to enhance future learning. This approach is particularly beneficial in scenarios where the available data for a new task is limited, but there exists abundant data from related tasks. By extracting and utilizing the underlying structure and patterns across these tasks, meta-learning algorithms can achieve faster convergence and better performance with fewer data. The following notes are mainly inspired from \cite{vanschoren2018meta}, \cite{baxter2019learning}, and \cite{maurer2005algorithmic}.
翻訳日:2024-07-08 14:50:59 公開日:2024-07-04
# GVDIFF:拡散モデルによる地上テキスト・ビデオ生成

GVDIFF: Grounded Text-to-Video Generation with Diffusion Models ( http://arxiv.org/abs/2407.01921v2 )

ライセンス: Link先を確認
Huanzhang Dou, Ruixiang Li, Wei Su, Xi Li, (参考訳) テキスト・ツー・ビデオ(T2V)生成では、T2V生成における離散的・連続的な接地条件は未解明のままである。 本稿では,GVDIFFと呼ばれるグラウンドドテキスト・ビデオ生成フレームワークを提案する。 まず,不確実性に基づく表現を通じて自己注意状態に接地条件を注入し,ネットワークの焦点を明確に導出する。 第2に,接地条件と対象物とを接続する空間時空間接地層を導入し,空間時空間領域における接地生成能力を持つモデルを実現する。 第三に、我々の動的ゲートネットワークは冗長な接地処理を適応的にスキップし、効率を改善しつつ、接地情報や意味を選択的に抽出する。 我々は、GVDIFFの基底生成能力を広く評価し、長距離ビデオ生成、シーケンシャルプロンプト、オブジェクト固有の編集など、その汎用性を示す。

In text-to-video (T2V) generation, significant attention has been directed toward its development, yet unifying discrete and continuous grounding conditions in T2V generation remains under-explored. This paper proposes a Grounded text-to-Video generation framework, termed GVDIFF. First, we inject the grounding condition into the self-attention through an uncertainty-based representation to explicitly guide the focus of the network. Second, we introduce a spatial-temporal grounding layer that connects the grounding condition with target objects and enables the model with the grounded generation capacity in the spatial-temporal domain. Third, our dynamic gate network adaptively skips the redundant grounding process to selectively extract grounding information and semantics while improving efficiency. We extensively evaluate the grounded generation capacity of GVDIFF and demonstrate its versatility in applications, including long-range video generation, sequential prompts, and object-specific editing.
翻訳日:2024-07-08 12:21:54 公開日:2024-07-04
# 法的判断予測のためのLLMにおける識別的推論

Enabling Discriminative Reasoning in LLMs for Legal Judgment Prediction ( http://arxiv.org/abs/2407.01964v3 )

ライセンス: Link先を確認
Chenlong Deng, Kelong Mao, Yuyao Zhang, Zhicheng Dou, (参考訳) 司法効率を高めるためには法的判断の予測が不可欠である。 本研究では,既存の大規模言語モデル (LLM) が,ケースの複雑さを理解し,類似の電荷を区別することの難しさから,この領域で性能が低下していることを明らかにする。 有効な法的判断予測にLLMを適用するために,人間の司法的推論に触発されたAsk-Discriminate-Predict(ADAPT)推論の枠組みを導入する。 ADAPTは、ケース事実を分解し、潜在的な電荷を識別し、最終的な判断を予測する。 我々は,多タスク合成軌道の微調整によりLLMをさらに強化し,ADAPTフレームワークの法定判定精度と効率を向上させる。 広範に使われている2つのデータセットで実施された大規模な実験は、特に複雑で紛らわしい電荷を扱う場合、法的な判断の予測において、我々のフレームワークの優れた性能を示す。

Legal judgment prediction is essential for enhancing judicial efficiency. In this work, we identify that existing large language models (LLMs) underperform in this domain due to challenges in understanding case complexities and distinguishing between similar charges. To adapt LLMs for effective legal judgment prediction, we introduce the Ask-Discriminate-Predict (ADAPT) reasoning framework inspired by human judicial reasoning. ADAPT involves decomposing case facts, discriminating among potential charges, and predicting the final judgment. We further enhance LLMs through fine-tuning with multi-task synthetic trajectories to improve legal judgment prediction accuracy and efficiency under our ADAPT framework. Extensive experiments conducted on two widely-used datasets demonstrate the superior performance of our framework in legal judgment prediction, particularly when dealing with complex and confusing charges.
翻訳日:2024-07-08 12:21:54 公開日:2024-07-04
# 多目的ビューファインダーネットワークによる画像クロッピングのための擬似ラベル作成

Pseudo-Labeling by Multi-Policy Viewfinder Network for Image Cropping ( http://arxiv.org/abs/2407.01971v2 )

ライセンス: Link先を確認
Zhiyu Pan, Kewei Wang, Yizheng Wu, Liwen Xiao, Jiahao Cui, Zhicheng Wang, Zhiguo Cao, (参考訳) 自動画像トリミングモデルは、画像美学を強化するためにリフレーミングボックスを予測する。 しかし、ラベル付きデータの不足は、このタスクの進捗を妨げる。 この制限を克服するために、ラベル付きデータとラベルなしデータの両方を併用して、画像収穫モデルのトレーニングデータの規模を拡大する可能性を検討する。 このアイデアは、教師モデルによってラベルのないデータのための擬似ラベルを作成し、これらの擬似ラベルで学生モデルを訓練する、擬似ラベル方式で実装することができる。 しかし、その生徒は教師の間違いから学ぶことができる。 この問題に対処するため,教師からの擬似ラベルの誤りを正すために,多様な修正ポリシーを提供するマルチ政治ビューファインダーネットワーク(MPV-Net)を提案する。 最も信頼できるポリシーは、信頼できる疑似ラベルを生成するために選択される。 ポリシーの信頼性は、ボックスジッタリングに対する堅牢性を通じて評価される。 本手法の有効性は,ラベル付きデータのみを使用する教師付きベースラインと比較して評価できる。 特に,MPV-Netは市販の擬似ラベル法よりも優れており,教師付きベースラインよりも大幅に改善されている。 さらに,本手法はFCDBとFLMSの両方のデータセットの最先端化を実現し,本手法の優位性を示す。

Automatic image cropping models predict reframing boxes to enhance image aesthetics. Yet, the scarcity of labeled data hinders the progress of this task. To overcome this limitation, we explore the possibility of utilizing both labeled and unlabeled data together to expand the scale of training data for image cropping models. This idea can be implemented in a pseudo-labeling way: producing pseudo labels for unlabeled data by a teacher model and training a student model with these pseudo labels. However, the student may learn from teacher's mistakes. To address this issue, we propose the multi-policy viewfinder network (MPV-Net) that offers diverse refining policies to rectify the mistakes in original pseudo labels from the teacher. The most reliable policy is selected to generate trusted pseudo labels. The reliability of policies is evaluated via the robustness against box jittering. The efficacy of our method can be evaluated by the improvement compared to the supervised baseline which only uses labeled data. Notably, our MPV-Net outperforms off-the-shelf pseudo-labeling methods, yielding the most substantial improvement over the supervised baseline. Furthermore, our approach achieves state-of-the-art results on both the FCDB and FLMS datasets, signifying the superiority of our approach.
翻訳日:2024-07-08 12:21:54 公開日:2024-07-04
# カメラ-LiDARクロスモダリティ歩行認識

Camera-LiDAR Cross-modality Gait Recognition ( http://arxiv.org/abs/2407.02038v3 )

ライセンス: Link先を確認
Wenxuan Guo, Yingping Liang, Zhiyu Pan, Ziheng Xi, Jianjiang Feng, Jie Zhou, (参考訳) 歩行認識は重要な生体認証技術である。 カメラによる歩行認識は、研究分野と産業分野の両方に広く応用されている。 LiDARに基づく歩行認識も、3D構造情報の提供により、近年進化し始めている。 しかし、特定のアプリケーションでは、LiDARがうまく機能する低照度環境や長距離認識シナリオなど、カメラは人を認識することができない。 一方、LiDARシステムのデプロイメントコストと複雑さは、より広範なアプリケーションを制限する。 したがって,カメラとLiDAR間のクロスモダリティ歩行認識を幅広い用途で検討することが不可欠である。 そこで本研究では,カメラとLiDAR,すなわちCL-Gait間の最初のモダリティ間歩行認識フレームワークを提案する。 両方のモダリティを組み込むために2ストリームネットワークを採用している。 これは、3Dデータと2Dデータとの固有なマッチングにより、重要なモダリティの相違を示すため、困難な認識課題となる。 両モードの特徴空間,すなわちカメラシルエットとLiDAR点の特徴空間を整列するために,モダリティの相違を緩和するための対照的な事前学習戦略を提案する。 プレトレーニングのためのペアカメラ-LiDARデータの欠如を補うため,大規模にデータを生成する戦略も導入する。 この戦略は、単一のRGB画像と仮想カメラから推定される単眼深度を利用して、対照的な事前学習のための擬似点雲を生成する。 広汎な実験により、モダリティの歩行認識は非常に困難であるが、提案したモデルと事前学習戦略への可能性と実現可能性を含んでいることが示された。 私たちの知る限りでは、これはモダリティ間の歩行認識に対処する最初の試みである。

Gait recognition is a crucial biometric identification technique. Camera-based gait recognition has been widely applied in both research and industrial fields. LiDAR-based gait recognition has also begun to evolve most recently, due to the provision of 3D structural information. However, in certain applications, cameras fail to recognize persons, such as in low-light environments and long-distance recognition scenarios, where LiDARs work well. On the other hand, the deployment cost and complexity of LiDAR systems limit its wider application. Therefore, it is essential to consider cross-modality gait recognition between cameras and LiDARs for a broader range of applications. In this work, we propose the first cross-modality gait recognition framework between Camera and LiDAR, namely CL-Gait. It employs a two-stream network for feature embedding of both modalities. This poses a challenging recognition task due to the inherent matching between 3D and 2D data, exhibiting significant modality discrepancy. To align the feature spaces of the two modalities, i.e., camera silhouettes and LiDAR points, we propose a contrastive pre-training strategy to mitigate modality discrepancy. To make up for the absence of paired camera-LiDAR data for pre-training, we also introduce a strategy for generating data on a large scale. This strategy utilizes monocular depth estimated from single RGB images and virtual cameras to generate pseudo point clouds for contrastive pre-training. Extensive experiments show that the cross-modality gait recognition is very challenging but still contains potential and feasibility with our proposed model and pre-training strategy. To the best of our knowledge, this is the first work to address cross-modality gait recognition.
翻訳日:2024-07-08 12:21:54 公開日:2024-07-04
# 気候シミュレーションのアンサンブル生成のための潜時拡散モデル

Latent Diffusion Model for Generating Ensembles of Climate Simulations ( http://arxiv.org/abs/2407.02070v2 )

ライセンス: Link先を確認
Johannes Meuer, Maximilian Witte, Tobias Sebastian Finn, Claudia Timmreck, Thomas Ludwig, Christopher Kadow, (参考訳) 気候シナリオにおける不確実性の正確な推定を行うには、しばしば計算に高価でメモリ集約的なプロセスである高解像度の気候シミュレーションの大規模なアンサンブルを生成する必要がある。 この課題に対処するために、気候シミュレーションの広範なセットに対して、新しい生成的深層学習アプローチを訓練する。 このモデルは2つのコンポーネントから構成される:次元減少のための変分オートエンコーダと、複数のアンサンブル部材を生成するデノイング拡散確率モデルである。 我々は,マックス・プランク研究所グランド・アンサンブルのモデルを検証するとともに,可変性の観点から,オリジナル・アンサンブルと良好な一致を示した。 遅延空間表現を利用することで、我々のモデルは最小限のメモリ要件で高速に大規模なアンサンブルを生成でき、気候シミュレーションにおける不確実な定量化の効率を大幅に向上させることができる。

Obtaining accurate estimates of uncertainty in climate scenarios often requires generating large ensembles of high-resolution climate simulations, a computationally expensive and memory intensive process. To address this challenge, we train a novel generative deep learning approach on extensive sets of climate simulations. The model consists of two components: a variational autoencoder for dimensionality reduction and a denoising diffusion probabilistic model that generates multiple ensemble members. We validate our model on the Max Planck Institute Grand Ensemble and show that it achieves good agreement with the original ensemble in terms of variability. By leveraging the latent space representation, our model can rapidly generate large ensembles on-the-fly with minimal memory requirements, which can significantly improve the efficiency of uncertainty quantification in climate simulations.
翻訳日:2024-07-08 12:21:54 公開日:2024-07-04
# 超高分解能画像合成技術「UltraPixel」

UltraPixel: Advancing Ultra-High-Resolution Image Synthesis to New Peaks ( http://arxiv.org/abs/2407.02158v2 )

ライセンス: Link先を確認
Jingjing Ren, Wenbo Li, Haoyu Chen, Renjing Pei, Bin Shao, Yong Guo, Long Peng, Fenglong Song, Lei Zhu, (参考訳) 超高解像度画像生成は、セマンティックプランニングの複雑さの増加や詳細な合成の難しさなど、かなりの訓練リソース要求とともに大きな課題を生んでいる。 我々は,カスケード拡散モデルを用いて,複数の解像度 (\textit{e g }, 1K から 6K) の高画質画像を生成する新しいアーキテクチャである UltraPixel について,計算効率を維持しながら述べる。 UltraPixelは、後段の低解像度画像のセマンティクスに富んだ表現を活用して、高精細な高解像度画像の全生成をガイドし、複雑さを著しく低減する。 さらに,様々な解像度に適応可能な連続的なアップサンプリングとスケールアウェア正規化のための暗黙的なニューラル表現を導入する。 特に、低解像度および高解像度のプロセスは、最もコンパクトな空間で実行され、ほとんどのパラメータを高解像度の出力に対する3$\%以下の追加パラメータで共有し、トレーニングと推論効率を大幅に向上させる。 提案モデルでは,データ要求を減らして高速なトレーニングを行ない,フォトリアリスティックな高解像度画像を生成し,広範囲な実験で最先端の性能を示す。

Ultra-high-resolution image generation poses great challenges, such as increased semantic planning complexity and detail synthesis difficulties, alongside substantial training resource demands. We present UltraPixel, a novel architecture utilizing cascade diffusion models to generate high-quality images at multiple resolutions (\textit{e.g.}, 1K to 6K) within a single model, while maintaining computational efficiency. UltraPixel leverages semantics-rich representations of lower-resolution images in the later denoising stage to guide the whole generation of highly detailed high-resolution images, significantly reducing complexity. Furthermore, we introduce implicit neural representations for continuous upsampling and scale-aware normalization layers adaptable to various resolutions. Notably, both low- and high-resolution processes are performed in the most compact space, sharing the majority of parameters with less than 3$\%$ additional parameters for high-resolution outputs, largely enhancing training and inference efficiency. Our model achieves fast training with reduced data requirements, producing photo-realistic high-resolution images and demonstrating state-of-the-art performance in extensive experiments.
翻訳日:2024-07-08 12:21:54 公開日:2024-07-04
# 移動ロボットにおける身体的AI:大規模言語モデルを用いたカバーパス計画

Embodied AI in Mobile Robots: Coverage Path Planning with Large Language Models ( http://arxiv.org/abs/2407.02220v2 )

ライセンス: Link先を確認
Xiangrui Kong, Wenxiao Zhang, Jin Hong, Thomas Braunl, (参考訳) 近年,Large Language Models (LLMs) は数学的な問題の理解と解決において顕著な能力を示し,様々な分野で進歩を遂げている。 移動体エージェントのためのLLM方式の経路計画フレームワークを提案し,高レベルな経路計画問題と低レベルな制御に焦点をあてる。 提案する多層アーキテクチャは,経路計画段階におけるLPMを用いて,移動エージェントの低レベルアクチュエータと統合する。 各種LLMの性能を評価するために, 実装されたモデルの性能を評価するために, カバーウェイトな経路計画指標を提案する。 実験の結果,提案手法はLLMの空間推定能力を向上することが示された。 提案手法は,LLMの自然言語理解と生成能力を活用することにより,これらのタスクの効率性と精度を大幅に向上することを示す。 本実験により,LLMの2次元平面推論能力と完全カバレッジパス計画タスクを改善することができることが示された。 また, gpt-4o, gemini-1.5-flash, claude-3.5-sonnetの3つのLLMカーネルを試験した。 実験の結果, クロード3.5は様々なシナリオでカバープランニングタスクを完了でき, その指標は他のモデルよりも優れていることがわかった。

In recent years, Large Language Models (LLMs) have demonstrated remarkable capabilities in understanding and solving mathematical problems, leading to advancements in various fields. We propose an LLM-embodied path planning framework for mobile agents, focusing on solving high-level coverage path planning issues and low-level control. Our proposed multi-layer architecture uses prompted LLMs in the path planning phase and integrates them with the mobile agents' low-level actuators. To evaluate the performance of various LLMs, we propose a coverage-weighted path planning metric to assess the performance of the embodied models. Our experiments show that the proposed framework improves LLMs' spatial inference abilities. We demonstrate that the proposed multi-layer framework significantly enhances the efficiency and accuracy of these tasks by leveraging the natural language understanding and generative capabilities of LLMs. Our experiments show that this framework can improve LLMs' 2D plane reasoning abilities and complete coverage path planning tasks. We also tested three LLM kernels: gpt-4o, gemini-1.5-flash, and claude-3.5-sonnet. The experimental results show that claude-3.5 can complete the coverage planning task in different scenarios, and its indicators are better than those of the other models.
翻訳日:2024-07-08 12:21:54 公開日:2024-07-04
# EvolBA: ハードラベルブラックボックス条件下での進化的境界攻撃

EvolBA: Evolutionary Boundary Attack under Hard-label Black Box condition ( http://arxiv.org/abs/2407.02248v2 )

ライセンス: Link先を確認
Ayane Tajima, Satoshi Ono, (参考訳) 研究によると、ディープニューラルネットワーク(DNN)には、特別に設計された摂動を伴う敵例(AE)の誤認識につながる脆弱性がある。 強ラベルブラックボックス(HL-BB)条件下で、損失勾配や信頼度が欠如している場合の脆弱性を検出するために、様々な逆攻撃法が提案されているが、これらの手法は、探索空間の局所領域のみを探索するため、局所的な解に該当する。 そこで本研究では, HL-BB条件下での共分散行列適応進化戦略(CMA-ES)を用いて, AE を生成するための EvolBA という逆攻撃手法を提案する。 公式駆動型教師あり学習にインスパイアされた本手法では,初期化プロセスにドメインに依存しない演算子を導入し,探索の強化を図る。 実験結果から,提案手法は,従来の手法が困難であった画像において,従来の手法よりも摂動の少ないAEを決定できることを確認した。

Research has shown that deep neural networks (DNNs) have vulnerabilities that can lead to the misrecognition of Adversarial Examples (AEs) with specifically designed perturbations. Various adversarial attack methods have been proposed to detect vulnerabilities under hard-label black box (HL-BB) conditions in the absence of loss gradients and confidence scores.However, these methods fall into local solutions because they search only local regions of the search space. Therefore, this study proposes an adversarial attack method named EvolBA to generate AEs using Covariance Matrix Adaptation Evolution Strategy (CMA-ES) under the HL-BB condition, where only a class label predicted by the target DNN model is available. Inspired by formula-driven supervised learning, the proposed method introduces domain-independent operators for the initialization process and a jump that enhances search exploration. Experimental results confirmed that the proposed method could determine AEs with smaller perturbations than previous methods in images where the previous methods have difficulty.
翻訳日:2024-07-08 12:21:54 公開日:2024-07-04
# ハイパースペクトル/マルチスペクトル/パンクロマティック画像融合のための実HSI-MSI-PAN画像データセットと超解像場

Real HSI-MSI-PAN image dataset for the hyperspectral/multi-spectral/panchromatic image fusion and super-resolution fields ( http://arxiv.org/abs/2407.02387v2 )

ライセンス: Link先を確認
Shuangliang Li, (参考訳) 現在、ハイパースペクトル画像(HSI)融合実験のほとんどは、異なる融合法を比較するためのシミュレーションデータセットに基づいている。 しかし、シミュレーションデータセットを作成するために使用されるスペクトル応答関数と空間ダウンサンプリング関数のほとんどが完全に正確ではないため、生成した融合用画像と融合用実際の画像との間の空間的特徴とスペクトル的特徴の偏差が生じる。 これにより、融合アルゴリズムの信頼性が低下し、異なるアルゴリズムの比較が不公平になり、超スペクトル画像融合の分野の開発が妨げられる。 そこで我々は、ハイパースペクトル画像融合の分野の発展を促進するために、実際のHSI/MSI/PAN画像データセットをリリースする。 これら3つの画像は空間的に登録されており、HSI, MSI, HSI, PAN画像, MSI, PAN画像, HSI, MSI, PAN画像間で融合が可能である。 この実際のデータセットはhttps://aistudio.baidu.com/datasetdetail/281612.comで入手できる。 データを処理するための関連コードはhttps://github.com/rs-lsl/CSSNet.comで入手できる。

Nowadays, most of the hyperspectral image (HSI) fusion experiments are based on simulated datasets to compare different fusion methods. However, most of the spectral response functions and spatial downsampling functions used to create the simulated datasets are not entirely accurate, resulting in deviations in spatial and spectral features between the generated images for fusion and the real images for fusion. This reduces the credibility of the fusion algorithm, causing unfairness in the comparison between different algorithms and hindering the development of the field of hyperspectral image fusion. Therefore, we release a real HSI/MSI/PAN image dataset to promote the development of the field of hyperspectral image fusion. These three images are spatially registered, meaning fusion can be performed between HSI and MSI, HSI and PAN image, MSI and PAN image, as well as among HSI, MSI, and PAN image. This real dataset could be available at https://aistudio.baidu.com/datasetdetail/281612. The related code to process the data could be available at https://github.com/rs-lsl/CSSNet.
翻訳日:2024-07-08 12:21:54 公開日:2024-07-04
# あなたのAI生成コードは本当に安全か? CodeSecEvalを使ってセキュアなコード生成で大規模言語モデルを評価する

Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval ( http://arxiv.org/abs/2407.02395v2 )

ライセンス: Link先を確認
Jiexin Wang, Xitong Luo, Liuwen Cao, Hongkui He, Hailin Huang, Jiayuan Xie, Adam Jatowt, Yi Cai, (参考訳) 大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらし、初心者と経験豊富な開発者の両方に恩恵を与えた。 しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。 コードLLMの安全性について多くの研究がなされているが、セキュリティ機能に包括的に対処する上ではまだギャップが残っている。 本研究では,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。 調査を支援するために、我々は180の異なるサンプルを持つ44の重大な脆弱性タイプに対処するために、厳密にキュレートされたデータセットであるCodeSecEvalを紹介した。 CodeSecEvalは、コード生成とコード修復という2つの重要なタスクにおけるコードモデルの自動評価の基礎として機能し、セキュリティに重点を置いている。 実験の結果、現在のモデルでは、コード生成と修復プロセスの両方でセキュリティの問題が頻繁に見過ごされ、脆弱性のあるコードが生成されることが判明した。 これに対して,脆弱性を意識した情報を活用するさまざまな戦略を提案し,セキュリティ上の脆弱性を軽減するためにコード説明の安全性を損なう。 さらに本研究では,特定の脆弱性タイプが特にモデルパフォーマンスに挑戦し,実際のアプリケーションでの有効性に影響を及ぼすことを明らかにした。 これらの結果から,我々の研究はソフトウェア工学コミュニティに肯定的な影響を与え,LLMのトレーニングと活用の方法の改善を刺激し,より安全で信頼性の高いモデル展開につながると信じている。

Large language models (LLMs) have brought significant advancements to code generation and code repair, benefiting both novice and experienced developers. However, their training using unsanitized data from open-source repositories, like GitHub, raises the risk of inadvertently propagating security vulnerabilities. Despite numerous studies investigating the safety of code LLMs, there remains a gap in comprehensively addressing their security features. In this work, we aim to present a comprehensive study aimed at precisely evaluating and enhancing the security aspects of code LLMs. To support our research, we introduce CodeSecEval, a meticulously curated dataset designed to address 44 critical vulnerability types with 180 distinct samples. CodeSecEval serves as the foundation for the automatic evaluation of code models in two crucial tasks: code generation and code repair, with a strong emphasis on security. Our experimental results reveal that current models frequently overlook security issues during both code generation and repair processes, resulting in the creation of vulnerable code. In response, we propose different strategies that leverage vulnerability-aware information and insecure code explanations to mitigate these security vulnerabilities. Furthermore, our findings highlight that certain vulnerability types particularly challenge model performance, influencing their effectiveness in real-world applications. Based on these findings, we believe our study will have a positive impact on the software engineering community, inspiring the development of improved methods for training and utilizing LLMs, thereby leading to safer and more trustworthy model deployment.
翻訳日:2024-07-08 12:21:54 公開日:2024-07-04
# 量子のための女性 - 価値のマニフェスト

Women for Quantum -- Manifesto of Values ( http://arxiv.org/abs/2407.02612v2 )

ライセンス: Link先を確認
Almut Beige, Ana Predojević, Anja Metelmann, Anna Sanpera, Chiara Macchiavello, Christiane P. Koch, Christine Silberhorn, Costanza Toninelli, Dagmar Bruß, Elisa Ercolessi, Elisabetta Paladino, Francesca Ferlaino, Giulia Ferrini, Gloria Platero, Ivette Fuentes, Kae Nemoto, Leticia Tarruell, Maria Bondani, Marilu Chiofalo, Marisa Pons, Milena D'Angelo, Mio Murao, Nicole Fabbri, Paola Verrucchi, Pascale Senellart-Mardon, Roberta Citro, Roberta Zambrini, Rosario González-Férez, Sabrina Maniscalco, Susana Huelga, Tanja Mehlstäubler, Valentina Parigi, Verónica Ahufinger, (参考訳) データによると、量子科学における女性の存在は、多くの有害行為の影響を受けており、その割合はより高い位置においてさらに減少している。 データ以外にも、女性の常任量子物理学教授としての個人的な経験から、現在の科学的リーダーシップ、資金、権威のモデルが私たちの多くを表現できないと信じています。 それは、異なる種類の力と、全員の参加を求める真の変革の時です。 量子の女性は共同作業を求め、このような変革に貢献するためにこのイニシアチブを目標にしています。

Data show that the presence of women in quantum science is affected by a number of detriments and their percentage decreases even further for higher positions. Beyond data, from our shared personal experiences as female tenured quantum physics professors, we believe that the current model of scientific leadership, funding, and authority fails to represent many of us. It is time for a real change that calls for a different kind of force and for the participation of everyone. Women for quantum calls for a joint effort and aims with this initiative to contribute to such a transformation.
翻訳日:2024-07-08 12:21:54 公開日:2024-07-04
# AutoSplat: 自動走行シーン再構築のための制約付きガウススプラッティング

AutoSplat: Constrained Gaussian Splatting for Autonomous Driving Scene Reconstruction ( http://arxiv.org/abs/2407.02598v2 )

ライセンス: Link先を確認
Mustafa Khan, Hamidreza Fazlali, Dhruv Sharma, Tongtong Cao, Dongfeng Bai, Yuan Ren, Bingbing Liu, (参考訳) 安全クリティカルなシナリオをシミュレートすることで、自律走行システムの進行に現実的なシーン再構築とビュー合成が不可欠である。 3D Gaussian Splattingは、リアルタイムレンダリングと静的なシーン再構築に優れていますが、複雑な背景、動的オブジェクト、スパースビューによる駆動シナリオのモデリングに苦労しています。 本稿では,自律走行シーンの高度に現実的な再構築を実現するために,ガウススプラッティングを用いたAutoSplatを提案する。 道路および空域を表すガウス多様体に幾何的制約を課すことにより,車線変更を含む課題シナリオの多視点一貫したシミュレーションを可能にする。 3Dテンプレートを活用することで,前景オブジェクトの視界と視界の両面を監督するガウス整合性制約を導入する。 さらに,前景の動的外観をモデル化するために,各前景ガウスの残留球面高調波を推定する。 PandasetとKITTIの大規模な実験により、AutoSplatは様々な運転シナリオにおけるシーン再構築と新しいビュー合成において最先端の手法より優れていることが示された。 プロジェクトのページはhttps://autosplat.github.io/にある。

Realistic scene reconstruction and view synthesis are essential for advancing autonomous driving systems by simulating safety-critical scenarios. 3D Gaussian Splatting excels in real-time rendering and static scene reconstructions but struggles with modeling driving scenarios due to complex backgrounds, dynamic objects, and sparse views. We propose AutoSplat, a framework employing Gaussian splatting to achieve highly realistic reconstructions of autonomous driving scenes. By imposing geometric constraints on Gaussians representing the road and sky regions, our method enables multi-view consistent simulation of challenging scenarios including lane changes. Leveraging 3D templates, we introduce a reflected Gaussian consistency constraint to supervise both the visible and unseen side of foreground objects. Moreover, to model the dynamic appearance of foreground objects, we estimate residual spherical harmonics for each foreground Gaussian. Extensive experiments on Pandaset and KITTI demonstrate that AutoSplat outperforms state-of-the-art methods in scene reconstruction and novel view synthesis across diverse driving scenarios. Visit our project page at https://autosplat.github.io/.
翻訳日:2024-07-08 12:11:55 公開日:2024-07-04
# びまん性グリオーマに対する多パラメータMR画像からの深層学習に基づくApparent Diffusion Coefficient Map生成

Deep Learning Based Apparent Diffusion Coefficient Map Generation from Multi-parametric MR Images for Patients with Diffuse Gliomas ( http://arxiv.org/abs/2407.02616v2 )

ライセンス: Link先を確認
Zach Eidex, Mojtaba Safari, Jacob Wynne, Richard L. J. Qiu, Tonghe Wang, David Viar Hernandez, Hui-Kuo Shu, Hui Mao, Xiaofeng Yang, (参考訳) 目的:拡散強調(DWI)MRIから得られたADCマップは組織中の水分子に関する機能的測定を提供する。 しかし、DWIは時間がかかり、画像のアーティファクトに非常に影響を受けやすいため、不正確なADC測定に繋がる。 本研究では,多パラメータMR画像からADCマップを合成するディープラーニングフレームワークを開発することを目的とする。 方法: 畳み込み演算子の精度とともに、ViT層の長距離コンテキストを利用するマルチパラメトリック残差視覚変換器モデル(MPR-ViT)を提案する。 ネットワーク全体の残差ブロックは、モデルの表現力を大幅に増大させた。 The MPR-ViT model applied to T1w and T2- fluid attenuated inversion recovery image of 501 glioma case from a public available dataset including preprocessed ADC map。 選択した患者はトレーニング(N=400),バリデーション(N=50),テスト(N=51)に分けた。 事前処理したADCマップを根拠として、モデル性能を評価し、Vision Convolutional Transformer (VCT) モデルとResViT (ResViT) モデルと比較した。 MPR-ViT - PSNR: 31.0 +/- 2.1, MSE: 0.009 +/- 0.0005, SSIM: 0.950 +/- 0.015。 さらに,アブレーション実験では,各入力シーケンスの性能に相対的な影響が認められた。 定性的および定量的な結果は,提案したMR-ViTモデルが真理データに対して良好に動作することを示す。 結論: MPR-VCT モデルを用いて構造MRI から高品質な ADC マップを合成できることが示唆された。 我々の予測画像は、ResViTやVCTの予測よりも、地上の真理量との整合性が高い。 これらの高品質の合成ADCマップは、病気の診断や介入に特に有用であり、特にADCマップがアーティファクトを持っているか、利用できない場合に有用である。

Purpose: Apparent diffusion coefficient (ADC) maps derived from diffusion weighted (DWI) MRI provides functional measurements about the water molecules in tissues. However, DWI is time consuming and very susceptible to image artifacts, leading to inaccurate ADC measurements. This study aims to develop a deep learning framework to synthesize ADC maps from multi-parametric MR images. Methods: We proposed the multiparametric residual vision transformer model (MPR-ViT) that leverages the long-range context of ViT layers along with the precision of convolutional operators. Residual blocks throughout the network significantly increasing the representational power of the model. The MPR-ViT model was applied to T1w and T2- fluid attenuated inversion recovery images of 501 glioma cases from a publicly available dataset including preprocessed ADC maps. Selected patients were divided into training (N=400), validation (N=50) and test (N=51) sets, respectively. Using the preprocessed ADC maps as ground truth, model performance was evaluated and compared against the Vision Convolutional Transformer (VCT) and residual vision transformer (ResViT) models. Results: The results are as follows using T1w + T2-FLAIR MRI as inputs: MPR-ViT - PSNR: 31.0 +/- 2.1, MSE: 0.009 +/- 0.0005, SSIM: 0.950 +/- 0.015. In addition, ablation studies showed the relative impact on performance of each input sequence. Both qualitative and quantitative results indicate that the proposed MR- ViT model performs favorably against the ground truth data. Conclusion: We show that high-quality ADC maps can be synthesized from structural MRI using a MPR- VCT model. Our predicted images show better conformality to the ground truth volume than ResViT and VCT predictions. These high-quality synthetic ADC maps would be particularly useful for disease diagnosis and intervention, especially when ADC maps have artifacts or are unavailable.
翻訳日:2024-07-08 12:11:55 公開日:2024-07-04
# KGym: Linuxカーネルクラッシュ解決のための大規模言語モデルをベンチマークするためのプラットフォームとデータセット

KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution ( http://arxiv.org/abs/2407.02680v2 )

ライセンス: Link先を確認
Alex Mathai, Chenxi Huang, Petros Maniatis, Aleksandr Nogikh, Franjo Ivancic, Junfeng Yang, Baishakhi Ray, (参考訳) 大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。 現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。 アプリケーションレベルのソフトウェアとは異なり、Linuxのようなシステムコードベースはマルチリンガル(低レベルのC/Assembly/Bash/Rust)、巨大(2000万行以上)、クリティカル(世界中の数十億のデバイスを圧倒)、高度に並行(複雑なマルチスレッドを含む)である。 このような大規模システムレベルのソフトウェアを開発する上で,MLモデルが有用かどうかを評価するために,kGym(プラットフォーム)とkBench(データセット)を導入する。 kGymプラットフォームは、Linuxカーネル上で大規模な実験を行うためのSE環境を提供する。複数の仮想マシン間で並列にカーネルをコンパイルし実行し、操作とクラッシュを検出し、ログを検査し、コードベースをクエリし、パッチする。 我々は、kGymを使用して、実世界のLinuxカーネルのバグから引き出されたクラッシュ解決ベンチマークであるkBenchの評価を容易にする。 kBenchの例には、クラッシュするスタックトレース、バグリデューサファイル、開発者による修正、その他の関連データが含まれている。 現在の性能を理解するため,Linuxカーネルのクラッシュの解決をLCMに促すことで,ベースライン実験を行う。 最初の評価では、最高の性能のLCMは、無支援と補助(つまり、モデルに公開されたバグファイル)の設定でそれぞれ0.72%と5.38%を達成することがわかった。 これらの結果は、SEタスクにおけるモデルパフォーマンスを向上させるためのさらなる研究の必要性を浮き彫りにしている。 kBenchのパフォーマンス向上には、クラッシュの原因を理解し、障害を修正すること、メモリセーフでハードウェア対応のコードを書くこと、並行性を理解することなど、新たな学習スキルを習得するモデルが必要だ。 結果として、この研究は機械学習とシステムソフトウェアが交わる様々な研究の道を開くことになる。

Large Language Models (LLMs) are consistently improving at increasingly realistic software engineering (SE) tasks. In real-world software stacks, significant SE effort is spent developing foundational system software like the Linux kernel. Unlike application-level software, a systems codebase like Linux is multilingual (low-level C/Assembly/Bash/Rust); gigantic (>20 million lines); critical (impacting billions of devices worldwide), and highly concurrent (involving complex multi-threading). To evaluate if ML models are useful while developing such large-scale systems-level software, we introduce kGym (a platform) and kBench (a dataset). The kGym platform provides a SE environment for large-scale experiments on the Linux kernel, including compiling and running kernels in parallel across several virtual machines, detecting operations and crashes, inspecting logs, and querying and patching the code base. We use kGym to facilitate evaluation on kBench, a crash resolution benchmark drawn from real-world Linux kernel bugs. An example bug in kBench contains crashing stack traces, a bug-reproducer file, a developer-written fix, and other associated data. To understand current performance, we conduct baseline experiments by prompting LLMs to resolve Linux kernel crashes. Our initial evaluations reveal that the best performing LLM achieves 0.72% and 5.38% in the unassisted and assisted (i.e., buggy files disclosed to the model) settings, respectively. These results highlight the need for further research to enhance model performance in SE tasks. Improving performance on kBench requires models to master new learning skills, including understanding the cause of crashes and repairing faults, writing memory-safe and hardware-aware code, and understanding concurrency. As a result, this work opens up multiple avenues of research at the intersection of machine learning and systems software.
翻訳日:2024-07-08 12:11:55 公開日:2024-07-04
# マルチモーダル会話における感情と感情の合同理解:ベンチマークデータセット

Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset ( http://arxiv.org/abs/2407.02751v2 )

ライセンス: Link先を確認
Rui Liu, Haolin Zuo, Zheng Lian, Xiaofen Xing, Björn W. Schuller, Haizhou Li, (参考訳) Emotion and Intent Joint Understanding in Multimodal Conversation (MC-EIU) は、感情と意図を同時に推定しながら、マルチモーダルな会話履歴に現れる意味情報を復号することを目的としている。 MC-EIUは多くのヒューマン・コンピュータ・インタフェースのテクノロジーを実現している。 しかし、アノテーション、モダリティ、言語の多様性、アクセシビリティの観点からは、利用可能なデータセットがない。 本研究では,7つの感情カテゴリ,9つの意図カテゴリ,3つのモダリティ,すなわちテキスト,音響,視覚的内容,および2つの言語,すなわち英語とマンダリンを特徴とするMC-EIUデータセットを提案する。 さらに、フリーアクセスのために完全にオープンソースである。 我々の知る限り、MC-EIUはマルチモーダル会話のための包括的でリッチな感情と意図的共同理解データセットとしては初めてのものである。 データセットの公開とともに、マルチモーダル会話における感情と意図の深い相関をモデル化し、参照システムとして感情と意図の相互作用(EI$^2$)ネットワークを開発する。 比較実験とアブレーション実験により,提案したEI$^2$法のMC-EIUデータセットに対する有効性を示す。 データセットとコードは、https://github.com/MC-EIU/MC-EIUで利用可能になる。

Emotion and Intent Joint Understanding in Multimodal Conversation (MC-EIU) aims to decode the semantic information manifested in a multimodal conversational history, while inferring the emotions and intents simultaneously for the current utterance. MC-EIU is enabling technology for many human-computer interfaces. However, there is a lack of available datasets in terms of annotation, modality, language diversity, and accessibility. In this work, we propose an MC-EIU dataset, which features 7 emotion categories, 9 intent categories, 3 modalities, i.e., textual, acoustic, and visual content, and two languages, i.e., English and Mandarin. Furthermore, it is completely open-source for free access. To our knowledge, MC-EIU is the first comprehensive and rich emotion and intent joint understanding dataset for multimodal conversation. Together with the release of the dataset, we also develop an Emotion and Intent Interaction (EI$^2$) network as a reference system by modeling the deep correlation between emotion and intent in the multimodal conversation. With comparative experiments and ablation studies, we demonstrate the effectiveness of the proposed EI$^2$ method on the MC-EIU dataset. The dataset and codes will be made available at: https://github.com/MC-EIU/MC-EIU.
翻訳日:2024-07-08 12:11:55 公開日:2024-07-04
# アスペクトベース感性分析手法の比較研究

Aspect-Based Sentiment Analysis Techniques: A Comparative Study ( http://arxiv.org/abs/2407.02834v2 )

ライセンス: Link先を確認
Dineth Jayakody, Koshila Isuranda, A V A Malkith, Nisansa de Silva, Sachintha Rajith Ponnamperuma, G G N Sandamali, K L K Sudheera, (参考訳) デジタル化時代が明けてから、顧客からのフィードバックとオンラインレビューは間違いなくビジネスにとって重要な洞察源である。 結果として、そのような情報源の比較分析を行うことは、仲間に対して競争力を与え、顧客の忠誠を向上したいと考えるあらゆるビジネスの事実上のモダス・オペラディとなった。 センチメント分析は、大衆の関心を喚起し、市場の動向を露呈し、競争相手を分析するための手法である。 従来の感情分析は全体の感情に焦点が当てられているが、ニーズが時間とともに進むにつれて、より粒度の細かいレビューで言及された様々な特定の主題、製品、サービスに関する世論や感情を探求することが重要になっている。 この目的のために、Aspect-based Sentiment Analysis (ABSA)は、単純な単語レベル分析からトーンや文脈認識分析へのパラダイムシフトに寄与した人工知能(AI)技術の進歩に支えられ、テキスト内の特定の側面を特定し、各側面に関連する感情を決定することに重点を置いている。 本研究では、2つのベンチマークデータセット(Restaurant14とLaptop-14)でABSAのディープNN法を比較し、FAST LSAが87.6%と82.6%の精度で最高の総合結果を得るが、それぞれ93%と86.21%の精度を示すLSA+DeBERTaを通過しないことを示した。

Since the dawn of the digitalisation era, customer feedback and online reviews are unequivocally major sources of insights for businesses. Consequently, conducting comparative analyses of such sources has become the de facto modus operandi of any business that wishes to give itself a competitive edge over its peers and improve customer loyalty. Sentiment analysis is one such method instrumental in gauging public interest, exposing market trends, and analysing competitors. While traditional sentiment analysis focuses on overall sentiment, as the needs advance with time, it has become important to explore public opinions and sentiments on various specific subjects, products and services mentioned in the reviews on a finer-granular level. To this end, Aspect-based Sentiment Analysis (ABSA), supported by advances in Artificial Intelligence (AI) techniques which have contributed to a paradigm shift from simple word-level analysis to tone and context-aware analyses, focuses on identifying specific aspects within the text and determining the sentiment associated with each aspect. In this study, we compare several deep-NN methods for ABSA on two benchmark datasets (Restaurant14 and Laptop-14) and found that FAST LSA obtains the best overall results of 87.6% and 82.6% accuracy but does not pass LSA+DeBERTa which reports 90.33% and 86.21% accuracy respectively.
翻訳日:2024-07-08 12:11:55 公開日:2024-07-04
# 最適制御のための量子的アプローチ

A quantum approach for optimal control ( http://arxiv.org/abs/2407.02864v2 )

ライセンス: Link先を確認
Hirmay Sandesara, Alok Shukla, Prakash Vedula, (参考訳) 本研究では,非線形最適制御問題のクラスを解くための新しい変分量子アプローチを提案する。 我々のアプローチは、ディラックの力学系の正準量子化と、変分量子固有解法(VQE)による結果の非エルミート・ハミルトニアン基底状態の解を統合する。 我々は、制約の存在下での一般化ハミルトン力学に対するディラックブラケットの定式化に関する新しい視点を導入し、明確なモチベーションとイラストラティブな例を提供する。 さらに,多次元制約最適化問題におけるディラックブラケットの構造特性について検討する。 非線形最適制御問題のクラスを解くためのアプローチは、非エルミートハミルトニアンの基底状態エネルギーに付随する固有状態と対応する固有値を決定するためのVQEに基づくアプローチを用いる。 理想的なVQEへのアクセスを仮定すると、この定式化は、選択された計算例から証明されるように、優れた結果を示す。 さらに,本手法は,非エルミート・ハミルトン系に対するVQEに基づくアプローチと組み合わせてうまく機能する。 我々のVQEに基づく定式化は、特に高次元シナリオにおいて、幅広い最適制御問題に関連する課題に効果的に対処する。 従来の手法と比較して、我々の量子ベースの手法は大きな可能性を示し、複雑で高次元の最適化課題に取り組むための魅力的な代替手段を提供する。

In this work, we propose a novel variational quantum approach for solving a class of nonlinear optimal control problems. Our approach integrates Dirac's canonical quantization of dynamical systems with the solution of the ground state of the resulting non-Hermitian Hamiltonian via a variational quantum eigensolver (VQE). We introduce a new perspective on the Dirac bracket formulation for generalized Hamiltonian dynamics in the presence of constraints, providing a clear motivation and illustrative examples. Additionally, we explore the structural properties of Dirac brackets within the context of multidimensional constrained optimization problems. Our approach for solving a class of nonlinear optimal control problems employs a VQE-based approach to determine the eigenstate and corresponding eigenvalue associated with the ground state energy of a non-Hermitian Hamiltonian. Assuming access to an ideal VQE, our formulation demonstrates excellent results, as evidenced by selected computational examples. Furthermore, our method performs well when combined with a VQE-based approach for non-Hermitian Hamiltonian systems. Our VQE-based formulation effectively addresses challenges associated with a wide range of optimal control problems, particularly in high-dimensional scenarios. Compared to standard classical approaches, our quantum-based method shows significant promise and offers a compelling alternative for tackling complex, high-dimensional optimization challenges.
翻訳日:2024-07-08 12:11:55 公開日:2024-07-04
# クロスモーダル・ポイント・クラウド・コンプリートのための明示的ガイド付き情報対話ネットワーク

Explicitly Guided Information Interaction Network for Cross-modal Point Cloud Completion ( http://arxiv.org/abs/2407.02887v2 )

ライセンス: Link先を確認
Hang Xu, Chen Long, Wenxiao Zhang, Yuan Liu, Zhen Cao, Zhen Dong, Bisheng Yang, (参考訳) 本稿では,ビュー誘導ポイントクラウドコンプリート(ViPC)タスクのモデルであるEGIInet(Explicitly Guided Information Interaction Network)について検討する。 入力画像のグローバルなセマンティクスに依存する従来の手法と比較して、EGIInetは、完成タスクの幾何学的性質を活用して、2つのモードからの情報を効率的に組み合わせている。 具体的には、ポイントクラウド完了のためのモーダルアライメントをサポートする、明示的にガイドされた情報インタラクション戦略を提案する。 まず, 2D と 3D のバックボーンを使ってそれぞれ特徴を符号化する従来の手法とは対照的に,符号化処理を統一してモーダルアライメントを促進する。 第2に,ネットワークが画像内の重要な情報を識別する上で有効な情報インタラクション戦略を提案する。 我々は,従来の手法に比べてパラメータが少ないにもかかわらず,ベンチマークデータセットに新たな最先端(+16% CD over XMFnet)を達成した。 事前訓練されたモデルとコードはhttps://github.com/WHU-USI3DV/EGIInetで入手できる。

In this paper, we explore a novel framework, EGIInet (Explicitly Guided Information Interaction Network), a model for View-guided Point cloud Completion (ViPC) task, which aims to restore a complete point cloud from a partial one with a single view image. In comparison with previous methods that relied on the global semantics of input images, EGIInet efficiently combines the information from two modalities by leveraging the geometric nature of the completion task. Specifically, we propose an explicitly guided information interaction strategy supported by modal alignment for point cloud completion. First, in contrast to previous methods which simply use 2D and 3D backbones to encode features respectively, we unified the encoding process to promote modal alignment. Second, we propose a novel explicitly guided information interaction strategy that could help the network identify critical information within images, thus achieving better guidance for completion. Extensive experiments demonstrate the effectiveness of our framework, and we achieved a new state-of-the-art (+16% CD over XMFnet) in benchmark datasets despite using fewer parameters than the previous methods. The pre-trained model and code and are available at https://github.com/WHU-USI3DV/EGIInet.
翻訳日:2024-07-08 12:11:55 公開日:2024-07-04
# 前立腺分節領域適応のための不確かさ誘導型自己学習フレームワーク

An Uncertainty-guided Tiered Self-training Framework for Active Source-free Domain Adaptation in Prostate Segmentation ( http://arxiv.org/abs/2407.02893v2 )

ライセンス: Link先を確認
Zihao Luo, Xiangde Luo, Zijun Gao, Guotai Wang, (参考訳) 深層学習モデルは、前立腺疾患の診断と治療のための前立腺を正確に記述する上で顕著な効果を示したが、異なる医療センターで堅牢な一般化を達成する上での課題は続いている。 Source-free Domain Adaptation (SFDA)は、ソースとターゲットドメイン間のドメインシフトを減らしながら、プライバシとセキュリティ上の問題に対処するために、ディープセグメンテーションモデルを適用する、有望なテクニックである。 しかし、近年の文献では、SFDAの性能は予測不可能なドメインギャップのため、まだ十分ではないことが示されている。 アノテーションのコストが低く、パフォーマンスが大幅に向上する可能性があるため、いくつかの対象ドメインサンプルにアノテーションを付けることは許容できる。 それでも、アノテーションの予算が非常に限られているため、アノテーションのサンプルを選択する際には慎重な考慮が必要である。 これに触発されて、医用画像セグメンテーションのためのActive Source-free Domain Adaptation (ASFDA)の開発を目標としています。 具体的には,不確実性誘導型自己学習(UGTST)フレームワークを提案する。このフレームワークは,グローバル不確実性と多様性を考慮した冗長性フィルタを集約するために,エントロピーベースの一次局所ピークフィルタによる効率的なアクティブなサンプル選択と,連結した自己学習戦略と組み合わせて,安定したドメイン適応を実現する。 対象領域のDiceスコアは平均9.78%, 7.58%, 平均9.78%であった。 コードは、https://github.com/HiLab-git/UGTSTで入手できる。

Deep learning models have exhibited remarkable efficacy in accurately delineating the prostate for diagnosis and treatment of prostate diseases, but challenges persist in achieving robust generalization across different medical centers. Source-free Domain Adaptation (SFDA) is a promising technique to adapt deep segmentation models to address privacy and security concerns while reducing domain shifts between source and target domains. However, recent literature indicates that the performance of SFDA remains far from satisfactory due to unpredictable domain gaps. Annotating a few target domain samples is acceptable, as it can lead to significant performance improvement with a low annotation cost. Nevertheless, due to extremely limited annotation budgets, careful consideration is needed in selecting samples for annotation. Inspired by this, our goal is to develop Active Source-free Domain Adaptation (ASFDA) for medical image segmentation. Specifically, we propose a novel Uncertainty-guided Tiered Self-training (UGTST) framework, consisting of efficient active sample selection via entropy-based primary local peak filtering to aggregate global uncertainty and diversity-aware redundancy filter, coupled with a tiered self-learning strategy, achieves stable domain adaptation. Experimental results on cross-center prostate MRI segmentation datasets revealed that our method yielded marked advancements, with a mere 5% annotation, exhibiting an average Dice score enhancement of 9.78% and 7.58% in two target domains compared with state-of-the-art methods, on par with fully supervised learning. Code is available at:https://github.com/HiLab-git/UGTST
翻訳日:2024-07-08 12:11:55 公開日:2024-07-04
# VEGS:学習先行情報を用いた3次元ガウス平滑化における都市景観の可視化

VEGS: View Extrapolation of Urban Scenes in 3D Gaussian Splatting using Learned Priors ( http://arxiv.org/abs/2407.02945v2 )

ライセンス: Link先を確認
Sungwon Hwang, Min-Jung Kim, Taewoong Kang, Jayeon Kang, Jaegul Choo, (参考訳) ニューラルレンダリングに基づく都市景観再構築手法は、一般的に、カメラが対向して前進する運転車両から収集された画像に頼っている。 これらの方法は、トレーニングカメラの軌跡と同様のビューからうまく合成できるが、トレーニングカメラの外部に新しいビューを誘導することは、オンパー性能を保証しない。 本稿では, カメラ分布のトレーニングにおいて, 左, 右, 下などの視線に対する再構成を評価することで, EVS問題に対処する。 EVSのレンダリング品質を向上させるため,高密度LiDARマップの構築によりモデルの初期化を行い,表面正規推定器や大規模拡散モデルといった事前のシーン知識を活用することを提案する。 定性的および定量的な比較は,EVSにおける手法の有効性を示す。 我々の知る限りでは、都市景観再建におけるESV問題に最初に取り組む人物である。 プロジェクトページへのリンクは、https://vegs3d.github.io/.com/です。

Neural rendering-based urban scene reconstruction methods commonly rely on images collected from driving vehicles with cameras facing and moving forward. Although these methods can successfully synthesize from views similar to training camera trajectory, directing the novel view outside the training camera distribution does not guarantee on-par performance. In this paper, we tackle the Extrapolated View Synthesis (EVS) problem by evaluating the reconstructions on views such as looking left, right or downwards with respect to training camera distributions. To improve rendering quality for EVS, we initialize our model by constructing dense LiDAR map, and propose to leverage prior scene knowledge such as surface normal estimator and large-scale diffusion model. Qualitative and quantitative comparisons demonstrate the effectiveness of our methods on EVS. To the best of our knowledge, we are the first to address the EVS problem in urban scene reconstruction. Link to our project page: https://vegs3d.github.io/.
翻訳日:2024-07-08 12:11:55 公開日:2024-07-04
# てんかん診断における脳波超解像の時空間適応拡散モデル

Spatio-Temporal Adaptive Diffusion Models for EEG Super-Resolution in Epilepsy Diagnosis ( http://arxiv.org/abs/2407.03089v2 )

ライセンス: Link先を確認
Tong Zhou, Shuqiang Wang, (参考訳) 脳波(EEG)技術、特に高密度脳波(HD EEG)デバイスは神経科学などの分野で広く使われている。 HD EEGデバイスは、頭皮により多くの電極を配置することで脳波の空間分解能を改善し、てんかん焦点定位などの臨床診断応用の要件を満たす。 しかし、この手法は、高い取得コストや限られた利用シナリオといった課題に直面している。 本稿では,低分解能(LR,64チャンネル以下)の脳波から高分解能(HR,256チャンネル以下)の脳波への空間SR再構成を実現するために,時空間適応拡散モデル(STADM)を提案する。 具体的には、LR EEGの時空間的特徴を抽出するために時空間時空間モジュールを設計し、その後条件入力として機能し、拡散モデルの逆復調過程を導出する。 さらに,マルチスケールトランスフォーマーデノゲーションモジュールを構築し,マルチスケールの畳み込みブロックとクロスアテンションベースの拡散トランスフォーマーブロックを利用して条件付き誘導を行い,主観適応型SREEGを生成する。 実験により,提案手法はLR EEGの空間分解能を効果的に向上し,既存の手法を定量的に上回ることを示した。 さらに、STADMは、てんかん患者の分類およびソースローカライゼーションタスクに合成SR脳波を適用し、LR脳波の空間分解能を著しく向上させる可能性を示した。

Electroencephalogram (EEG) technology, particularly high-density EEG (HD EEG) devices, is widely used in fields such as neuroscience. HD EEG devices improve the spatial resolution of EEG by placing more electrodes on the scalp, meeting the requirements of clinical diagnostic applications such as epilepsy focus localization. However, this technique faces challenges such as high acquisition costs and limited usage scenarios. In this paper, spatio-temporal adaptive diffusion models (STADMs) are proposed to pioneer the use of diffusion models for achieving spatial SR reconstruction from low-resolution (LR, 64 channels or fewer) EEG to high-resolution (HR, 256 channels) EEG. Specifically, a spatio-temporal condition module is designed to extract the spatio-temporal features of LR EEG, which then serve as conditional inputs to guide the reverse denoising process of diffusion models. Additionally, a multi-scale Transformer denoising module is constructed to leverage multi-scale convolution blocks and cross-attention-based diffusion Transformer blocks for conditional guidance to generate subject-adaptive SR EEG. Experimental results demonstrate that the proposed method effectively enhances the spatial resolution of LR EEG and quantitatively outperforms existing methods. Furthermore, STADMs demonstrate their value by applying synthetic SR EEG to classification and source localization tasks of epilepsy patients, indicating their potential to significantly improve the spatial resolution of LR EEG.
翻訳日:2024-07-08 12:11:55 公開日:2024-07-04
# 工業的異常検出と位置同定のための効率的な画素ラベリングに向けて

Towards Efficient Pixel Labeling for Industrial Anomaly Detection and Localization ( http://arxiv.org/abs/2407.03130v2 )

ライセンス: Link先を確認
Hanxi Li, Jingqi Wu, Lin Yuanbo Wu, Hao Chen, Deyin Liu, Chunhua Shen, (参考訳) 実用的な異常検出(AD)タスクの領域では、異常画素の手動ラベリングはコストがかかる。 その結果、AD法の多くは一級分類器として作成され、トレーニングセットに完全に異常を欠くように調整され、よりコスト効率の良いアプローチが保証される。 いくつかの先駆的な研究は、トレーニングに実際の異常サンプルを組み込むことによってADの精度を高めることを示したが、この強化は労働集約的なラベリングプロセスの価格に繋がる。 本稿では,新しい対話的画像分割(Interactive Image Segmentation, IIS)アルゴリズムであるADClickを導入することにより,AD精度とラベリングコストのバランスをとる。 ADClickは、革新的な残像と巧妙に構築された言語プロンプトを利用して、実際の欠陥画像に対して「地中真実」の異常マスクを効率よく生成する。 特に、ADClickは既存の最先端IISアプローチと比較して、大幅に高度な一般化能力を示している。 ADClickは異常ラベル作成ツールとして機能し、トレーニング画像あたりの3ドルから5ドルの手動クリックアノテーションに基づいて高品質な異常ラベル(AP $=94.1\%$ on MVTec AD)を生成する。 さらに, ADClick の能力を ADClick-Seg に拡張する。 ADClick が推定する弱いラベルを用いて ADClick-Seg モデルを微調整することにより、教師付き AD タスクの最先端のパフォーマンスを確立する(AP $= 86.4\%$ on MVTec AD と AP $= 78.4\%$, PRO $= 98.6\%$ on KSDD2)。

In the realm of practical Anomaly Detection (AD) tasks, manual labeling of anomalous pixels proves to be a costly endeavor. Consequently, many AD methods are crafted as one-class classifiers, tailored for training sets completely devoid of anomalies, ensuring a more cost-effective approach. While some pioneering work has demonstrated heightened AD accuracy by incorporating real anomaly samples in training, this enhancement comes at the price of labor-intensive labeling processes. This paper strikes the balance between AD accuracy and labeling expenses by introducing ADClick, a novel Interactive Image Segmentation (IIS) algorithm. ADClick efficiently generates "ground-truth" anomaly masks for real defective images, leveraging innovative residual features and meticulously crafted language prompts. Notably, ADClick showcases a significantly elevated generalization capacity compared to existing state-of-the-art IIS approaches. Functioning as an anomaly labeling tool, ADClick generates high-quality anomaly labels (AP $= 94.1\%$ on MVTec AD) based on only $3$ to $5$ manual click annotations per training image. Furthermore, we extend the capabilities of ADClick into ADClick-Seg, an enhanced model designed for anomaly detection and localization. By fine-tuning the ADClick-Seg model using the weak labels inferred by ADClick, we establish the state-of-the-art performances in supervised AD tasks (AP $= 86.4\%$ on MVTec AD and AP $= 78.4\%$, PRO $= 98.6\%$ on KSDD2).
翻訳日:2024-07-08 12:11:55 公開日:2024-07-04
# リアルタイムデータ共有機構に基づく道路交通システムの全体像

Holistic view of the road transportation system based on real-time data sharing mechanism ( http://arxiv.org/abs/2407.03187v2 )

ライセンス: Link先を確認
Li Tao, Dong Xiang, Hao Junfeng, Yin Ping, Xu Xiaoxue, Lai Maokai, Li Yuan, Peng Ting, (参考訳) 従来の手動運転と単車駆動のインテリジェント運転は、周囲の車両の現在の運転状況と意図のリアルタイムかつ正確な取得に制限があるため、車両は互いに適切な安全な距離を維持するのが一般的である。 しかし、特に合併地域では事故が頻繁に発生し、一方、道路インフラの状況は包括的に把握することは困難である。 これらの制限は、道路容量のさらなる改善を制限するだけでなく、生活と財産の不可分な損失をもたらす。 このボトルネックを克服するために,道路利用者と管理者の双方が道路インフラのリアルタイムな運転意図や運転状況にタイムリーにアクセスできるように,リアルタイム共有機構に基づく道路交通システムの時空グローバルビューを構築した。

Traditional manual driving and single-vehicle-based intelligent driving have limitations in real-time and accurate acquisition of the current driving status and intentions of surrounding vehicles, leading to vehicles typically maintaining appropriate safe distances from each other. Yet, accidents still frequently occur, especially in merging areas; meanwhile, it is difficult to comprehensively obtain the conditions of road infrastructure. These limitations not only restrict the further improvement of road capacity but also result in irreparable losses of life and property. To overcome this bottleneck, this paper constructs a space-time global view of the road traffic system based on a real-time sharing mechanism, enabling both road users and managers to timely access the driving intentions of nearby vehicles and the real-time status of road infrastructure.
翻訳日:2024-07-08 12:11:55 公開日:2024-07-04
# CATT:文字ベースのアラビア・タシュキール変換器

CATT: Character-based Arabic Tashkeel Transformer ( http://arxiv.org/abs/2407.03236v2 )

ライセンス: Link先を確認
Faris Alasmary, Orjuwan Zaafarani, Ahmad Ghannam, (参考訳) タシュケル (Tashkeel) は、曖昧さを排除し、その欠如による誤解釈のリスクを最小限にすることで、アラビア語テキストの理解を大幅に強化する。 アラビア文字処理、特にテキスト音声翻訳や機械翻訳などの応用において重要な役割を担っている。 本稿では,ATDモデルのトレーニングに新たなアプローチを提案する。 まず、予め訓練された文字ベースBERTから初期化したエンコーダオンリーとエンコーダデコーダの2つのトランスを微調整した。 そして、最良のモデルの性能を高めるためにノイズ・スチューデント・アプローチを適用した。 我々は、WikiNewsとCATTデータセットという2つの手動ラベル付きベンチマークデータセットを使用して、11の商用およびオープンソースモデルと共にモデルを評価した。 以上の結果から,本モデルがWikiNews と CATT でそれぞれ 30.83 % と 35.21 % の相対的ダイアクリティカルエラー率 (DERs) で評価された全てのモデルを上回る結果を得た。 さらに,本モデルでは,CATTデータセットのGPT-4-turboを9.36\%の相対DDERで上回る性能を示した。 私たちはCATTモデルとベンチマークデータセットをオープンソースとして公開しています。

Tashkeel, or Arabic Text Diacritization (ATD), greatly enhances the comprehension of Arabic text by removing ambiguity and minimizing the risk of misinterpretations caused by its absence. It plays a crucial role in improving Arabic text processing, particularly in applications such as text-to-speech and machine translation. This paper introduces a new approach to training ATD models. First, we finetuned two transformers, encoder-only and encoder-decoder, that were initialized from a pretrained character-based BERT. Then, we applied the Noisy-Student approach to boost the performance of the best model. We evaluated our models alongside 11 commercial and open-source models using two manually labeled benchmark datasets: WikiNews and our CATT dataset. Our findings show that our top model surpasses all evaluated models by relative Diacritic Error Rates (DERs) of 30.83\% and 35.21\% on WikiNews and CATT, respectively, achieving state-of-the-art in ATD. In addition, we show that our model outperforms GPT-4-turbo on CATT dataset by a relative DER of 9.36\%. We open-source our CATT models and benchmark dataset for the research community\footnote{https://github.com/abjadai/catt}.
翻訳日:2024-07-08 12:11:55 公開日:2024-07-04
# TieBot: 実-実-実-実-実-実-実-のアプローチを通じて,視覚的なデモからTieを結び付けることを学ぶ

TieBot: Learning to Knot a Tie from Visual Demonstration through a Real-to-Sim-to-Real Approach ( http://arxiv.org/abs/2407.03245v2 )

ライセンス: Link先を確認
Weikun Peng, Jun Lv, Yuwei Zeng, Haonan Chen, Siheng Zhao, Jichen Sun, Cewu Lu, Lin Shao, (参考訳) ネクタイ編み作業は、タイの高変形と長水平操作により非常に困難である。 この研究は、ロボットがネクタイを結びつくことを学べるように、視覚的なデモシステムからリアルタイムに学習するTieBotを紹介している。 実演ビデオからネクタイのメッシュ列を推定する階層的特徴マッチング手法を提案する。 これらの推定メッシュをサブゴールとして使用することにより,特権情報を用いて教師の方針を学習する。 そして,教師の方針を模倣して,点雲観測による学生政策を学習する。 最後に、我々のパイプラインは、学習されたポリシーが実世界の実行に適用されたときに残留ポリシーを学習し、Sim2Realのギャップを軽減します。 シミュレーションと実世界におけるTieBotの有効性を実証する。 実世界の実験では、デュアルアームロボットがネクタイを結び、10回の試験で50%の成功率を達成した。 ビデオはhttps://tiebots.github.io/で見ることができる。

The tie-knotting task is highly challenging due to the tie's high deformation and long-horizon manipulation actions. This work presents TieBot, a Real-to-Sim-to-Real learning from visual demonstration system for the robots to learn to knot a tie. We introduce the Hierarchical Feature Matching approach to estimate a sequence of tie's meshes from the demonstration video. With these estimated meshes used as subgoals, we first learn a teacher policy using privileged information. Then, we learn a student policy with point cloud observation by imitating teacher policy. Lastly, our pipeline learns a residual policy when the learned policy is applied to real-world execution, mitigating the Sim2Real gap. We demonstrate the effectiveness of TieBot in simulation and the real world. In the real-world experiment, a dual-arm robot successfully knots a tie, achieving 50% success rate among 10 trials. Videos can be found https://tiebots.github.io/.
翻訳日:2024-07-08 12:11:55 公開日:2024-07-04
# ビッグデータが実際に低ランクである場合、あるいは特定の関数生成行列のエントリワイズ近似

When big data actually are low-rank, or entrywise approximation of certain function-generated matrices ( http://arxiv.org/abs/2407.03250v2 )

ライセンス: Link先を確認
Stanislav Budzinskiy, (参考訳) この記事は、2$m$次元変数の滑らかな関数をサンプリングすることによって生成される行列の低ランク近似に関するものである。 我々は、特定の分析関数のクラスに対して、そのような行列は$m$に依存しないランクの正確なエントリーワイズ近似を許容する、という文献の議論に反論する。 この議論を支持するために提示された数値結果について理論的に説明し、$n \times n$ 関数生成行列が階数 $\varepsilon$ のエントリーワイド誤差で近似できる関数の3つのより狭いクラスを記述し、階数 $\mathcal{O}(\log(n) \varepsilon^{-2} \mathrm{polylog}(\varepsilon^{-1})$ は次元 $m$ とは独立である。 i) 2つの変数の内積の関数 (ii)変数間の2乗ユークリッド距離の関数と (iii)シフト不変正定核。 我々は、この議論を、それらの$m$次元変数の多線型積の関数で生成されるテンソルの低ランクテンソルトレイン近似に拡張する。 本稿では、トランスニューラルネットワークにおける低ランクの注目度近似の文脈における結果について論じる。

The article concerns low-rank approximation of matrices generated by sampling a smooth function of two $m$-dimensional variables. We refute an argument made in the literature that, for a specific class of analytic functions, such matrices admit accurate entrywise approximation of rank that is independent of $m$. We provide a theoretical explanation of the numerical results presented in support of this argument, describing three narrower classes of functions for which $n \times n$ function-generated matrices can be approximated within an entrywise error of order $\varepsilon$ with rank $\mathcal{O}(\log(n) \varepsilon^{-2} \mathrm{polylog}(\varepsilon^{-1}))$ that is independent of the dimension $m$: (i) functions of the inner product of the two variables, (ii) functions of the squared Euclidean distance between the variables, and (iii) shift-invariant positive-definite kernels. We extend our argument to low-rank tensor-train approximation of tensors generated with functions of the multi-linear product of their $m$-dimensional variables. We discuss our results in the context of low-rank approximation of attention in transformer neural networks.
翻訳日:2024-07-08 12:11:55 公開日:2024-07-04